Wydcoder's Tech Blog

looongLLaVA

LongLLaVA 论文详细总结一、研究背景与核心挑战 1.1 多模态大语言模型（MLLMs）的发展瓶颈现有MLLMs在单图像任务上已能媲美闭源模型（如GPT-4V、Gemini-1.5），但在多图像场景（长视频理解、高分辨率图像分析、多模态智能体决策）中存在两大核心痛点：性能退化：随着图像数量增加（如视频帧、高分辨率图像子图），模型对时间关联（如视频帧时序逻辑）、语义关联（如多图推理）任

2025-09-03

论文阅读

#视频理解

Video-XL-2

Video-XL-2：面向超长视频理解的任务感知KV稀疏化模型一、研究背景与挑战近年来，多模态大型语言模型（MLLMs）在视频理解领域取得显著进展，但处理长视频输入时仍面临核心挑战：长视频包含大量帧，经视觉编码后生成海量视觉令牌，导致模型内存占用和计算成本极高，现有模型难以在长视频理解中兼顾高性能与高效率。传统令牌缩减方法虽能缓解部分压力，却无法解决输入令牌数量增加带来的计算量二次增长问题，还

2025-09-01

论文阅读

#论文阅读 #视频理解

我的第一篇技术博客

我的第一篇技术博客

欢迎来到我的技术博客！这里将分享我的编程经验和技术思考。

2025-08-31

技术分享

#技术 #博客 #Hexo