looongLLaVA LongLLaVA 论文详细总结 一、研究背景与核心挑战 1.1 多模态大语言模型(MLLMs)的发展瓶颈 现有MLLMs在单图像任务上已能媲美闭源模型(如GPT-4V、Gemini-1.5),但在多图像场景(长视频理解、高分辨率图像分析、多模态智能体决策)中存在两大核心痛点: 性能退化:随着图像数量增加(如视频帧、高分辨率图像子图),模型对时间关联(如视频帧时序逻辑)、语义关联(如多图推理)任 2025-09-03 论文阅读 #视频理解
Video-XL-2 Video-XL-2:面向超长视频理解的任务感知KV稀疏化模型 一、研究背景与挑战 近年来,多模态大型语言模型(MLLMs)在视频理解领域取得显著进展,但处理长视频输入时仍面临核心挑战:长视频包含大量帧,经视觉编码后生成海量视觉令牌,导致模型内存占用和计算成本极高,现有模型难以在长视频理解中兼顾高性能与高效率。传统令牌缩减方法虽能缓解部分压力,却无法解决输入令牌数量增加带来的计算量二次增长问题,还 2025-09-01 论文阅读 #论文阅读 #视频理解