Wydcoder's Tech Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

looongLLaVA

LongLLaVA 论文详细总结 一、研究背景与核心挑战 1.1 多模态大语言模型(MLLMs)的发展瓶颈 现有MLLMs在单图像任务上已能媲美闭源模型(如GPT-4V、Gemini-1.5),但在多图像场景(长视频理解、高分辨率图像分析、多模态智能体决策)中存在两大核心痛点: 性能退化:随着图像数量增加(如视频帧、高分辨率图像子图),模型对时间关联(如视频帧时序逻辑)、语义关联(如多图推理)任
2025-09-03
论文阅读
#视频理解

Video-XL-2

Video-XL-2:面向超长视频理解的任务感知KV稀疏化模型 一、研究背景与挑战 近年来,多模态大型语言模型(MLLMs)在视频理解领域取得显著进展,但处理长视频输入时仍面临核心挑战:长视频包含大量帧,经视觉编码后生成海量视觉令牌,导致模型内存占用和计算成本极高,现有模型难以在长视频理解中兼顾高性能与高效率。传统令牌缩减方法虽能缓解部分压力,却无法解决输入令牌数量增加带来的计算量二次增长问题,还
2025-09-01
论文阅读
#论文阅读 #视频理解
我的第一篇技术博客

我的第一篇技术博客

欢迎来到我的技术博客!这里将分享我的编程经验和技术思考。
2025-08-31
技术分享
#技术 #博客 #Hexo
1…345

搜索

Hexo Fluid