Video-XL-2

本文最后更新于：2025年9月8日晚上

Video-XL-2：面向超长视频理解的任务感知KV稀疏化模型

一、研究背景与挑战

近年来，多模态大型语言模型（MLLMs）在视频理解领域取得显著进展，但处理长视频输入时仍面临核心挑战：长视频包含大量帧，经视觉编码后生成海量视觉令牌，导致模型内存占用和计算成本极高，现有模型难以在长视频理解中兼顾高性能与高效率。传统令牌缩减方法虽能缓解部分压力，却无法解决输入令牌数量增加带来的计算量二次增长问题，还可能造成关键信息丢失。

二、模型核心设计

（一）整体架构

Video-XL-2由四大核心组件构成，形成端到端的长视频处理 pipeline：

视觉编码器：采用SigLIP模型，将单张图像或视频帧编码为密集视觉特征。
动态令牌合成（DTS）模块：结合时空注意力块与3D卷积层，以4个连续帧为一组处理视觉特征，压缩时空冗余的同时捕捉动态运动模式，该设计继承自Video-XL-Pro并优化。
MLP投影器：两层结构，将DTS输出的压缩特征投影到大型语言模型（LLM）的嵌入空间，实现跨模态对齐。
大型语言模型（LLM）：采用Qwen2.5-7B模型，处理多模态输入并完成理解任务。

此外，模型通过在视觉令牌序列中插入时间戳令牌增强时间感知能力，且将单图像重复4次以对齐视频模态输入格式。

（二）视觉输入处理策略

帧采样策略：先以1 FPS采样原始视频，若采样帧数低于预设上限，则在不超过最大采样率的前提下提高采样率，确保尽可能覆盖关键帧。
时间信息注入：每4个连续帧组前添加显式时间戳令牌（如“Time: 4.0 Second”），同时在DTS模块中为每组帧融入隐式软时间嵌入，提供细粒度时间线索。

（三）增量训练策略

分四阶段逐步构建模型的视觉理解能力，各阶段目标、训练模块与数据如下表所示：

阶段	目标	训练模块	训练数据
Stage 1	初始化DTS模块权重	DTS模块	25万图像-字幕对、75万短视频-字幕对
Stage 2	初始化MLP投影器权重	MLP投影器	200万图像-字幕对、40万短视频-字幕对
Stage 3	构建视觉理解基础	全参数	500万图像-字幕对、270万短视频-字幕对
Stage 4	支持多样化视觉任务	全参数	300万图像指令数据、250万视频指令数据

三、效率优化核心创新

针对LLM推理的预填充和解码两阶段，提出任务感知KV稀疏化策略，大幅降低资源消耗：

（一）基于块的预填充（Chunk-based Pre-filling）

核心思路：将视觉令牌序列划分为等长块，块内计算全注意力，块间通过两种方式建立关联以平衡效率与信息完整性：
- 允许当前块关注前序块的历史时间戳令牌，获取粗粒度历史信息，且内存开销低；
- 采用滑动块窗口（设固定步长），使当前块可关注前序块的重叠部分，获取细粒度视觉信息。
效果：将预填充阶段计算复杂度从令牌长度的二次方降至近似线性，显著减少内存占用与计算时间。

（二）双层KV解码（Bi-level KVs Decoding）

KV层级构建：预填充阶段生成的原始KV为“密集KV”，对每个块的密集KV进行池化操作得到“稀疏KV”，形成“密集-稀疏”双层KV表示，且与视频输入块一一对应，存储于离线内存。
任务感知选择：输入文本查询后，通过多模态嵌入器、注意力评分等方式计算各视频块与查询的相关性得分，高相关块加载密集KV以保留细粒度信息，低相关块加载稀疏KV以提供全局背景，最终拼接为“混合KV集”。
效果：解码阶段KV缓存占用减少38.8%（平均），同时弥补了块预填充可能带来的性能损失。

四、实验结果与性能优势

（一）基准测试表现

在多个长视频理解与时间定位基准测试中，Video-XL-2（8B参数）展现出开源轻量模型中的顶尖性能：

MLVU基准：开发集准确率74.8%，超过GPT-4o（64.6%）及同规模模型（如VideoChat-Flash-8B的74.6%），测试集准确率52.2%，领先开源轻量模型；
VideoMME基准：无字幕设置下准确率66.6%，高于InternVL2.5-8B（64.2%）、Qwen-2.5-VL-8B（65.1%）；
LongVideoBench/LVBench：分别取得第二、第一的排名，在超长视频理解任务中优势显著；
时间定位任务：Charades-STA基准准确率28.6%，V-STaR基准准确率21.3%，体现强时间感知能力。

（二）效率优势

计算量：平均计算量（FLOPs）仅142.0G，为同规模模型中最低（如VideoChat-Flash-8B为142.8G，LLaVA-Video-8B为1.4×10³G）；
内存占用：单张80GB NVIDIA A100 GPU可处理10000帧，24GB GPU可处理数千帧，远超Video-XL的2048帧上限；
推理速度：预填充时间随输入帧数近似线性增长，支持高效处理超长视频。

（三）“大海捞针”测试

在1小时以上长视频（取自VideoMME）的关键信息检索任务中，Video-XL-2可处理10000帧并精准捕捉关键信息，而Video-XL仅能处理2048帧，验证了其超长视频处理能力。

五、结论与未来方向

Video-XL-2通过“动态令牌合成+增量训练”构建强视觉理解能力，以“块预填充+双层KV解码”实现高效推理，在长视频理解任务中兼顾性能与效率，成为实用的超长视频处理方案。未来将进一步扩展模型对更长视频的处理能力，并探索其在更多场景的应用。

论文阅读

#论文阅读 #视频理解

Video-XL-2

https://hellowydwyd.github.io/2025/09/01/Video-XL-2/

作者

YuDong Wang

发布于

2025年9月1日

许可协议

looongLLaVA 上一篇

我的第一篇技术博客下一篇