Video-XL-2

本文最后更新于:2025年9月8日 晚上

Video-XL-2:面向超长视频理解的任务感知KV稀疏化模型

一、研究背景与挑战

近年来,多模态大型语言模型(MLLMs)在视频理解领域取得显著进展,但处理长视频输入时仍面临核心挑战:长视频包含大量帧,经视觉编码后生成海量视觉令牌,导致模型内存占用和计算成本极高,现有模型难以在长视频理解中兼顾高性能与高效率。传统令牌缩减方法虽能缓解部分压力,却无法解决输入令牌数量增加带来的计算量二次增长问题,还可能造成关键信息丢失。

二、模型核心设计

(一)整体架构

Video-XL-2由四大核心组件构成,形成端到端的长视频处理 pipeline:

  1. 视觉编码器:采用SigLIP模型,将单张图像或视频帧编码为密集视觉特征。
  2. 动态令牌合成(DTS)模块:结合时空注意力块与3D卷积层,以4个连续帧为一组处理视觉特征,压缩时空冗余的同时捕捉动态运动模式,该设计继承自Video-XL-Pro并优化。
  3. MLP投影器:两层结构,将DTS输出的压缩特征投影到大型语言模型(LLM)的嵌入空间,实现跨模态对齐。
  4. 大型语言模型(LLM):采用Qwen2.5-7B模型,处理多模态输入并完成理解任务。

此外,模型通过在视觉令牌序列中插入时间戳令牌增强时间感知能力,且将单图像重复4次以对齐视频模态输入格式。

(二)视觉输入处理策略

  1. 帧采样策略:先以1 FPS采样原始视频,若采样帧数低于预设上限,则在不超过最大采样率的前提下提高采样率,确保尽可能覆盖关键帧。
  2. 时间信息注入:每4个连续帧组前添加显式时间戳令牌(如“Time: 4.0 Second”),同时在DTS模块中为每组帧融入隐式软时间嵌入,提供细粒度时间线索。

(三)增量训练策略

分四阶段逐步构建模型的视觉理解能力,各阶段目标、训练模块与数据如下表所示:

阶段 目标 训练模块 训练数据
Stage 1 初始化DTS模块权重 DTS模块 25万图像-字幕对、75万短视频-字幕对
Stage 2 初始化MLP投影器权重 MLP投影器 200万图像-字幕对、40万短视频-字幕对
Stage 3 构建视觉理解基础 全参数 500万图像-字幕对、270万短视频-字幕对
Stage 4 支持多样化视觉任务 全参数 300万图像指令数据、250万视频指令数据

三、效率优化核心创新

针对LLM推理的预填充和解码两阶段,提出任务感知KV稀疏化策略,大幅降低资源消耗:

(一)基于块的预填充(Chunk-based Pre-filling)

  1. 核心思路:将视觉令牌序列划分为等长块,块内计算全注意力,块间通过两种方式建立关联以平衡效率与信息完整性:
    • 允许当前块关注前序块的历史时间戳令牌,获取粗粒度历史信息,且内存开销低;
    • 采用滑动块窗口(设固定步长),使当前块可关注前序块的重叠部分,获取细粒度视觉信息。
  2. 效果:将预填充阶段计算复杂度从令牌长度的二次方降至近似线性,显著减少内存占用与计算时间。

(二)双层KV解码(Bi-level KVs Decoding)

  1. KV层级构建:预填充阶段生成的原始KV为“密集KV”,对每个块的密集KV进行池化操作得到“稀疏KV”,形成“密集-稀疏”双层KV表示,且与视频输入块一一对应,存储于离线内存。
  2. 任务感知选择:输入文本查询后,通过多模态嵌入器、注意力评分等方式计算各视频块与查询的相关性得分,高相关块加载密集KV以保留细粒度信息,低相关块加载稀疏KV以提供全局背景,最终拼接为“混合KV集”。
  3. 效果:解码阶段KV缓存占用减少38.8%(平均),同时弥补了块预填充可能带来的性能损失。

四、实验结果与性能优势

(一)基准测试表现

在多个长视频理解与时间定位基准测试中,Video-XL-2(8B参数)展现出开源轻量模型中的顶尖性能:

  • MLVU基准:开发集准确率74.8%,超过GPT-4o(64.6%)及同规模模型(如VideoChat-Flash-8B的74.6%),测试集准确率52.2%,领先开源轻量模型;
  • VideoMME基准:无字幕设置下准确率66.6%,高于InternVL2.5-8B(64.2%)、Qwen-2.5-VL-8B(65.1%);
  • LongVideoBench/LVBench:分别取得第二、第一的排名,在超长视频理解任务中优势显著;
  • 时间定位任务:Charades-STA基准准确率28.6%,V-STaR基准准确率21.3%,体现强时间感知能力。

(二)效率优势

  1. 计算量:平均计算量(FLOPs)仅142.0G,为同规模模型中最低(如VideoChat-Flash-8B为142.8G,LLaVA-Video-8B为1.4×10³G);
  2. 内存占用:单张80GB NVIDIA A100 GPU可处理10000帧,24GB GPU可处理数千帧,远超Video-XL的2048帧上限;
  3. 推理速度:预填充时间随输入帧数近似线性增长,支持高效处理超长视频。

(三)“大海捞针”测试

在1小时以上长视频(取自VideoMME)的关键信息检索任务中,Video-XL-2可处理10000帧并精准捕捉关键信息,而Video-XL仅能处理2048帧,验证了其超长视频处理能力。

五、结论与未来方向

Video-XL-2通过“动态令牌合成+增量训练”构建强视觉理解能力,以“块预填充+双层KV解码”实现高效推理,在长视频理解任务中兼顾性能与效率,成为实用的超长视频处理方案。未来将进一步扩展模型对更长视频的处理能力,并探索其在更多场景的应用。


Video-XL-2
https://hellowydwyd.github.io/2025/09/01/Video-XL-2/
作者
YuDong Wang
发布于
2025年9月1日
许可协议