ViLAMP

本文最后更新于：2025年9月8日晚上

《Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation》内容总结

一、研究背景与问题

长视频处理的核心挑战：视觉语言模型（VLMs）在处理长视频时面临巨大计算成本。例如，1分钟24帧的视频会生成超100万视觉令牌（24×60×729），远超主流大语言模型（LLMs）4K-128K的上下文长度限制；而现实中1小时以上的长视频（如长视频分析、机器人持续学习场景）需求普遍，现有模型难以兼顾效率与语义完整性。
现有方法的局限性
- 令牌剪枝：通过均匀或内容感知采样（如固定间隔选帧、数据库检索式选帧）减少令牌数量，但易丢失关键时间依赖关系。
- 特征合并：基于启发式（下采样、池化）或可学习机制（Q-Former、Perceiver Resampler）合并特征，常导致语义信息稀释，无法平衡计算效率与信息保留。

二、核心发现：长视频的信息冗余规律

通过对LLaVA-OneVision、LLaVA-Video等代表性VLMs在Video-MME基准上的注意力模式分析，发现两级冗余特征：

帧级冗余：约90%的查询注意力集中在仅5%的帧上，且这些高注意力帧间视觉相似度极高（余弦相似度>0.8），远超随机帧对基线（0.54-0.61），存在大量视觉重复。
补丁级冗余：非关键帧中，50%的高注意力补丁贡献80%的总注意力，且这些补丁与关键帧对应位置补丁视觉相似度高，存在跨帧重复视觉模式，导致计算资源浪费。

三、核心方法：差异蒸馏原理与VILAMP模型

（一）差异蒸馏原理（Differential Distillation）

定义“差异信息显著性分数”，量化视频组件（帧/补丁）的价值，公式如下：
[D(v)=R(v,Q)-T(v,\mathcal {C}(v))]

(R(v,Q))：组件与查询的相关性（如余弦相似度）；
(T(v,C(v)))：组件与时间上下文（如相邻帧/关键帧）的冗余度；
分数越高，组件含有的“任务相关且低冗余”信息越多，应分配更多计算资源。

（二）VILAMP模型架构：分层混合精度处理

VILAMP通过“帧级选关键帧+补丁级压缩非关键帧”实现长视频高效处理，类比“混合精度训练”（Micikevicius et al., 2018），核心包含两大模块：

差异关键帧选择（DKS）：帧级保留全信息
- 目标：筛选高查询相关性且时间独特性强的帧作为关键帧，避免冗余。
- 步骤：
  1. 用CLIP编码器将帧与查询编码为d维嵌入，计算帧-查询余弦相似度作为相关性分数(R_f)；
  2. 定义帧与已选关键帧的最大余弦相似度为冗余度(T_f)；
  3. 贪心算法：按(R_f)降序排序帧，选择(T_f<\tau)（实验设(\tau=0.85)）的帧，直至选满K个（实验设K=32），复杂度降至(O(max(NK, NlogN)))。
- 作用：关键帧保留完整729个视觉令牌，作为时间关系学习的“锚点”。
差异特征合并（DFM）：补丁级压缩非关键帧
- 目标：将非关键帧压缩为1个令牌，同时保留查询相关特征。
- 步骤：
  1. 用VLM视觉编码器获取非关键帧补丁与最近关键帧对应补丁的嵌入；
  2. 计算补丁级显著性分数(D_p=R_p-\lambda T_p)（(R_p)为补丁-查询相关性，(T_p)为补丁-关键帧补丁相似度，(\lambda=1)平衡两者）；
  3. 加权池化：基于(softmax(D_p/\alpha))（(\alpha=10^{-2})控制权重锐度）对补丁嵌入加权平均，生成非关键帧的单令牌表示。
- 作用：非关键帧令牌数从729降至1，大幅减少计算量，同时保留核心语义。
多模态融合与训练
- 用双流MLP连接器分别投影关键帧补丁嵌入（(h_k^m=MLP_k(p_k^m))）与非关键帧压缩嵌入（(h_n=MLP_n(t_n))）；
- 按时间顺序拼接视觉嵌入与查询，以语言建模损失（预测答案A的概率）端到端训练：
  [\mathcal{L}=-log P\left(A |\left{h_{k}^{m} | f_{k} \in \mathcal{K}\right} \cup\left{h_{n} | f_{n} \notin \mathcal{K}\right}, Q\right)]

四、实验设计与结果

（一）实验设置

基准数据集：覆盖短、中、长视频场景，共5个基准：

基准名称	视频平均时长	核心任务	数据规模
LVBench	4101s	超长视频决策	6大类21子类，含体育、纪录片等
EgoSchema	180s	第一视角视频推理	5000+问答对，250+小时视频
LongVideoBench	473s	参考推理（对抗单帧偏见）	3763视频，6678问答对
MLVU	651s	多任务长视频理解（如动作计数）	2593样本，9任务类别
Video-MME	1010s（长子集2386s）	跨领域视频理解（知识、体育等）	900视频，2700问答对

基线模型：分三类对比——专有VLMs（GPT-4V、GPT-4o、Gemini-1.5-Pro）、开源多图像VLMs（LLaVA-OneVision、InternVL2）、开源视频VLMs（LLaMA-VID、VideoChat-Flash）。
模型配置：视觉编码器用SigLIP-so400m，语言模型用Qwen2-7B，帧分辨率384×384。

（二）关键实验结果

主基准性能：在7B参数规模下，VILAMP刷新多基准SOTA：
- MLVU：72.6%准确率，超过专有模型GPT-4o（64.6%）；
- Video-MME长子集：无字幕67.5%、有字幕73.5%，较同规模模型（如VideoChat-Flash）提升3.0%-4.8%；
- EgoSchema：70.2%准确率，高于LongVILA（67.7%）、LongVU（67.6%）。
10K帧超长视频处理（VideoNIAH基准）
- 基准设计：构建“干草堆-针”任务，干草堆为2K-10K帧（1FPS，最长2.7小时），针为30-120秒视频片段，需定位并理解针内容回答问题。
- 效率优势：单NVIDIA A100 GPU可处理10K帧，内存消耗较基线低50%，8192帧时FLOPs仅为VideoChat-Flash的18.4%（表5）。
- 性能稳定性：10K帧时准确率58.15%，较VideoChat-Flash（47.25%）高12.82%，且从2K到10K帧的准确率下降幅度仅为后者的1/3（图2）。
消融实验：验证核心模块有效性（表2）
- DKS vs 其他选帧：DKS在MLVU（67.3% vs 查询引导63.7%/均匀采样66.8%）、Video-MME（61.8% vs 55.6%/60.2%）表现更优；
- DFM vs 其他合并：DFM在LongVideoBench（60.5% vs Q-Former53.9%/均值池化56.3%）、MLVU（72.6% vs 62.6%/67.3%）显著领先。
关键帧数量影响：短视频（如Video-MME短子集）16个关键帧性能饱和，长视频（MLVU、Video-MME长子集）需32个关键帧达最优（图6），符合“长视频需更密采样”规律。
跨任务泛化：在视频定位（QVHighlights）和动作识别（ActivityNet、Sth-V2、UCF-101）任务中表现优异：
- QVHighlights：Hit@10=60%、Hit@30=83%，验证DKS选帧有效性；
- 动作识别：ActivityNet mAP=78.6%（超Adaframe 71.5%），Sth-V2准确率86.9%（超MGSampler 60.1%），体现零样本迁移能力。

五、结论与贡献

核心贡献
- 提出差异蒸馏原理：系统性识别“高相关低冗余”信息，为长视频高效建模提供理论框架；
- 设计VILAMP模型：通过分层混合精度处理（DKS+DFM），实现10K帧（2.7小时）单GPU处理；
- 验证性能与效率优势：5个基准SOTA，10K帧时准确率超基线12.82%，内存/FLOPs显著降低。
局限与展望：当前未充分验证在更细粒度时间推理（如毫秒级动作）的表现，未来可探索动态关键帧数量调整与跨模态冗余优化。
代码与模型：开源地址为https://github.com/steven-ccq/ViLAMP，支持复现与扩展。

论文阅读

#视频理解

ViLAMP

https://hellowydwyd.github.io/2025/09/08/ViLAMP/

作者

YuDong Wang

发布于

2025年9月8日

许可协议

Video Understanding with Large Language Models: A Survey 上一篇

MovieChat 下一篇