Video Understanding with Large Language Models: A Survey

本文最后更新于：2025年9月9日晚上

《Video Understanding with Large Language Models: A Survey》PDF总结

一、研究背景与意义

视频内容增长需求：在线视频平台快速扩张，监控、娱乐、自动驾驶等领域摄像头普及，视频成为主流媒体形式，每日新增数百万条视频。人工处理此类海量内容耗时费力，亟需高效的视频理解工具自动识别、分析视频内容，降低人力成本。
LLM的赋能潜力：大型语言模型（LLMs）在语言及多模态任务中表现出色，将其应用于视频理解（形成Vid-LLMs），可实现开放式多粒度（抽象、时间、时空）推理与常识结合，为视频理解提供新方向。

二、视频理解方法发展历程

视频理解方法演进分为四个阶段，任务解决能力逐步提升，具体如下：

阶段	时间范围	核心技术	代表方法/模型	关键特点
传统方法	深度学习普及前	手工特征提取、传统机器学习算法	SIFT、SURF、HOG（特征提取）；HMM（时序分析）；SVM、决策树（分类）	依赖人工设计特征，对复杂视频场景适应性差
早期神经视频模型	2014-2019年	深度学习（CNN、LSTM、3D CNN、Transformer）	DeepVideo、双流网络、TSN、C3D、I3D、SlowFast、TimeSformer	引入深度神经网络，开始捕捉运动与时空信息，但需大量任务特定标注数据
自监督视频预训练	2019-2023年	自监督预训练范式	VideoBERT、ActBERT、VideoMAE、MotionMAE、CLIP-ViP	通过“预训练-微调”模式，减少对标注数据依赖，提升跨任务泛化能力
基于LLM的视频理解（Vid-LLMs）	2023年至今	LLM与视频处理模块结合	Video-ChatGPT、Video-LLaMA、GPT4Video、Chat-UniVi	具备上下文学习、指令跟随能力，可处理多模态复杂交互，接近人类理解水平

三、基础概念与任务分类

（一）视频理解核心任务

按理解粒度与语言参与度，任务分为三类：

抽象理解任务：侧重整体语义理解，无需精细时空定位
- 视频分类与动作识别：按类别标签分类视频/动作，数据集如UCF-101、Kinetics-400，指标为Top-K准确率。
- 文本-视频检索：根据文本描述匹配视频片段，数据集如MSRVTT、DiDeMo，指标为Recall@K。
- 视频文本摘要/字幕生成：生成视频 concise 摘要或连贯描述，数据集如VideoInstruct-100K、MSVD，指标为BLEU、METEOR、CIDEr。
- 视频问答（VQA）：基于视频回答文本问题，数据集如TVQA、NExT-QA，指标为Top-1/Top-K准确率。
时间理解任务：关注视频时序维度的事件定位与提取
- 视频摘要/精彩片段检测：浓缩长视频或提取关键片段，数据集如SumMe、TVSum，指标为F1-score。
- 时序动作定位/提案生成：识别动作发生的时间区间或生成候选区间，数据集如THUMOS’14、ActivityNet，指标为tIoU、Recall@K。
- 视频时序接地：根据文本查询定位视频特定时刻，数据集如Charades-STA，指标为R1@0.5/R1@0.7。
时空理解任务：结合空间与时间维度的精细理解
- 目标跟踪/重识别：持续追踪目标或跨帧/视角匹配目标，数据集如OTB、Market-1501，指标为精度、成功率。
- 视频显著性检测/目标分割：识别视觉重点区域或分割目标，数据集如DHF1K、YouTube-VOS，指标为AUC-J、mAP。
- 时空接地：根据查询定位视频中目标的时空位置，数据集如Vid-STG、Ego4D-MQ。

（二）LLM基础背景

核心公式：LLM学习文本序列的联合概率分布，通过自回归范式生成下一个token：
- 联合分布：(p(x_{1: L})=\prod_{i=1}^{L} p(x_{i} | x_{1: i-1}))（(L)为序列长度）
- 自回归生成：(\mathcal{M}(x_{1: i-1})=p(x_{i} | x_{1: i-1}))（(\mathcal{M})为LLM）
解码策略：包括贪心解码（选概率最高token）、采样策略（随机选token以保证多样性）。
关键特性：
- 缩放定律：模型参数、训练数据量、计算资源扩展时，性能呈规律性增长。
- 涌现能力：参数与数据超阈值后，出现上下文学习、链式推理（CoT）、指令跟随等能力。
- 多模态扩展：多模态LLM（MLLMs）通过模态编码器、跨模态对齐器与LLM核心结合，处理视觉-语言交互。

四、Vid-LLMs分类与训练策略

（一）分类体系

基于视频输入处理方式，Vid-LLMs分为三类，每类按LLM功能进一步细分：

Video Analyzer × LLM：视频分析器将视频转为文本（如字幕、目标跟踪结果），输入LLM
- LLM作为总结器（Summarizer）：对分析文本总结，信息单向流动，如LaViLa、VLog。
- LLM作为管理器（Manager）：协调调用多个分析器，支持多轮交互，如ViperGPT、HuggingGPT。
Video Embedder × LLM：视频嵌入器将视频转为向量表示（嵌入），通过适配器映射到LLM语义空间
- LLM作为文本解码器（Text Decoder）：将嵌入解码为文本（如问答、字幕），如Video-LLaMA、Video-ChatGPT。
- LLM作为回归器（Regressor）：预测连续值（如时间戳、边界框坐标），如VTimeLLM、SeViLA。
- LLM作为隐藏层（Hidden Layer）：连接任务特定头完成回归，不直接输出文本，如GPT4Video、VTG-LLM。
(Analyzer + Embedder) × LLM：混合使用分析器（文本）与嵌入器（向量），输入LLM，如Vid2Seq、VideoChat，LLM功能可灵活为上述五种类型。

（二）训练策略

无训练（Training-free）：基于LLM的零样本、上下文学习能力，无需微调参数，多为Video Analyzer × LLM类，如SlowFast-LLaVA。
微调（Fine-tuning）：主要用于Video Embedder × LLM类，按适配器类型分为四种：
- 全量微调：更新LLM所有参数，性能优但计算成本高，如AV-LLM。
- 连接型适配器微调：冻结LLM与嵌入器，仅更新模态对齐适配器（如MLP、Q-former）。
- 插入型适配器微调：在LLM内部插入适配器（如LoRA），改变LLM行为，适用于回归任务。
- 混合适配器微调：结合连接型与插入型，多阶段微调（先对齐模态，再适配任务）。

五、基准测试与评估方法

（一）主要基准数据集

涵盖不同任务与场景，关键信息如下：

基准名称	视频数量	平均时长（秒）	核心任务	问题类型
MSRVTT-QA	2990	15.2	视频问答	闭卷/开卷（what/who等）
TVQA	2179	11.2	视频问答	闭卷（选择题）
NExT-QA	1000	39.5	视频问答	闭卷/开卷（因果、时序）
MVBench	3641	16.0	多任务理解	闭卷（分类、定位等）
ActivityNet Captions	800	111.4	密集视频字幕	开卷（事件描述）
Ego4D-MQ	5063	180.0	时空接地	开卷（第一视角场景）

（二）评估方法

闭卷评估：预定义答案/格式，如选择题（准确率）、结构化输出（CIDEr、ROUGE），适用于基础任务。
开卷评估：无预定义选项，用GPT-3.5/4对比预测与参考答案，适用于复杂推理（如MovieChat-1K、NExT-QA），但存在版本依赖、提示敏感性问题。
其他评估：
- 时空精细评估：密集字幕（BLEU）、时序接地（tIoU）、目标跟踪（精度）。
- 定性评估：错误分析、注意力可视化、模型自解释、人工评估。

（三）性能分析

关键影响因素：大参数LLM（如34B的IG-VLM）、强视觉嵌入器（EVA-CLIP、ViT-G）、多帧采样（100+帧）、复杂适配器（Q-former、跨注意力）提升性能。
代表性结果：
- 密集字幕任务：Streaming GIT在ActivityNet Captions上CIDEr达41.2，超传统模型。
- 开卷VQA：IG-VLM在MSVD-QA、MSRVTT-QA、ActivityNet-QA上准确率分别为76.7%、62.7%、57.3%，居前列。

六、应用场景与未来方向

（一）核心应用领域

媒体娱乐：视频平台搜索推荐、自动字幕生成、视频编辑（如广告剪辑）。
交互与用户系统：虚拟教育（智能 tutors）、手语翻译、游戏动态剧情生成、AR/VR叙事。
医疗与安全：医疗视频诊断辅助、 surveillance 异常行为检测、自动驾驶路况理解。
其他：视频生成模型评估、边缘计算部署、联邦学习隐私保护。

（二）挑战与未来方向

精细粒度理解：缺乏数据集，帧级分析计算成本高，需提升语义深度（如情感、场景动态）。
长视频理解：难以捕捉长时间跨度事件，需优化关键事件检测与注意力机制。
多模态融合：视觉、音频、文本的时空对齐难，缺乏高质量多模态数据集。
幻觉问题：模型生成与视频无关内容，需优化特征提取、模态对齐，引入后训练校正。
工业部署：需通过模型压缩、token合并、模块化设计，平衡效率与性能。
伦理问题：隐私泄露（视频敏感信息）、内容滥用（误导性生成）、数据偏见，需加强数据治理与伦理规范。

七、总结

该综述系统梳理了Vid-LLMs的发展背景、分类体系、训练策略、评估基准与应用方向，指出其通过LLM赋能，实现了从传统视频理解到多粒度、类人推理的突破。当前Vid-LLMs在抽象与时间理解任务中表现突出，但在长视频、多模态融合、幻觉抑制等方面仍需突破，未来需结合高效训练、数据集扩展与伦理规范，推动其在实际场景中的规模化应用。

此外，作者提供了GitHub仓库（https://github.com/yunlong10/Awesome-LLMs-forVideo-Understanding），汇总Vid-LLMs相关资源，便于进一步研究。

论文阅读

#视频理解

Video Understanding with Large Language Models: A Survey

https://hellowydwyd.github.io/2025/09/09/Video-Understanding-with-Large-Language-Models-A-Survey/

作者

YuDong Wang

发布于

2025年9月9日

许可协议

彩色语谱图(Color Spectrogram) 上一篇

ViLAMP 下一篇