Video Understanding with Large Language Models: A Survey

本文最后更新于:2025年9月9日 晚上

《Video Understanding with Large Language Models: A Survey》PDF总结

一、研究背景与意义

  1. 视频内容增长需求:在线视频平台快速扩张,监控、娱乐、自动驾驶等领域摄像头普及,视频成为主流媒体形式,每日新增数百万条视频。人工处理此类海量内容耗时费力,亟需高效的视频理解工具自动识别、分析视频内容,降低人力成本。
  2. LLM的赋能潜力:大型语言模型(LLMs)在语言及多模态任务中表现出色,将其应用于视频理解(形成Vid-LLMs),可实现开放式多粒度(抽象、时间、时空)推理与常识结合,为视频理解提供新方向。

二、视频理解方法发展历程

视频理解方法演进分为四个阶段,任务解决能力逐步提升,具体如下:

阶段 时间范围 核心技术 代表方法/模型 关键特点
传统方法 深度学习普及前 手工特征提取、传统机器学习算法 SIFT、SURF、HOG(特征提取);HMM(时序分析);SVM、决策树(分类) 依赖人工设计特征,对复杂视频场景适应性差
早期神经视频模型 2014-2019年 深度学习(CNN、LSTM、3D CNN、Transformer) DeepVideo、双流网络、TSN、C3D、I3D、SlowFast、TimeSformer 引入深度神经网络,开始捕捉运动与时空信息,但需大量任务特定标注数据
自监督视频预训练 2019-2023年 自监督预训练范式 VideoBERT、ActBERT、VideoMAE、MotionMAE、CLIP-ViP 通过“预训练-微调”模式,减少对标注数据依赖,提升跨任务泛化能力
基于LLM的视频理解(Vid-LLMs) 2023年至今 LLM与视频处理模块结合 Video-ChatGPT、Video-LLaMA、GPT4Video、Chat-UniVi 具备上下文学习、指令跟随能力,可处理多模态复杂交互,接近人类理解水平

三、基础概念与任务分类

(一)视频理解核心任务

按理解粒度与语言参与度,任务分为三类:

  1. 抽象理解任务:侧重整体语义理解,无需精细时空定位
    • 视频分类与动作识别:按类别标签分类视频/动作,数据集如UCF-101、Kinetics-400,指标为Top-K准确率。
    • 文本-视频检索:根据文本描述匹配视频片段,数据集如MSRVTT、DiDeMo,指标为Recall@K。
    • 视频文本摘要/字幕生成:生成视频 concise 摘要或连贯描述,数据集如VideoInstruct-100K、MSVD,指标为BLEU、METEOR、CIDEr。
    • 视频问答(VQA):基于视频回答文本问题,数据集如TVQA、NExT-QA,指标为Top-1/Top-K准确率。
  2. 时间理解任务:关注视频时序维度的事件定位与提取
    • 视频摘要/精彩片段检测:浓缩长视频或提取关键片段,数据集如SumMe、TVSum,指标为F1-score。
    • 时序动作定位/提案生成:识别动作发生的时间区间或生成候选区间,数据集如THUMOS’14、ActivityNet,指标为tIoU、Recall@K。
    • 视频时序接地:根据文本查询定位视频特定时刻,数据集如Charades-STA,指标为R1@0.5/R1@0.7。
  3. 时空理解任务:结合空间与时间维度的精细理解
    • 目标跟踪/重识别:持续追踪目标或跨帧/视角匹配目标,数据集如OTB、Market-1501,指标为精度、成功率。
    • 视频显著性检测/目标分割:识别视觉重点区域或分割目标,数据集如DHF1K、YouTube-VOS,指标为AUC-J、mAP。
    • 时空接地:根据查询定位视频中目标的时空位置,数据集如Vid-STG、Ego4D-MQ。

(二)LLM基础背景

  1. 核心公式:LLM学习文本序列的联合概率分布,通过自回归范式生成下一个token:
    • 联合分布:(p(x_{1: L})=\prod_{i=1}^{L} p(x_{i} | x_{1: i-1}))((L)为序列长度)
    • 自回归生成:(\mathcal{M}(x_{1: i-1})=p(x_{i} | x_{1: i-1}))((\mathcal{M})为LLM)
  2. 解码策略:包括贪心解码(选概率最高token)、采样策略(随机选token以保证多样性)。
  3. 关键特性
    • 缩放定律:模型参数、训练数据量、计算资源扩展时,性能呈规律性增长。
    • 涌现能力:参数与数据超阈值后,出现上下文学习、链式推理(CoT)、指令跟随等能力。
    • 多模态扩展:多模态LLM(MLLMs)通过模态编码器、跨模态对齐器与LLM核心结合,处理视觉-语言交互。

四、Vid-LLMs分类与训练策略

(一)分类体系

基于视频输入处理方式,Vid-LLMs分为三类,每类按LLM功能进一步细分:

  1. Video Analyzer × LLM:视频分析器将视频转为文本(如字幕、目标跟踪结果),输入LLM
    • LLM作为总结器(Summarizer):对分析文本总结,信息单向流动,如LaViLa、VLog。
    • LLM作为管理器(Manager):协调调用多个分析器,支持多轮交互,如ViperGPT、HuggingGPT。
  2. Video Embedder × LLM:视频嵌入器将视频转为向量表示(嵌入),通过适配器映射到LLM语义空间
    • LLM作为文本解码器(Text Decoder):将嵌入解码为文本(如问答、字幕),如Video-LLaMA、Video-ChatGPT。
    • LLM作为回归器(Regressor):预测连续值(如时间戳、边界框坐标),如VTimeLLM、SeViLA。
    • LLM作为隐藏层(Hidden Layer):连接任务特定头完成回归,不直接输出文本,如GPT4Video、VTG-LLM。
  3. (Analyzer + Embedder) × LLM:混合使用分析器(文本)与嵌入器(向量),输入LLM,如Vid2Seq、VideoChat,LLM功能可灵活为上述五种类型。

(二)训练策略

  1. 无训练(Training-free):基于LLM的零样本、上下文学习能力,无需微调参数,多为Video Analyzer × LLM类,如SlowFast-LLaVA。
  2. 微调(Fine-tuning):主要用于Video Embedder × LLM类,按适配器类型分为四种:
    • 全量微调:更新LLM所有参数,性能优但计算成本高,如AV-LLM。
    • 连接型适配器微调:冻结LLM与嵌入器,仅更新模态对齐适配器(如MLP、Q-former)。
    • 插入型适配器微调:在LLM内部插入适配器(如LoRA),改变LLM行为,适用于回归任务。
    • 混合适配器微调:结合连接型与插入型,多阶段微调(先对齐模态,再适配任务)。

五、基准测试与评估方法

(一)主要基准数据集

涵盖不同任务与场景,关键信息如下:

基准名称 视频数量 平均时长(秒) 核心任务 问题类型
MSRVTT-QA 2990 15.2 视频问答 闭卷/开卷(what/who等)
TVQA 2179 11.2 视频问答 闭卷(选择题)
NExT-QA 1000 39.5 视频问答 闭卷/开卷(因果、时序)
MVBench 3641 16.0 多任务理解 闭卷(分类、定位等)
ActivityNet Captions 800 111.4 密集视频字幕 开卷(事件描述)
Ego4D-MQ 5063 180.0 时空接地 开卷(第一视角场景)

(二)评估方法

  1. 闭卷评估:预定义答案/格式,如选择题(准确率)、结构化输出(CIDEr、ROUGE),适用于基础任务。
  2. 开卷评估:无预定义选项,用GPT-3.5/4对比预测与参考答案,适用于复杂推理(如MovieChat-1K、NExT-QA),但存在版本依赖、提示敏感性问题。
  3. 其他评估
    • 时空精细评估:密集字幕(BLEU)、时序接地(tIoU)、目标跟踪(精度)。
    • 定性评估:错误分析、注意力可视化、模型自解释、人工评估。

(三)性能分析

  1. 关键影响因素:大参数LLM(如34B的IG-VLM)、强视觉嵌入器(EVA-CLIP、ViT-G)、多帧采样(100+帧)、复杂适配器(Q-former、跨注意力)提升性能。
  2. 代表性结果
    • 密集字幕任务:Streaming GIT在ActivityNet Captions上CIDEr达41.2,超传统模型。
    • 开卷VQA:IG-VLM在MSVD-QA、MSRVTT-QA、ActivityNet-QA上准确率分别为76.7%、62.7%、57.3%,居前列。

六、应用场景与未来方向

(一)核心应用领域

  1. 媒体娱乐:视频平台搜索推荐、自动字幕生成、视频编辑(如广告剪辑)。
  2. 交互与用户系统:虚拟教育(智能 tutors)、手语翻译、游戏动态剧情生成、AR/VR叙事。
  3. 医疗与安全:医疗视频诊断辅助、 surveillance 异常行为检测、自动驾驶路况理解。
  4. 其他:视频生成模型评估、边缘计算部署、联邦学习隐私保护。

(二)挑战与未来方向

  1. 精细粒度理解:缺乏数据集,帧级分析计算成本高,需提升语义深度(如情感、场景动态)。
  2. 长视频理解:难以捕捉长时间跨度事件,需优化关键事件检测与注意力机制。
  3. 多模态融合:视觉、音频、文本的时空对齐难,缺乏高质量多模态数据集。
  4. 幻觉问题:模型生成与视频无关内容,需优化特征提取、模态对齐,引入后训练校正。
  5. 工业部署:需通过模型压缩、token合并、模块化设计,平衡效率与性能。
  6. 伦理问题:隐私泄露(视频敏感信息)、内容滥用(误导性生成)、数据偏见,需加强数据治理与伦理规范。

七、总结

该综述系统梳理了Vid-LLMs的发展背景、分类体系、训练策略、评估基准与应用方向,指出其通过LLM赋能,实现了从传统视频理解到多粒度、类人推理的突破。当前Vid-LLMs在抽象与时间理解任务中表现突出,但在长视频、多模态融合、幻觉抑制等方面仍需突破,未来需结合高效训练、数据集扩展与伦理规范,推动其在实际场景中的规模化应用。

此外,作者提供了GitHub仓库(https://github.com/yunlong10/Awesome-LLMs-forVideo-Understanding),汇总Vid-LLMs相关资源,便于进一步研究。


Video Understanding with Large Language Models: A Survey
https://hellowydwyd.github.io/2025/09/09/Video-Understanding-with-Large-Language-Models-A-Survey/
作者
YuDong Wang
发布于
2025年9月9日
许可协议