CVPR 2024 | 从1秒到2小时，Meta联合UNC提出超长视频字幕生成模型ReCap|编码器|cvpr|recap|视频生成模型

分享至

现有的视频到文本模型（也称为视频字幕生成模型）大多只能处理几秒钟的短视频，并且生成的文本描述仅仅包含了一些底层的视觉概念，例如视频中的对象、场景和简单的动作等等。这远远无法满足AIGC时代的需求，现实世界中的视频通常持续几分钟或几小时，并且具有跨越不同时间粒度的复杂层次结构。

本文介绍一篇发表在计算机视觉顶级会议CVPR 2024上的论文，本文作者团队来自UNC和MetaAI。本文提出了一种名为Video ReCap的递归视频字幕生成模型，Video ReCap可以处理任意长度的视频输入（时间跨度从1秒到2小时）。作者设计了课程学习（curriculum learning）训练策略来对视频的层次结构进行学习，首先从描述人物原子动作的clip-level字幕开始，然后关注segment-level描述，最后综合生成长视频的描述。此外，本文引入了一个大规模的长视频描述数据集Ego4D-HCap来推动这一领域的进一步发展。

论文题目： Video Recap：Recursive Captioning of Hour-Long Videos 论文链接： https://arxiv.org/abs/2402.13250 项目主页： https://sites.google.com/view/vidrecap 代码仓库： https://github.com/md-mohaiminul/VideoRecap

一、引言

受心理学和社会认知理论启发，本文作者认为，人类行为通常具有固有的层次结构，即由底层的原子动作、中层次的中间步骤和高层次的总体目标/意图构成。因而作者对传统视频字幕生成任务扩展了三个层次结构进行对应，如下图所示，在最细粒度的层面上，视频字幕重点关注低级视觉元素，例如对象、场景和原子动作。在中间层次，模型需要在底层描述的基础上合成中等长度的视频片段描述（例如烹饪食谱中的每个步骤），最后在最高层次，模型需要以递归形式汇总先前层次中的描述来捕获视频中人类的目标、事件和人物之间复杂的关系以及视频背后的总体目的。

这种新型的层次化视频字幕生成任务为我们提出了一些技术挑战：

（1）现有的字幕生成模型专为长达几分钟的固定视频而设计，很难处理具有几个小时的长视频。

（2）长视频通常具有高度冗余性，这要求模型能够自适应的丢弃不重要的视觉线索，关注视频中的重要片段。

（3）准确完整的描述长视频需要模型具有理解长视频中层次结构的能力，同时对不同层次结构进行协同学习。

为了解决这些技术挑战，本文提出的ReCap在进行层次描述时，会将先前层次结构生成的字幕与当前层次的视频特征同时作为输入进行生成，这种递归设计有效地促进了模型对不同层次结构之间的协同学习。此外，为了引入更加丰富的世界知识，作者使用LLMs合成了大量视频层次结构数据来帮助模型训练。

二、本文方法

2.1 递归视频语言模型ReCap

本文的ReCap模型由三个核心模块构成（如下图所示）：视频编码器、视频语言对齐模块和递归文本解码器。其中视频编码器使用预训练的TimeSformer[1]，给定一个长视频序列（），，，ReCap的目标是生成包含不同层次的文本描述，其中。

对于视频语言对齐模块，模型的输入由当前时刻视频特征、先前层次的文本描述作为输入，并输出维数固定的嵌入特征。对齐模块的目标是将视频和文本特征映射到一个联合特征空间，以便后续的文本解码器可以联合处理这两个特征。此外，对齐操作也可以帮助模型大规模的压缩视频和文本特征的维度，从而大幅降低计算成本。

在得到对齐后的嵌入特征之后，作者将其送入到递归文本解码器中进行最终层次的生成，文本解码器使用GPT-2，为了保留LLMs原有的知识和推理能力，作者在解码器的每个转换器层中都插入了可训练的交叉注意块，并冻结其余层，随后对视频和先前层次生成的字幕进行自回归建模：

2.2 层次课程学习（Hierarchical Curriculum Learning）

考虑到ReCap需要同时处理不同长度的视频，例如从几秒到几个小时。这表明，模型在训练阶段面临严重的不平衡问题，因为在训练数据中，短视频字幕的数据规模远远超过了中等长度和较长视频的数据规模。为了克服这一问题，作者从心理学的经典研究中受到启发，将这种层次化的生成与人类掌握技能的过程进行对应。人类通常会先感知原子动作，然后在从多个中级动作延伸到最终目标。

本文提出的课程学习策略如上图所示，训练从最低层次的短视频样本开始，随后使用更高层次的文本描述来训练模型，最后再进行长视频的视频摘要训练。这种渐进的训练策略可以使模型逐渐理解视频中固有的复杂层次结构，并最大限度地发挥所有层次结构之间的协同作用。

2.3 使用大模型作为额外监督信号

长视频的字幕标注相比传统标注任务更加费事费力，因此本文方法面临的又一个核心挑战是层次化字幕数据的缺失，特别是中等长度和长视频的字幕数据。随着大型语言模型（LLM）的快速发展，作者在标注过程中使用LLM来完成一些较短片段的字幕合成任务，并且设置多种提示来引导LLM对这些短片段的字幕进行整合，整体流程如下图所示。

从上图中可以看出，LLM可以有效的整合来自不同层次的文本输入信息，这与本文ReCap模型生成多个层次字幕的目标完全一致。因而作者使用LLM为中等层次和长视频（本文的后两个视频层次）生成了大量的伪字幕标注（伪标签），来进一步扩充训练视频的数据量。

三、实验效果

3.1 Ego4D-HCap数据集和对比baseline

为了更充分的评估本文ReCap模型的性能，作者引入了一个全新的大规模长视频评估基准数据集，称为Ego4D-HCap。Ego4D-HCap的主要视频来源于Ego4D[2]（包含了大量的第一人称视角视频），作者对原视频进行了细节层次划分并进行手动标注。数据集中包括了烹饪、园艺、集会等各种人类行为，同时捕获了不同场景的视频，例如家庭环境、户外环境、工作场所、休闲活动等，总共 127 个不同的场景，其中最常见的50个场景的数据分布如下图所示。

作者选取了多种目前流行的多模态字幕模型作为对比baseline：

（1）BLIP2：在较短视频clip上进行zero-shot字幕生成的SOTA方法。

（2）BLIP2+GPT3.5：可以在短视频剪辑和长视频剪辑上运行的zero-shot基线方法，首先通过BLIP2生成片段级字幕，随后通过GPT3.5对字幕进行整合得到视频摘要描述。

（3）LaViLa[3]+GPT3.5：处理流程与（2）类似，但是将BLIP2模型替换了更新的LaViLa，同样可以实现zero-shot字幕生成。

3.2 分层视频字幕生成评估

下表展示了本文方法与其他baseline方法在分层视频字幕生成方面的性能对比，包含了模型在short-range、medium-length和long-range三种层次上的生成效果。从表中可以看出，绝大多数方法在zero-shot设置下的性能要低于完全微调设置的性能，这表明本文提出的Ego4D-HCap数据集具有一定的领域独特性，仅通过常规预训练的模型无法很好地完成这种多层次的字幕生成。

此外，作者还观察到，现有的其他方法在处理较长视频时（Video Summary）的性能均逊色于ReCap，其中ReCap的轻量级版本（ReCap-U使用了更少的训练参数，113M）在综合性能方面取得了更佳的效果，这表明本文方法的性能增益来自递归和分层设计，而不仅仅来源于模型的参数容量。

3.3 Long-Range视频问答评估

除了常规的视频字幕生成任务，作者还在长视频问答基准上（VideoQA，EgoSchma数据集）对ReCap的上下文推理能力进行了评估，实验结果如下表所示。EgoSchma数据集包含了 250 小时的现实世界视频，超过5K个多项选择题。作者将ReCap进行了简单的两阶段扩展来适应VideoQA任务，首先，给定长 EgoSchema 视频输入来生成分层视频字幕。之后，作者将生成的分层视频字幕作为输入提供给GPT3.5，并提示它以zero-shot的方式回答有关给定视频的问题。

虽然这种两阶段的方式非常简单，但其性能远远超过了之前的其他方法，相比一些仅使用短视频字幕+GPT3.5的方法，ReCap的最佳性能可以达到50.23的回答准确率，这凸显了分层视频提示对于较长视频理解能力的影响。

四、总结

本文针对现有视频字幕生成方法仅能处理较短视频剪辑的痛点，提出了一种面向任意视频长度的递归式视频字幕生成模型，称为Video ReCap。ReCap可以跨越不同时间粒度来生成层次化的描述文本，这些文本涵盖了几秒钟的描述和长达几个小时的摘要描述。受人类心理学启发，ReCap的训练过程从课程学习范式和LLM的语义监督两个层面进行，大大提高了生成效果，同时也降低了训练代价。此外，本文作者还发布了一个精心标注的长视频字幕生成数据集Ego4D-HCap，该数据集可以应用在实时字幕生成、交互式视频理解和基于视频的对话等多个任务中，以推动视频理解领域研究的持续进步。

参考文献

[1] Gedas Bertasius, Heng Wang, and Lorenzo Torresani. Is space-time attention all you need for video understanding? In ICML, page 4, 2021.

[2] Kristen Grauman, Andrew Westbury, Eugene Byrne,Miao Liu, Xingyu Liu, et al. Ego4d:Around the world in 3,000 hours of egocentric video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18995–19012, 2022.

[3] Yue Zhao, Ishan Misra, Philipp Kr¨ahenb¨uhl, and Rohit Girdhar. Learning video representations from large language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6586–6597, 2023.

llustration From IconScout By Twiri

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.