中科院自动化所AVoCaDO：实现音画同步视频解说生成|时间轴|背景音乐

分享至

这项由中科院自动化所模式识别国家重点实验室的陈新龙、丁月等研究人员联合快手科技铃兰团队、北京大学和南京大学团队共同完成的突破性研究，发表于2025年10月的arXiv预印本平台（论文编号：arXiv:2510.10395v1）。有兴趣深入了解技术细节的读者可以通过该编号在arXiv平台查询完整论文。

想象你正在观看一部电影，画面中一个人正在说话，同时背景音乐响起。如果有人要为这段视频写解说词，传统的AI系统往往会分别描述画面和声音，然后简单地拼接在一起，结果可能是"画面显示一个人在说话，声音包括对话和背景音乐"。但这样的描述完全失去了时间的魔法——你不知道这个人具体在什么时候说了什么话，也不知道背景音乐是在对话之前、期间还是之后响起的。

中科院自动化所的研究团队敏锐地发现了这个问题。他们意识到，真正好的视频解说不仅要描述看到了什么和听到了什么，更要准确捕捉视听事件发生的精确时间顺序。就像优秀的体育解说员不会说"球员踢球了，观众欢呼了"，而会说"球员一脚射门，球刚入网，现场立刻爆发出震耳欲聋的欢呼声"。

为了验证这种时间同步的重要性，研究团队进行了一个巧妙的对比实验。他们让最先进的AI系统Gemini-2.5-Pro用两种方式处理同一段视频：第一种是分别处理视频和音频然后简单拼接，第二种是同时分析视频和音频并保持时间同步。结果令人震惊——能够保持时间同步的方法在回答复杂问题时的准确率提升了15.8%，在涉及音视频事件对齐的问题上更是提升了27.8%。

这就好比两个人在描述同一场足球比赛，一个人只看了画面录像，另一个人只听了音频解说，然后他们试图把各自的描述拼凑成完整的比赛报告。而第三个人则是现场观看了完整比赛，他的描述自然会更加准确和连贯。数据清晰地证明了时间同步对于视频理解的关键作用。

基于这个洞察，研究团队开发了AVoCaDO系统。这个名字颇有趣味——它代表"AudioVisual video Captioner Driven by temporal Orchestration"，即"由时间编排驱动的视听视频解说生成器"。就像牛油果（Avocado）需要恰到好处的成熟时机一样，好的视频解说也需要精确的时间把握。

AVoCaDO的核心创新在于它能够像一位经验丰富的电影解说员一样，不仅能看懂画面、听懂声音，还能精准把握各种视听事件发生的时间节拍。它基于阿里巴巴的Qwen2.5-Omni模型进行深度优化，这个基础模型本身就具备了同时处理视频和音频的能力，为AVoCaDO的时间同步功能奠定了坚实基础。

一、双阶段训练策略：从学习到精进的成长历程

AVoCaDO的训练过程就像培养一位专业的视频解说员，需要经历两个关键阶段的磨练。

第一阶段被称为"AVoCaDO SFT"，这就像是给解说员上基础课程。研究团队精心收集了107,000个高质量的视频解说样本，这些样本最特别的地方在于每一个都严格保持了视听事件的时间对齐。这些训练数据来源极其丰富，包括TikTok短视频、电影片段、教育视频等各种场景，确保AI系统能够应对现实世界中的各种复杂情况。

创建这些训练数据的过程堪称艺术与科学的结合。研究团队没有简单地让AI直接生成视频解说，因为他们发现直接生成往往会遗漏重要的视觉或听觉信息。相反，他们采用了一种"两阶段合成"的巧妙策略：首先让AI分别为视频画面和音频轨道生成独立的描述，然后再将这两部分按照视频的时间轴精心融合，确保每个视听事件都出现在正确的时间点上。

这个过程就像制作一道复杂的菜肴，厨师需要先分别准备各种食材，然后按照精确的时间顺序下锅，才能确保最终的味道层次分明。为了保证质量，研究团队还设置了严格的质量控制流程，只有那些在完整性评分中达到4分以上（满分5分）的样本才被纳入训练数据集。

第二阶段"AVoCaDO GRPO"则像是让解说员参加实战训练营。系统通过群体相对策略优化算法不断改进自己的解说技巧，这个过程中引入了三套精巧的奖励机制，就像给解说员设置了三个不同的评分标准。

第一套奖励机制被称为"检查清单奖励"。系统会根据一份详细的检查清单来评判生成的解说是否完整全面。这份清单涵盖了五个重要维度：跨模态叙事逻辑、动态动作与互动、听觉元素、时空与电影摄影技巧，以及静态实体描述。每当系统的解说成功涵盖了清单中的要点时，就会获得相应的奖励分数。这就像考试时有一份标准答案，答对一项就得一分。

第二套奖励机制专门针对对话内容的准确性。系统需要不仅能听懂视频中的对话，还要准确识别说话人。这个评分系统会提取解说中的对话内容，与真实对话进行比对，同时检验说话人的身份识别是否正确。评分采用类似搜索引擎的召回率和准确率计算方法，最终给出一个综合的F1分数。

第三套奖励机制则是"长度调节奖励"，它像一位严格的编辑，确保解说既不会过于简短而遗漏重要信息，也不会冗长啰嗦让人厌烦。系统设定了理想的解说长度区间，在这个区间内的解说会获得满分奖励，超出区间的解说则会根据超出程度递减奖励分数。

这三套奖励机制协同工作，就像三位专业评委从不同角度对解说员的表现进行打分，最终推动系统在多个维度上持续改进。经过这样的双阶段训练，AVoCaDO不仅学会了基本的视频解说技能，还掌握了时间同步这一高级技巧。

二、技术架构解析：精密时钟般的工作机制

AVoCaDO的技术架构就像一台精密的瑞士时钟，每个组件都有其独特的功能，而整体协调运作才能实现精准的时间同步。

系统的核心是基于Qwen2.5-Omni-7B模型，这个基础模型本身就像一位有天赋的学生，天生具备同时理解视频和音频的能力。它通过交替排列的标记序列来处理多模态信息，就像阅读一本图文并茂的杂志，能够自然地在文字、图片和音频之间切换理解。

在视频处理方面，系统以每秒2帧的频率采样视频内容，每一帧图像被转换成最多512个数字标记。这个采样率的选择非常巧妙——既能捕捉到视频中的关键动态变化，又不会因为信息过载而影响处理效率。音频方面，系统以每秒25个标记的速度处理音频信息，这个速度刚好能够捕捉到人类语言和音乐的细节变化。

系统的工作过程可以比作一位专业的电影评论员在观影。首先，它会同时"观看"视频画面和"聆听"音频内容，就像评论员在电影院里全神贯注地观影。然后，它会在脑海中构建一个精确的时间轴，将每个视觉事件和听觉事件都标记在正确的时间点上。最后，它会按照时间顺序，用自然流畅的语言将整个观影体验转述出来。

特别值得一提的是系统的"检查清单奖励"机制的工作原理。当系统生成一段解说后，它会像一位严格的质检员一样，对照一份详细的检查清单逐项核对。这份清单会被分解成若干个具体的要点，比如"是否描述了人物的服装"、"是否提及了背景音乐的风格"、"是否准确记录了对话的时间顺序"等等。系统会为每个成功涵盖的要点获得一分，最终得分就是成功涵盖要点数除以总要点数。

对话奖励机制则更加复杂精巧。系统首先会从解说中提取所有对话内容，将每段对话整理成"说话人+对话内容"的格式。然后，它会与标准答案进行比对，这个比对过程就像在做字符串匹配游戏。系统会计算每段提取对话与标准对话之间的编辑距离，只有相似度超过60%的对话才被认为是正确识别的。

在说话人识别方面，系统不仅要听懂对话内容，还要根据视频画面准确判断是谁在说话。这就像在看电视剧时，不仅要听懂台词，还要知道是哪个角色在说话。系统会将自己识别的说话人描述与标准答案进行比对，完全匹配的才算正确。

最终，系统会将内容准确率和说话人准确率结合起来，计算出一个综合的对话质量分数。这个分数采用了信息检索领域常用的F1指标，既考虑了准确率（生成的对话有多少是正确的），也考虑了召回率（正确的对话有多少被成功生成了）。

三、实验验证：全方位的性能测试

为了验证AVoCaDO的实际效果，研究团队设计了一系列全面的实验，就像给一位新司机安排各种路况的驾驶测试。

实验涵盖了四个主要的评测基准，每个基准都像不同类型的考试，测试系统的不同能力。video-SALMONN-2测试集包含483个视频，每个视频时长30到60秒，主要测试系统生成解说的完整性和准确性。评分方式很有趣，系统会统计三类错误：遗漏事件、不正确事件和幻觉事件，就像改作文时统计错别字、语法错误和逻辑错误一样。

UGC-VideoCap基准则专门针对短视频场景，包含1000个来自TikTok的短视频。这些视频都包含有意义的音频内容，正好适合测试AVoCaDO的音视频同步能力。评分采用1到5分的量表，从视觉、音频和细节三个维度对解说质量进行评判。

Daily-Omni和WorldSense这两个基准采用了更加间接但可能更客观的评测方式。它们原本是设计用来测试视频问答能力的，但研究团队巧妙地将其改造成解说质量测试工具。具体做法是：让AVoCaDO为视频生成解说，然后让另一个AI系统仅根据这个文字解说来回答关于视频的问题。如果解说写得好，AI就能答对更多问题；如果解说遗漏了重要信息或时间顺序不对，AI的答题准确率就会下降。

实验结果相当令人印象深刻。在video-SALMONN-2测试集上，AVoCaDO的总错误率降低到了37.3%，相比基线模型有显著改进。在UGC-VideoCap基准上，AVoCaDO的平均得分达到了73.2分，甚至超越了商业化的Gemini-2.5系列模型。这就像一位新手司机在驾照考试中不仅通过了所有科目，还拿到了比老司机更高的分数。

在Daily-Omni基准上，AVoCaDO的表现更加突出，准确率达到50.1%，比最强的开源模型高出20.2%。在WorldSense基准上也取得了25.7%的准确率，比最佳开源模型提升了7.5%。这些数据背后反映的是AVoCaDO在理解复杂音视频关系方面的卓越能力。

为了更深入地理解系统的工作机制，研究团队还进行了详细的消融实验，就像拆解一台机器来理解每个零件的作用。他们发现，仅仅是第一阶段的训练（AVoCaDO SFT）就能显著提升系统性能，将基础模型的错误率从57.1%降低到41.4%，同时大幅提升对话识别准确率并减少重复性错误。

第二阶段训练的三个奖励机制各有妙用。对话奖励机制将对话识别的F1分数提升了2%以上，检查清单奖励显著降低了总体错误率，而长度调节奖励则几乎完全消除了重复性错误问题，将重复率从3.9%降低到仅0.4%。

这些实验还揭示了一个有趣的现象：虽然有些模型在幻觉率（生成错误信息的比率）上表现稍好，但它们往往是以牺牲信息完整性为代价的。这就像两个学生考试，一个学生为了避免答错而只答了很少的题目，另一个学生勇敢地回答了所有题目但偶尔有些小错误。AVoCaDO选择了后一种策略，在保持较低错误率的同时尽可能提供完整全面的信息。

四、实际应用展示：真实场景中的精彩表现

通过具体的应用案例，我们能更直观地理解AVoCaDO的优势所在。研究团队展示了一个典型的例子，这个例子就像一面镜子，清晰地反映出传统方法和AVoCaDO之间的差距。

在这个案例中，视频显示两个人坐在一张桌子前，桌子上放着一盒Cheez-Its零食。首先是一个年轻女孩说话，然后是一个年长女性回应，接着出现了标题画面，随后是背景音乐和更多对话。这个看似简单的场景实际上包含了复杂的时间层次：人物动作、对话交替、画面转换和音乐插入。

传统的video-SALMONN-2模型在处理这个场景时出现了多个问题。它在对话识别上出现了错误，将"I'm Aubrey"错误地识别为其他内容，同时在时间顺序上出现混乱，将男性的声音错误地归属给女性角色。更糟糕的是，它在描述的结尾添加了一些不合适的总结性评论，这些评论在原视频中并不存在。

另一个对比模型UGC-VideoCaptioner则完全忽略了对话内容，只是在解说末尾简单提及"专业和信息性的基调，专注于与房地产相关的主题"，这样的描述对于理解视频的具体内容毫无帮助。

相比之下，AVoCaDO的表现就像一位经验丰富的现场解说员。它准确地捕捉到了每个细节：首先是听到了拍打桌子的声音效果，然后年轻女孩清晰地说"I'm Aubrey"，接着年长女性回应"I'm Amy"，两人一起说"And you're watching Food Mania Review!"随后出现标题卡片，伴随着充满活力的音乐和女声演唱"Food Mania Review"。

更重要的是，AVoCaDO精确地描述了时间顺序：音乐淡出后，女孩开始兴奋地说"Today, we are trying Cheez-Its"，同时拿起产品盒子做手势。年长女性插话说"Two new, well not, well new to us..."每一个动作、每一句话都被准确地定位在时间轴上，就像精密的钟表一样准确。

这种精确的时间同步能力使得AVoCaDO生成的解说不仅信息丰富，更重要的是具有很强的可用性。如果有人仅仅根据这个文字解说来回答关于视频的问题，比如"当女孩拿起Cheez-Its盒子时她说了什么？"，基于AVoCaDO解说的回答会非常准确，而基于其他模型解说的回答则可能完全错误。

另一个展示案例涉及一个美发沙龙的宣传视频。视频开始显示一张名片，随后出现镜子中的场景，一名男性发型师正在为女客户做发型，同时有男性旁白配音。这个场景同样考验系统对视听事件时间对齐的把握能力。

AVoCaDO准确地描述了整个过程：首先是静态的名片展示，伴随着轻柔的电子音乐；然后镜头切换到镜中场景，男发型师在工作；接着男性旁白开始说话，声音深沉专业，说道"A story to begin with ultimate glamour and color"。每个元素的出现时机都被精准定位。

而对比模型在处理这个场景时又出现了典型的时间同步问题。video-SALMONN-2模型错误地将男性旁白归属给女性声音，同时在时间顺序描述上出现混乱。UGC-VideoCaptioner则再次忽略了具体的对话内容，只是泛泛地提到"柔和的背景音乐"。

这些实际案例清晰地展示了AVoCaDO的核心价值：它不仅能够识别视频中的各种元素，更能够精确地把握这些元素之间的时间关系，从而生成真正有用的视频解说。这种能力对于视频理解、视频搜索、视频教育等应用场景都具有重要价值。

五、意义与展望：开启智能视频理解新时代

AVoCaDO的成功不仅仅是一个技术突破，更像是打开了一扇通向未来的大门。它所展现的时间同步视听理解能力，预示着人工智能在视频理解方面即将迎来一个全新的发展阶段。

从技术角度来看，AVoCaDO证明了一个重要观点：真正的智能不仅需要能够感知多种信息，更需要能够理解这些信息之间的时间关系。这就像人类在观看电影时，不仅能看到画面、听到声音，更能理解情节的发展脉络和情感的起伏变化。这种"时间智能"可能是人工智能走向更高层次理解的关键要素。

在实际应用方面，AVoCaDO的影响可能远比我们想象的更加深远。在教育领域，它可以为在线课程自动生成精确的字幕和解说，帮助听力障碍学生更好地理解课程内容。在娱乐行业，它可以为视频平台自动生成高质量的内容描述，提升用户的搜索和推荐体验。在新闻媒体行业，它可以快速为新闻视频生成准确的文字摘要，提高新闻传播的效率。

更有趣的是，AVoCaDO的技术思路可能会启发其他领域的创新。比如在自动驾驶领域，车辆需要同时处理视觉信息（道路状况、交通信号）和听觉信息（车辆鸣笛、紧急车辆警报），而时间同步对于安全驾驶至关重要。在医疗诊断领域，医生在诊断时也需要综合考虑患者的症状描述、检查结果和病史信息，这些信息的时间关系往往是诊断的关键线索。

研究团队特别强调，他们将会开源AVoCaDO系统，这个决定的意义不容小觑。开源意味着全世界的研究者都可以在这个基础上继续创新，加速相关技术的发展。这就像在科学界建立了一个公共实验平台，让更多的智慧能够汇聚在一起，推动整个领域的快速进步。

当然，AVoCaDO目前也还存在一些局限性。比如它主要针对较短的视频内容进行了优化，对于长视频的处理能力还有待提升。同时，它在处理一些特殊类型的视频（如动画片、纪录片等）时的表现还需要进一步验证。这些局限性实际上也为未来的研究指明了方向。

从更宏观的角度来看，AVoCaDO的成功反映了人工智能研究正在从单模态向多模态、从静态理解向动态理解的重要转变。这种转变不仅是技术上的进步，更是对智能本质理解的深化。真正的智能不是孤立地处理各种信息，而是要能够理解这些信息在时间和空间中的复杂关系。

说到底，AVoCaDO所代表的不仅仅是一个更好的视频解说生成工具，而是人工智能向着更加接近人类智能水平迈出的重要一步。它让我们看到了这样的可能性：未来的AI系统不再是机械地处理数据，而是能够像人类一样，以一种更加自然、更加智能的方式理解和描述我们所生活的这个丰富多彩的世界。

对于普通用户来说，AVoCaDO技术的成熟可能意味着更好的视频搜索体验、更准确的自动字幕、更智能的内容推荐系统。对于内容创作者来说，这可能意味着更高效的视频处理工具和更智能的创作辅助。对于研究者来说，这开启了一个全新的研究方向，有望在视频理解、多模态学习、时间序列分析等多个领域产生深远影响。

未来，当我们回顾人工智能发展的历史时，AVoCaDO很可能会被视为一个重要的里程碑——它标志着AI系统开始真正掌握时间的艺术，开始以一种更加人性化的方式理解和描述我们的世界。

Q&A

Q1：AVoCaDO相比传统视频解说生成系统有什么独特优势？

A：AVoCaDO最大的优势是能够精准捕捉视频中视觉和听觉事件的时间同步关系。传统系统往往分别处理画面和声音然后简单拼接，而AVoCaDO能够准确描述"什么时候发生了什么"，比如能精确描述对话与人物动作的对应关系、背景音乐与场景转换的配合等。实验显示这种时间同步能力让解说质量显著提升。

Q2：AVoCaDO的训练数据是如何保证质量的？

A：研究团队采用了独特的"两阶段合成"策略来创建高质量训练数据。首先让AI分别为视频画面和音频生成独立描述，然后按照视频时间轴精心融合这两部分，确保每个事件都出现在正确时间点。所有样本还需通过严格的质量控制，只有完整性评分达到4分以上（满分5分）的样本才被纳入最终的107,000个训练样本中。

Q3：AVoCaDO技术未来可能应用在哪些实际场景中？

A：AVoCaDO的应用前景非常广泛。在教育领域可以为在线课程自动生成精确字幕，帮助听障学生理解内容；在娱乐行业能为视频平台生成高质量内容描述，提升搜索推荐体验；在新闻媒体可以快速生成视频摘要，提高传播效率；在无障碍服务方面能为视障用户提供更准确的视频解说，让他们更好地理解视频内容。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.