让多模态大模型学会带着时间思考：北大与华为团队开源TaRO框架|时序|推理|知名企业

让多模态大模型学会带着时间思考：北大与华为团队开源TaRO框架

2026-07-03 11:32:30　来源: 机器之心Pro

天津举报

分享至

本文的第一作者为北京大学王选计算机研究所博士生郑明航，通讯作者为助理教授刘洋。团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表，并和国内外知名高校、科研机构广泛开展合作。

本文主要介绍该团队和华为中央媒体技术院在多模态视频理解与时序定位领域的最新研究成果。

该工作针对现有基于强化学习的视频大模型在推理过程中往往产生肤浅推理，且无法为精确的时序定位提供有效指导的问题，提出了全新的时序感知推理优化（Temporal-Aware Reasoning Optimization，TaRO）训练框架。该方法显式地增强了模型带着时间思考的能力，在多个公开基准上取得了最先进的零样本性能。目前相关代码已开源。

论文标题：Temporal-Aware Reasoning Optimization for Video Temporal Grounding
论文链接：https://arxiv.org/abs/2606.09248v1
开源代码：https://github.com/oceanflowlab/TaRO
项目主页：https://minghangz.github.io/publication/taro
视频介绍：https://www.youtube.com/watch?v=GJaodMUG9Vc

背景与动机

视频时序定位（Video Temporal Grounding, VTG）旨在根据自然语言查询，在未剪辑的视频中精准定位对应事件的起止时间段。近期，多模态大语言模型（MLLMs）结合强化学习（RL）在生成引导时序定位的推理路径方面展现出了巨大潜力。然而，现有的强化学习方法生成的推理往往是肤浅的描述，未能识别出回答所需的特定视频证据。

如图 1（a）所示，本文对现有分别在带推理路径和直接输出答案（无推理）两种设置下进行训练和推理，发现两者的性能几乎没有差异。这一现象证明了尽管现有模型被训练进行推理，但这些生成的肤浅推理对最终的定位预测几乎没有实质性贡献。本文分析了其背后的两大原因：

低效的随机探索机制。现有的强化学习范式在探索庞大的视频推理空间时缺乏有效指导，盲目的随机展开（random rollout）导致模型主要探索低质量的轨迹，进而产生次优且肤浅的推理。
忽视推理质量的奖励设计。当前的奖励函数主要关注最终答案的正确性（如计算 IoU），而完全忽略了推理过程本身的质量。这使得那些并不真正依赖视觉时序证据的推理路径也可能被强化，导致模型依赖虚假相关性。

图 1：背景与动机

技术方案

为了克服上述挑战，本文提出了时序感知推理优化（TaRO）框架，旨在训练多模态大模型显式带着时间进行思考。如图 2 所示，TaRO 框架包含三个组件：

模板化推理探索（Constructive Reasoning Exploration）：为了提供高质量的初始指导，打破低效的随机探索，本文利用预先生成的带有明确时间戳的密集视频字幕来构建推理轨迹。通过按时间顺序拼接采样后的字幕，模型可以学习到哪些视觉线索对定位至关重要，哪些是干扰项，从而避免了盲目摸索。
时序敏感度奖励（Temporal-Sensitivity Reward）：为了评估推理质量并确保其严格锚定在正确的视觉片段上，本文设计了一种实例级的推理路径奖励机制。核心思想是：高质量的推理应该锚定在特定的事件和时间戳上，如果扰乱了真实事件边界附近的帧，这种推理应当失效，导致推理路径的概率（logit）下降。TaRO 利用这种概率下降作为奖励信号，强制模型生成与关键时间戳紧密耦合的推理。
渐进式课程学习（Progressive Curriculum）：TaRO 框架遵循渐进式的学习策略。在预热阶段，模型利用模板化探索数据进行学习，掌握如何关注视觉线索并建立带着时间思考的范式。随后，模型过渡到自由探索阶段，在时序敏感度奖励的引导下，自主生成并完善其推理策略。

图 2：时序感知推理优化（TaRO）框架

实验结果

零样本视频时序定位性能：如表 1 所示，采用 TaRO 框架训练的视频大模型在 Charades-STA、ActivityNet Captions、QVHighlights 和 TVGBench 四个公开基准测试上，全面超越了现有的最先进方法。例如，使用 Qwen2.5-VL-7B-Instruct 作为基座模型时，TaRO 在 TVGBench 上的 R1@0.5 指标领先基线模型达 8.4%。

此外，TaRO 在较小的 Qwen2.5-VL-3B 模型和更新的 Qwen3-VL-8B 架构上也展现出了一致的性能提升，证明了该方法的通用性。

表 1：零样本视频时序定位性能比较

长视频场景下的扩展能力：为了进一步验证 TaRO 在长视频上的表现，本文在两大长视频数据集上进行了零样本评测，包括 TACOS（平均长度 367 秒）和 Ego4D NLQ（平均长度 499 秒）数据集。如表 2 所示，在使用相同底座模型的情况下，采用 TaRO 框架训练的视频大模型依然保持了优秀的性能，大幅领先现有基线方法。特别是在 Qwen3-VL-8B 架构上，TaRO 带来了更明显的提升，例如在 TACOS 上 R1@0.3 提升了 13.7%，在 Ego4D NLQ 上 R1@0.3 提升了 8.7%。这证明了基于时序感知的强化学习优化在面对长视频时的有效性和鲁棒性。

表 2：长视频时序定位性能比较

消融实验：表 3 验证 TaRO 各核心设计的有效性。首先在纯随机探索的基线模型上，单独加入时序敏感度奖励（TR）使得 R1@0.5 从 61.1% 提升至 63.1%（第 1，2 行），证明了时序敏感奖励的有效性。而如果仅在训练中让模型完全模仿外部构造的推理路径（CRE）而不进行后续的自由探索阶段（PC），模型的定位性能会出现严重下滑（第 3，4 行）。这是因为测试阶段无法依赖外部字幕输入，模型必须内化自己的推理策略。而引入渐进式课程学习（PC）则弥补了这一鸿沟，并实现了最优性能（第 5，6 行）。

表 3：消融实验

可视化结果：图 3 的可视化展示了 TaRO 在应对复杂多模态场景时的表现。视频开头出现了一个强干扰项（女子用手擦脸），其视觉动态与文本查询（用刷子擦脸）高度相似。TaRO 通过生成细粒度的中间时序推理，精准锚定了 19.0s 至 37.0s 的关键动作，并剔除了后续的无关片段，最终给出了正确的时序预测。

图 3：可视化对比

总结

针对视频时序定位中多模态大模型推理流于表面、缺乏真正时间感知的问题，本文推出了 TaRO 框架。通过引入模板化推理探索机制来高效引导模型带着时间思考，并利用时序敏感度奖励来量化推理质量，TaRO 成功提升了多模态大模型的时序推理能力。大量实验证明，该框架不仅显著提升了模型推理的鲁棒性与可解释性，更在多个公开基准上取得了最佳的视频时序定位性能。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.