网易首页 > 网易号 > 正文 申请入驻

让多模态大模型学会带着时间思考:北大与华为团队开源TaRO框架

0
分享至



本文的第一作者为北京大学王选计算机研究所博士生郑明航,通讯作者为助理教授刘洋。团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表,并和国内外知名高校、科研机构广泛开展合作。

本文主要介绍该团队和华为中央媒体技术院在多模态视频理解与时序定位领域的最新研究成果。

该工作针对现有基于强化学习的视频大模型在推理过程中往往产生肤浅推理,且无法为精确的时序定位提供有效指导的问题,提出了全新的时序感知推理优化(Temporal-Aware Reasoning Optimization,TaRO)训练框架。该方法显式地增强了模型带着时间思考的能力,在多个公开基准上取得了最先进的零样本性能。目前相关代码已开源。



  • 论文标题:Temporal-Aware Reasoning Optimization for Video Temporal Grounding
  • 论文链接:https://arxiv.org/abs/2606.09248v1
  • 开源代码:https://github.com/oceanflowlab/TaRO
  • 项目主页:https://minghangz.github.io/publication/taro
  • 视频介绍:https://www.youtube.com/watch?v=GJaodMUG9Vc

背景与动机

视频时序定位(Video Temporal Grounding, VTG)旨在根据自然语言查询,在未剪辑的视频中精准定位对应事件的起止时间段。近期,多模态大语言模型(MLLMs)结合强化学习(RL)在生成引导时序定位的推理路径方面展现出了巨大潜力。然而,现有的强化学习方法生成的推理往往是肤浅的描述,未能识别出回答所需的特定视频证据。

如图 1(a)所示,本文对现有分别在带推理路径和直接输出答案(无推理)两种设置下进行训练和推理,发现两者的性能几乎没有差异。这一现象证明了尽管现有模型被训练进行推理,但这些生成的肤浅推理对最终的定位预测几乎没有实质性贡献。本文分析了其背后的两大原因:

  • 低效的随机探索机制。现有的强化学习范式在探索庞大的视频推理空间时缺乏有效指导,盲目的随机展开(random rollout)导致模型主要探索低质量的轨迹,进而产生次优且肤浅的推理。
  • 忽视推理质量的奖励设计。当前的奖励函数主要关注最终答案的正确性(如计算 IoU),而完全忽略了推理过程本身的质量。这使得那些并不真正依赖视觉时序证据的推理路径也可能被强化,导致模型依赖虚假相关性。



图 1:背景与动机

技术方案

为了克服上述挑战,本文提出了时序感知推理优化(TaRO)框架,旨在训练多模态大模型显式带着时间进行思考。如图 2 所示,TaRO 框架包含三个组件:

  • 模板化推理探索(Constructive Reasoning Exploration):为了提供高质量的初始指导,打破低效的随机探索,本文利用预先生成的带有明确时间戳的密集视频字幕来构建推理轨迹。通过按时间顺序拼接采样后的字幕,模型可以学习到哪些视觉线索对定位至关重要,哪些是干扰项,从而避免了盲目摸索。
  • 时序敏感度奖励(Temporal-Sensitivity Reward):为了评估推理质量并确保其严格锚定在正确的视觉片段上,本文设计了一种实例级的推理路径奖励机制。核心思想是:高质量的推理应该锚定在特定的事件和时间戳上,如果扰乱了真实事件边界附近的帧,这种推理应当失效,导致推理路径的概率(logit)下降 。TaRO 利用这种概率下降作为奖励信号,强制模型生成与关键时间戳紧密耦合的推理。
  • 渐进式课程学习(Progressive Curriculum):TaRO 框架遵循渐进式的学习策略。在预热阶段,模型利用模板化探索数据进行学习,掌握如何关注视觉线索并建立带着时间思考的范式。随后,模型过渡到自由探索阶段,在时序敏感度奖励的引导下,自主生成并完善其推理策略。



图 2:时序感知推理优化(TaRO)框架

实验结果

零样本视频时序定位性能:如表 1 所示,采用 TaRO 框架训练的视频大模型在 Charades-STA、ActivityNet Captions、QVHighlights 和 TVGBench 四个公开基准测试上,全面超越了现有的最先进方法。例如,使用 Qwen2.5-VL-7B-Instruct 作为基座模型时,TaRO 在 TVGBench 上的 R1@0.5 指标领先基线模型达 8.4%。

此外,TaRO 在较小的 Qwen2.5-VL-3B 模型和更新的 Qwen3-VL-8B 架构上也展现出了一致的性能提升,证明了该方法的通用性。



表 1:零样本视频时序定位性能比较

长视频场景下的扩展能力:为了进一步验证 TaRO 在长视频上的表现,本文在两大长视频数据集上进行了零样本评测,包括 TACOS(平均长度 367 秒)和 Ego4D NLQ(平均长度 499 秒)数据集。如表 2 所示,在使用相同底座模型的情况下,采用 TaRO 框架训练的视频大模型依然保持了优秀的性能,大幅领先现有基线方法。特别是在 Qwen3-VL-8B 架构上,TaRO 带来了更明显的提升,例如在 TACOS 上 R1@0.3 提升了 13.7%,在 Ego4D NLQ 上 R1@0.3 提升了 8.7%。这证明了基于时序感知的强化学习优化在面对长视频时的有效性和鲁棒性。



表 2:长视频时序定位性能比较

消融实验:表 3 验证 TaRO 各核心设计的有效性。首先在纯随机探索的基线模型上,单独加入时序敏感度奖励(TR)使得 R1@0.5 从 61.1% 提升至 63.1%(第 1,2 行),证明了时序敏感奖励的有效性。而如果仅在训练中让模型完全模仿外部构造的推理路径(CRE)而不进行后续的自由探索阶段(PC),模型的定位性能会出现严重下滑(第 3,4 行)。这是因为测试阶段无法依赖外部字幕输入,模型必须内化自己的推理策略。而引入渐进式课程学习(PC)则弥补了这一鸿沟,并实现了最优性能(第 5,6 行)。



表 3:消融实验

可视化结果:图 3 的可视化展示了 TaRO 在应对复杂多模态场景时的表现。 视频开头出现了一个强干扰项(女子用手擦脸),其视觉动态与文本查询(用刷子擦脸)高度相似。TaRO 通过生成细粒度的中间时序推理,精准锚定了 19.0s 至 37.0s 的关键动作,并剔除了后续的无关片段,最终给出了正确的时序预测。



图 3:可视化对比

总结

针对视频时序定位中多模态大模型推理流于表面、缺乏真正时间感知的问题,本文推出了 TaRO 框架。通过引入模板化推理探索机制来高效引导模型带着时间思考,并利用时序敏感度奖励来量化推理质量 ,TaRO 成功提升了多模态大模型的时序推理能力。大量实验证明,该框架不仅显著提升了模型推理的鲁棒性与可解释性 ,更在多个公开基准上取得了最佳的视频时序定位性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
它悄无声息,却榨干8200万人的肾!你可能已经在劫难逃

它悄无声息,却榨干8200万人的肾!你可能已经在劫难逃

一千零一夜加一页
2025-04-14 22:58:23
墨西哥主帅怒斥FIFA临时改赛程:这是背后捅刀子

墨西哥主帅怒斥FIFA临时改赛程:这是背后捅刀子

慢享生活集
2026-07-05 01:35:29
49岁舒淇终于松口!为怀娃折腾9年遍体鳞伤,冯德伦:这辈欠她。

49岁舒淇终于松口!为怀娃折腾9年遍体鳞伤,冯德伦:这辈欠她。

TVB的四小花
2026-07-04 20:54:47
离开黄有龙再嫁富豪,四年连生三娃,43岁患病后近况

离开黄有龙再嫁富豪,四年连生三娃,43岁患病后近况

用冷眼洞悉世界
2026-07-03 22:18:31
内贾德打破沉默,用一封信告诉9000万伊朗人,他从未背叛国家

内贾德打破沉默,用一封信告诉9000万伊朗人,他从未背叛国家

爱好源自好奇心
2026-07-05 03:34:24
“打错人了”35名保安持械围殴17岁少年致死,昆明符国俊惨案始末

“打错人了”35名保安持械围殴17岁少年致死,昆明符国俊惨案始末

易玄
2026-07-04 08:29:41
车企总经理直播被骂到哽咽下播

车企总经理直播被骂到哽咽下播

电动知家
2026-07-03 22:56:55
55岁李菁菁现状曝光:京郊务农每月注射,前夫在她治疗时直播分手

55岁李菁菁现状曝光:京郊务农每月注射,前夫在她治疗时直播分手

做一个合格的吃瓜群众
2026-07-04 18:53:25
中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

细说职场
2026-07-03 18:18:55
金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

赴一场山海啊
2026-07-03 00:59:33
曾叫嚣“饿死也不去内地”的“港独”分子周启生,又来整活了!

曾叫嚣“饿死也不去内地”的“港独”分子周启生,又来整活了!

故事终将光明磊落
2026-07-04 10:36:54
台当局配合美国禁运芯片,大陆先釜底抽薪,断了“台独”后路

台当局配合美国禁运芯片,大陆先釜底抽薪,断了“台独”后路

悬崖那枝花
2026-07-03 23:23:04
梅西告诉绯闻女记者索菲亚:我看你一眼,人们都要问个底朝天

梅西告诉绯闻女记者索菲亚:我看你一眼,人们都要问个底朝天

阿废冷眼观察所
2026-07-04 18:04:39
2026世界杯8强终极预测!8场对决精准拿捏,不服评论区开辩

2026世界杯8强终极预测!8场对决精准拿捏,不服评论区开辩

生活新鲜市
2026-07-04 15:21:42
湖南省委:坚决拥护国家监委决定

湖南省委:坚决拥护国家监委决定

政知新媒体
2026-07-04 11:51:19
严总出事才三天,西安赛格再迎3个坏消息,这下事闹大了

严总出事才三天,西安赛格再迎3个坏消息,这下事闹大了

娱乐洞察点点
2026-07-05 00:27:13
九华山美女道士,靠身体施法“日进斗金”,8个男徒弟曝光内幕

九华山美女道士,靠身体施法“日进斗金”,8个男徒弟曝光内幕

苏大强专栏
2025-05-08 15:16:18
电影口碑扑街,导演凌晨发文甩锅,实在本末倒置

电影口碑扑街,导演凌晨发文甩锅,实在本末倒置

草莓解说体育
2026-07-04 14:57:26
亡人头七会回家,很少有人知道他们不是舍不得人间,是要带走这两物

亡人头七会回家,很少有人知道他们不是舍不得人间,是要带走这两物

烟火人间故事汇
2025-09-16 15:00:07
佛得角世界杯之旅落幕:球队收获1100万美元奖金,40岁老门将沃齐尼亚社媒粉丝数破2000万;旅游爆火,赴当地航班搜索量同比增近30倍

佛得角世界杯之旅落幕:球队收获1100万美元奖金,40岁老门将沃齐尼亚社媒粉丝数破2000万;旅游爆火,赴当地航班搜索量同比增近30倍

鲁中晨报
2026-07-04 16:02:12
2026-07-05 05:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13429文章数 142687关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

亲子
游戏
本地
公开课
军事航空

亲子要闻

短到捏不住的铅笔头,写下的满是懂事和感恩。老师问:“怎么用这么短呀?”男孩安静鞠了一躬

韩版“全境封锁”PC配置降低 内存改为32GB起步

本地新闻

国内足球之旅?这座小城给你高分答案

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版