网易首页 > 网易号 > 正文 申请入驻

南大腾讯联合提出TimeLens,数据+算法全方位升级

0
分享至



随着多模态大模型(MLLMs)的飞速发展,模型已经能够很好地理解视频中 “发生了什么(What)”,却无法精准地定位到事件在视频中 “何时发生(When)”。这种视频时序定位(Video Temporal Grounding, VTG)能力的严重缺陷,已成为制约 MLLM 迈向更精细化的视频理解的主要瓶颈。

长期以来,大量研究致力于设计复杂的模型结构,却忽视了两个关键问题:在数据层面,我们依赖的评测基准是否可靠?在算法层面,是否存在一套简洁通用的最佳实践?

针对上述痛点,来自南京大学、腾讯 ARC Lab 和上海 AI Lab 的联合研究团队提出了TimeLens(时间透镜),系统性地揭示了现有数据的“评测陷阱”,构建出更可靠的评测基准和高质量训练数据,并探索出一套简洁有效的算法优化。得益于这些贡献,仅8B 参数的 TimeLens 模型成为了开源模型中的新 SOTA,更击败了 GPT-5 和 Gemini-2.5-Flash 等闭源巨头。





  • 论文标题:TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
  • 论文链接: https://arxiv.org/abs/2512.14698
  • 项目主页: https://timelens-arc-lab.github.io/
  • 代码链接: https://github.com/TencentARC/TimeLens

核心洞察:拨开数据质量的迷雾

在深度学习中,“Data is fuel”(数据即燃料)是公认的真理。然而,团队发现,在 VTG 领域,燃料的质量却令人担忧。

1. 现有基准的 “隐形陷阱”

研究团队通过一套标注流水线,对 Charades-STA、ActivityNet Captions 和 QVHighlights 等主流基准进行了严格的人工核验,发现这些基准数据集中充斥着大量的标注错误。许多样本中的文本描述模糊不清,或是文本描述的事件在视频中根本未出现。标注方面,也存在大量的时间边界标注错误,或是同一描述对应了视频中的多个片段却只标注了其中之一(漏标)。统计数据显示,这些错误在现有基准中的比例极高。





2. TimeLens-Bench:对评估结果的“拨乱反正”

为了解决现有数据集中存在的严重错误,团队构建了严格的标注准则,对上述三个基准数据集进行了全面的修复和重新标注,推出了TimeLens-Bench。这是一个经过严格交叉验证的高质量评测基准,能够更真实地反映模型的时序定位能力。

将 TimeLens-Bench 和原始 Benchmark 上的评测结果进行对比,揭露了过往评估结果的不可靠—— 旧基准严重高估了开源模型的能力,而掩盖了前沿闭源模型(如 Gemini)的真实水平。TimeLens-Bench 对这一错误进行了拨乱反正,事实上,现有开源模型仍明显落后于闭源模型。



3. 高质量训练数据:TimeLens-100K

针对同样低质量的训练数据,团队设计了一套自动化流水线,对训练数据进行了大规模的清洗和重标,发布了高质量的大型训练数据集 TimeLens-100K。实验证明,数据质量的提升能带来显著的性能增长。



算法设计的“最佳实践”

在夯实数据基础后,TimeLens 进一步对 MLLM 在 VTG 任务上的算法设计进行了全方位的消融实验,从时间戳编码到训练范式,总结出一套简洁有效的 “最佳实践”。

1. 简洁有效的时间戳编码

时间戳编码(timestamp encoding)是 VTG 任务中的关键模型结构设计,决定了模型能否准确地感知到输入的每一视频帧的采样时间。

团队全面地对比了各种时间戳编码方式的优劣。实验结果表明,最优的时间戳编码方式是简单的交错文本编码(Interleaved Textual Encoding) 策略,即在每一帧的视觉 Token 前插入文本形式的时间戳 token。这种方法无需修改 LLM 的底层架构,保证了实现上的简洁,同时还能取得最优的效果。





2. 训练范式:Thinking-free RLVR 的胜利

随着 DeepSeek-R1 等一系列工作的提出,带有可验证奖励机制的强化学习(RLVR)范式在提升模型推理能力方面的作用备受关注。而在 VTG 领域,关于训练范式的几个关键问题尚无定论:

  • 有监督微调(SFT)仍是 VTG 领域最为主流的训练范式,RLVR 范式在同样的训练开销下,是否明显优于 SFT?
  • 时序定位任务是一个以感知 (Perception) 而非推理 (Reasoning) 为主的任务。针对这样的任务进行 RLVR 训练时,显式的思考过程(thinking)是否是必须的?
  • SFT+RLVR 的多阶段训练,是否比单阶段训练的效果更好?

TimeLens 对比了多种训练范式的优劣。结论出人意料且极具启发性:单阶段的 Thinking-free RLVR 训练范式在计算效率和性能上均取得了最优。该范式直接让模型输出定位结果,并根据定位准确率(IoU)给予奖励。这种方式不需要生成冗长的中间思考过程,训练和推理效率高于 Thinking-based RLVR 范式和多阶段训练范式,且性能优于 SFT 范式。

这一结果表明,对于时序定位这种偏向感知(Perception-heavy)的任务,显式的思考过程不是必须的。 模型可以直接学习从任务输入到输出的映射,不需要进行复杂的逻辑推理。



3. 关键训练技巧:Early Stopping 与 Difficulty-based Sampling

针对Thinking-free RLVR范式,团队进行了更加深入的实验探究,发现了两个关键的训练技巧。

首先,与 SFT 中 “训练越久越好” 的共识不同,在 RL 训练中,当奖励指标进入平台期后,就应该采用早停策略(Early Stopping) 立即停止训练,在该阶段之后继续训练反而会使得模型的性能下降。

其次,基于难度的数据采样(Difficulty-based Sampling) 至关重要。即使数据的标注质量有保证,也并非所有的数据都适合用于 RLVR 训练。需要预先使用待训练的模型进行推理,评估每个训练样本的难度,采样足够具有挑战性的样本进行 RLVR 训练,才能最大程度上提升模型的性能。



实验验证:8B 模型逆袭闭源巨头

研究团队将上述数据和算法层面的所有改进聚合在了一起,每一项技术都带来了明显的性能提升,最终得到了 TimeLens 系列模型。



评测结果表明,TimeLens-8B 展现出了惊人的性能,不仅大幅超越了 Qwen3-VL 等开源模型成为新的开源 SOTA,更以 8B 的参数量,在多项核心指标上全面击败了 GPT-5 和 Gemini-2.5-Flash 等前沿的闭源模型。



这一结果有力地证明了:在 VTG 任务中,通过系统性地提升数据质量并采用有效的算法设计,开源小尺寸模型完全具备挑战甚至超越闭源大模型的能力。

总结

TimeLens 的贡献不止于一个 SOTA 开源模型。团队在数据和算法双维度的系统性探索,为后续研究提供了极具参考价值的方法论与设计蓝图。

目前,TimeLens 的代码、模型、训练数据和评测基准都已开源,希望能为未来的视频时序定位研究提供一个更好的起点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
内鬼把哈梅内伊从地堡中骗出来让美发卡点斩首

内鬼把哈梅内伊从地堡中骗出来让美发卡点斩首

健身狂人
2026-03-02 00:29:41
一年流出视频294部的小宝到底探过多少朵花?

一年流出视频294部的小宝到底探过多少朵花?

挪威森林
2026-01-25 17:18:42
女子离乡返程时儿子没有送别,看监控发现儿子打开电视把头埋沙发下,用声音掩盖自己的哭声

女子离乡返程时儿子没有送别,看监控发现儿子打开电视把头埋沙发下,用声音掩盖自己的哭声

观威海
2026-03-01 13:27:08
美国警方承认谷爱凌曾遭殴打,手臂抓伤严重,未来人身安全存隐患

美国警方承认谷爱凌曾遭殴打,手臂抓伤严重,未来人身安全存隐患

削桐作琴
2026-03-01 14:27:41
清华才子远赴美国,10年后铊中毒离奇惨死,凶手身份出人意料

清华才子远赴美国,10年后铊中毒离奇惨死,凶手身份出人意料

一更历史
2024-03-03 21:15:46
骑士106-102篮网!阿特金森赛后把话挑明,哈登复出带来一大变化

骑士106-102篮网!阿特金森赛后把话挑明,哈登复出带来一大变化

鱼崖大话篮球
2026-03-02 10:21:28
湖人128-104大胜国王 球员评价:2人优秀,6人及格,拉拉维亚低迷

湖人128-104大胜国王 球员评价:2人优秀,6人及格,拉拉维亚低迷

篮球资讯达人
2026-03-02 13:15:13
赵忠祥离世6年后,22年前不惜赌上清白陷害他的饶颖,如今怎样了

赵忠祥离世6年后,22年前不惜赌上清白陷害他的饶颖,如今怎样了

青橘罐头
2026-03-02 10:44:48
哈梅内伊身亡,俄罗斯断一臂

哈梅内伊身亡,俄罗斯断一臂

名人苟或
2026-03-01 14:56:58
2015年,二胎政策推出,翟振武教授:中国每年将新增2000万新生儿

2015年,二胎政策推出,翟振武教授:中国每年将新增2000万新生儿

南权先生
2026-02-24 15:55:07
神宫寺奈绪的哭戏:一滴眼泪,如何将作品抬升到不属于它的高度

神宫寺奈绪的哭戏:一滴眼泪,如何将作品抬升到不属于它的高度

春天不是读书天
2026-03-01 22:22:17
华为公告了26年首虎,出手很重,结果想到了,也没想到!

华为公告了26年首虎,出手很重,结果想到了,也没想到!

达文西看世界
2026-02-17 11:16:01
杨瀚森仅打5分钟!普帅:提升两点可增加时间,拓媒:有点无语

杨瀚森仅打5分钟!普帅:提升两点可增加时间,拓媒:有点无语

你的篮球频道
2026-03-02 11:27:37
蒙古国的人,为啥如此仇视中国人?

蒙古国的人,为啥如此仇视中国人?

贱议你读史
2026-02-27 15:12:56
不是胡金秋!不是赵睿!对方主帅盛赞中国队1小将,是未来核心

不是胡金秋!不是赵睿!对方主帅盛赞中国队1小将,是未来核心

老吴说体育
2026-03-02 01:16:35
刚经历完“团灭”,伊朗硝烟未散,特朗普突然喊话:咱们还能再谈

刚经历完“团灭”,伊朗硝烟未散,特朗普突然喊话:咱们还能再谈

董董历史烩
2026-03-02 11:10:04
她拒唱国歌,否认中国籍,俩儿子也落户国外,如今她过得怎么样了

她拒唱国歌,否认中国籍,俩儿子也落户国外,如今她过得怎么样了

阅微札记
2026-02-25 16:56:12
笑发财,那些年港媒取的标题真的狠毒!网友:鸭脖也是鸭,没毛病

笑发财,那些年港媒取的标题真的狠毒!网友:鸭脖也是鸭,没毛病

夜深爱杂谈
2026-03-01 20:12:43
水利部长傅作义无实际职权,副部长代替签字,周总理:一律无效

水利部长傅作义无实际职权,副部长代替签字,周总理:一律无效

兴趣知识
2026-02-27 22:03:38
2026-03-02 13:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12385文章数 142574关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

卡里克主场5连胜!队史第2人通过最大考验

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

预售11.28万起 狐全新阿尔法S5标配宁德时代

态度原创

家居
游戏
艺术
公开课
军事航空

家居要闻

万物互联 享科技福祉

曝索尼用NS2内测《GT赛车7》或为新掌机测试

艺术要闻

2025北京青年美术作品展 | 油画作品选刊

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军动用新型武器:山寨伊朗的

无障碍浏览 进入关怀版