网易首页 > 网易号 > 正文 申请入驻

南大腾讯联合提出TimeLens,数据+算法全方位升级

0
分享至

来源:市场资讯

(来源:机器之心Pro)


随着多模态大模型(MLLMs)的飞速发展,模型已经能够很好地理解视频中 “发生了什么(What)”,却无法精准地定位到事件在视频中 “何时发生(When)”。这种视频时序定位(Video Temporal Grounding, VTG)能力的严重缺陷,已成为制约 MLLM 迈向更精细化的视频理解的主要瓶颈。

长期以来,大量研究致力于设计复杂的模型结构,却忽视了两个关键问题:在数据层面,我们依赖的评测基准是否可靠?在算法层面,是否存在一套简洁通用的最佳实践?

针对上述痛点,来自南京大学、腾讯 ARC Lab 和上海 AI Lab 的联合研究团队提出了TimeLens(时间透镜),系统性地揭示了现有数据的“评测陷阱”,构建出更可靠的评测基准和高质量训练数据,并探索出一套简洁有效的算法优化。得益于这些贡献,仅8B 参数的 TimeLens 模型成为了开源模型中的新 SOTA,更击败了 GPT-5 和 Gemini-2.5-Flash 等闭源巨头。



核心洞察:拨开数据质量的迷雾

在深度学习中,“Data is fuel”(数据即燃料)是公认的真理。然而,团队发现,在 VTG 领域,燃料的质量却令人担忧。

1. 现有基准的 “隐形陷阱”

研究团队通过一套标注流水线,对 Charades-STA、ActivityNet Captions 和 QVHighlights 等主流基准进行了严格的人工核验,发现这些基准数据集中充斥着大量的标注错误。许多样本中的文本描述模糊不清,或是文本描述的事件在视频中根本未出现。标注方面,也存在大量的时间边界标注错误,或是同一描述对应了视频中的多个片段却只标注了其中之一(漏标)。统计数据显示,这些错误在现有基准中的比例极高。



2. TimeLens-Bench:对评估结果的“拨乱反正”

为了解决现有数据集中存在的严重错误,团队构建了严格的标注准则,对上述三个基准数据集进行了全面的修复和重新标注,推出了TimeLens-Bench。这是一个经过严格交叉验证的高质量评测基准,能够更真实地反映模型的时序定位能力。

将 TimeLens-Bench 和原始 Benchmark 上的评测结果进行对比,揭露了过往评估结果的不可靠—— 旧基准严重高估了开源模型的能力,而掩盖了前沿闭源模型(如 Gemini)的真实水平。TimeLens-Bench 对这一错误进行了拨乱反正,事实上,现有开源模型仍明显落后于闭源模型。


3. 高质量训练数据:TimeLens-100K

针对同样低质量的训练数据,团队设计了一套自动化流水线,对训练数据进行了大规模的清洗和重标,发布了高质量的大型训练数据集 TimeLens-100K。实验证明,数据质量的提升能带来显著的性能增长。


算法设计的“最佳实践”

在夯实数据基础后,TimeLens 进一步对 MLLM 在 VTG 任务上的算法设计进行了全方位的消融实验,从时间戳编码到训练范式,总结出一套简洁有效的 “最佳实践”。

1. 简洁有效的时间戳编码

时间戳编码(timestamp encoding)是 VTG 任务中的关键模型结构设计,决定了模型能否准确地感知到输入的每一视频帧的采样时间。

团队全面地对比了各种时间戳编码方式的优劣。实验结果表明,最优的时间戳编码方式是简单的交错文本编码(Interleaved Textual Encoding) 策略,即在每一帧的视觉 Token 前插入文本形式的时间戳 token。这种方法无需修改 LLM 的底层架构,保证了实现上的简洁,同时还能取得最优的效果。



2. 训练范式:Thinking-free RLVR 的胜利

随着 DeepSeek-R1 等一系列工作的提出,带有可验证奖励机制的强化学习(RLVR)范式在提升模型推理能力方面的作用备受关注。而在 VTG 领域,关于训练范式的几个关键问题尚无定论:

TimeLens 对比了多种训练范式的优劣。结论出人意料且极具启发性:单阶段的 Thinking-free RLVR 训练范式在计算效率和性能上均取得了最优。该范式直接让模型输出定位结果,并根据定位准确率(IoU)给予奖励。这种方式不需要生成冗长的中间思考过程,训练和推理效率高于 Thinking-based RLVR 范式和多阶段训练范式,且性能优于 SFT 范式。

这一结果表明,对于时序定位这种偏向感知(Perception-heavy)的任务,显式的思考过程不是必须的。 模型可以直接学习从任务输入到输出的映射,不需要进行复杂的逻辑推理。


3. 关键训练技巧:Early Stopping 与 Difficulty-based Sampling

针对Thinking-free RLVR范式,团队进行了更加深入的实验探究,发现了两个关键的训练技巧。

首先,与 SFT 中 “训练越久越好” 的共识不同,在 RL 训练中,当奖励指标进入平台期后,就应该采用早停策略(Early Stopping) 立即停止训练,在该阶段之后继续训练反而会使得模型的性能下降。

其次,基于难度的数据采样(Difficulty-based Sampling) 至关重要。即使数据的标注质量有保证,也并非所有的数据都适合用于 RLVR 训练。需要预先使用待训练的模型进行推理,评估每个训练样本的难度,采样足够具有挑战性的样本进行 RLVR 训练,才能最大程度上提升模型的性能。


实验验证:8B 模型逆袭闭源巨头

研究团队将上述数据和算法层面的所有改进聚合在了一起,每一项技术都带来了明显的性能提升,最终得到了 TimeLens 系列模型。


评测结果表明,TimeLens-8B 展现出了惊人的性能,不仅大幅超越了 Qwen3-VL 等开源模型成为新的开源 SOTA,更以 8B 的参数量,在多项核心指标上全面击败了 GPT-5 和 Gemini-2.5-Flash 等前沿的闭源模型。


这一结果有力地证明了:在 VTG 任务中,通过系统性地提升数据质量并采用有效的算法设计,开源小尺寸模型完全具备挑战甚至超越闭源大模型的能力。

总结

TimeLens 的贡献不止于一个 SOTA 开源模型。团队在数据和算法双维度的系统性探索,为后续研究提供了极具参考价值的方法论与设计蓝图。

目前,TimeLens 的代码、模型、训练数据和评测基准都已开源,希望能为未来的视频时序定位研究提供一个更好的起点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个疯狂的时代,结束了

一个疯狂的时代,结束了

大嘴説
2026-01-29 23:15:14
别买这种“加绒裤”!央视曝光,真的有毒,穿得越久,危害越大!

别买这种“加绒裤”!央视曝光,真的有毒,穿得越久,危害越大!

刘哥谈体育
2026-01-29 17:47:28
谈崩了,哈梅内伊很紧张!!!

谈崩了,哈梅内伊很紧张!!!

山河路口
2026-01-29 19:17:53
百年浩劫:奴隶制将成为阿富汗永久国策!

百年浩劫:奴隶制将成为阿富汗永久国策!

大漠行舟
2026-01-29 00:57:23
2架美军机在南海坠毁,最新进展!

2架美军机在南海坠毁,最新进展!

环球时报国际
2026-01-30 00:10:58
众泰汽车:钱已到账! 内部人士已确认:公司已经开始对外招聘了,公司累计到期未偿还债务本金达2.09亿元

众泰汽车:钱已到账! 内部人士已确认:公司已经开始对外招聘了,公司累计到期未偿还债务本金达2.09亿元

每日经济新闻
2026-01-29 18:23:52
逼急了?网约车司机将车子开到几百公里外深山,公司找到车时已被钢筋插土、胶水粘牢!

逼急了?网约车司机将车子开到几百公里外深山,公司找到车时已被钢筋插土、胶水粘牢!

网约车观察室
2026-01-29 10:13:36
顶流金晨要去踩缝纫机了?疑似肇事逃逸找助理顶包,这得踩几年?

顶流金晨要去踩缝纫机了?疑似肇事逃逸找助理顶包,这得踩几年?

社会酱
2026-01-29 17:40:45
传22岁阿尔卡拉斯与34岁韩国DJ相恋 拉杜卡努去年曾是他绯闻女友

传22岁阿尔卡拉斯与34岁韩国DJ相恋 拉杜卡努去年曾是他绯闻女友

劲爆体坛
2026-01-29 07:42:36
网友在福建农村偶遇15层自建房,惊叹“一家人给自己盖了个小区”,住户:近10年前家族合建,四世同堂住了百余人

网友在福建农村偶遇15层自建房,惊叹“一家人给自己盖了个小区”,住户:近10年前家族合建,四世同堂住了百余人

极目新闻
2026-01-29 18:23:50
全是假的!涉及多个品牌,检测结果触目惊心!网友:老人小孩都在吃

全是假的!涉及多个品牌,检测结果触目惊心!网友:老人小孩都在吃

环球网资讯
2026-01-27 15:41:14
今夜,无眠!史诗级崩盘!

今夜,无眠!史诗级崩盘!

中国基金报
2026-01-30 00:15:04
官方终于出手!牢A离被斩杀不远了?

官方终于出手!牢A离被斩杀不远了?

黔有虎
2026-01-29 09:58:02
266席对199席!日本政坛或变天,黑马对华示好,高市早苗遭美冷遇

266席对199席!日本政坛或变天,黑马对华示好,高市早苗遭美冷遇

书纪文谭
2026-01-29 19:22:25
吴君如很早就说过了,陈妍希私下就是这样穿

吴君如很早就说过了,陈妍希私下就是这样穿

八星人
2026-01-21 15:14:26
金晨太抠门!顶包还想理赔,和狗仔没谈拢被曝光,沈腾真说对了

金晨太抠门!顶包还想理赔,和狗仔没谈拢被曝光,沈腾真说对了

萌神木木
2026-01-29 16:31:23
斯塔默:我想看清中国这头大象,而人们往往盲人摸象

斯塔默:我想看清中国这头大象,而人们往往盲人摸象

观察者网
2026-01-29 21:46:06
突然官宣!中澳联手追捕这中国留学生!引发全球暴怒的他,在大陆被找到了!逃不掉了

突然官宣!中澳联手追捕这中国留学生!引发全球暴怒的他,在大陆被找到了!逃不掉了

澳洲红领巾
2026-01-29 11:13:23
奥迪只卖10万了?多地奥迪4S店被曝闭店跑路!

奥迪只卖10万了?多地奥迪4S店被曝闭店跑路!

小南看车
2026-01-28 15:55:33
国际金银价格急转直下 白银、黄金分别重挫8%、6%

国际金银价格急转直下 白银、黄金分别重挫8%、6%

财联社
2026-01-29 23:34:34
2026-01-30 06:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057549文章数 5302关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

金晨被指肇事逃逸让助理顶包 律师:顶包者或被判刑

头条要闻

金晨被指肇事逃逸让助理顶包 律师:顶包者或被判刑

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

曝金晨涉嫌交通肇事逃逸 本人尚未回应

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

教育
游戏
家居
本地
公开课

教育要闻

深圳南山区期末考试的难题引热议,网友:堪比公务员行测

《孤山独影》评测:难以跨越的痛苦"/> 主站 商城 论坛 自运营 登录 注册 《孤山独影》评测:难以跨越的痛苦 伊東 2026-01-29 返回专栏首页...

家居要闻

极简轻奢 家的无限可能

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版