网易首页 > 网易号 > 正文 申请入驻

南大腾讯联合提出TimeLens,数据+算法全方位升级

0
分享至



随着多模态大模型(MLLMs)的飞速发展,模型已经能够很好地理解视频中 “发生了什么(What)”,却无法精准地定位到事件在视频中 “何时发生(When)”。这种视频时序定位(Video Temporal Grounding, VTG)能力的严重缺陷,已成为制约 MLLM 迈向更精细化的视频理解的主要瓶颈。

长期以来,大量研究致力于设计复杂的模型结构,却忽视了两个关键问题:在数据层面,我们依赖的评测基准是否可靠?在算法层面,是否存在一套简洁通用的最佳实践?

针对上述痛点,来自南京大学、腾讯 ARC Lab 和上海 AI Lab 的联合研究团队提出了TimeLens(时间透镜),系统性地揭示了现有数据的“评测陷阱”,构建出更可靠的评测基准和高质量训练数据,并探索出一套简洁有效的算法优化。得益于这些贡献,仅8B 参数的 TimeLens 模型成为了开源模型中的新 SOTA,更击败了 GPT-5 和 Gemini-2.5-Flash 等闭源巨头。





  • 论文标题:TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
  • 论文链接: https://arxiv.org/abs/2512.14698
  • 项目主页: https://timelens-arc-lab.github.io/
  • 代码链接: https://github.com/TencentARC/TimeLens

核心洞察:拨开数据质量的迷雾

在深度学习中,“Data is fuel”(数据即燃料)是公认的真理。然而,团队发现,在 VTG 领域,燃料的质量却令人担忧。

1. 现有基准的 “隐形陷阱”

研究团队通过一套标注流水线,对 Charades-STA、ActivityNet Captions 和 QVHighlights 等主流基准进行了严格的人工核验,发现这些基准数据集中充斥着大量的标注错误。许多样本中的文本描述模糊不清,或是文本描述的事件在视频中根本未出现。标注方面,也存在大量的时间边界标注错误,或是同一描述对应了视频中的多个片段却只标注了其中之一(漏标)。统计数据显示,这些错误在现有基准中的比例极高。





2. TimeLens-Bench:对评估结果的“拨乱反正”

为了解决现有数据集中存在的严重错误,团队构建了严格的标注准则,对上述三个基准数据集进行了全面的修复和重新标注,推出了TimeLens-Bench。这是一个经过严格交叉验证的高质量评测基准,能够更真实地反映模型的时序定位能力。

将 TimeLens-Bench 和原始 Benchmark 上的评测结果进行对比,揭露了过往评估结果的不可靠—— 旧基准严重高估了开源模型的能力,而掩盖了前沿闭源模型(如 Gemini)的真实水平。TimeLens-Bench 对这一错误进行了拨乱反正,事实上,现有开源模型仍明显落后于闭源模型。



3. 高质量训练数据:TimeLens-100K

针对同样低质量的训练数据,团队设计了一套自动化流水线,对训练数据进行了大规模的清洗和重标,发布了高质量的大型训练数据集 TimeLens-100K。实验证明,数据质量的提升能带来显著的性能增长。



算法设计的“最佳实践”

在夯实数据基础后,TimeLens 进一步对 MLLM 在 VTG 任务上的算法设计进行了全方位的消融实验,从时间戳编码到训练范式,总结出一套简洁有效的 “最佳实践”。

1. 简洁有效的时间戳编码

时间戳编码(timestamp encoding)是 VTG 任务中的关键模型结构设计,决定了模型能否准确地感知到输入的每一视频帧的采样时间。

团队全面地对比了各种时间戳编码方式的优劣。实验结果表明,最优的时间戳编码方式是简单的交错文本编码(Interleaved Textual Encoding) 策略,即在每一帧的视觉 Token 前插入文本形式的时间戳 token。这种方法无需修改 LLM 的底层架构,保证了实现上的简洁,同时还能取得最优的效果。





2. 训练范式:Thinking-free RLVR 的胜利

随着 DeepSeek-R1 等一系列工作的提出,带有可验证奖励机制的强化学习(RLVR)范式在提升模型推理能力方面的作用备受关注。而在 VTG 领域,关于训练范式的几个关键问题尚无定论:

  • 有监督微调(SFT)仍是 VTG 领域最为主流的训练范式,RLVR 范式在同样的训练开销下,是否明显优于 SFT?
  • 时序定位任务是一个以感知 (Perception) 而非推理 (Reasoning) 为主的任务。针对这样的任务进行 RLVR 训练时,显式的思考过程(thinking)是否是必须的?
  • SFT+RLVR 的多阶段训练,是否比单阶段训练的效果更好?

TimeLens 对比了多种训练范式的优劣。结论出人意料且极具启发性:单阶段的 Thinking-free RLVR 训练范式在计算效率和性能上均取得了最优。该范式直接让模型输出定位结果,并根据定位准确率(IoU)给予奖励。这种方式不需要生成冗长的中间思考过程,训练和推理效率高于 Thinking-based RLVR 范式和多阶段训练范式,且性能优于 SFT 范式。

这一结果表明,对于时序定位这种偏向感知(Perception-heavy)的任务,显式的思考过程不是必须的。 模型可以直接学习从任务输入到输出的映射,不需要进行复杂的逻辑推理。



3. 关键训练技巧:Early Stopping 与 Difficulty-based Sampling

针对Thinking-free RLVR范式,团队进行了更加深入的实验探究,发现了两个关键的训练技巧。

首先,与 SFT 中 “训练越久越好” 的共识不同,在 RL 训练中,当奖励指标进入平台期后,就应该采用早停策略(Early Stopping) 立即停止训练,在该阶段之后继续训练反而会使得模型的性能下降。

其次,基于难度的数据采样(Difficulty-based Sampling) 至关重要。即使数据的标注质量有保证,也并非所有的数据都适合用于 RLVR 训练。需要预先使用待训练的模型进行推理,评估每个训练样本的难度,采样足够具有挑战性的样本进行 RLVR 训练,才能最大程度上提升模型的性能。



实验验证:8B 模型逆袭闭源巨头

研究团队将上述数据和算法层面的所有改进聚合在了一起,每一项技术都带来了明显的性能提升,最终得到了 TimeLens 系列模型。



评测结果表明,TimeLens-8B 展现出了惊人的性能,不仅大幅超越了 Qwen3-VL 等开源模型成为新的开源 SOTA,更以 8B 的参数量,在多项核心指标上全面击败了 GPT-5 和 Gemini-2.5-Flash 等前沿的闭源模型。



这一结果有力地证明了:在 VTG 任务中,通过系统性地提升数据质量并采用有效的算法设计,开源小尺寸模型完全具备挑战甚至超越闭源大模型的能力。

总结

TimeLens 的贡献不止于一个 SOTA 开源模型。团队在数据和算法双维度的系统性探索,为后续研究提供了极具参考价值的方法论与设计蓝图。

目前,TimeLens 的代码、模型、训练数据和评测基准都已开源,希望能为未来的视频时序定位研究提供一个更好的起点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么凤姐没有跌入斩杀线?不吸毒、没助学贷、生活在华人社会保护圈里

为什么凤姐没有跌入斩杀线?不吸毒、没助学贷、生活在华人社会保护圈里

西虹市闲话
2026-01-05 15:18:06
石平去台湾示威,外交部最新发声!

石平去台湾示威,外交部最新发声!

达文西看世界
2026-01-07 14:10:04
与马杜罗关押在同一地点,委内瑞拉前情报主管或成美政府“关键证人”

与马杜罗关押在同一地点,委内瑞拉前情报主管或成美政府“关键证人”

环球网资讯
2026-01-07 06:58:33
突然通知:马上搬离!上海多处魔方公寓停止运营 租客报警:电梯停运 押金没着落 还可能遭“停水停电”

突然通知:马上搬离!上海多处魔方公寓停止运营 租客报警:电梯停运 押金没着落 还可能遭“停水停电”

中国能源网
2026-01-05 14:50:11
蒙古国大胆想法:拿400平方公里和中国换通道?想将稀土运往美国

蒙古国大胆想法:拿400平方公里和中国换通道?想将稀土运往美国

科普100克克
2025-12-27 13:33:52
一路走好!2026年不到3天,4位名人接连去世,最年轻的仅25岁

一路走好!2026年不到3天,4位名人接连去世,最年轻的仅25岁

胡一舸南游y
2026-01-06 13:19:29
王亚平的安保:吃饭要检测,出门配警卫,这种“副国级”待遇是不是小题大作?

王亚平的安保:吃饭要检测,出门配警卫,这种“副国级”待遇是不是小题大作?

历史回忆室
2026-01-06 15:54:12
勇士快船裁判报告:三次漏判都是快船吃亏 漏吹追梦进攻犯规+违例

勇士快船裁判报告:三次漏判都是快船吃亏 漏吹追梦进攻犯规+违例

罗说NBA
2026-01-07 06:09:57
曼联巨头解释阿莫林下课理由,心态崩了必须换!临时主帅两人竞争

曼联巨头解释阿莫林下课理由,心态崩了必须换!临时主帅两人竞争

罗米的曼联博客
2026-01-07 11:47:07
大爆冷!轰27分率队12战7胜超同期雷霆 难怪特雷杨换你要搭选秀权

大爆冷!轰27分率队12战7胜超同期雷霆 难怪特雷杨换你要搭选秀权

锅子篮球
2026-01-07 12:49:16
在农村见过最离谱的事情是什么?男女关系的开放程度让人目瞪口呆

在农村见过最离谱的事情是什么?男女关系的开放程度让人目瞪口呆

夜深爱杂谈
2026-01-06 20:51:44
记者:鹈鹕对墨菲要价至少两无保护首轮;后者刚砍生涯新高42分

记者:鹈鹕对墨菲要价至少两无保护首轮;后者刚砍生涯新高42分

懂球帝
2026-01-07 14:40:16
委内瑞拉赢麻了

委内瑞拉赢麻了

沉思的野兽
2026-01-06 13:33:37
Siegel:库明加已经打完勇士的最后一场比赛 交易已成定局

Siegel:库明加已经打完勇士的最后一场比赛 交易已成定局

北青网-北京青年报
2026-01-07 09:10:03
北京的商场,让人回到了经济上行的时代

北京的商场,让人回到了经济上行的时代

朗玥
2026-01-06 19:10:14
“乱港分子”周庭,弃保潜逃加拿大,扬言永不回国,如今怎么样了

“乱港分子”周庭,弃保潜逃加拿大,扬言永不回国,如今怎么样了

甜柠聊史
2025-12-27 10:54:15
闫学晶儿子正式发声回应争议:网上所有回应都不实!

闫学晶儿子正式发声回应争议:网上所有回应都不实!

情感大头说说
2026-01-07 10:13:37
美防长放话:采取前所未有的措施

美防长放话:采取前所未有的措施

环球时报国际
2026-01-07 00:08:45
又一国产车企官宣:正式全面停产、停售燃油车!

又一国产车企官宣:正式全面停产、停售燃油车!

电动知家
2026-01-07 11:27:41
中超头号巨星!450万欧“巴西登贝莱”加盟:巴甲准过人王!

中超头号巨星!450万欧“巴西登贝莱”加盟:巴甲准过人王!

篮球看比赛
2026-01-07 12:49:14
2026-01-07 14:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12069文章数 142530关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

古巴公布32名阵亡军人姓名和照片 年龄介于26岁至67岁

头条要闻

古巴公布32名阵亡军人姓名和照片 年龄介于26岁至67岁

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

蔚来2025百万台收官 一场迟到的自我修复

态度原创

旅游
教育
手机
本地
公开课

旅游要闻

属马、姓马、名字带马的朋友朋友有福了 多地景区花式免门票

教育要闻

初二这一年,差不多就能看出孩子将来上什么大学了

手机要闻

消息称三星2月25日发布Galaxy S26系列手机

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版