网易首页 > 网易号 > 正文 申请入驻

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

0
分享至

新智元报道

编辑:LRST 好困

【新智元导读】港中文和清华团队推出Video-R1模型,首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集,Video-R1在视频空间推理测试中超越了GPT-4o,展现了强大的推理能力,并且全部代码和数据集均已开源。

语言模型的推理刚火完,视频AI也开始「卷」起来了。

这次出手的是港中文+清华组合,直接把强化学习里的R1玩法搬到了视频领域,整出了全球首个视频版R1模型:Video-R1

别看它只有7B参数,但它在李飞飞提出的VSI-Bench基准中,竟然超越了GPT-4o!

这波不是简单微调。它背后换上了全新的时间感知算法T-GRPO,再配上图像+视频混合训练、两套高质量数据集,硬是把AI的视频推理能力拉满,让模型不止能「看」,更开始「思考」。

而且,全套模型、代码、数据集——已经开源了!

视频大模型的「推理时刻」,已经开始。

论文链接:https://arxiv.org/abs/2503.21776

项目地址:https://github.com/tulerfeng/Video-R1

知名博主AK也连发2条推特,推荐这篇论文:

为什么视频大模型总是「不聪明」?

视频模型看起来「懂点东西」,其实大多都只是表面功夫。真正让它们「动脑子」的地方,反而是它们最弱的短板。

研究团队指出,如果还按照传统GRPO的套路来训练AI看视频,会踩两个坑:

一个是没时间概念,模型完全不知道视频事件的前后逻辑,常常「看图说话」——看到一帧画面就急着给出答案。这种套路最多就是蒙对几次,没法形成真正的因果推理,泛化性差。例如下图所示。

另一个问题更棘手:训练数据太浅。很多现有视频数据集压根就不适合教模型「思考」,清一色的识别题,几乎没多少需要推理才能解的任务。模型怎么练都只是在死记硬背,根本没机会练大脑。

所以,视频大模型「不聪明」,真不是没潜力,而是没人教对方法。

一套奖励机制,把视频推理训会了

研究团队整了个狠招:奖励机制绑定时间理解

研究人员把旧版GRPO算法升级成了更懂时序的T-GRPO,直接把「考虑时序」这事写进了模型的奖励逻辑里。

方法简单粗暴又高效——模型每次会收到两组输入:一组视频帧随机乱序,一组顺序。只有当它在「顺序」输入上答对题的比例更高,才会获得奖励。

这个机制在「教」模型:别光看图,推理得讲前因后果。哪怕只看了一帧猜对了题,也拿不到分。

在这种严格打分机制下,模型终于明白——视频不是PPT翻页,而是一个个逻辑线索串起来的故事。

靠混合数据打通任督二脉

视频推理数据太稀缺,模型「练不成」?

研究人员干脆把图像推理数据请进视频训练流程,做了两个关键数据集:一个是图像为主的Video-R1-COT-165k,专门用来冷启动模型思维;另一个是以高质量视频为核心的Video-R1-260k,用来精调强化训练。

别以为图片只是打辅助,恰恰相反——它帮AI打好了「逻辑底盘」,学会怎么通用推理;而那些优选过的视频数据,则进一步逼它理解时间逻辑和动态变化。

这套图像+视频混合训练方式,不光解决了数据稀缺,还真让模型形成了从「看图说话」到「视频深思」的进阶跳跃,真正打通了多模态理解的任督二脉。

视频推理的「aha moment」

Video-R1在推理过程中,竟然出现了类似人类的「顿悟时刻」——那种突然把所有线索串起来、恍然大悟的瞬间,也被称为「aha moment」。

比如有一道题是:哪个动作会导致系统能量损耗?另一个是:看完一段室内漫游视频,推理出从书柜走到浴缸的路径。

换做以前的模型,十有八九就是「看一眼」就开答,但Video-R1却能一步步分析时序,进行推理,最终给出逻辑闭环的准确回答。

这不是死记硬背,而是推理真正生效的信号。AI第一次表现出:它不只是识图,而是在「思考」视频里发生了什么。

实验结果

在多个视频推理测试基准上,这个Video-R1-7B模型几乎场场领先,尤其在李飞飞提出的VSI-Bench这一权威评测中,拿下了35.8%的准确率,超越了闭源顶尖大模型GPT-4o。

不仅如此,RL和传统SFT之间的差距也被拉开了。比如同样是7B体量的Qwen2.5-VL-SFT,在测试中表现不佳。反观Video-R1,则在几乎所有场景中都稳定输出,泛化能力一骑绝尘。

还有一个非常关键的发现:帧数越多,推理越准。当模型输入的视频帧数从16增加到32,再到64,测试表现都跟着上台阶。这说明,对时间线的理解力,正是视频推理模型的决胜点——谁能处理更长的视频,谁就更有未来。

团队还做了一组消融实验,直接「抽掉」图像数据训练、再试试砍掉时间建模模块,结果都一样——模型性能明显下滑。这直接验证了一件事:Video-R1的每一块设计都打在了点子上。

不仅如此,从训练动态中也能看出门道。随着强化学习的推进,模型获得的准确率奖励和时间奖励在持续上升,说明它不仅越来越会答题,还越来越懂得「时间逻辑」这回事。

有意思的是,模型在训练早期输出的回答变短了——这是在主动抛弃之前SFT里学到的次优推理模式;但随着训练推进,输出逐渐恢复并稳定,形成了一套更高效、更具逻辑的表达路径。

Video-R1用实力证明:强化学习不只是NLP的专利,视频大模型也能玩出推理力。

它不靠「堆料」,靠的是机制设计和训练策略,并且全套开源。

R1的推理范式,正在把下一场AI革命,从文本世界带进了每一帧画面里。

视频推理的时代,真的来了。

参考资料:

https://arxiv.org/abs/2503.21776

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

环球网资讯
2026-03-26 16:20:07
章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

明星私服穿搭daily
2026-03-26 09:44:53
中东局势升级!印尼狂砸31亿,抢购中国退役导弹艇,西方不解

中东局势升级!印尼狂砸31亿,抢购中国退役导弹艇,西方不解

胖福的小木屋
2026-03-26 23:27:43
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
忠告天下子女:再孝顺,也不要为年过75岁的老父老母,做这三件事

忠告天下子女:再孝顺,也不要为年过75岁的老父老母,做这三件事

风起见你
2026-03-27 00:22:57
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

闪电新闻
2026-03-26 11:46:05
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
日均接诊1.5万人次、手术500台,广东这家华南医疗航母火遍全省

日均接诊1.5万人次、手术500台,广东这家华南医疗航母火遍全省

健身狂人
2026-03-27 00:11:10
局势恶化!英外长急致电北京,六国发表联合声明,特朗普越做越绝

局势恶化!英外长急致电北京,六国发表联合声明,特朗普越做越绝

报君知史
2026-03-27 02:43:59
美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

雪中风车
2026-02-23 19:34:34
比亚迪官宣:《007》邦德扮演者丹尼尔·克雷格出任腾势汽车代言人

比亚迪官宣:《007》邦德扮演者丹尼尔·克雷格出任腾势汽车代言人

IT之家
2026-03-26 20:55:38
太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

时间巡查
2026-03-25 04:28:00
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
伊朗伊斯兰革命卫队称击落一架美军F-18战机

伊朗伊斯兰革命卫队称击落一架美军F-18战机

环球网资讯
2026-03-26 06:37:05
罗技:“我一降价,你还不是像狗一样跑过来”

罗技:“我一降价,你还不是像狗一样跑过来”

电脑吧评测室
2026-03-26 22:05:58
信息量极大!黄仁勋最新论断:AGI已实现,OpenClaw是AI界iPhone,未来将有10亿程序员

信息量极大!黄仁勋最新论断:AGI已实现,OpenClaw是AI界iPhone,未来将有10亿程序员

AI科技大本营
2026-03-26 19:52:36
沙特实战封神!中国“天盾”21发21中,美方2亿美元系统差距在哪

沙特实战封神!中国“天盾”21发21中,美方2亿美元系统差距在哪

闻香阁
2026-03-27 04:16:43
柳景武已任山东省委副秘书长、省机关事务管理局局长

柳景武已任山东省委副秘书长、省机关事务管理局局长

黄河新闻网吕梁
2026-03-26 10:03:54
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
2026-03-27 06:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
手机
家居
本地
数码

400万人爱过的女孩,被黄谣网暴180天后

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

无障碍浏览 进入关怀版