网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

视频推理R1时刻，7B模型反超GPT-4o！港中文清华推出首个Video-R1

2025-04-16 13:18:44　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：LRST 好困

【新智元导读】港中文和清华团队推出Video-R1模型，首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集，Video-R1在视频空间推理测试中超越了GPT-4o，展现了强大的推理能力，并且全部代码和数据集均已开源。

语言模型的推理刚火完，视频AI也开始「卷」起来了。

这次出手的是港中文+清华组合，直接把强化学习里的R1玩法搬到了视频领域，整出了全球首个视频版R1模型：Video-R1。

别看它只有7B参数，但它在李飞飞提出的VSI-Bench基准中，竟然超越了GPT-4o！

这波不是简单微调。它背后换上了全新的时间感知算法T-GRPO，再配上图像+视频混合训练、两套高质量数据集，硬是把AI的视频推理能力拉满，让模型不止能「看」，更开始「思考」。

而且，全套模型、代码、数据集——已经开源了！

视频大模型的「推理时刻」，已经开始。

论文链接：https://arxiv.org/abs/2503.21776

项目地址：https://github.com/tulerfeng/Video-R1

知名博主AK也连发2条推特，推荐这篇论文：

为什么视频大模型总是「不聪明」？

视频模型看起来「懂点东西」，其实大多都只是表面功夫。真正让它们「动脑子」的地方，反而是它们最弱的短板。

研究团队指出，如果还按照传统GRPO的套路来训练AI看视频，会踩两个坑：

一个是没时间概念，模型完全不知道视频事件的前后逻辑，常常「看图说话」——看到一帧画面就急着给出答案。这种套路最多就是蒙对几次，没法形成真正的因果推理，泛化性差。例如下图所示。

另一个问题更棘手：训练数据太浅。很多现有视频数据集压根就不适合教模型「思考」，清一色的识别题，几乎没多少需要推理才能解的任务。模型怎么练都只是在死记硬背，根本没机会练大脑。

所以，视频大模型「不聪明」，真不是没潜力，而是没人教对方法。

一套奖励机制，把视频推理训会了

研究团队整了个狠招：奖励机制绑定时间理解。

研究人员把旧版GRPO算法升级成了更懂时序的T-GRPO，直接把「考虑时序」这事写进了模型的奖励逻辑里。

方法简单粗暴又高效——模型每次会收到两组输入：一组视频帧随机乱序，一组顺序。只有当它在「顺序」输入上答对题的比例更高，才会获得奖励。

这个机制在「教」模型：别光看图，推理得讲前因后果。哪怕只看了一帧猜对了题，也拿不到分。

在这种严格打分机制下，模型终于明白——视频不是PPT翻页，而是一个个逻辑线索串起来的故事。

靠混合数据打通任督二脉

视频推理数据太稀缺，模型「练不成」？

研究人员干脆把图像推理数据请进视频训练流程，做了两个关键数据集：一个是图像为主的Video-R1-COT-165k，专门用来冷启动模型思维；另一个是以高质量视频为核心的Video-R1-260k，用来精调强化训练。

别以为图片只是打辅助，恰恰相反——它帮AI打好了「逻辑底盘」，学会怎么通用推理；而那些优选过的视频数据，则进一步逼它理解时间逻辑和动态变化。

这套图像+视频混合训练方式，不光解决了数据稀缺，还真让模型形成了从「看图说话」到「视频深思」的进阶跳跃，真正打通了多模态理解的任督二脉。

视频推理的「aha moment」

Video-R1在推理过程中，竟然出现了类似人类的「顿悟时刻」——那种突然把所有线索串起来、恍然大悟的瞬间，也被称为「aha moment」。

比如有一道题是：哪个动作会导致系统能量损耗？另一个是：看完一段室内漫游视频，推理出从书柜走到浴缸的路径。

换做以前的模型，十有八九就是「看一眼」就开答，但Video-R1却能一步步分析时序，进行推理，最终给出逻辑闭环的准确回答。

这不是死记硬背，而是推理真正生效的信号。AI第一次表现出：它不只是识图，而是在「思考」视频里发生了什么。

实验结果

在多个视频推理测试基准上，这个Video-R1-7B模型几乎场场领先，尤其在李飞飞提出的VSI-Bench这一权威评测中，它拿下了35.8%的准确率，超越了闭源顶尖大模型GPT-4o。

不仅如此，RL和传统SFT之间的差距也被拉开了。比如同样是7B体量的Qwen2.5-VL-SFT，在测试中表现不佳。反观Video-R1，则在几乎所有场景中都稳定输出，泛化能力一骑绝尘。

还有一个非常关键的发现：帧数越多，推理越准。当模型输入的视频帧数从16增加到32，再到64，测试表现都跟着上台阶。这说明，对时间线的理解力，正是视频推理模型的决胜点——谁能处理更长的视频，谁就更有未来。

团队还做了一组消融实验，直接「抽掉」图像数据训练、再试试砍掉时间建模模块，结果都一样——模型性能明显下滑。这直接验证了一件事：Video-R1的每一块设计都打在了点子上。

不仅如此，从训练动态中也能看出门道。随着强化学习的推进，模型获得的准确率奖励和时间奖励在持续上升，说明它不仅越来越会答题，还越来越懂得「时间逻辑」这回事。

有意思的是，模型在训练早期输出的回答变短了——这是在主动抛弃之前SFT里学到的次优推理模式；但随着训练推进，输出逐渐恢复并稳定，形成了一套更高效、更具逻辑的表达路径。

Video-R1用实力证明：强化学习不只是NLP的专利，视频大模型也能玩出推理力。

它不靠「堆料」，靠的是机制设计和训练策略，并且全套开源。

R1的推理范式，正在把下一场AI革命，从文本世界带进了每一帧画面里。

视频推理的时代，真的来了。

参考资料：

https://arxiv.org/abs/2503.21776

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

模型自己找视觉线索，小红书Video-Thinker破解视频推理困局

机器之心Pro 2026-01-04 14:13:49
0 跟贴 0
在线等：如何优雅地分走鹅厂这600+万？

量子位 2026-03-26 16:24:03
0 跟贴 0

全球顶尖大模型一夜惨遭血洗！最难测试人类拿满分，AI第一名得0.2%分

新智元 2026-03-26 18:14:12
37 跟贴 37

养虾省91%词元！这家AI记忆公司用1亿个多模态文件验证了！

机器之心Pro 2026-03-25 11:01:48
2 跟贴 2
港中深-跨维智能提出EVA框架，强化学习让视频世界模型“动”起来

机器之心Pro 2026-03-26 16:08:37
0 跟贴 0

浙大博士造出「机器人界的F1」：不卷脑子卷身体，要比博尔特跑得快

36氪 2026-03-26 22:37:08
4 跟贴 4

巅峰对话AI时代经济增长：诺奖经济学家彼得·豪伊特抛出增长七要素，中关村学者激辩人机共生新规则

每日经济新闻 2026-03-27 00:36:03
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0

行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
一天蒸发6200亿！谷歌算法黑科技击溃存储股，华尔街痛批市场“不懂技术”

每日经济新闻 2026-03-26 19:00:13
22 跟贴 22
这篇年终述职报告太权威了！超强文本讽刺又好笑

刚芦雪 2026-03-26 03:44:06
0 跟贴 0
千万粉丝大V，微博账号被禁止关注

第一财经资讯 2026-03-26 12:19:47
2095 跟贴 2095
从工业体系看常规战争中东大为何难被战胜的底层逻辑

Boba奔波儿灞 2026-03-26 01:16:42
0 跟贴 0
谷歌冲破内存墙！新算法内存占用暴砍83%，速度提升8倍！

智东西 2026-03-26 22:11:09
0 跟贴 0
Prime Video把3部冷门剧推上热搜，用户看完集体改评分

赛博兰博 2026-03-25 18:31:04
0 跟贴 0
日方称带刀三等陆尉希望和中国大使交谈中方发出反问

环球网资讯 2026-03-26 07:09:09
320 跟贴 320
浙江金华安置房外墙用手掌一拍就碎

大风新闻 2026-03-26 18:00:38
31 跟贴 31
Netflix狂揽7座奥斯卡，43部片单藏着3个选片陷阱

碳基打工人 2026-03-26 22:25:02
5 跟贴 5
“根本不敢上路”！深圳男子买全新百万豪车，修了15次还是坏的！很多车主受害

南方都市报 2026-03-26 09:26:45
134 跟贴 134
张少康辞去广东省人民政府副省长职务

新快报新闻 2026-03-26 11:50:03
85 跟贴 85
美媒称美考虑将援助乌克兰的武器转至中东

新华社 2026-03-26 20:05:17
1808 跟贴 1808
参数不撒谎，实力会说话！新阿维塔12凭什么降维打击

嘻哈车 2026-03-24 10:06:10
1 跟贴 1
中原消费金融为催收“买”借款人手机号码三大运营商均中标或涉买卖个人信息惹争议

信网 2026-03-26 19:12:37
462 跟贴 462
上海一三甲医院候诊屏出现"照顾号"引热议院方回应

上游新闻 2026-03-26 15:33:08
133 跟贴 133
泰国征兵广告用张凌赫做海报：想像“武安侯”一样帅气骑马吗？今年四月报名参军选择骑兵部队

闪电新闻 2026-03-26 17:45:38
267 跟贴 267
生死12分钟！广东一男子踢球时心脏骤停一群医生冲上前接力心肺复苏救回一命

闪电新闻 2026-03-26 11:46:05
120 跟贴 120
10元/斤，最近这一口“鲜货”正肥！杭州一摊主：一天上百斤不够卖

环球网资讯 2026-03-25 13:22:33
432 跟贴 432
首秀库拉索，国足主帅邵佳一：国家队的比赛没有友谊赛

澎湃新闻 2026-03-26 15:58:27
435 跟贴 435
逐帧拆解，维尼修斯的内切逻辑！

动感丸子 2026-03-24 13:12:48
3 跟贴 3
微信聊天反复出现“对方正在输入”，说明对方在干什么？

学申论的谈妹 2026-03-26 16:15:26
146 跟贴 146
奔驰官宣：S级将在华投产！在2026年底

网上车市 2026-03-26 21:41:53
7 跟贴 7
火车站“老师儿！出租车在这乘坐”标语引热议，网友称一看就是山东济南，车站工作人员：在当地这是尊称

极目新闻 2026-03-26 12:06:40
147 跟贴 147
不卷参数，就聊交互，魏牌V9X算是把车灯彻底玩明白了

豪车事 2026-03-26 21:50:59
1 跟贴 1
法系在华销冠车型降价20%，车名叫凡尔赛

第一财经资讯 2026-03-26 10:16:14
190 跟贴 190
除了文学，他还给世界留下一部中文打字机

红星新闻 2026-03-26 20:09:36
0 跟贴 0
广东一男子买啤酒抽中电动车大奖，将中奖二维码发网上询问后被他人扫走核销，网友：“这下又上了一课”

洪观新闻 2026-03-26 10:56:49
0 跟贴 0
Prime Video把3部剧藏进榜单前10

报错免疫体 2026-03-25 18:31:08
1 跟贴 1
训练奖励太稀疏？港中文联合美团给Agent加上「过程分」

机器之心Pro 2026-02-25 17:27:26
0 跟贴 0
男子用时3个月复原周星驰电影功夫里的猪笼城寨模型

罕天宇 2026-03-26 18:26:57
3 跟贴 3
城市24小时 | 宇树科技为何选中重庆？

每日经济新闻 2026-03-26 23:50:42
0 跟贴 0

中方警戒舰目前正处于霍尔木兹海峡附近？国防部：假消息

中方警戒舰目前正处于霍尔木兹海峡附近？国防部：假消息

环球网资讯

2026-03-26 16:20:07

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”，配色清新很少女！

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”，配色清新很少女！

明星私服穿搭daily

2026-03-26 09:44:53

中东局势升级！印尼狂砸31亿，抢购中国退役导弹艇，西方不解

中东局势升级！印尼狂砸31亿，抢购中国退役导弹艇，西方不解

胖福的小木屋

2026-03-26 23:27:43

日本公布中国游客免税店2月份消费数据，真的是打脸了！

日本公布中国游客免税店2月份消费数据，真的是打脸了！

消失的电波

2026-03-26 15:20:44

忠告天下子女：再孝顺，也不要为年过75岁的老父老母，做这三件事

忠告天下子女：再孝顺，也不要为年过75岁的老父老母，做这三件事

风起见你

2026-03-27 00:22:57

俄罗斯宣传三天攻占爱沙尼亚！炮制公投，又是特别军事行动？

俄罗斯宣传三天攻占爱沙尼亚！炮制公投，又是特别军事行动？

项鹏飞

2026-03-24 20:28:43

生死12分钟！广东一男子踢球时心脏骤停一群医生冲上前接力心肺复苏救回一命

生死12分钟！广东一男子踢球时心脏骤停一群医生冲上前接力心肺复苏救回一命

闪电新闻

2026-03-26 11:46:05

写小说判十年，把生殖器放女孩嘴巴里判两年九个月

写小说判十年，把生殖器放女孩嘴巴里判两年九个月

昊轩看世界

2026-03-24 19:56:42

日均接诊1.5万人次、手术500台，广东这家华南医疗航母火遍全省

日均接诊1.5万人次、手术500台，广东这家华南医疗航母火遍全省

健身狂人

2026-03-27 00:11:10

局势恶化！英外长急致电北京，六国发表联合声明，特朗普越做越绝

局势恶化！英外长急致电北京，六国发表联合声明，特朗普越做越绝

报君知史

2026-03-27 02:43:59

美国记者挖坑提问:万一台湾不想被统一怎么办？被中方精准反杀

美国记者挖坑提问:万一台湾不想被统一怎么办？被中方精准反杀

雪中风车

2026-02-23 19:34:34

比亚迪官宣：《007》邦德扮演者丹尼尔·克雷格出任腾势汽车代言人

比亚迪官宣：《007》邦德扮演者丹尼尔·克雷格出任腾势汽车代言人

IT之家

2026-03-26 20:55:38

太意外！米兰宝格丽之夜合影：刘亦菲两度被挤，下意识动作引热议

太意外！米兰宝格丽之夜合影：刘亦菲两度被挤，下意识动作引热议

时间巡查

2026-03-25 04:28:00

张雪峰对苏州的综合贡献曝光！5年纳税8.5亿，间接经济拉动28亿

张雪峰对苏州的综合贡献曝光！5年纳税8.5亿，间接经济拉动28亿

谈史论天地

2026-03-26 07:45:53

伊朗伊斯兰革命卫队称击落一架美军F-18战机

伊朗伊斯兰革命卫队称击落一架美军F-18战机

环球网资讯

2026-03-26 06:37:05

罗技：“我一降价，你还不是像狗一样跑过来”

罗技：“我一降价，你还不是像狗一样跑过来”

电脑吧评测室

2026-03-26 22:05:58

信息量极大！黄仁勋最新论断：AGI已实现，OpenClaw是AI界iPhone，未来将有10亿程序员

信息量极大！黄仁勋最新论断：AGI已实现，OpenClaw是AI界iPhone，未来将有10亿程序员

AI科技大本营

2026-03-26 19:52:36

沙特实战封神！中国“天盾”21发21中，美方2亿美元系统差距在哪

沙特实战封神！中国“天盾”21发21中，美方2亿美元系统差距在哪

闻香阁

2026-03-27 04:16:43

柳景武已任山东省委副秘书长、省机关事务管理局局长

柳景武已任山东省委副秘书长、省机关事务管理局局长

黄河新闻网吕梁

2026-03-26 10:03:54

蒋介石孙子召开发布会，提出“两蒋”移灵大陆，2句话让世人唏嘘

蒋介石孙子召开发布会，提出“两蒋”移灵大陆，2句话让世人唏嘘

老谢谈史

2026-03-18 18:33:35

AI产业主平台领航智能+时代

14821文章数 66720关注度

往期回顾全部

科技要闻

美团发布外卖大战后成绩单：亏损超200亿

头条要闻

特朗普：对伊朗能源设施空袭再推迟10天

头条要闻

特朗普：对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声！称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普？一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

手机

家居

本地

数码

400万人爱过的女孩，被黄谣网暴180天后

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

家居要闻

傍海而居静观蝴蝶海

本地新闻

救命，这只酱板鸭已经在我手机复仇了一万遍

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动，支持B70 / B65显卡

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版