网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

30人团队震撼英伟达！Jim Fan自曝三个教训，重押世界模型

2026-01-10 17:26:25　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子

【新智元导读】AI终极挑战——物理图灵测试。这一年，英伟达Jim Fan领导的GEAR实验室，正用一套完整的技术栈，向这堵高墙发起总攻。

机器人「物理图灵测试」距离真正通关，还需一段时间。

英文达杰出科学家Jim Fan表示，我正全身心投入一个单一使命：为机器人解决「Physical Turing Test」（物理图灵测试）。

这是AI的下一个挑战，甚至可能是「终极挑战」。

如今，人类光靠文本字符串实现的超级智能，恐怕就已经能拿到诺贝尔奖了。

不过机器人现在，连黑猩猩级灵活度、操作能力都还没有。

「莫拉维克悖论」（Moravec's paradox）是一种必须被打破的诅咒，是一堵必须被撕碎的高墙。

没有任何东西，应该阻挡人类在这个星球上实现指数级的物理生产力，甚至有朝一日，把这种能力带到其他星球。

这一年，Jim Fan带队在英伟达创立了GEAR实验室，30人团队已初具规模。

令人震撼的是，团队的产出和影响力，远远超过它的规模。

从基础模型、世界模型、具身推理、仿真、全身控制，以及各种形态RL，几乎囊括了机器人学习的完整技术栈。

接下来，一起看看GEAR 2025年。

GR00T基础模型，一年三代

GR00T是英伟达提出的「通用机器人基础模型体系」，核心目标——

让机器人像「大模型」一样，具备跨任务、跨场景、可迁移、可学习的能力。

GR00T VLA基础模型，是最具代表性的成果之一。

它将视觉+语言+动作三种模态，统一到一个端到端的模型中，让机器人能够看懂环境、理解人类指令，生成可转型的连续动作。

这一年，英伟达对GR00T VLA进行了高频迭代：

今年3月开源了N1，紧接着6月发布了N1.5，12月又推出了N1.6。

GR00T N1

3月，GR00T N1开源首发，仅用20亿参数，即可验证VLA架构在真实机器人任务中的可行性。

它的开源，为整个机器人生态系统提供了一个前沿的基础模型。

GROOT N1可以轻松在上见任务中进行泛化，或执行需要长上下文和多种通用技能组合的多步骤任务。

比如，抓取、用一只手臂/两只手臂移动物体，以及在两个手臂之间传递物品。

GR00T N1.5

GR00T N1.5是N1的升级版，在架构、数据、建模层面进行了多重优化。

它使用了更领先的视觉语言模型——Eagle VLM，提升了语言理解和视觉感知力。

还加了FLARE损失，提高了对未来动作预测的一致性。

在仿真机器人基准任务中，GR00T N1.5成功率明显由于上一代模型。

GR00T N1.6

这个月迭代后的GR00T N1.6，集成了更强的架构和推理能力，让机器人在复杂环境中表现更智能、更稳健。

GR00T Dreams：机器人「做梦」学习

视频世界模型，是数据驱动的物理和图形引擎。

DreamGen，是一种利用AI视频世界模型，来生成合成训练数据的机器人学习框架。

它通过「数字梦境」生成大量虚拟机器人行为，再从视频中提取动作数据，用于训练机器人策略，从而实现新任务和新环境中的泛化学习。

实验验证了，机器人从只有一个动作示例的场景中，通过「梦境」生成数据，在新任务上有很高的成功率。

在10个新环境+22种新行为上，机器人都能泛化成功。

SONIC：让机器人具备「通用运动能力」

为了让机器人不仅只会做某个动作，而具备几乎所有人类可以做的动作。

英伟达团队提出的SONIC，一个用于人形机器人控制的通用运动系统。

它的核心目标是，让人形机器人像「角色」一样被控制、学习和驱动。

SONIC出发点很明确，运动追踪是人形机器人可扩展基础任务。

只要机器人能够稳定、准确跟踪任意人类动作，那么行走、转身、抬手、抓取、协调全身运动等复杂行为，都可以统一到同一个框架中。

论文中，团队将运动追踪任务进行了「超大规模化」（Supersize），即9000+GPU小时，以及超1亿动作帧，覆盖了机器丰富的人体动作分布。

这让SONIC学会了人类运行的整体结构，而且，研究人员还基于SONIC构建了多种控制与交互方式。

SONIC的探索，为通用人形机器人提供了一个可扩展、可编程、可落地的运动基础系统。

其他重磅成果

除了以上一些重磅成果，团队还在面向VLA强化学习后训练上，以及sim2real的RL实践做出了探索。

比如PLD（Probe, Learn, Distill），让机器人从失败中「自我进化」。

它是一套真实世界「自举式学习」的训练范式。

一般来说，机器人在真实环境中，执行高精度操作任务时，或失败、会偏移，都成为了一种信号。

PLD引入了真实世界残差强化学习（Residual Reinforcement Learning），不推翻原有策略，而在已学会动作基础上，学习「微调残差」，专门负责纠错、恢复、补偿。

最后，它将真实世界中学到的改进经验，蒸馏回VLA主模型，使用SFT，将临场学到的技巧变成长期能力。

对此，Jim Fan表示RL能够通过后训练VLA模型，在高精度任务（如GPU插入）中实现接近100%的鲁棒性。

这是解决工业部署「最后一公里」难题的关键进展。

VIRAL（Visual Sim-to-Real at Scale）是一套纯视觉人形机器人Sim-to-Real框架，为了解决一个长期难题——

让机器人在真实世界中，零样本完成「走+站+操作」连续长时任务。

研究在Unitree G1人形机器人上，验证了最长54次连续loco-manipulation循环，没有任何真实世界微调，仅使用RGB纯视觉输入。

另外，DoorMan是英伟达首个仅用RGB视觉、完全在仿真中训练、可零样本迁移到真实世界的人形机器人「开门」策略。

它在复杂的行走+操作+物体交互任务上，性能甚至超越人类遥操员。

「开门」是人形机器人最难的任务之一，因为它同时包含行走、精细操作等任务的重叠。

以往的方法，要么依赖特权状态（即力、位姿），要么真实数据昂贵、不可规模化。

而DoorMan诞生后，仅用了RGB，相同控制线，就让仿真直出真实世界。

此外，还有FLARE全新算法，是一种隐式世界模型的策略，核心思想是预测「未来对动作有用的表示」。

它不会去预测未来的像素，而是预测对动作有用的未来潜变量，让机器人在不断增加推理开销的情况下，学会提前想一想。

在训练中，FLARE在一个标准VLA策略模型中，引入了未来token——在Transformer中额外加入少量学习token。

实验结果显示，在4个真实操作任务，每个任务100条轨迹，GR-1平均成功率在95.1%。

左右滑动查看

三个教训，重注「视频世界模型」

这一年，所有人几乎都在为「氛围编程」（vibe coding）感到震惊。

休假这几天，Jim Fan还分享了对机器人这个蛮荒又混乱的西部世界的焦虑——

我在2025年学到的三个教训

1. 硬件跑在软件前面，但硬件的可靠性，严重卡住了软件的迭代速度

我们已经看到了，许多堪称艺术品的工程成果，比如Optimus、e-Atlas、Figure、Neo、G1等等。

最强的AI还远远没有把这些前沿硬件的潜力榨干。

机器人的「身体」能做到的事情，明显多于它的「大脑」目前能指挥的范围。

但问题在于，照看这些机器人往往需要一整支团队全天候盯着。

和人类不一样，机器人不会自己从磕碰中恢复。过热、马达损坏、各种诡异的固件问题，几乎每天都在折磨工程师。犯错是不可逆的，而且一点都不留情。

到头来，唯一真正能规模化的，只有我的耐心。

2.机器人领域的基准测试，依然是一场史诗级灾难

在大语言模型圈子里，很多人已经把MMLU和SWE-Bench当成常识了。

机器人这边？先把手里的啤酒端稳。几乎没有任何共识：用什么硬件平台、怎么定义任务、评分标准是什么、用哪种仿真器，或者真实世界要怎么搭。

结果就是——每个人在自己临时为每次新闻发布现编的基准上，按定义都是SOTA。

每个人都会从100次重试里，挑一个最好看的demo拿出来秀。

2026年，我们这个领域必须做得更好，别再把可复现性和科学严谨性当成「二等公民」。

3. 基于VLM的VLA，总感觉哪里不对

VLA指的是「视觉-语言-动作」（vision-language-action）模型，这是当前机器人「大脑」的主流路线。

套路也很简单：拿一个预训练好的VLM checkpoint（模型权重），在上面嫁接一个动作模块。

但仔细想想就会发现，VLM本身是被高度优化来刷诸如视觉问答这类基准的。

这直接带来了两个问题：

(1) VLM里的大多数参数，其实都服务于语言和知识，而不是物理世界；

(2) 视觉编码器被刻意训练去丢弃底层细节，因为问答任务只需要高层语义理解。但在机器人灵巧操作中，恰恰是这些细微细节最要命。

VLA的性能并没有任何必然理由会随着VLM参数规模一起提升。

问题在于，预训练目标本身就是错位的。相比之下，以视频世界模型作为预训练目标，看起来要合理得多。我已经在这条路线上下了重注。

有网友反问道，如果说世界模型是更优的预训练目标，但当前主流模型仍基于VLM构建并产出实际成果，而世界模型却主要用于策略评估和合成数据，而非直接控制？

Jim Fan称，它们都是2025年的模型，期待2026年下一个重大突破。

物理图灵测试，还有多远？

今年，在红杉资本一场闭门演讲中，Jim Fan首次引入了「物理图灵测试」概念。

短短20分钟视频，他生动有趣地介绍了当下具身智能的困局，大规模仿真如何挽救机器人未来，以及英伟达具身智能的路线图。

那究竟什么是「物理图灵测试」？

一场周末party让家里乱的一团糟（左），有人替你收拾了一切，还为你和伴侣准备了烛光晚餐（右）。

当你回家后看到一切，根本无法辨别这是人类的作品，还是机器的作品——这便是物理图灵测试核心想法。

那么，人类现在走到哪一步了？离这个目标还有多远？

三个生动的例子，让人爆笑全场。不得不承认，这就是当前具身智能的现实。

左右滑动查看

Jim Fan表示，Ilya曾说过预训练终结了，同时AI「石油」互联网数据几乎枯竭。

但若要和机器人领域数据相比，搞LLM的研究者就会明白有多么得天独厚了。

在英伟达，团队让机器人实操去收集数据，机器人关节控制信号，且数值随时间持续变化。

任何人无法从互联网上获取，必须通过自己收集才能完成。

他们具体是如何操作的？

其中，离不开一个重要的方式——遥操。它能够识别人手姿态并流式传输给机器人系统。

通过这种方式，可以教机器人从面包机中拿起面包，然后在上面淋上蜂蜜。

可以想象的到，这是一个非常缓慢极其痛苦的过程。

在Jim Fan看来，如果将真实数据收集放在坐标轴中展示，它根本无法实现Scaling Law。

如何去打破这一困境，为机器人创造「无限能源」？

英伟达给出了一个更直接的解决方案——虚拟世界。

在仿真世界中，可以以1万倍于现实的速度训练，并通过「域随机化」（Domain Randomization）增强泛化能力。

也就意味着，系统在仿真中学会的任务，最终零样本迁移到真实世界。

接下来，Jim Fan提出了仿真世界模拟的三个阶段——

Simulation 1.0（数字孪生）

它需要精确建模机器人与物理环境，优点在于快、可控、可迁移，而缺点是构建成本高，强依赖人工建模。

Simulation 1.5（数字表亲）

大量3D资产、场景、纹理由模型自动生成，仍结合传统物理引擎，在真实与仿真之间取得工程上「足够接近」。

Simulation 2.0（神经物理引擎）

可利用视频扩散模型，直接生成「可交互的未来」，不再显示建模物理规则。

它的优势在于，能处理软体、液体等复杂物理，通过语言生成「反事实世界」。

Jim Fan还将其称之为「数字游牧者」（Digital Nomad）。

再回到当初这张坐标图，机器人数据Scaling Law很好地呈现了出来。

最终，所有这些数据流入了一个统一的模型，即VLA——输入：语言+视觉，输出：动作控制。

也就是如上提到了GR00T系VLA基础模型，从N1，到N1.5，再到N1.6三个版本不断升级迭代。

最后，Jim Fan指出物理AI的未来，不只是更聪明的机器人，而是一种新基础设施。

比如Physical API、物理APP Store，让技能可以像软件一样被分发到机器人系统中。

几天前，谷歌大佬Logan Kilpatrick预测，2026年将成为具身AI的重要一年。

用不了不久，我们将在现实世界中看到更多的机器人。

参考资料：

https://x.com/DrJimFan/status/2003879965369290797?s=20

https://www.youtube.com/watch?v=_2NijXqBESI

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

奢侈品牌MIU MIU多款产品被指也有“限购区”，杭州多个街道地址无法下单

澎湃新闻 2026-05-11 10:22:28
4844 跟贴 4844
小伙刮刮乐中了一百万，中奖当天花了三四百元

今日女报 2026-05-11 05:37:35
360 跟贴 360

一汽修店主只修特斯拉：其他新能源车三电不修怕被告

第一财经资讯 2026-05-11 16:52:11
1232 跟贴 1232

王励勤总结世乒赛：男队阵容不是最强但最拼，女队经受对手超水平发挥考验，点赞孙颖莎王楚钦力挽狂澜

红网 2026-05-11 11:59:00
610 跟贴 610
茶颜悦色，装不下去了

中国新闻周刊 2026-05-07 22:15:57
298 跟贴 298

法国新法落地：归还 “260万被抢文物”有多艰难？｜重建现场

新京报动新闻 2026-05-11 01:46:32
482 跟贴 482

大学生驱车1300公里，送校友回家奔丧：自费5200多元，事后收到很多转账均婉拒

潇湘晨报 2026-05-11 16:50:57
1 跟贴 1
安第斯病毒何去何从？张文宏团队解析涉疫邮轮传播链精细拼图

澎湃新闻 2026-05-10 22:34:13
286 跟贴 286

眼含热泪！林诗栋激动拥抱王皓，跳上球桌手指胸前国旗庆祝

青蜂侠Bee 2026-05-11 07:47:53
78 跟贴 78
武汉一男子钓48斤大鱼，挂车后绕城2小时显摆，

武汉发布 2026-05-11 10:01:53
111 跟贴 111
比利时将向乌克兰提供全部F-16战机

参考消息 2026-05-11 14:37:08
60 跟贴 60
九寨沟将实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

上游新闻 2026-05-11 15:40:24
2 跟贴 2
余额宝年化收益率0.888% 刷新历史最低纪录

红星新闻 2026-05-10 21:54:53
695 跟贴 695
千万别这样走路！广东16岁男生穿人字拖走路看手机，突然发现脚趾断了

南方都市报 2026-05-11 17:06:19
31 跟贴 31
高速路遇障碍物横在路中间存在安全隐患，女子停车上前将障碍物移到路边

南阳网 2026-05-11 00:02:09
196 跟贴 196
天舟十号货运飞船发射任务取得圆满成功

新华社 2026-05-11 08:34:33
732 跟贴 732
雅思宣布：中国大陆地区，9月1日起取消纸笔考试

南方都市报 2026-05-10 23:34:08
178 跟贴 178
关注 | 本周来华谈判，降价50%以上！网友不买账！

天津广播 2026-05-11 14:48:29
200 跟贴 200
乔治：夏天要把那种爆发力找回来今年这方面对我影响很大

北青网-北京青年报 2026-05-11 16:42:03
17 跟贴 17
巴萨2-0皇马提前3轮夺冠

上游新闻 2026-05-11 07:12:03
172 跟贴 172
有素质的羊！山羊用嘴熟练打开水龙头，低头喝了几口还不忘关上

星视频 2026-05-11 17:26:09
10 跟贴 10
广西梧州通报“公交车与汽车碰撞致公交车坠翻”事故

91.6陕西交通广播 2026-05-11 19:34:47
0 跟贴 0
男子在三亚游泳耳朵现闷堵感，一只活体小螃蟹从耳道爬出！农业部门提醒：建议下海戴耳塞

环球网资讯 2026-05-11 19:40:13
0 跟贴 0
物业撤场，被水费劝退

乐居财经官方 2026-05-11 19:34:56
0 跟贴 0

鲁尼谈阿森纳争议判罚：只要看回放，就知道那肯定是个犯规

鲁尼谈阿森纳争议判罚：只要看回放，就知道那肯定是个犯规

懂球帝

2026-05-11 15:10:21

2.1亿USDT洗钱曝光

新浪财经

2026-05-11 17:07:43

致武汉大学李小曼副教授：大学的败坏就是从您这种知识分子做帮凶开始的

致武汉大学李小曼副教授：大学的败坏就是从您这种知识分子做帮凶开始的

熊太行

2026-05-11 00:06:25

28.8万彩礼被38.8万“截胡”的现实

28.8万彩礼被38.8万“截胡”的现实

巧哥有话说

2026-05-11 14:31:49

阿斯跟队：皇马即将迎来重要变革，计划签下3-4名关键球员

阿斯跟队：皇马即将迎来重要变革，计划签下3-4名关键球员

懂球帝

2026-05-11 15:10:23

高市早苗心思真毒，赶在特朗普来华前先给一刀，连中国都没有想到

高市早苗心思真毒，赶在特朗普来华前先给一刀，连中国都没有想到

临云史策

2026-05-11 11:33:39

法比奥：我们有3个进球被吹掉了，这就是足球

法比奥：我们有3个进球被吹掉了，这就是足球

懂球帝

2026-05-10 23:50:09

你坐火车有过哪些奇葩经历？网友:怪自己那时候太单纯！

你坐火车有过哪些奇葩经历？网友:怪自己那时候太单纯！

夜深爱杂谈

2025-12-21 17:37:52

被捕9个月后，释永信再迎噩耗，4大罪名坐实，最后的体面都没了

被捕9个月后，释永信再迎噩耗，4大罪名坐实，最后的体面都没了

好贤观史记

2026-03-21 17:07:15

我刚搬进新家，就听楼上情侣折腾了一夜，没忍住加了楼上帅哥

我刚搬进新家，就听楼上情侣折腾了一夜，没忍住加了楼上帅哥

古怪奇谈录

2026-05-11 15:42:49

马龙更新动态，晒夏露视角下的照片，两人还拍了特别的情侣照

马龙更新动态，晒夏露视角下的照片，两人还拍了特别的情侣照

TVB的四小花

2026-05-11 18:08:53

大数据分析，在中国，找个身高1米7年入20万的老公，到底有多难？

大数据分析，在中国，找个身高1米7年入20万的老公，到底有多难？

深度报

2026-04-18 23:37:27

一个网友说，大集体时期按月发粮，评论区炸锅了

一个网友说，大集体时期按月发粮，评论区炸锅了

读鬼笔记

2026-05-09 20:34:04

踏空的人可真不少...

懒猫的丰收日

2026-05-11 17:29:40

伟大的10-4！火箭变身克鲁斯堡8冠王，历史第1人，超越台球皇帝！

伟大的10-4！火箭变身克鲁斯堡8冠王，历史第1人，超越台球皇帝！

刘姚尧的文字城堡

2026-05-11 07:37:31

乌克兰击沉里海舰队导弹舰！摧毁全俄最大的两座炼油厂

乌克兰击沉里海舰队导弹舰！摧毁全俄最大的两座炼油厂

项鹏飞

2026-05-08 19:30:06

与郭凯敏离婚后携子嫁大15岁画家，67岁上海低调生活

与郭凯敏离婚后携子嫁大15岁画家，67岁上海低调生活

奇怪的鲨鱼们

2026-04-25 07:06:08

公然反水！中国两邻国联手，抢在美国前，掐断中国“经济命脉”？

公然反水！中国两邻国联手，抢在美国前，掐断中国“经济命脉”？

冷峻视角下的世界

2026-05-09 21:49:20

菲律宾全国闹油荒，11国紧急在菲开会，迟迟等不到中方松口

菲律宾全国闹油荒，11国紧急在菲开会，迟迟等不到中方松口

潮鹿逐梦

2026-05-11 16:40:27

北京10号线每天挤进去140万人！2026年开始，这条环线王者要变天

北京10号线每天挤进去140万人！2026年开始，这条环线王者要变天

据说说娱乐

2026-05-11 14:13:40

AI产业主平台领航智能+时代

15185文章数 66862关注度

往期回顾全部

科技要闻

黄仁勋：你们赶上了一代人一次的大机会

头条要闻

媒体：中美元首即将北京会晤美方一细节耐人寻味

头条要闻

媒体：中美元首即将北京会晤美方一细节耐人寻味

体育要闻

梁靖崑：可能是最后一届了，想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

多重催化剂共振，人民币汇率升破6.8

汽车要闻

吉利银河“TT”申报图曝光电动尾翼+激光雷达

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

教育

旅游

艺术

公开课

数码要闻

佳能发布智能触屏照片一体机：只留一个键手机直连打印

教育要闻

邹教授已就位！5月16日成都见面会倒计时5天

旅游要闻

昆明蓝花楹登上央视《新闻联播》

艺术要闻

陆抑非写竹，笔力遒劲

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版