网易首页 > 网易号 > 正文 申请入驻

30人团队震撼英伟达!Jim Fan自曝三个教训,重押世界模型

0
分享至


新智元报道

编辑:桃子

【新智元导读】AI终极挑战——物理图灵测试。这一年,英伟达Jim Fan领导的GEAR实验室,正用一套完整的技术栈,向这堵高墙发起总攻。

机器人「物理图灵测试」距离真正通关,还需一段时间。

英文达杰出科学家Jim Fan表示,我正全身心投入一个单一使命:为机器人解决「Physical Turing Test」(物理图灵测试)。

这是AI的下一个挑战,甚至可能是「终极挑战」。


如今,人类光靠文本字符串实现的超级智能,恐怕就已经能拿到诺贝尔奖了。

不过机器人现在,连黑猩猩级灵活度、操作能力都还没有。

「莫拉维克悖论」(Moravec's paradox)是一种必须被打破的诅咒,是一堵必须被撕碎的高墙。

没有任何东西,应该阻挡人类在这个星球上实现指数级的物理生产力,甚至有朝一日,把这种能力带到其他星球。

这一年,Jim Fan带队在英伟达创立了GEAR实验室,30人团队已初具规模。

令人震撼的是,团队的产出和影响力,远远超过它的规模。

从基础模型、世界模型、具身推理、仿真、全身控制,以及各种形态RL,几乎囊括了机器人学习的完整技术栈。


接下来,一起看看GEAR 2025年。

GR00T基础模型,一年三代

GR00T是英伟达提出的「通用机器人基础模型体系」,核心目标——

让机器人像「大模型」一样,具备跨任务、跨场景、可迁移、可学习的能力。

GR00T VLA基础模型,是最具代表性的成果之一。

它将视觉+语言+动作三种模态,统一到一个端到端的模型中,让机器人能够看懂环境、理解人类指令,生成可转型的连续动作。

这一年,英伟达对GR00T VLA进行了高频迭代:

今年3月开源了N1,紧接着6月发布了N1.5,12月又推出了N1.6。

GR00T N1

3月,GR00T N1开源首发,仅用20亿参数,即可验证VLA架构在真实机器人任务中的可行性。


它的开源,为整个机器人生态系统提供了一个前沿的基础模型。


GROOT N1可以轻松在上见任务中进行泛化,或执行需要长上下文和多种通用技能组合的多步骤任务。

比如,抓取、用一只手臂/两只手臂移动物体,以及在两个手臂之间传递物品。


GR00T N1.5

GR00T N1.5是N1的升级版,在架构、数据、建模层面进行了多重优化。

它使用了更领先的视觉语言模型——Eagle VLM,提升了语言理解和视觉感知力。

还加了FLARE损失,提高了对未来动作预测的一致性。

在仿真机器人基准任务中,GR00T N1.5成功率明显由于上一代模型。


GR00T N1.6

这个月迭代后的GR00T N1.6,集成了更强的架构和推理能力,让机器人在复杂环境中表现更智能、更稳健。


GR00T Dreams:机器人「做梦」学习

视频世界模型,是数据驱动的物理和图形引擎。

DreamGen,是一种利用AI视频世界模型,来生成合成训练数据的机器人学习框架。


它通过「数字梦境」生成大量虚拟机器人行为,再从视频中提取动作数据,用于训练机器人策略,从而实现新任务和新环境中的泛化学习。

实验验证了,机器人从只有一个动作示例的场景中,通过「梦境」生成数据,在新任务上有很高的成功率。


在10个新环境+22种新行为上,机器人都能泛化成功。

SONIC:让机器人具备「通用运动能力」

为了让机器人不仅只会做某个动作,而具备几乎所有人类可以做的动作。

英伟达团队提出的SONIC,一个用于人形机器人控制的通用运动系统。

它的核心目标是,让人形机器人像「角色」一样被控制、学习和驱动。


SONIC出发点很明确,运动追踪是人形机器人可扩展基础任务。

只要机器人能够稳定、准确跟踪任意人类动作,那么行走、转身、抬手、抓取、协调全身运动等复杂行为,都可以统一到同一个框架中。

论文中,团队将运动追踪任务进行了「超大规模化」(Supersize),即9000+GPU小时,以及超1亿动作帧,覆盖了机器丰富的人体动作分布。

这让SONIC学会了人类运行的整体结构,而且,研究人员还基于SONIC构建了多种控制与交互方式。


SONIC的探索,为通用人形机器人提供了一个可扩展、可编程、可落地的运动基础系统。

其他重磅成果

除了以上一些重磅成果,团队还在面向VLA强化学习后训练上,以及sim2real的RL实践做出了探索。

比如PLD(Probe, Learn, Distill),让机器人从失败中「自我进化」。

它是一套真实世界「自举式学习」的训练范式。

一般来说,机器人在真实环境中,执行高精度操作任务时,或失败、会偏移,都成为了一种信号。


PLD引入了真实世界残差强化学习(Residual Reinforcement Learning),不推翻原有策略,而在已学会动作基础上,学习「微调残差」,专门负责纠错、恢复、补偿。

最后,它将真实世界中学到的改进经验,蒸馏回VLA主模型,使用SFT,将临场学到的技巧变成长期能力。

对此,Jim Fan表示RL能够通过后训练VLA模型,在高精度任务(如GPU插入)中实现接近100%的鲁棒性。

这是解决工业部署「最后一公里」难题的关键进展。


VIRAL(Visual Sim-to-Real at Scale)是一套纯视觉人形机器人Sim-to-Real框架,为了解决一个长期难题——

让机器人在真实世界中,零样本完成「走+站+操作」连续长时任务。

研究在Unitree G1人形机器人上,验证了最长54次连续loco-manipulation循环,没有任何真实世界微调,仅使用RGB纯视觉输入。


另外,DoorMan是英伟达首个仅用RGB视觉、完全在仿真中训练、可零样本迁移到真实世界的人形机器人「开门」策略。

它在复杂的行走+操作+物体交互任务上,性能甚至超越人类遥操员。

「开门」是人形机器人最难的任务之一,因为它同时包含行走、精细操作等任务的重叠。

以往的方法,要么依赖特权状态(即力、位姿),要么真实数据昂贵、不可规模化。

而DoorMan诞生后,仅用了RGB,相同控制线,就让仿真直出真实世界。


此外,还有FLARE全新算法, 是一种隐式世界模型的策略,核心思想是预测「未来对动作有用的表示」。


它不会去预测未来的像素,而是预测对动作有用的未来潜变量,让机器人在不断增加推理开销的情况下,学会提前想一想。


在训练中,FLARE在一个标准VLA策略模型中,引入了未来token——在Transformer中额外加入少量学习token。

实验结果显示,在4个真实操作任务,每个任务100条轨迹,GR-1平均成功率在95.1%。





左右滑动查看

三个教训,重注「视频世界模型」

这一年,所有人几乎都在为「氛围编程」(vibe coding)感到震惊。

休假这几天,Jim Fan还分享了对机器人这个蛮荒又混乱的西部世界的焦虑——

我在2025年学到的三个教训

1. 硬件跑在软件前面,但硬件的可靠性,严重卡住了软件的迭代速度

我们已经看到了,许多堪称艺术品的工程成果,比如Optimus、e-Atlas、Figure、Neo、G1等等。

最强的AI还远远没有把这些前沿硬件的潜力榨干。

机器人的「身体」能做到的事情,明显多于它的「大脑」目前能指挥的范围。

但问题在于,照看这些机器人往往需要一整支团队全天候盯着。

和人类不一样,机器人不会自己从磕碰中恢复。过热、马达损坏、各种诡异的固件问题,几乎每天都在折磨工程师。犯错是不可逆的,而且一点都不留情。

到头来,唯一真正能规模化的,只有我的耐心。

2.机器人领域的基准测试,依然是一场史诗级灾难

在大语言模型圈子里,很多人已经把MMLU和SWE-Bench当成常识了。

机器人这边?先把手里的啤酒端稳。几乎没有任何共识:用什么硬件平台、怎么定义任务、评分标准是什么、用哪种仿真器,或者真实世界要怎么搭。

结果就是——每个人在自己临时为每次新闻发布现编的基准上,按定义都是SOTA。

每个人都会从100次重试里,挑一个最好看的demo拿出来秀。

2026年,我们这个领域必须做得更好,别再把可复现性和科学严谨性当成「二等公民」。

3. 基于VLM的VLA,总感觉哪里不对

VLA指的是「视觉-语言-动作」(vision-language-action)模型,这是当前机器人「大脑」的主流路线。

套路也很简单:拿一个预训练好的VLM checkpoint(模型权重),在上面嫁接一个动作模块。

但仔细想想就会发现,VLM本身是被高度优化来刷诸如视觉问答这类基准的。

这直接带来了两个问题:

(1) VLM里的大多数参数,其实都服务于语言和知识,而不是物理世界;

(2) 视觉编码器被刻意训练去丢弃底层细节,因为问答任务只需要高层语义理解。但在机器人灵巧操作中,恰恰是这些细微细节最要命。

VLA的性能并没有任何必然理由会随着VLM参数规模一起提升。

问题在于,预训练目标本身就是错位的。相比之下,以视频世界模型作为预训练目标,看起来要合理得多。我已经在这条路线上下了重注。


有网友反问道,如果说世界模型是更优的预训练目标,但当前主流模型仍基于VLM构建并产出实际成果,而世界模型却主要用于策略评估和合成数据,而非直接控制?

Jim Fan称,它们都是2025年的模型,期待2026年下一个重大突破。


物理图灵测试,还有多远?

今年,在红杉资本一场闭门演讲中,Jim Fan首次引入了「物理图灵测试」概念。

短短20分钟视频,他生动有趣地介绍了当下具身智能的困局,大规模仿真如何挽救机器人未来,以及英伟达具身智能的路线图。


那究竟什么是「物理图灵测试」?

一场周末party让家里乱的一团糟(左),有人替你收拾了一切,还为你和伴侣准备了烛光晚餐(右)。

当你回家后看到一切,根本无法辨别这是人类的作品,还是机器的作品——这便是物理图灵测试核心想法。



那么,人类现在走到哪一步了?离这个目标还有多远?

三个生动的例子,让人爆笑全场。不得不承认,这就是当前具身智能的现实。




左右滑动查看

Jim Fan表示,Ilya曾说过预训练终结了,同时AI「石油」互联网数据几乎枯竭。

但若要和机器人领域数据相比,搞LLM的研究者就会明白有多么得天独厚了。


在英伟达,团队让机器人实操去收集数据,机器人关节控制信号,且数值随时间持续变化。

任何人无法从互联网上获取,必须通过自己收集才能完成。


他们具体是如何操作的?

其中,离不开一个重要的方式——遥操。它能够识别人手姿态并流式传输给机器人系统。


通过这种方式,可以教机器人从面包机中拿起面包,然后在上面淋上蜂蜜。

可以想象的到,这是一个非常缓慢极其痛苦的过程。

在Jim Fan看来,如果将真实数据收集放在坐标轴中展示,它根本无法实现Scaling Law。

如何去打破这一困境,为机器人创造「无限能源」?


英伟达给出了一个更直接的解决方案——虚拟世界。

在仿真世界中,可以以1万倍于现实的速度训练,并通过「域随机化」(Domain Randomization)增强泛化能力。

也就意味着,系统在仿真中学会的任务,最终零样本迁移到真实世界。



接下来,Jim Fan提出了仿真世界模拟的三个阶段——

  • Simulation 1.0(数字孪生)

它需要精确建模机器人与物理环境,优点在于快、可控、可迁移,而缺点是构建成本高,强依赖人工建模。

  • Simulation 1.5(数字表亲)

大量3D资产、场景、纹理由模型自动生成,仍结合传统物理引擎,在真实与仿真之间取得工程上「足够接近」。

  • Simulation 2.0(神经物理引擎)

可利用视频扩散模型,直接生成「可交互的未来」,不再显示建模物理规则。

它的优势在于,能处理软体、液体等复杂物理,通过语言生成「反事实世界」。

Jim Fan还将其称之为「数字游牧者」(Digital Nomad)。


再回到当初这张坐标图,机器人数据Scaling Law很好地呈现了出来。


最终,所有这些数据流入了一个统一的模型,即VLA——输入:语言+视觉,输出:动作控制。

也就是如上提到了GR00T系VLA基础模型,从N1,到N1.5,再到N1.6三个版本不断升级迭代。

最后,Jim Fan指出物理AI的未来,不只是更聪明的机器人,而是一种新基础设施。

比如Physical API、物理APP Store,让技能可以像软件一样被分发到机器人系统中。

几天前,谷歌大佬Logan Kilpatrick预测,2026年将成为具身AI的重要一年。


用不了不久,我们将在现实世界中看到更多的机器人。

参考资料:

https://x.com/DrJimFan/status/2003879965369290797?s=20

https://www.youtube.com/watch?v=_2NijXqBESI

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
张雪峰前女友哭红眼,喊话不要给他泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给他泼脏水,曝两人分手原因

茶韵浮生
2026-03-26 20:26:51
和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

往史过眼云烟
2026-03-25 14:51:15
全国高速明天大调整!车主集体欢呼:早该这么干了

全国高速明天大调整!车主集体欢呼:早该这么干了

沙雕小琳琳
2026-03-26 02:05:39
A股:刚刚,大消息传来,请做好准备,3月27日周五将迎来新的变化

A股:刚刚,大消息传来,请做好准备,3月27日周五将迎来新的变化

夜深爱杂谈
2026-03-26 20:05:11
受权发布|中华人民共和国国务院令  第833号

受权发布|中华人民共和国国务院令  第833号

新华社
2026-03-26 17:03:04
以牙还牙!欧盟冻结对匈牙利160亿援助,投降俄军助乌军消灭150人

以牙还牙!欧盟冻结对匈牙利160亿援助,投降俄军助乌军消灭150人

史政先锋
2026-03-26 20:22:48
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
去世还不到48小时,张雪峰过往争议被扒,出轨传闻早已真相大白

去世还不到48小时,张雪峰过往争议被扒,出轨传闻早已真相大白

兰亭墨未干
2026-03-26 22:47:38
把刘涛抱在怀里,有谁注意到他手上的小动作,人品如何一目了然。

把刘涛抱在怀里,有谁注意到他手上的小动作,人品如何一目了然。

TVB的四小花
2026-03-27 01:19:43
跌光2500亿!泡泡玛特,股价崩塌

跌光2500亿!泡泡玛特,股价崩塌

财经锐眼
2026-03-26 18:54:18
突发!以色列彻底失控!

突发!以色列彻底失控!

财经要参
2026-03-26 21:58:11
全线跳水!刚刚,伊朗发动攻击

全线跳水!刚刚,伊朗发动攻击

中国基金报
2026-03-26 16:15:26
越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

知法而形
2026-03-26 17:28:20
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

岁月有情1314
2026-03-26 12:13:10
大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

小童历史
2026-03-25 18:20:29
张雪峰灵堂照曝光,门口摆满了花圈,网友看到遗像后心里酸酸的

张雪峰灵堂照曝光,门口摆满了花圈,网友看到遗像后心里酸酸的

180视角
2026-03-26 18:36:11
全球货币支付排名:美元跌至49.25%,欧元涨到22.82%,人民币呢

全球货币支付排名:美元跌至49.25%,欧元涨到22.82%,人民币呢

张嘴说财经
2026-03-26 20:56:17
中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

趣生活
2026-03-26 22:16:24
2026-03-27 03:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
艺术
亲子
教育
公开课

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版