网易首页 > 网易号 > 正文 申请入驻

30人团队震撼英伟达!Jim Fan自曝三个教训,重押世界模型

0
分享至


新智元报道

编辑:桃子

【新智元导读】AI终极挑战——物理图灵测试。这一年,英伟达Jim Fan领导的GEAR实验室,正用一套完整的技术栈,向这堵高墙发起总攻。

机器人「物理图灵测试」距离真正通关,还需一段时间。

英文达杰出科学家Jim Fan表示,我正全身心投入一个单一使命:为机器人解决「Physical Turing Test」(物理图灵测试)。

这是AI的下一个挑战,甚至可能是「终极挑战」。


如今,人类光靠文本字符串实现的超级智能,恐怕就已经能拿到诺贝尔奖了。

不过机器人现在,连黑猩猩级灵活度、操作能力都还没有。

「莫拉维克悖论」(Moravec's paradox)是一种必须被打破的诅咒,是一堵必须被撕碎的高墙。

没有任何东西,应该阻挡人类在这个星球上实现指数级的物理生产力,甚至有朝一日,把这种能力带到其他星球。

这一年,Jim Fan带队在英伟达创立了GEAR实验室,30人团队已初具规模。

令人震撼的是,团队的产出和影响力,远远超过它的规模。

从基础模型、世界模型、具身推理、仿真、全身控制,以及各种形态RL,几乎囊括了机器人学习的完整技术栈。


接下来,一起看看GEAR 2025年。

GR00T基础模型,一年三代

GR00T是英伟达提出的「通用机器人基础模型体系」,核心目标——

让机器人像「大模型」一样,具备跨任务、跨场景、可迁移、可学习的能力。

GR00T VLA基础模型,是最具代表性的成果之一。

它将视觉+语言+动作三种模态,统一到一个端到端的模型中,让机器人能够看懂环境、理解人类指令,生成可转型的连续动作。

这一年,英伟达对GR00T VLA进行了高频迭代:

今年3月开源了N1,紧接着6月发布了N1.5,12月又推出了N1.6。

GR00T N1

3月,GR00T N1开源首发,仅用20亿参数,即可验证VLA架构在真实机器人任务中的可行性。


它的开源,为整个机器人生态系统提供了一个前沿的基础模型。


GROOT N1可以轻松在上见任务中进行泛化,或执行需要长上下文和多种通用技能组合的多步骤任务。

比如,抓取、用一只手臂/两只手臂移动物体,以及在两个手臂之间传递物品。


GR00T N1.5

GR00T N1.5是N1的升级版,在架构、数据、建模层面进行了多重优化。

它使用了更领先的视觉语言模型——Eagle VLM,提升了语言理解和视觉感知力。

还加了FLARE损失,提高了对未来动作预测的一致性。

在仿真机器人基准任务中,GR00T N1.5成功率明显由于上一代模型。


GR00T N1.6

这个月迭代后的GR00T N1.6,集成了更强的架构和推理能力,让机器人在复杂环境中表现更智能、更稳健。


GR00T Dreams:机器人「做梦」学习

视频世界模型,是数据驱动的物理和图形引擎。

DreamGen,是一种利用AI视频世界模型,来生成合成训练数据的机器人学习框架。


它通过「数字梦境」生成大量虚拟机器人行为,再从视频中提取动作数据,用于训练机器人策略,从而实现新任务和新环境中的泛化学习。

实验验证了,机器人从只有一个动作示例的场景中,通过「梦境」生成数据,在新任务上有很高的成功率。


在10个新环境+22种新行为上,机器人都能泛化成功。

SONIC:让机器人具备「通用运动能力」

为了让机器人不仅只会做某个动作,而具备几乎所有人类可以做的动作。

英伟达团队提出的SONIC,一个用于人形机器人控制的通用运动系统。

它的核心目标是,让人形机器人像「角色」一样被控制、学习和驱动。


SONIC出发点很明确,运动追踪是人形机器人可扩展基础任务。

只要机器人能够稳定、准确跟踪任意人类动作,那么行走、转身、抬手、抓取、协调全身运动等复杂行为,都可以统一到同一个框架中。

论文中,团队将运动追踪任务进行了「超大规模化」(Supersize),即9000+GPU小时,以及超1亿动作帧,覆盖了机器丰富的人体动作分布。

这让SONIC学会了人类运行的整体结构,而且,研究人员还基于SONIC构建了多种控制与交互方式。


SONIC的探索,为通用人形机器人提供了一个可扩展、可编程、可落地的运动基础系统。

其他重磅成果

除了以上一些重磅成果,团队还在面向VLA强化学习后训练上,以及sim2real的RL实践做出了探索。

比如PLD(Probe, Learn, Distill),让机器人从失败中「自我进化」。

它是一套真实世界「自举式学习」的训练范式。

一般来说,机器人在真实环境中,执行高精度操作任务时,或失败、会偏移,都成为了一种信号。


PLD引入了真实世界残差强化学习(Residual Reinforcement Learning),不推翻原有策略,而在已学会动作基础上,学习「微调残差」,专门负责纠错、恢复、补偿。

最后,它将真实世界中学到的改进经验,蒸馏回VLA主模型,使用SFT,将临场学到的技巧变成长期能力。

对此,Jim Fan表示RL能够通过后训练VLA模型,在高精度任务(如GPU插入)中实现接近100%的鲁棒性。

这是解决工业部署「最后一公里」难题的关键进展。


VIRAL(Visual Sim-to-Real at Scale)是一套纯视觉人形机器人Sim-to-Real框架,为了解决一个长期难题——

让机器人在真实世界中,零样本完成「走+站+操作」连续长时任务。

研究在Unitree G1人形机器人上,验证了最长54次连续loco-manipulation循环,没有任何真实世界微调,仅使用RGB纯视觉输入。


另外,DoorMan是英伟达首个仅用RGB视觉、完全在仿真中训练、可零样本迁移到真实世界的人形机器人「开门」策略。

它在复杂的行走+操作+物体交互任务上,性能甚至超越人类遥操员。

「开门」是人形机器人最难的任务之一,因为它同时包含行走、精细操作等任务的重叠。

以往的方法,要么依赖特权状态(即力、位姿),要么真实数据昂贵、不可规模化。

而DoorMan诞生后,仅用了RGB,相同控制线,就让仿真直出真实世界。


此外,还有FLARE全新算法, 是一种隐式世界模型的策略,核心思想是预测「未来对动作有用的表示」。


它不会去预测未来的像素,而是预测对动作有用的未来潜变量,让机器人在不断增加推理开销的情况下,学会提前想一想。


在训练中,FLARE在一个标准VLA策略模型中,引入了未来token——在Transformer中额外加入少量学习token。

实验结果显示,在4个真实操作任务,每个任务100条轨迹,GR-1平均成功率在95.1%。





左右滑动查看

三个教训,重注「视频世界模型」

这一年,所有人几乎都在为「氛围编程」(vibe coding)感到震惊。

休假这几天,Jim Fan还分享了对机器人这个蛮荒又混乱的西部世界的焦虑——

我在2025年学到的三个教训

1. 硬件跑在软件前面,但硬件的可靠性,严重卡住了软件的迭代速度

我们已经看到了,许多堪称艺术品的工程成果,比如Optimus、e-Atlas、Figure、Neo、G1等等。

最强的AI还远远没有把这些前沿硬件的潜力榨干。

机器人的「身体」能做到的事情,明显多于它的「大脑」目前能指挥的范围。

但问题在于,照看这些机器人往往需要一整支团队全天候盯着。

和人类不一样,机器人不会自己从磕碰中恢复。过热、马达损坏、各种诡异的固件问题,几乎每天都在折磨工程师。犯错是不可逆的,而且一点都不留情。

到头来,唯一真正能规模化的,只有我的耐心。

2.机器人领域的基准测试,依然是一场史诗级灾难

在大语言模型圈子里,很多人已经把MMLU和SWE-Bench当成常识了。

机器人这边?先把手里的啤酒端稳。几乎没有任何共识:用什么硬件平台、怎么定义任务、评分标准是什么、用哪种仿真器,或者真实世界要怎么搭。

结果就是——每个人在自己临时为每次新闻发布现编的基准上,按定义都是SOTA。

每个人都会从100次重试里,挑一个最好看的demo拿出来秀。

2026年,我们这个领域必须做得更好,别再把可复现性和科学严谨性当成「二等公民」。

3. 基于VLM的VLA,总感觉哪里不对

VLA指的是「视觉-语言-动作」(vision-language-action)模型,这是当前机器人「大脑」的主流路线。

套路也很简单:拿一个预训练好的VLM checkpoint(模型权重),在上面嫁接一个动作模块。

但仔细想想就会发现,VLM本身是被高度优化来刷诸如视觉问答这类基准的。

这直接带来了两个问题:

(1) VLM里的大多数参数,其实都服务于语言和知识,而不是物理世界;

(2) 视觉编码器被刻意训练去丢弃底层细节,因为问答任务只需要高层语义理解。但在机器人灵巧操作中,恰恰是这些细微细节最要命。

VLA的性能并没有任何必然理由会随着VLM参数规模一起提升。

问题在于,预训练目标本身就是错位的。相比之下,以视频世界模型作为预训练目标,看起来要合理得多。我已经在这条路线上下了重注。


有网友反问道,如果说世界模型是更优的预训练目标,但当前主流模型仍基于VLM构建并产出实际成果,而世界模型却主要用于策略评估和合成数据,而非直接控制?

Jim Fan称,它们都是2025年的模型,期待2026年下一个重大突破。


物理图灵测试,还有多远?

今年,在红杉资本一场闭门演讲中,Jim Fan首次引入了「物理图灵测试」概念。

短短20分钟视频,他生动有趣地介绍了当下具身智能的困局,大规模仿真如何挽救机器人未来,以及英伟达具身智能的路线图。


那究竟什么是「物理图灵测试」?

一场周末party让家里乱的一团糟(左),有人替你收拾了一切,还为你和伴侣准备了烛光晚餐(右)。

当你回家后看到一切,根本无法辨别这是人类的作品,还是机器的作品——这便是物理图灵测试核心想法。



那么,人类现在走到哪一步了?离这个目标还有多远?

三个生动的例子,让人爆笑全场。不得不承认,这就是当前具身智能的现实。




左右滑动查看

Jim Fan表示,Ilya曾说过预训练终结了,同时AI「石油」互联网数据几乎枯竭。

但若要和机器人领域数据相比,搞LLM的研究者就会明白有多么得天独厚了。


在英伟达,团队让机器人实操去收集数据,机器人关节控制信号,且数值随时间持续变化。

任何人无法从互联网上获取,必须通过自己收集才能完成。


他们具体是如何操作的?

其中,离不开一个重要的方式——遥操。它能够识别人手姿态并流式传输给机器人系统。


通过这种方式,可以教机器人从面包机中拿起面包,然后在上面淋上蜂蜜。

可以想象的到,这是一个非常缓慢极其痛苦的过程。

在Jim Fan看来,如果将真实数据收集放在坐标轴中展示,它根本无法实现Scaling Law。

如何去打破这一困境,为机器人创造「无限能源」?


英伟达给出了一个更直接的解决方案——虚拟世界。

在仿真世界中,可以以1万倍于现实的速度训练,并通过「域随机化」(Domain Randomization)增强泛化能力。

也就意味着,系统在仿真中学会的任务,最终零样本迁移到真实世界。



接下来,Jim Fan提出了仿真世界模拟的三个阶段——

  • Simulation 1.0(数字孪生)

它需要精确建模机器人与物理环境,优点在于快、可控、可迁移,而缺点是构建成本高,强依赖人工建模。

  • Simulation 1.5(数字表亲)

大量3D资产、场景、纹理由模型自动生成,仍结合传统物理引擎,在真实与仿真之间取得工程上「足够接近」。

  • Simulation 2.0(神经物理引擎)

可利用视频扩散模型,直接生成「可交互的未来」,不再显示建模物理规则。

它的优势在于,能处理软体、液体等复杂物理,通过语言生成「反事实世界」。

Jim Fan还将其称之为「数字游牧者」(Digital Nomad)。


再回到当初这张坐标图,机器人数据Scaling Law很好地呈现了出来。


最终,所有这些数据流入了一个统一的模型,即VLA——输入:语言+视觉,输出:动作控制。

也就是如上提到了GR00T系VLA基础模型,从N1,到N1.5,再到N1.6三个版本不断升级迭代。

最后,Jim Fan指出物理AI的未来,不只是更聪明的机器人,而是一种新基础设施。

比如Physical API、物理APP Store,让技能可以像软件一样被分发到机器人系统中。

几天前,谷歌大佬Logan Kilpatrick预测,2026年将成为具身AI的重要一年。


用不了不久,我们将在现实世界中看到更多的机器人。

参考资料:

https://x.com/DrJimFan/status/2003879965369290797?s=20

https://www.youtube.com/watch?v=_2NijXqBESI

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1972年,毛主席当众指着她鼻子骂:你男人跟别人好了,你怎么不离婚?

1972年,毛主席当众指着她鼻子骂:你男人跟别人好了,你怎么不离婚?

寄史言志
2026-01-07 21:08:15
挥泪斩马谡!阿森纳决定出售“8000万先生”!1亿强援投奔兵工厂

挥泪斩马谡!阿森纳决定出售“8000万先生”!1亿强援投奔兵工厂

头狼追球
2026-01-18 11:50:26
昔日中超标王或惨遭意甲劲旅解约,有望重返中超,新东家浮出水面

昔日中超标王或惨遭意甲劲旅解约,有望重返中超,新东家浮出水面

零度眼看球
2026-01-18 08:44:57
原来聂卫平的父亲是他,难怪能够十连胜为国争光,真是虎父无犬子

原来聂卫平的父亲是他,难怪能够十连胜为国争光,真是虎父无犬子

以茶带书
2026-01-16 17:17:29
金华任命一新副市长、公安局局长!新任市委副书记明确!

金华任命一新副市长、公安局局长!新任市委副书记明确!

浙中在线
2026-01-18 20:13:45
新一代奥迪Q5L卖30.98万起!盘盘优缺点,我推荐购买吗?

新一代奥迪Q5L卖30.98万起!盘盘优缺点,我推荐购买吗?

蜗牛车志V
2026-01-18 18:18:04
大连天气:最冷不过如此 明日取暖全靠抖!

大连天气:最冷不过如此 明日取暖全靠抖!

大连e族
2026-01-18 17:32:16
中央军委纪委扩大会议在京召开,中央军委副主席张升民出席会议并讲话

中央军委纪委扩大会议在京召开,中央军委副主席张升民出席会议并讲话

新京报政事儿
2026-01-16 20:00:04
单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

流苏晚晴
2026-01-06 18:25:30
我被当众降职那天,妻子空降成了最大股东,她:重新宣布人事任命

我被当众降职那天,妻子空降成了最大股东,她:重新宣布人事任命

二十一号故事铺
2025-08-21 19:26:09
广东宏远VS四川男篮!杜锋拒绝爆冷,崔永熙提前复出,央视直播

广东宏远VS四川男篮!杜锋拒绝爆冷,崔永熙提前复出,央视直播

体坛瞎白话
2026-01-18 15:06:30
明天A股就要开盘,周末发生了4个重磅消息,对明日市场有何影响?

明天A股就要开盘,周末发生了4个重磅消息,对明日市场有何影响?

股市皆大事
2026-01-18 08:48:43
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
再见里夫斯!老詹喜迎20+8全能锋线!湖人阵容再升级冲冠

再见里夫斯!老詹喜迎20+8全能锋线!湖人阵容再升级冲冠

湖人侃球师
2026-01-18 07:34:34
被斯科尔斯质疑防不住哈兰德,利马:他可以来我家批评我

被斯科尔斯质疑防不住哈兰德,利马:他可以来我家批评我

懂球帝
2026-01-18 20:29:36
CBA第一后卫产生,打爆郭士强爱徒,中国男篮必须带他

CBA第一后卫产生,打爆郭士强爱徒,中国男篮必须带他

宗介说体育
2026-01-18 14:52:28
韩国研究团队称辛奇致癌?韩国网友:那水也能致癌了!

韩国研究团队称辛奇致癌?韩国网友:那水也能致癌了!

奋斗在韩国
2026-01-18 16:48:39
聂卫平前妻王静太通透鼓励儿子看望后妈,这份豁达孔祥明真比不了

聂卫平前妻王静太通透鼓励儿子看望后妈,这份豁达孔祥明真比不了

TVB的四小花
2026-01-18 15:25:53
吃尽中国红利,却卸磨杀驴投靠美国,商务部出手,被查一点都不冤

吃尽中国红利,却卸磨杀驴投靠美国,商务部出手,被查一点都不冤

古事寻踪记
2026-01-18 07:04:49
投机情绪降温,市场风格或生变!哪类板块值得关注?——道达对话牛博士

投机情绪降温,市场风格或生变!哪类板块值得关注?——道达对话牛博士

每日经济新闻
2026-01-18 18:39:48
2026-01-18 21:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14359文章数 66512关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

人民日报:罗永浩们、贾国龙们都有要汲取教训的地方

头条要闻

人民日报:罗永浩们、贾国龙们都有要汲取教训的地方

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

亲子
游戏
家居
旅游
公开课

亲子要闻

官方提醒病毒传播!已有多人中招,目前没有特效药,家长们注意了

《天下贰·经典版》开服一周,为何能够如此火爆?

家居要闻

岁月柔情 现代品质轻奢

旅游要闻

赏灯会、听演唱会、享优惠 要过安逸年就来四川体验新春文旅“大餐”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版