网易首页 > 网易号 > 正文 申请入驻

具身智能机器人年度总结,来自英伟达机器人主管

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

“机器人领域仍处于蛮荒时代。”

这是英伟达机器人主管Jim Fan,在2025年,即将收官之际给出的判断。

乍一听,这个结论多少有些刺耳。

毕竟,在这一年里,我们已经看到机器人打乒乓球、打篮球,完成复杂的长程搬运与跨场景任务——



当然,也少不了各种翻车“冥”场面。



但就像Jim Fan,以及聪明的网友反复指出的那样:

  • 很多演示,本质上只是从上百次尝试中,挑选出来的最好一次。



这背后,恰恰暴露出机器人领域至今缺乏统一、可复现的标准评测体系的核心问题。

也正因如此,几乎人人都能通过添加限定词,宣称自己达到了SOTA。



除此之外,Jim Fan还指出——

当前机器人硬件进展快于软件,但硬件可靠性不足,反而限制了软件的迭代速度;同时,主流的VLM→VLA技术范式本身也存在结构性问题。

以下为分享全文:

2025年,机器人领域教给我的3件事

所有人都在为vibe coding感到兴奋。在节日气氛中,请允许我分享一下我对“机器人领域狂野西部”的焦虑——这是我在2025年学到的3个教训。

硬件走在软件前面,但硬件可靠性严重限制了软件迭代速度

我们已经看到了极其精妙的工程杰作:Optimus、e-Atlas、Figure、Neo、G1等等。

但问题是,我们最好的AI还远没有把这些前沿硬件的潜力榨干。(机器人)身体的能力,明显强过大脑目前能发出的指令

然而,要“伺候”这些机器人,往往需要一整个运维团队。

机器人不像人类那样会自我修复:过热、马达损坏、诡异的固件问题,几乎是日常噩梦。

错误一旦发生,就是不可逆、也不宽容的。

真正被scaling的,只有我的耐心。

机器人领域的基准测试,依然是一场史诗级灾难

在大模型世界里,人人都知道MMLU、SWE-Bench是怎么回事。

但在机器人领域没有任何共识:用什么硬件平台、任务如何定义、评分标准是什么、用哪种模拟器,还是直接上真实世界?

按定义来说,每个人都是SOTA——因为每次发新闻,都会临时定义一个新的benchmark。

每个人都会从100次失败里,挑出那次最好看的demo

到2026年,我们这个领域必须做得更好,不能再把可复现性和科学规范当成二等公民。

基于VLM的VLA路线,总感觉不太对

VLA指的是Vision-Language-Action(视觉-语言-动作)模型,目前这是机器人大脑的主流范式。

配方也很简单:拿一个预训练好的VLM checkpoint,在上面“嫁接”一个动作模块。

但仔细想想就会发现问题。VLM 本质上是被高度优化用来爬诸如视觉问答这类 benchmark的,这直接带来两个后果:

  • VLM的大多数参数,都服务于语言和知识,而不是物理世界;
  • 视觉编码器被主动训练去丢弃低层细节,因为问答任务只需要高层理解,但对机器人来说,微小细节对灵巧操作至关重要。

因此,VLA 的性能没有理由随着VLM参数规模的增长而线性提升。问题出在预训练目标本身就不对齐。

相比之下,视频世界模型(video world model)显然是一个更合理的机器人策略预训练目标。我正在在这个方向上下重注。

在Jim Fan的推文下面,不少网友也表示了赞同。

有网友表示,硬件的容错能力确实非常重要:

  • 硬件约束导致迭代变慢,是一个常被低估的瓶颈。软件可以高频更新,但物理系统必须建立在可靠的机械基础上,而这需要真实时间去验证和打磨。



硬件很关键,但数据很重要

在Jim Fan的讨论中,硬件被放到了核心位置,但与此同时,我们也发现数据作为一个核心元素被忽略了。

在机器人研究中,数据塑造模型能力,而模型的发挥又离不开硬件,这是其典型的全栈特性。

在今年,我们已经看到了像Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2等全新硬件本体。



从展示效果看,这些新硬件在运动能力上表现亮眼:

无论是宇树的翻跟头,还是小鹏机器人的步态控制,都已明显超出年初的平均水平,并且证明了大型机器人(成年人身高)也能像小型机器人一样灵活。

但真正现实的问题可能正如Jim和网友谈到的,如何在维持高性能的同时,进一步提升硬件可靠性,例如抗摔性、电池发热、长时间运行稳定性等工程层面的挑战。



在数据方面,今年最值得注意的例子之一是Generalist,它通过大量的数据规模证明了具身智能的Scaling law。



其中,数据越大,模型参数越高,模型在具体任务上的表现也就越好,符合我们在LLM上观察到的现象。



与此同时,也出现了像Sunday这样方便数据采集的定制化机器人硬件。



这套系统与机器人的手部协同设计,利用技能捕捉手套采集人类动作数据,并能以近90%的成功率转换为机器人可用数据。

同样受到关注的还有Egocentric-10K,一个汇集了1万小时工作数据的大型数据集。



可以说,在具身智能领域,数据的重要性已不言自明。但具体的数据路线仍未收敛:人类中心采集(可穿戴设备、Umi、视频)、真机遥操数据、仿真数据,以及互联网数据、数据模态、配比仍是开放问题。

2025机器人年度词汇——VLA

在模型方面,VLA毫无疑问是2025机器人领域最热的词汇。

根据伦敦国王学院、香港理工大学等研究机构的最新综述,仅2025年一年就发表了超200篇VLA工作。



前段时间更是有网友调侃道:2026年可能会有一万篇VLA工作。

那么,VLA到底是啥呢?

简单来说,VLA 赋予了机器人一个大脑,这个“大脑”可以同时处理以下三种模态的信息:

  • 视觉 (Vision, V): 通过摄像头感知环境,理解物体的形状、位置、颜色、状态和场景布局。
  • 语言 (Language, L): 理解人类的自然语言指令(例如,“把桌上的红苹果放到碗里”)并进行高层推理。
  • 动作 (Action, A): 将理解的指令转化为机器人可以执行的低级物理动作序列(例如,移动关节、抓取、推动等)。

传统机器人通常需要为每个新任务进行专门编程或训练,而VLA模型通过大规模数据学习,能够执行训练中未明确见过的任务,甚至在陌生环境下也能工作,从而具备泛化性。



但正如Jim Fan在上面提到的,基于VLM (视觉-语言模型) 的VLA模型,其骨架本质上是为问答和知识推理而优化的,其庞大的参数库和服务目标,与机器人所需的物理世界精细操作存在严重错位。

在这篇综述中,我们也找到了对Jim Fan提出的观点的一些回应,以问答形式梳理如下:

Q:VLM的视觉编码器倾向丢弃低层物理细节,仅保留高层语义(如“这是苹果”)。而这些微小细节恰恰决定了抓取、推动等动作的成功率

A:未来的 VLA 需要整合物理驱动的世界模型,内部表征 3D 几何、物理动态、因果关系和可供性,实现语义指令与物理精度的统一。

Q:由于VLM预训练目标与机器人控制不对齐,增加模型参数并不会线性提升性能。

A:通过“形态无关表征”解耦高层语义规划与低层本体感知控制,使通用机器人大脑能够通过轻量适配器实现零样本跨具身迁移,从而发挥数据规模带来的泛化能力,而非盲目堆叠参数。

Q:Jim Fan建议以视频世界模型作为机器人预训练目标,因为它天然编码时序动态与物理规律。

A:当前研究趋势是将世界模型能力“嫁接”到VLM上,例如训练数据驱动模拟器学习物理动态,再嵌入VLA作为解耦内部模拟器,实现显式规划,使VLA从“被动序列生成器”转向主动物理感知智能体。

此外,在数据和评测基准方面,综述更倾向“仿真派”,提出以模拟优先、失败为中心的数据范式。

一方面,依赖真实世界的大规模异构数据不可持续,未来需转向高保真模拟环境生成多样化轨迹。

另一方面,应充分利用失败轨迹,从中学习,提高数据利用效率。

在评测方面,现有标准过于依赖二元成功率,难以反映鲁棒性、效率和安全裕度。未来必须进行更全面的能力评估。

One more thing

最后插播两条趋势性消息:

据摩根士丹利的研究,机器人产业有望从当前的910亿美元激增至2050年的25万亿美元。



与此同时,硅谷巨头除微软/Anthropic外,全部加码机器人软/硬件。



所以,虽然现实很骨感,但机器人题材依旧sexy~

[1]https://suyuz1.github.io/Survery/

[2]https://x.com/DrJimFan/status/2005340845055340558[3]https://x.com/rohanpaul_ai/status/2004891515878080673

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
救命,这只酱板鸭已经在我手机复仇了一万遍

救命,这只酱板鸭已经在我手机复仇了一万遍

网易上流
2026-03-26 14:06:10
生育大局已定:不出意外的话,从2026年起新生人口将迎来3大变化

生育大局已定:不出意外的话,从2026年起新生人口将迎来3大变化

江江食研社
2026-03-24 03:30:08
龙年生娃的热乎劲儿算是彻底凉了

龙年生娃的热乎劲儿算是彻底凉了

岁月有情1314
2026-03-26 13:51:03
“鬼城”又添一座!房价2万暴跌到4千,住户:晚上开灯才可怕!

“鬼城”又添一座!房价2万暴跌到4千,住户:晚上开灯才可怕!

猫叔东山再起
2026-02-13 10:15:03
奥迪突然官宣:32.29万起,新车正式上市

奥迪突然官宣:32.29万起,新车正式上市

高科技爱好者
2026-03-25 23:08:37
不仅抗炎,这还是眼睛、大脑最爱的营养!

不仅抗炎,这还是眼睛、大脑最爱的营养!

FitEmpire健身领域
2026-03-26 14:53:07
跑步到底健康吗?

跑步到底健康吗?

张佳玮写字的地方
2026-03-26 17:04:54
拒绝修改!萧华正式回应65场评奖规则:我认为它是有效的

拒绝修改!萧华正式回应65场评奖规则:我认为它是有效的

罗说NBA
2026-03-26 07:22:21
越南燃油价格暴涨,民众抱怨“加不起油”

越南燃油价格暴涨,民众抱怨“加不起油”

界面新闻
2026-03-26 10:23:58
欧尔班说乌克兰深度介入匈牙利政治

欧尔班说乌克兰深度介入匈牙利政治

参考消息
2026-03-25 20:51:04
别克威朗最大降幅49%,配1.5T+184马力,该抄底还是再等等?

别克威朗最大降幅49%,配1.5T+184马力,该抄底还是再等等?

鸭梨说车
2026-03-25 16:36:21
小S长女Elly海边辣照,这身段谁敢信才20岁?

小S长女Elly海边辣照,这身段谁敢信才20岁?

娱乐领航家
2026-03-25 23:00:03
眷枕:一种关于存在的温柔抵抗

眷枕:一种关于存在的温柔抵抗

疾跑的小蜗牛
2026-03-26 22:06:37
伊朗拒绝美国停战方案并提出伊方5项条件

伊朗拒绝美国停战方案并提出伊方5项条件

新京报
2026-03-25 23:58:14
智能麻将桌杀到:传统麻将馆真的要被“取代”了?

智能麻将桌杀到:传统麻将馆真的要被“取代”了?

生活新鲜市
2026-03-20 06:28:56
全体台胞收到通知!两岸统一后会收到基建大礼包,可自驾前往北京

全体台胞收到通知!两岸统一后会收到基建大礼包,可自驾前往北京

史行途
2026-03-26 22:53:08
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
为什么闲鱼很多卖家只支持自提?网友:等你碰上到手刀的就老实了

为什么闲鱼很多卖家只支持自提?网友:等你碰上到手刀的就老实了

另子维爱读史
2026-03-22 22:34:48
曝张雪峰去年3月已立遗嘱,遗产由女儿单独继承,他真的很爱女儿

曝张雪峰去年3月已立遗嘱,遗产由女儿单独继承,他真的很爱女儿

观鱼听雨
2026-03-26 10:43:02
2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

万象硬核本尊
2026-03-26 22:23:37
2026-03-26 23:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
时尚
房产
旅游
家居

教育要闻

天天学习|走进课堂的“大朋友”

400万人爱过的女孩,被黄谣网暴180天后

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版