网易首页 > 网易号 > 正文 申请入驻

具身智能机器人年度总结,来自英伟达机器人主管

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

“机器人领域仍处于蛮荒时代。”

这是英伟达机器人主管Jim Fan,在2025年,即将收官之际给出的判断。

乍一听,这个结论多少有些刺耳。

毕竟,在这一年里,我们已经看到机器人打乒乓球、打篮球,完成复杂的长程搬运与跨场景任务——



当然,也少不了各种翻车“冥”场面。



但就像Jim Fan,以及聪明的网友反复指出的那样:

  • 很多演示,本质上只是从上百次尝试中,挑选出来的最好一次。



这背后,恰恰暴露出机器人领域至今缺乏统一、可复现的标准评测体系的核心问题。

也正因如此,几乎人人都能通过添加限定词,宣称自己达到了SOTA。



除此之外,Jim Fan还指出——

当前机器人硬件进展快于软件,但硬件可靠性不足,反而限制了软件的迭代速度;同时,主流的VLM→VLA技术范式本身也存在结构性问题。

以下为分享全文:

2025年,机器人领域教给我的3件事

所有人都在为vibe coding感到兴奋。在节日气氛中,请允许我分享一下我对“机器人领域狂野西部”的焦虑——这是我在2025年学到的3个教训。

硬件走在软件前面,但硬件可靠性严重限制了软件迭代速度

我们已经看到了极其精妙的工程杰作:Optimus、e-Atlas、Figure、Neo、G1等等。

但问题是,我们最好的AI还远没有把这些前沿硬件的潜力榨干。(机器人)身体的能力,明显强过大脑目前能发出的指令

然而,要“伺候”这些机器人,往往需要一整个运维团队。

机器人不像人类那样会自我修复:过热、马达损坏、诡异的固件问题,几乎是日常噩梦。

错误一旦发生,就是不可逆、也不宽容的。

真正被scaling的,只有我的耐心。

机器人领域的基准测试,依然是一场史诗级灾难

在大模型世界里,人人都知道MMLU、SWE-Bench是怎么回事。

但在机器人领域没有任何共识:用什么硬件平台、任务如何定义、评分标准是什么、用哪种模拟器,还是直接上真实世界?

按定义来说,每个人都是SOTA——因为每次发新闻,都会临时定义一个新的benchmark。

每个人都会从100次失败里,挑出那次最好看的demo

到2026年,我们这个领域必须做得更好,不能再把可复现性和科学规范当成二等公民。

基于VLM的VLA路线,总感觉不太对

VLA指的是Vision-Language-Action(视觉-语言-动作)模型,目前这是机器人大脑的主流范式。

配方也很简单:拿一个预训练好的VLM checkpoint,在上面“嫁接”一个动作模块。

但仔细想想就会发现问题。VLM 本质上是被高度优化用来爬诸如视觉问答这类 benchmark的,这直接带来两个后果:

  • VLM的大多数参数,都服务于语言和知识,而不是物理世界;
  • 视觉编码器被主动训练去丢弃低层细节,因为问答任务只需要高层理解,但对机器人来说,微小细节对灵巧操作至关重要。

因此,VLA 的性能没有理由随着VLM参数规模的增长而线性提升。问题出在预训练目标本身就不对齐。

相比之下,视频世界模型(video world model)显然是一个更合理的机器人策略预训练目标。我正在在这个方向上下重注。

在Jim Fan的推文下面,不少网友也表示了赞同。

有网友表示,硬件的容错能力确实非常重要:

  • 硬件约束导致迭代变慢,是一个常被低估的瓶颈。软件可以高频更新,但物理系统必须建立在可靠的机械基础上,而这需要真实时间去验证和打磨。



硬件很关键,但数据很重要

在Jim Fan的讨论中,硬件被放到了核心位置,但与此同时,我们也发现数据作为一个核心元素被忽略了。

在机器人研究中,数据塑造模型能力,而模型的发挥又离不开硬件,这是其典型的全栈特性。

在今年,我们已经看到了像Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2等全新硬件本体。



从展示效果看,这些新硬件在运动能力上表现亮眼:

无论是宇树的翻跟头,还是小鹏机器人的步态控制,都已明显超出年初的平均水平,并且证明了大型机器人(成年人身高)也能像小型机器人一样灵活。

但真正现实的问题可能正如Jim和网友谈到的,如何在维持高性能的同时,进一步提升硬件可靠性,例如抗摔性、电池发热、长时间运行稳定性等工程层面的挑战。



在数据方面,今年最值得注意的例子之一是Generalist,它通过大量的数据规模证明了具身智能的Scaling law。



其中,数据越大,模型参数越高,模型在具体任务上的表现也就越好,符合我们在LLM上观察到的现象。



与此同时,也出现了像Sunday这样方便数据采集的定制化机器人硬件。



这套系统与机器人的手部协同设计,利用技能捕捉手套采集人类动作数据,并能以近90%的成功率转换为机器人可用数据。

同样受到关注的还有Egocentric-10K,一个汇集了1万小时工作数据的大型数据集。



可以说,在具身智能领域,数据的重要性已不言自明。但具体的数据路线仍未收敛:人类中心采集(可穿戴设备、Umi、视频)、真机遥操数据、仿真数据,以及互联网数据、数据模态、配比仍是开放问题。

2025机器人年度词汇——VLA

在模型方面,VLA毫无疑问是2025机器人领域最热的词汇。

根据伦敦国王学院、香港理工大学等研究机构的最新综述,仅2025年一年就发表了超200篇VLA工作。



前段时间更是有网友调侃道:2026年可能会有一万篇VLA工作。

那么,VLA到底是啥呢?

简单来说,VLA 赋予了机器人一个大脑,这个“大脑”可以同时处理以下三种模态的信息:

  • 视觉 (Vision, V): 通过摄像头感知环境,理解物体的形状、位置、颜色、状态和场景布局。
  • 语言 (Language, L): 理解人类的自然语言指令(例如,“把桌上的红苹果放到碗里”)并进行高层推理。
  • 动作 (Action, A): 将理解的指令转化为机器人可以执行的低级物理动作序列(例如,移动关节、抓取、推动等)。

传统机器人通常需要为每个新任务进行专门编程或训练,而VLA模型通过大规模数据学习,能够执行训练中未明确见过的任务,甚至在陌生环境下也能工作,从而具备泛化性。



但正如Jim Fan在上面提到的,基于VLM (视觉-语言模型) 的VLA模型,其骨架本质上是为问答和知识推理而优化的,其庞大的参数库和服务目标,与机器人所需的物理世界精细操作存在严重错位。

在这篇综述中,我们也找到了对Jim Fan提出的观点的一些回应,以问答形式梳理如下:

Q:VLM的视觉编码器倾向丢弃低层物理细节,仅保留高层语义(如“这是苹果”)。而这些微小细节恰恰决定了抓取、推动等动作的成功率

A:未来的 VLA 需要整合物理驱动的世界模型,内部表征 3D 几何、物理动态、因果关系和可供性,实现语义指令与物理精度的统一。

Q:由于VLM预训练目标与机器人控制不对齐,增加模型参数并不会线性提升性能。

A:通过“形态无关表征”解耦高层语义规划与低层本体感知控制,使通用机器人大脑能够通过轻量适配器实现零样本跨具身迁移,从而发挥数据规模带来的泛化能力,而非盲目堆叠参数。

Q:Jim Fan建议以视频世界模型作为机器人预训练目标,因为它天然编码时序动态与物理规律。

A:当前研究趋势是将世界模型能力“嫁接”到VLM上,例如训练数据驱动模拟器学习物理动态,再嵌入VLA作为解耦内部模拟器,实现显式规划,使VLA从“被动序列生成器”转向主动物理感知智能体。

此外,在数据和评测基准方面,综述更倾向“仿真派”,提出以模拟优先、失败为中心的数据范式。

一方面,依赖真实世界的大规模异构数据不可持续,未来需转向高保真模拟环境生成多样化轨迹。

另一方面,应充分利用失败轨迹,从中学习,提高数据利用效率。

在评测方面,现有标准过于依赖二元成功率,难以反映鲁棒性、效率和安全裕度。未来必须进行更全面的能力评估。

One more thing

最后插播两条趋势性消息:

据摩根士丹利的研究,机器人产业有望从当前的910亿美元激增至2050年的25万亿美元。



与此同时,硅谷巨头除微软/Anthropic外,全部加码机器人软/硬件。



所以,虽然现实很骨感,但机器人题材依旧sexy~

[1]https://suyuz1.github.io/Survery/

[2]https://x.com/DrJimFan/status/2005340845055340558[3]https://x.com/rohanpaul_ai/status/2004891515878080673

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩国女星自爆刚出道因身材好被迫裸露…

韩国女星自爆刚出道因身材好被迫裸露…

奋斗在韩国
2026-01-05 19:40:50
长春街头野猪乱窜,还顺便逛了超市和加油站;当地:没伤到人,已击毙

长春街头野猪乱窜,还顺便逛了超市和加油站;当地:没伤到人,已击毙

大风新闻
2026-01-08 11:33:03
中日韩技术领先,为啥欧洲企业先量产固态电池?都是套路

中日韩技术领先,为啥欧洲企业先量产固态电池?都是套路

趣文说娱
2026-01-07 18:10:47
美军飞机长驱直入,中国雷达“失声”?真相恰恰暴露更残酷的问题

美军飞机长驱直入,中国雷达“失声”?真相恰恰暴露更残酷的问题

郭蛹包工头
2026-01-07 13:29:18
回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

老澽爆笑大聪明
2026-01-07 17:10:06
阿根廷大逆袭!米莱执政两年,通胀暴跌,经济增速扭负为正!

阿根廷大逆袭!米莱执政两年,通胀暴跌,经济增速扭负为正!

百态人间
2026-01-07 16:41:49
江青想停止对刘思齐的接济,毛主席为此发火明确表示:只要我有一口气,就绝不会停止照顾她

江青想停止对刘思齐的接济,毛主席为此发火明确表示:只要我有一口气,就绝不会停止照顾她

老杉说历史
2026-01-07 22:18:15
规则改写?美军直接扣押油轮,俄方只能谴责,中国静观其变是对的

规则改写?美军直接扣押油轮,俄方只能谴责,中国静观其变是对的

小樾说历史
2026-01-08 11:57:02
一锤在锤刘一诺火力全开,檀健次滤镜破碎果然男人都一个样

一锤在锤刘一诺火力全开,檀健次滤镜破碎果然男人都一个样

阿雹娱乐
2026-01-08 11:47:00
26负,阿森纳英超对利物浦输球场次并列最多

26负,阿森纳英超对利物浦输球场次并列最多

懂球帝
2026-01-08 00:32:50
国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

回旋镖
2026-01-01 21:00:24
男子出走失联5天后续:原因曝光,车被丢高速,家人已做最坏打算

男子出走失联5天后续:原因曝光,车被丢高速,家人已做最坏打算

不写散文诗
2026-01-07 15:17:21
博主:巴西国际边锋维蒂尼奥无缘加盟辽宁铁人

博主:巴西国际边锋维蒂尼奥无缘加盟辽宁铁人

懂球帝
2026-01-08 10:33:20
德国杯夺冠奖金丰厚!樊振东5年捐款数字曝光,球迷喊话:这次请为自己花

德国杯夺冠奖金丰厚!樊振东5年捐款数字曝光,球迷喊话:这次请为自己花

好乒乓
2026-01-08 01:19:44
震惊!网传柬埔寨木牌街头,一三轮车拉着的铁笼,半蹲着几名男子

震惊!网传柬埔寨木牌街头,一三轮车拉着的铁笼,半蹲着几名男子

火山詩话
2026-01-08 13:16:47
国羽奥运冠军2-1大逆转!世锦赛冠军7-21出局!8强决出8席国羽3席

国羽奥运冠军2-1大逆转!世锦赛冠军7-21出局!8强决出8席国羽3席

求球不落谛
2026-01-08 12:28:53
赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

古书记史
2025-12-12 11:21:38
洪森向柬百姓索取扁米替代方便面,他女儿是商业大亨不捐款

洪森向柬百姓索取扁米替代方便面,他女儿是商业大亨不捐款

前沿天地
2026-01-08 12:04:11
天呢!烫码?没想到香烟买卖会垄断到如此程度,难怪这么暴利…

天呢!烫码?没想到香烟买卖会垄断到如此程度,难怪这么暴利…

慧翔百科
2026-01-07 09:07:26
苏联不要的装备,70万武器被八路军拉3天3夜,捡出“半个军械库”

苏联不要的装备,70万武器被八路军拉3天3夜,捡出“半个军械库”

古书记史
2025-12-15 23:29:05
2026-01-08 14:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
11985文章数 176357关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

委内瑞拉外长:感谢中方支持

头条要闻

委内瑞拉外长:感谢中方支持

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

不谈颠覆与奇迹,智驾企业还能聊点什么?

态度原创

旅游
本地
房产
教育
军事航空

旅游要闻

报告:预计2025-2026冬季,我国冰雪旅游休闲收入有望达到4500亿元

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

房产要闻

三亚新房,又全国第一了!

教育要闻

孩子的科技教育怎么跟上时代?

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版