网易首页 > 网易号 > 正文 申请入驻

智元登顶 WorldArena:具身智能不需要 "发布会演员" | 前沿在线

0
分享至



编辑:前沿在线 编辑部

最近跑了好几场具身智能的会,有个特别直观的感受:整个行业好像都陷入了一种 “展示竞赛” 的怪圈。

这边刚发布的人形机器人,自由度又多了 2 个,电机扭矩涨了 1 牛米,现场跳个舞、翻个跟头,台下一片掌声;

那边的新闻稿刚出来,又拿下了某个工厂的落地订单,“商业化突破”的标题刷遍了行业群;

还有的公司在卷世界模型,比谁生成的视频更长、更清晰,仿佛 4K 视频做出来,机器人就真的能理解世界了。


但看了这么多热闹,我心里一直有个疑问:这些看起来很酷炫的机器人,真的能走进我们的生活吗?

直到最近的 CVPR 2026 ,看到 WorldArena 世界模型赛道的最终榜单 ——智元的 Genie Envisioner 2.0 拿了总分第一,我才终于找到这个问题的答案。


比起 “又一个行业第一” 的头衔,更重要的是:智元这次拿出的不是一个单点技术,而是一整套完整的闭环—— 从开源失败数据集,到做能预判因果的动作模型,再到能让机器人在里面练技能的虚拟世界,他们走了一条完全不一样的路:不做给人看的花活,沉下心来给机器人打底层的基础。

这不是一次普通的迭代,是整个具身智能行业的一个分水岭。


我们不需要会画画的机器人

先聊一个很多人都搞错的问题:世界模型到底是用来干嘛的?

过去两年,Sora 带火了世界模型的概念,所有人都在卷视频生成:谁能生成更长的视频,谁的画面更真实,谁的分辨率更高。


仿佛世界模型的终极目标,就是做一个更厉害的视频剪辑工具。


但这真的是机器人需要的世界模型吗?

当然不是。

机器人不需要会画咖啡洒出来的视频,它需要知道:我伸手碰杯子的力度多大,咖啡会洒?洒了之后我该怎么调整手的位置?


一个能生成以假乱真视频的大模型,根本解决不了机器人端咖啡不洒的问题。

通用视频生成模型和机器人用的世界模型,从根上就是两个东西前者是给人看的,画面真实就行,背后的物理逻辑对不对不重要;

后者是给机器人用的,不需要好看,但必须精准——我做了这个动作,世界会怎么变?这个变化会怎么影响我下一步该做什么?


这就是为什么很多机器人在发布会上表现完美,一到真实场景就频频翻车:它们的世界模型只学会了 “描述世界长什么样”,却没学会 “怎么和世界打交道”。

智元从一开始就没走视频生成的路。

他们的世界模型从诞生起,就沿着两条完全不同的线走:


一条是世界动作模型(WAM),搞懂动作和世界的因果关系,给机器人装一个会思考的大脑;

另一条是世界模拟器(GE-Sim),造一个机器人能在里面练技能的虚拟训练场一个负责想,一个负责练,这才是机器人真正需要的世界模型。


给机器人装一个脑子里的 “物理沙盘”

先聊WAM,这是我觉得智元最厉害的一个认知突破。


之前的世界模型,都只做 “状态建模”:它知道桌子上有个杯子,杯子是红色的,离机器人 30 厘米。

但它从来不关心 “动作” 这个最核心的变量 ——机器人伸手去拿杯子,这个动作会怎么改变杯子的状态?拿歪了会不会倒?用力太大会不会碎?


这就像一个学开车的人,背下来了所有的交通标志,却不知道踩油门车会走,踩刹车车会停。这样的人,哪怕考了满分,也根本开不了车。

机器人也是一样。

智元做的 WAM,就是彻底跳出了这个框架,把 “动作” 当成了核心变量,把 “当前环境→我做什么动作→环境怎么变→我该怎么调整” 整个闭环全部建模了。


说人话就是,给机器人脑子里装了一个小沙盘

它不用真的伸手去碰杯子,自己在脑子里就能推演:我用这个力度伸手,手指碰到杯子的这个位置,杯子会往哪边倒?倒了我该怎么收手?

它能记住前面好几步的动作结果,然后调整后面的决策,支撑一整个长链条的任务,而不是做一步错一步。

之前的机器人为什么做不了长任务?为什么一有意外就卡壳?就是因为没有这个沙盘 ——它们只会按预设的程序走,环境稍微变一点,动作稍微偏一点,整个系统就崩了。

而有了 WAM 的机器人,是会 “想” 的。


就拿端咖啡举例子,传统机器人只会按预设的轨迹抬手、移动、放下,桌子晃一下,杯子偏一点,咖啡直接洒,任务失败;

装了 WAM 的机器人会全程在脑子里推演,发现杯子晃了就微调力度,发现手歪了就调整角度,路上碰到点小障碍,也能实时改路线,稳稳把咖啡放到桌上。

一个是只会执行命令的机械臂,一个是会思考、会调整的智能体,这就是本质的区别。


这次 GE 2.0 能登顶 WorldArena,核心就是 WAM 在动作预测、环境推演、长时序决策这三个维度,得分都远超第二名。

当大家都在比机器人能做什么动作的时候,智元已经在解决 “机器人怎么才能稳定做好动作” 的问题了



机器人终于不用在真实世界里摔跟头了

光有脑子里的沙盘还不够,总不能永远只在脑子里推演,总得真刀真枪练吧?

但练技能这个事,对机器人来说太烧钱了。

一台人形机器人样机几十万上百万,让它练端咖啡,练 100 次洒 99 次,洒一次不仅要修机器人,还要收拾现场,时间、人力、硬件成本都是天文数字。更别说很多危险场景,根本不可能用真机去试。


之前的解决方案是用工业仿真器,但这个东西有个天生的毛病:它是人工写规则的,和真实世界永远有差距

你可以在仿真器里写 “杯子受 5 牛的力移动 10 厘米”,但真实世界里,杯子的材质、桌面的摩擦力、机器人手指的软硬度,甚至空气湿度,都会影响结果。


仿真器里练到 100% 成功的策略,放到真实世界里可能连 30% 都达不到。

这就是著名的 “仿真鸿沟”,也是这么多年机器人一直没法大规模落地的核心原因之一。

智元这次推出的 GE-Sim 2.0,就是来填这个鸿沟的。它不是人工写规则的仿真器,是用真实数据训练出来的神经模拟器 —— 不是 “模拟” 世界,是 “复刻” 世界。


为了做到这一点,智元搭了一整套完整的技术体系:先靠 EnerVerse-AC 引入动作条件化的世界建模,让模型能基于动作精准推演未来的环境变化;

再用 EWMBench 从场景一致性、动作正确性、语义对齐三个维度系统评估模拟精度,把虚拟世界和真实世界的偏差控制在极小范围;

同时搭配 Fidelity-Aware 数据组合方法,把真实采集的数据和模型生成的数据精细调配,让训练出来的模拟器既有真实世界的保真度,又有足够的泛化能力;

最后通过 Real2Edit2Real 流程,把原本静态的真实数据变成可扩展、可编辑、可重构的活数据,1 份原始数据就能衍生出百份千份多样化的训练素材,从根源上解决高质量交互数据稀缺的问题。


最终打磨出来的 GE-Sim 2.0,是一个真正能跑、能交互、能训练的数字平行世界机器人在里面做出的每一个动作,得到的物理反馈都和真实世界几乎没有差别;

它可以在里面反复练上万次端咖啡,洒了不用修硬件、不用收拾现场,练成熟的策略能直接迁移到真机上;


甚至地面湿滑、桌面晃动、外力干扰这类极端场景,也能在虚拟世界里反复模拟,让机器人提前学会怎么应对各种意外。

这就是世界模型最本质的跃迁:从 “用来描述世界的模型”,变成了 “机器人能真正使用的世界本身”。

以前的世界模型是给人看的,生成漂亮的画面供人欣赏;现在的世界模型是给机器人用的,变成了机器人可以在里面学习、试错、进化的虚拟训练场

这个变化的价值有多大?

算一笔账就知道:之前练一个新技能,要 3 个月,10 台样机,5 个工程师,成本上百万;现在 90% 的训练都在 GE-Sim 里做,只用 1 台样机做验证,1 周就能搞定,成本不到原来的十分之一。


没有低成本的训练方式,再好的硬件,再好的算法,都不可能真正规模化落地。


失败,才是机器人最好的老师

所有的模型,所有的模拟器,最后都要落到一个东西上:数据。

但整个行业在数据这件事上,一直有个特别大的误区:所有人都在抢 “成功数据”,没人在乎 “失败数据”。


之前所有的具身数据集,都是 “专家示范数据集”:找个专家完美完成任务,把成功的动作录下来给机器人学。

仿佛机器人学会了所有的成功动作,就会做事了。但这根本不符合智能成长的规律啊。

你小时候学走路,是看别人完美走路的视频学会的吗?

不是,你是摔了无数次,从每一次摔倒里学会怎么保持平衡的。你学骑自行车,是看别人完美骑车学会的吗?不是,你是摔了无数次,从每一次失衡里学会怎么握把的。


人类的智能,从来都是从失败里学来的,不是从成功里学来的。

机器人也是一样。只学过成功动作的机器人,就像一个只看过别人骑车,自己从来没摔过的人,一上车就倒。它只知道怎么做是对的,不知道怎么做会错,错了该怎么办。


这就是为什么很多机器人在预设场景里完美,一有意外就崩了:它从来没见过失败,也没学过怎么应对失败。

智元这次开源的 AGIBOT WORLD 2026 “多样交互” 数据集,就是打破了这个惯性。

这是行业第一个专门记录失败的具身数据集:抓取失败、东西掉了、碰撞、液体飞溅…… 所有其他数据集里会被删掉的 “坏数据”,在这里都是核心资产。


在大家都把数据当核心壁垒的今天,智元把最稀缺的失败数据开放出来,相当于给整个行业补上了最关键的一块拼图


智元想做的,是具身智能的 “水电煤”

现在把这三块拼起来,你就能看懂智元的布局了。


很多人看智元,只看到他们做人形机器人,拿了很多第一。

但其实智元从来不是在做一个机器人产品,他们是在做整个具身智能行业的底层基础设施

最底层,他们开源数据集给全行业提供 “燃料”中间层,他们做 WAM 模型给全行业提供 “引擎”

最上层,他们做 GE-Sim 模拟器给全行业提供 “训练场”。数据喂给模型,模型支撑模拟器,模拟器产出更多数据,整个飞轮转起来,所有的从业者都能受益。


具身智能这个赛道足够大,容得下不同的路线:有的公司专注做硬件,把机器人的身体做得更好;

有的公司专注做落地,把机器人放到更多场景里;而智元选择做底层,把数据、模型、仿真这些基础设施做好,开放给所有人用。

没有哪条路更好,只是大家的选择不同。

但底层基础设施的价值是通用的:未来不管是什么形态的机器人,不管用在什么场景,都需要好的数据,好的模型,好的训练平台


就像当年微软做 Windows,谷歌做安卓,不是为了自己做电脑做手机,是给全行业做通用的底座。

智元现在做的,就是具身智能时代的通用底座。


技术最终的意义,是让人生活得更好

聊了这么多技术,最后说点实在的:我们做具身智能,到底是为了什么?

不是为了让机器人在发布会上翻跟头,不是为了让机器人在工厂拧螺丝,是为了让它们真的能帮到我们。

是让行动不便的老人,能在家喝到一杯热乎的水;是让加班到深夜的父母,不用拖着疲惫的身体给孩子热牛奶;

是让在危险岗位的工人,不用再面对高温和有毒的环境。


而这些场景,都需要机器人能真正理解这个不完美的、充满意外的真实世界。

它不能是一个只能在实验室里工作的精密仪器,它必须能应对各种意外,能从错误里学习,能和这个世界友好相处。

这就是智元所有技术的终极意义。

当机器人能在虚拟世界里练会一万次端咖啡不洒,它就能在真实世界里给老人端一杯水;

当机器人能在脑子里的沙盘里预判所有意外,它就能在真实世界里照顾孩子和老人;

当所有开发者都能用开源的数据集和模型,做出更便宜、更聪明的机器人,具身智能才能真正走进千家万户。

2026 年是具身智能的 “部署元年”,越来越多的机器人开始走出实验室。


但我们都知道,这只是开始。

从看懂世界,到构筑世界,再到改变世界,这条路还有很长。但幸运的是,有智元这样的公司,愿意慢下来,沉下心,把底层的基础打牢,给整个行业铺路。

在所有人都追求快、追求流量、追求短期成果的今天,愿意做难而正确的事,愿意做长期主义的事,本身就足够值得尊敬。

和智元的团队聊到最后,他们说:具身智能是一场马拉松,没人知道终点在哪,也没人知道哪条路一定对,但我们愿意先把路铺好,让后面的人走得更稳一点。


是啊,做技术和做人一样,慢一点,稳一点,才能走得更远。

具身智能的故事,才刚刚开始。



前沿动态前沿大会
前沿人物

「在看」,给前前加鸡腿

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
独家对话“纸尿裤风波”第一爆料人王东鉴:如果我错了,道歉、赔偿甚至坐牢,都接受

独家对话“纸尿裤风波”第一爆料人王东鉴:如果我错了,道歉、赔偿甚至坐牢,都接受

每日经济新闻
2026-06-24 00:49:27
夺冠热门轰然倒下,闭眼踢都能出线,却有可能出局,扩军救了他们

夺冠热门轰然倒下,闭眼踢都能出线,却有可能出局,扩军救了他们

我就是一个说球的
2026-06-23 21:47:23
终于有经济学家批评体制内退休金太高、加剧代际矛盾,评论区炸锅

终于有经济学家批评体制内退休金太高、加剧代际矛盾,评论区炸锅

慧翔百科
2026-06-23 08:47:02
震惊!成都地铁2号线让座冲突视频引全球热议,海外博主转发解读

震惊!成都地铁2号线让座冲突视频引全球热议,海外博主转发解读

火山詩话
2026-06-24 06:11:14
中央气象台发布暴雨、强对流、台风预警,云南、广西等地局部地区有大暴雨

中央气象台发布暴雨、强对流、台风预警,云南、广西等地局部地区有大暴雨

界面新闻
2026-06-24 06:53:04
广德车祸家属称两小孩已经去世,肇事女司机被带走时都快哭了

广德车祸家属称两小孩已经去世,肇事女司机被带走时都快哭了

映射生活的身影
2026-06-23 16:28:07
官方:德尚因母亲去世将回国奔丧,不会现场指挥与挪威比赛

官方:德尚因母亲去世将回国奔丧,不会现场指挥与挪威比赛

懂球帝
2026-06-24 04:36:30
0-3!世界杯第二惨亚洲球队诞生:2连败丢7球+0分垫底,基本出局

0-3!世界杯第二惨亚洲球队诞生:2连败丢7球+0分垫底,基本出局

侃球熊弟
2026-06-23 08:48:38
一觉醒来,美股7巨头崩了5个

一觉醒来,美股7巨头崩了5个

贩财局
2026-06-23 09:16:46
大反转!顺德渔村驱赶母子避雨后续:监控视频公布,宝妈骗了全网

大反转!顺德渔村驱赶母子避雨后续:监控视频公布,宝妈骗了全网

李晚书
2026-06-23 09:56:58
阿拉巴:如果比赛最终以1-1结束,没有人会感到失望

阿拉巴:如果比赛最终以1-1结束,没有人会感到失望

懂球帝
2026-06-23 15:53:18
太离谱! C 罗世界杯梅开二度还被名宿狂喷:他连单刀都把握不住

太离谱! C 罗世界杯梅开二度还被名宿狂喷:他连单刀都把握不住

奶盖熊本熊
2026-06-24 04:11:35
721分(满分800分),“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

721分(满分800分),“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

极目新闻
2026-06-23 21:32:14
内塔尼亚胡拒绝撤离黎巴嫩,特朗普称能解决

内塔尼亚胡拒绝撤离黎巴嫩,特朗普称能解决

澎湃新闻
2026-06-23 23:16:08
离谱!成都地铁老头强拽女孩让座殴打孩子母亲,官方发声全网炸锅

离谱!成都地铁老头强拽女孩让座殴打孩子母亲,官方发声全网炸锅

天天热点见闻
2026-06-24 04:39:22
立陶宛欲恢复对华外交关系,专家:投机式示好,刻意回避一个中国原则

立陶宛欲恢复对华外交关系,专家:投机式示好,刻意回避一个中国原则

俄罗斯卫星通讯社
2026-06-23 15:09:09
达成了!重磅3方大交易!篮网彻底告别里夫斯

达成了!重磅3方大交易!篮网彻底告别里夫斯

篮球实战宝典
2026-06-23 14:56:53
美以伊最新局势:伊朗总统称若无导弹伊朗早被美以夷为平地,就像加沙;特朗普称致力于达成公平协议;以色列曾密送星链试图颠覆伊朗政权

美以伊最新局势:伊朗总统称若无导弹伊朗早被美以夷为平地,就像加沙;特朗普称致力于达成公平协议;以色列曾密送星链试图颠覆伊朗政权

都市快报橙柿互动
2026-06-24 07:01:43
一家三口被撞1死2伤,邻居:夫妻俩对两娃很好,遇难的9岁女孩学过书法舞蹈

一家三口被撞1死2伤,邻居:夫妻俩对两娃很好,遇难的9岁女孩学过书法舞蹈

大风新闻
2026-06-23 23:39:06
张雨绮自曝已恢复单身,遭小10岁男友单方面分手,自己很伤心!

张雨绮自曝已恢复单身,遭小10岁男友单方面分手,自己很伤心!

喜欢历史的阿繁
2026-06-23 09:25:08
2026-06-24 08:47:00
前沿在线 incentive-icons
前沿在线
前沿在线官方账号,关注AI、机器人、智能车等前沿领域;
267文章数 1235关注度
往期回顾 全部

科技要闻

国产超算时隔九年再度登顶全球

头条要闻

内塔尼亚胡:执政30年 没服过任何一个美国总统

头条要闻

内塔尼亚胡:执政30年 没服过任何一个美国总统

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

亲子
家居
游戏
本地
数码

亲子要闻

妹妹平时就很喜欢做手工,今天她做了个卡包送给我,她说虽然没有钱,但不能没有钱包

家居要闻

绿意盎然 自然之境

宫本茂认为塞尔达迷宫并不是很有趣 玩家不爱玩?

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

数码要闻

苹果watchOS 27.0开发者预览版Beta 2发布

无障碍浏览 进入关怀版