![]()
![]()
编辑:前沿在线 编辑部
最近跑了好几场具身智能的会,有个特别直观的感受:整个行业好像都陷入了一种 “展示竞赛” 的怪圈。
这边刚发布的人形机器人,自由度又多了 2 个,电机扭矩涨了 1 牛米,现场跳个舞、翻个跟头,台下一片掌声;
那边的新闻稿刚出来,又拿下了某个工厂的落地订单,“商业化突破”的标题刷遍了行业群;
还有的公司在卷世界模型,比谁生成的视频更长、更清晰,仿佛 4K 视频做出来,机器人就真的能理解世界了。
![]()
但看了这么多热闹,我心里一直有个疑问:这些看起来很酷炫的机器人,真的能走进我们的生活吗?
直到最近的 CVPR 2026 ,看到 WorldArena 世界模型赛道的最终榜单 ——智元的 Genie Envisioner 2.0 拿了总分第一,我才终于找到这个问题的答案。
![]()
比起 “又一个行业第一” 的头衔,更重要的是:智元这次拿出的不是一个单点技术,而是一整套完整的闭环—— 从开源失败数据集,到做能预判因果的动作模型,再到能让机器人在里面练技能的虚拟世界,他们走了一条完全不一样的路:不做给人看的花活,沉下心来给机器人打底层的基础。
这不是一次普通的迭代,是整个具身智能行业的一个分水岭。
![]()
我们不需要会画画的机器人
先聊一个很多人都搞错的问题:世界模型到底是用来干嘛的?
过去两年,Sora 带火了世界模型的概念,所有人都在卷视频生成:谁能生成更长的视频,谁的画面更真实,谁的分辨率更高。
![]()
仿佛世界模型的终极目标,就是做一个更厉害的视频剪辑工具。
![]()
但这真的是机器人需要的世界模型吗?
当然不是。
机器人不需要会画咖啡洒出来的视频,它需要知道:我伸手碰杯子的力度多大,咖啡会洒?洒了之后我该怎么调整手的位置?
![]()
一个能生成以假乱真视频的大模型,根本解决不了机器人端咖啡不洒的问题。
通用视频生成模型和机器人用的世界模型,从根上就是两个东西,前者是给人看的,画面真实就行,背后的物理逻辑对不对不重要;
后者是给机器人用的,不需要好看,但必须精准——我做了这个动作,世界会怎么变?这个变化会怎么影响我下一步该做什么?
![]()
这就是为什么很多机器人在发布会上表现完美,一到真实场景就频频翻车:它们的世界模型只学会了 “描述世界长什么样”,却没学会 “怎么和世界打交道”。
智元从一开始就没走视频生成的路。
他们的世界模型从诞生起,就沿着两条完全不同的线走:
![]()
一条是世界动作模型(WAM),搞懂动作和世界的因果关系,给机器人装一个会思考的大脑;
另一条是世界模拟器(GE-Sim),造一个机器人能在里面练技能的虚拟训练场。一个负责想,一个负责练,这才是机器人真正需要的世界模型。
![]()
给机器人装一个脑子里的 “物理沙盘”
先聊WAM,这是我觉得智元最厉害的一个认知突破。
![]()
之前的世界模型,都只做 “状态建模”:它知道桌子上有个杯子,杯子是红色的,离机器人 30 厘米。
但它从来不关心 “动作” 这个最核心的变量 ——机器人伸手去拿杯子,这个动作会怎么改变杯子的状态?拿歪了会不会倒?用力太大会不会碎?
![]()
这就像一个学开车的人,背下来了所有的交通标志,却不知道踩油门车会走,踩刹车车会停。这样的人,哪怕考了满分,也根本开不了车。
机器人也是一样。
智元做的 WAM,就是彻底跳出了这个框架,把 “动作” 当成了核心变量,把 “当前环境→我做什么动作→环境怎么变→我该怎么调整” 整个闭环全部建模了。
![]()
说人话就是,给机器人脑子里装了一个小沙盘。
它不用真的伸手去碰杯子,自己在脑子里就能推演:我用这个力度伸手,手指碰到杯子的这个位置,杯子会往哪边倒?倒了我该怎么收手?
它能记住前面好几步的动作结果,然后调整后面的决策,支撑一整个长链条的任务,而不是做一步错一步。
之前的机器人为什么做不了长任务?为什么一有意外就卡壳?就是因为没有这个沙盘 ——它们只会按预设的程序走,环境稍微变一点,动作稍微偏一点,整个系统就崩了。
而有了 WAM 的机器人,是会 “想” 的。
![]()
就拿端咖啡举例子,传统机器人只会按预设的轨迹抬手、移动、放下,桌子晃一下,杯子偏一点,咖啡直接洒,任务失败;
装了 WAM 的机器人会全程在脑子里推演,发现杯子晃了就微调力度,发现手歪了就调整角度,路上碰到点小障碍,也能实时改路线,稳稳把咖啡放到桌上。
一个是只会执行命令的机械臂,一个是会思考、会调整的智能体,这就是本质的区别。
![]()
这次 GE 2.0 能登顶 WorldArena,核心就是 WAM 在动作预测、环境推演、长时序决策这三个维度,得分都远超第二名。
当大家都在比机器人能做什么动作的时候,智元已经在解决 “机器人怎么才能稳定做好动作” 的问题了。
![]()
![]()
机器人终于不用在真实世界里摔跟头了
光有脑子里的沙盘还不够,总不能永远只在脑子里推演,总得真刀真枪练吧?
但练技能这个事,对机器人来说太烧钱了。
一台人形机器人样机几十万上百万,让它练端咖啡,练 100 次洒 99 次,洒一次不仅要修机器人,还要收拾现场,时间、人力、硬件成本都是天文数字。更别说很多危险场景,根本不可能用真机去试。
![]()
之前的解决方案是用工业仿真器,但这个东西有个天生的毛病:它是人工写规则的,和真实世界永远有差距。
你可以在仿真器里写 “杯子受 5 牛的力移动 10 厘米”,但真实世界里,杯子的材质、桌面的摩擦力、机器人手指的软硬度,甚至空气湿度,都会影响结果。
![]()
仿真器里练到 100% 成功的策略,放到真实世界里可能连 30% 都达不到。
这就是著名的 “仿真鸿沟”,也是这么多年机器人一直没法大规模落地的核心原因之一。
智元这次推出的 GE-Sim 2.0,就是来填这个鸿沟的。它不是人工写规则的仿真器,是用真实数据训练出来的神经模拟器 —— 不是 “模拟” 世界,是 “复刻” 世界。
![]()
为了做到这一点,智元搭了一整套完整的技术体系:先靠 EnerVerse-AC 引入动作条件化的世界建模,让模型能基于动作精准推演未来的环境变化;
再用 EWMBench 从场景一致性、动作正确性、语义对齐三个维度系统评估模拟精度,把虚拟世界和真实世界的偏差控制在极小范围;
同时搭配 Fidelity-Aware 数据组合方法,把真实采集的数据和模型生成的数据精细调配,让训练出来的模拟器既有真实世界的保真度,又有足够的泛化能力;
最后通过 Real2Edit2Real 流程,把原本静态的真实数据变成可扩展、可编辑、可重构的活数据,1 份原始数据就能衍生出百份千份多样化的训练素材,从根源上解决高质量交互数据稀缺的问题。
![]()
最终打磨出来的 GE-Sim 2.0,是一个真正能跑、能交互、能训练的数字平行世界:机器人在里面做出的每一个动作,得到的物理反馈都和真实世界几乎没有差别;
它可以在里面反复练上万次端咖啡,洒了不用修硬件、不用收拾现场,练成熟的策略能直接迁移到真机上;
![]()
甚至地面湿滑、桌面晃动、外力干扰这类极端场景,也能在虚拟世界里反复模拟,让机器人提前学会怎么应对各种意外。
这就是世界模型最本质的跃迁:从 “用来描述世界的模型”,变成了 “机器人能真正使用的世界本身”。
以前的世界模型是给人看的,生成漂亮的画面供人欣赏;现在的世界模型是给机器人用的,变成了机器人可以在里面学习、试错、进化的虚拟训练场。
这个变化的价值有多大?
算一笔账就知道:之前练一个新技能,要 3 个月,10 台样机,5 个工程师,成本上百万;现在 90% 的训练都在 GE-Sim 里做,只用 1 台样机做验证,1 周就能搞定,成本不到原来的十分之一。
![]()
没有低成本的训练方式,再好的硬件,再好的算法,都不可能真正规模化落地。
![]()
失败,才是机器人最好的老师
所有的模型,所有的模拟器,最后都要落到一个东西上:数据。
但整个行业在数据这件事上,一直有个特别大的误区:所有人都在抢 “成功数据”,没人在乎 “失败数据”。
![]()
之前所有的具身数据集,都是 “专家示范数据集”:找个专家完美完成任务,把成功的动作录下来给机器人学。
仿佛机器人学会了所有的成功动作,就会做事了。但这根本不符合智能成长的规律啊。
你小时候学走路,是看别人完美走路的视频学会的吗?
不是,你是摔了无数次,从每一次摔倒里学会怎么保持平衡的。你学骑自行车,是看别人完美骑车学会的吗?不是,你是摔了无数次,从每一次失衡里学会怎么握把的。
![]()
人类的智能,从来都是从失败里学来的,不是从成功里学来的。
机器人也是一样。只学过成功动作的机器人,就像一个只看过别人骑车,自己从来没摔过的人,一上车就倒。它只知道怎么做是对的,不知道怎么做会错,错了该怎么办。
![]()
这就是为什么很多机器人在预设场景里完美,一有意外就崩了:它从来没见过失败,也没学过怎么应对失败。
智元这次开源的 AGIBOT WORLD 2026 “多样交互” 数据集,就是打破了这个惯性。
这是行业第一个专门记录失败的具身数据集:抓取失败、东西掉了、碰撞、液体飞溅…… 所有其他数据集里会被删掉的 “坏数据”,在这里都是核心资产。
![]()
在大家都把数据当核心壁垒的今天,智元把最稀缺的失败数据开放出来,相当于给整个行业补上了最关键的一块拼图。
![]()
智元想做的,是具身智能的 “水电煤”
现在把这三块拼起来,你就能看懂智元的布局了。
![]()
很多人看智元,只看到他们做人形机器人,拿了很多第一。
但其实智元从来不是在做一个机器人产品,他们是在做整个具身智能行业的底层基础设施。
最底层,他们开源数据集,给全行业提供 “燃料”;中间层,他们做 WAM 模型,给全行业提供 “引擎”;
最上层,他们做 GE-Sim 模拟器,给全行业提供 “训练场”。数据喂给模型,模型支撑模拟器,模拟器产出更多数据,整个飞轮转起来,所有的从业者都能受益。
![]()
具身智能这个赛道足够大,容得下不同的路线:有的公司专注做硬件,把机器人的身体做得更好;
有的公司专注做落地,把机器人放到更多场景里;而智元选择做底层,把数据、模型、仿真这些基础设施做好,开放给所有人用。
没有哪条路更好,只是大家的选择不同。
但底层基础设施的价值是通用的:未来不管是什么形态的机器人,不管用在什么场景,都需要好的数据,好的模型,好的训练平台。
![]()
就像当年微软做 Windows,谷歌做安卓,不是为了自己做电脑做手机,是给全行业做通用的底座。
智元现在做的,就是具身智能时代的通用底座。
![]()
技术最终的意义,是让人生活得更好
聊了这么多技术,最后说点实在的:我们做具身智能,到底是为了什么?
不是为了让机器人在发布会上翻跟头,不是为了让机器人在工厂拧螺丝,是为了让它们真的能帮到我们。
是让行动不便的老人,能在家喝到一杯热乎的水;是让加班到深夜的父母,不用拖着疲惫的身体给孩子热牛奶;
是让在危险岗位的工人,不用再面对高温和有毒的环境。
![]()
而这些场景,都需要机器人能真正理解这个不完美的、充满意外的真实世界。
它不能是一个只能在实验室里工作的精密仪器,它必须能应对各种意外,能从错误里学习,能和这个世界友好相处。
这就是智元所有技术的终极意义。
当机器人能在虚拟世界里练会一万次端咖啡不洒,它就能在真实世界里给老人端一杯水;
当机器人能在脑子里的沙盘里预判所有意外,它就能在真实世界里照顾孩子和老人;
当所有开发者都能用开源的数据集和模型,做出更便宜、更聪明的机器人,具身智能才能真正走进千家万户。
2026 年是具身智能的 “部署元年”,越来越多的机器人开始走出实验室。
![]()
但我们都知道,这只是开始。
从看懂世界,到构筑世界,再到改变世界,这条路还有很长。但幸运的是,有智元这样的公司,愿意慢下来,沉下心,把底层的基础打牢,给整个行业铺路。
在所有人都追求快、追求流量、追求短期成果的今天,愿意做难而正确的事,愿意做长期主义的事,本身就足够值得尊敬。
和智元的团队聊到最后,他们说:具身智能是一场马拉松,没人知道终点在哪,也没人知道哪条路一定对,但我们愿意先把路铺好,让后面的人走得更稳一点。
![]()
是啊,做技术和做人一样,慢一点,稳一点,才能走得更远。
具身智能的故事,才刚刚开始。
![]()
![]()
前沿动态前沿大会
前沿人物
点「在看」,给前前加鸡腿
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.