网易首页 > 网易号 > 正文 申请入驻

神仙打架之外:环卫车里长出的世界模型什么样

0
分享至

(文/张志峰 编辑/周远方)

2026年5月,世界模型赛道至少有三件事值得记住。智元GE 2.0在WorldArena登顶,星动纪元Ctrl-World拿了具身任务能力全球第一,北京人形Pelican-Unify成了双冠王。

它们都在回答同一个问题。机器人到底该先建一座虚拟健身房,还是直接在真实世界里摔打。

同一个月,酷哇科技发布了CooWAIM 2.0。前三个在刷榜,酷哇在刷街。它的测试场是芜湖某条辅路,主角是一台正在贴边作业的无人清扫车。


假如这时路口突然冲出一辆逆行电动车,它不会停下来把整条街的三维画面在脑子里推演一遍,而是边减速边微调方向,在三百毫秒内完成避让。

酷哇相关负责人把这个能力概括为一句话,CooWAIM 2.0在打麻将般的博弈和切菜式的精细操作中,比同类模型更快。他进一步解释,就像人类打麻将时会预判他人反应、切菜时会感知食材触感,真正的智能源于动作与环境的实时闭环。

这个闭环本身并非酷哇独有。智元用GE 2.0建全功能世界模拟器,让机器人在虚拟环境里试错进化。星动纪元走VLA与世界模型融合路线,用分频端到端打通感知与动作。北京人形则以国家队身份推进大一统物理智能回路。它们代表了当前世界模型的三条主路。

但酷哇走了一条更轻的路。它不问机器人能不能在虚拟世界里推完一万次杯子,只问下一秒别撞上那辆电动车。

三路分兵,一路刷街

目前,全球科技巨头在世界模型赛道上呈现出不同的技术流派。

第一拨做视频生成,谷歌Genie 3、阿里Happy Oyster、OpenAI Sora,核心能力是生成逼真的未来画面,一帧一帧预测像素变化。图灵奖得主杨立昆曾指出,预测像素变化不等于理解物理世界,生成一段杯子掉落的视频,不代表模型懂得重力和材料力学。但在舆论场里,视频生成和世界模型常被混为一谈。Meta的V-JEPA 2走另一条路,不渲染画面,只提炼物理规律的因果理解,像一位只看棋谱不摸棋子的理论派。

第二拨做自动驾驶仿真。Waymo、特斯拉、蔚来NWM,这拨人其实最老资格,早就在用闭环仿真器测试极端路况、跑安全corner case,只是以前叫仿真器或数字孪生,生成式AI能力提升后,虚拟场景真假难辨,顺势把名字升级成了世界模型。他们的核心任务是预测自车响应和交通流演化,动作空间被严格限制在方向盘、油门、刹车两三个自由度里,目标是避免接触,而非理解接触。

第三拨做机器人与具身智能。智元、星动纪元、北京人形都在这个阵营,他们强调世界模型必须是动作条件化的,即预测的不是下一帧画面,而是我做了这个动作以后世界怎么变。这拨人要处理的是手指、手腕、肩膀几十甚至上百个自由度的协调,要理解推杯子会不会倒、拧瓶盖用多大力、叠毛巾时布料如何形变。道路有车道线和交通灯,规律性强,家庭与工厂里的物体材质、摆放方式、任务目标变化巨大,没有天然的几何约束,数据形态和计算复杂度与自动驾驶不在一个量级。

自动驾驶的世界模型,核心是避免接触,动作空间就两三个维度。人形机器人的世界模型,核心是怎么接触物体,手指、手腕、肩膀几十处关节配合,还得处理软体形变和摩擦力。从车到机器人,不是同一个模型放大,而是换了一个考场。


技术取舍:效率与精度的平衡

酷哇的特殊之处,在于它从第二拨往第三拨跳。

它从另一条路走过来,和中联环境成立合资公司,在十七个城市跑智慧环卫,2021年营收就过了五亿元。创始人何弢早年提出先难后易,把最难的城市场景先啃下来,再降维做环卫和城配。五十PB非结构化真实世界数据和万台终端,意味着它的模型是在真实的雨雪、逆行、拥堵里喂出来的。这份履历让它有资格做减法。

这种减法不是等技术成熟后拿来即用,而是基于自己的场景和数据,在世界模型的路线上做务实取舍。城市开放道路的数据和运营网络,对同场景的移动智能有复用价值,但向人形精细操作迁移,鸿沟仍在,目前未见公开验证。

CooWAIM 2.0的核心是DAWN架构,其底层为WAIM交互式世界动作模型。它不渲染高分辨率未来画面,而是通过Auto-Encoder Resampler模块,将繁杂的视觉特征压缩成16个核心语义Token。

这个取舍很像切菜时剔除筋膜,只保留最精华的部分。路网几何、障碍物拓扑、本体状态,这些被精准保留,冗余信息被剔除。

推理延迟因此压到331.3毫秒,效率提升近3倍。在NAVSIM基准测试中,其PDMS得分达89.1;在nuScenes闭环规划中,平均轨迹误差降至0.33米。


WAIM交互式世界动作模型通过在隐式空间中进行短程推演,与不推演(Fast-WAM)和全程推演后再执行动作预测的两个极端相比,取得了效果和效率上的最佳平衡

更关键的是推演策略。

市面上有些世界模型遵循先预测后规划的范式,就像一个人打麻将,必须先把所有人的出牌可能都推演完,再决定自己怎么出。这种单向滞后的方式,往往忽略了出牌本身就在实时改写牌局。

DAWN架构不再将世界预测和动作生成视为两个独立任务,而是让它们在推理过程中像辩论一样互相修正。模型在隐空间中进行短时推演,动作降噪器与世界预测器通过多轮迭代交互,实现边推演边执行。

这种交互式推演,恰好处于不推演与全程推演后再执行两个极端之间。不推演意味着盲动,全程推演再执行则意味着单向滞后。DAWN只推演2到3秒的短程未来,不赌长局。在nuScenes闭环规划测试中,平均轨迹误差降到0.33米,NAVSIM的PDMS得分89.1。

现实挑战:从榜单领先到规模化落地

这种轻量化有代价。跟英伟达Cosmos那种千亿级参数的闭源大模型比,酷哇的生态完善度和商业配套成熟度确实弱。世界模型赛道目前也还没有统一标准,从榜单到真实场景,中间隔着规模化落地的鸿沟。

智元GE 2.0近期在WorldArena特定赛道登顶,星动纪元Ctrl-World拿下具身任务能力全球第一,北京人形Pelican-Unify成为双冠王,但这些成绩主要发生在榜单和实验室环境。作为新发布的世界模型,它们的生态成熟度和真实场景验证周期仍待观察。对酷哇而言,虽然已在智慧环卫、出行等领域积累五十PB数据并实现万台级终端部署,但如何将这些数据优势转化为跨场景、跨本体的通用泛化能力,仍是行业共同面临的难题。大多数世界模型公司仍处于高投入期,数据采集成本极高,系统复杂,真正实现大规模商业化盈利的企业仍是凤毛麟角。

酷哇的DAWN架构已经全面开源。在Robotaxi、城市服务、特种作业等高价值场景中,这种具备交互式物理推演能力的模型或许有更大想象空间,但目前主要闭环仍在环卫与城配领域。世界模型赛道仍处于早期收敛期,技术路径尚未完全统一。


智能的本质是交互,不是预测

酷哇科技技术负责人表示:“我们相信,世界模型的价值不在于被动描绘未来,而在于让推演与行动在交互中共同演化。CooWAIM 2.0不仅是算法架构的升级,更是对‘智能源于交互’这一本质的回归。”

随着DAWN架构的全面开源,酷哇科技正推动具身智能从“单一任务执行”向“通用物理推理”演进。在Robotaxi、城市服务、特种作业等高价值场景中,这种具备“交互式物理推演”本能的机器人,或将重新定义人机共存的城市生态。

当机器人不再只是“执行者”,而是能像人一样在动作与环境的互动中实时思考,我们离真正的通用具身智能确实更近了一步,但这一步的跨越,仍需要时间的沉淀与产业链的协同。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家出手擒下的3名华人首富,看看他们干的事,根本不值得饶恕!

国家出手擒下的3名华人首富,看看他们干的事,根本不值得饶恕!

李遝手工制作
2026-05-31 03:47:38
太可怕了!江苏女生哭诉侍候父亲的至暗时刻,字里行间恐惧与绝望

太可怕了!江苏女生哭诉侍候父亲的至暗时刻,字里行间恐惧与绝望

火山詩话
2026-05-30 17:59:42
哺乳期选手参赛隐私被直播,万人围观无人管,赛事方的敷衍太离谱

哺乳期选手参赛隐私被直播,万人围观无人管,赛事方的敷衍太离谱

老特有话说
2026-05-30 16:48:20
美国东北部多州巨响疑由流星音爆引发

美国东北部多州巨响疑由流星音爆引发

新华社
2026-05-31 07:23:03
扎哈罗娃:俄将对罗马尼亚迅速采取报复措施

扎哈罗娃:俄将对罗马尼亚迅速采取报复措施

参考消息
2026-05-30 11:58:56
最新!债务突破100万亿!

最新!债务突破100万亿!

叶初七
2026-05-30 10:28:14
男团成员裤腰低到离谱?网友怒批:这是公共猥亵

男团成员裤腰低到离谱?网友怒批:这是公共猥亵

时光慢旅人
2026-05-30 01:29:08
耿同学再下一城!南开免去陈某院长职务,14张图表确认学术不端

耿同学再下一城!南开免去陈某院长职务,14张图表确认学术不端

听心堂
2026-05-30 20:24:06
麻省理工出品,AI时代人人必修的最佳公开课!零基础用AI创造几乎所有的一切

麻省理工出品,AI时代人人必修的最佳公开课!零基础用AI创造几乎所有的一切

麻省理工AI公开课
2026-05-30 11:40:07
金融危机要来了?专家预测:未来12到18个月,世界将爆发金融风暴

金融危机要来了?专家预测:未来12到18个月,世界将爆发金融风暴

别人都叫我阿腈
2026-05-30 20:32:28
国家免费电视全面开通!自己动手几分钟调好,终身零月租不花钱

国家免费电视全面开通!自己动手几分钟调好,终身零月租不花钱

小柱解说游戏
2026-05-30 18:41:02
35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

烈史
2026-05-30 13:23:41
明星无滤镜后,周涛一脸凶相,李冰冰像小老太,金晨脸大如饼

明星无滤镜后,周涛一脸凶相,李冰冰像小老太,金晨脸大如饼

笑饮孤鸿非
2026-05-30 20:58:06
15万!蔚来"神车"官宣:5月29日 ,正式发布亮相

15万!蔚来"神车"官宣:5月29日 ,正式发布亮相

科技堡垒
2026-05-29 11:14:19
9岁男童浑身脱皮如遭烧伤,元凶竟是家中常见药

9岁男童浑身脱皮如遭烧伤,元凶竟是家中常见药

极目新闻
2026-05-30 16:16:01
印尼把刀挥出去,流血的却是自己,回头一看,中国牌桌上早没了镍

印尼把刀挥出去,流血的却是自己,回头一看,中国牌桌上早没了镍

智慧生活笔记
2026-05-30 20:51:50
卫冕冠军出局!法网女单赛场再爆冷门,高芙遭逆转无缘16强

卫冕冠军出局!法网女单赛场再爆冷门,高芙遭逆转无缘16强

全景体育V
2026-05-31 05:56:54
中方代表:日本没有资格谈国际防务合作 须警惕军国主义思潮借机复活

中方代表:日本没有资格谈国际防务合作 须警惕军国主义思潮借机复活

环球网资讯
2026-05-30 19:36:11
广州一城中村凌晨着火,男子敲锣叫醒邻居,本人最新回应

广州一城中村凌晨着火,男子敲锣叫醒邻居,本人最新回应

环球网资讯
2026-05-31 07:59:09
被中方代表现场发言“驱逐”,难怪日本防长在香会脸色不太不好!

被中方代表现场发言“驱逐”,难怪日本防长在香会脸色不太不好!

阿龙聊军事
2026-05-31 02:07:10
2026-05-31 08:08:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
142206文章数 1850707关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

体育要闻

巴黎再度捧起欧冠奖杯 枪手众将黯然神伤

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

本地
旅游
艺术
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

旅游要闻

六一去哪玩?全国景区免票大放送,家长也能免费玩!

艺术要闻

我想有个小院,从此荒度余生

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美防长参加"香会" 就美中关系最新表态

无障碍浏览 进入关怀版