白热化：北大团队发布5D世界模型|摩尔|杯子|机器人|李飞飞|仿真器

分享至

来源：市场资讯

（来源：观察者网）

（文/周远方编辑/刘媛媛）

2026年6月5日，北大EvoPhys团队与摩尔线程联合发布了EvoPhys-World。一个试图让机器人学会“想象”的5D世界模型，在这一天正式亮相。

四天前，英伟达刚刚发布了他们的世界模型Cosmos 3；前一天，斯坦福教授李飞飞发表论文，为“世界模型”这个被严重滥用的概念画出了权威的“三分法”地图。学界、产业界、算力巨头在同一时间窗口亮牌，显现当前AI新主流路线的竞争，进入白热化的阶段。

这场竞争的核心，可以用一个极为简单的动作来检验：

你让机器人把桌上杯子移到左边。

第一种做法，它看到杯子，识别指令，伸手抓取，平移放下。整个过程像条件反射，不会想。这是VLA时代，视觉语言动作模型，眼睛和手脚直接连线，中间没有脑子。

第二种做法，它看到杯子，脑子里展开几张图。图一，轻轻推，杯子滑到左边。图二，用力推，杯子翻倒，水洒出来。图三，没碰到，杯子不动。它剪掉图二和图三，选择图一。这是世界模型，4D版，三维空间加时间。它能预测下一秒会发生什么，就像一个能观看物理规则电影的观众，但它仍然只是一个观众。

第三种做法，还是这几张图，但它进一步想。如果桌面有水渍，图一的滑动距离会不会改变。如果杯子是空的和满的，翻倒的阈值有何不同。如果推的时候手指碰了一下杯沿，杯子会不会转。它同时推演多条世界线，并在分叉中选择。这是世界模型，5D版，在时间和空间之上，再加一维动作与因果。它不是在预测电影，而是在导演剧本——它在行动前，快速做完了一场关于“后果”的短梦。

这不是让机器人的眼睛升级，而是给它造了一个脑子。一个是学会“看”，一个是学会“想”。

一、EvoPhys的底牌：5D世界模型与“一个基模，两种形态”

EvoPhys-World不是一个由多个独立模块拼凑起来的“缝合怪”。它是一个统一的基础模型，将感知、记忆、预测、决策、行动全部压缩进了同一个隐空间。

EvoPhys-World 模型架构示意图。展示了Latent Memory Pool、Unified State-Action Token、World Engine 与 World Policy 的双模式螺旋结构，以及Next-State Prediction与Next-Action Prediction的并行推演路径。

在这个隐空间里，它呈现出两种形态。

第一种叫World Engine，即“世界引擎”。你给它一个动作，比如“推”，它就能在脑子里模拟出这个世界接下来会变成什么样——杯子会滑多远、会不会倒、水会不会洒。这是它的“想象”能力，所谓“万物可孪生，物理可交互”。

第二种叫World Policy，即“世界策略”。你给它一个目标，比如“让杯子停在这里”，它就能倒推出实现这个目标需要的一系列动作——手应该伸多快、用多大的力、角度怎么调整。这是它的“行动”能力，所谓“世界可预演，万物可操控”。

它们不是割裂的。World Policy执行后产生的结果，会反馈给World Engine，让它的“想象”更精准；更精准的“想象”又能生成更好的“行动”。这就是“自进化”的核心——它不是让机器人学会“做动作”，而是让它学会“做实验”。先在大脑里做一万次实验，再挑出最优的那个方案去执行。

这种设计有一个深层的哲学基础：动作空间的设计。英伟达Cosmos 3是机器人中心主义的，它的动作被定义为机械臂的关节角度、夹爪的位置。而EvoPhys采用人本主义路线：它不教机器人“二指夹爪怎么动”，而是先教模型学“人的五指怎么捏杯子、怎么拧瓶盖”。

但人本主义不只是路线的选择，它延伸出一套更完整的工程标准——“三位一体”。这套标准认为，人类的数据采集设备、机器人本体、以及人类远程操控机器人的交互设备，必须共享同一个数据接口。人类戴着设备去推杯子时，眼睛看到的画面、头部转动的姿态、手指的骨骼点与用力大小，都遵循同一套格式。这套格式被机器人直接读取，也被远程操控的人类原样接收。这样一来，人类采集的交互数据可以直接用于训练，学到的行为可以直接转移到机器人上，而人类在远程操控时也不会有任何感知上的错位。

这意味着，它理解的是任务本身，而不是被特定的硬件形态所绑定。在机器人形态尚未收敛的今天，人，才是那具最通用的本体。

说到“知”与“行”的关系，World Engine承担的就是“知”的角色——它知道推杯子后世界会如何变化；World Policy承担的是“行”的角色——它知道为实现目标该如何出手。据接近该团队的人士透露，他们将两者的闭环概括为“知行合一”：不是先仿真再决策的“先知后行”，而是知行互训、螺旋上升。

这个螺旋能够高效运转，有一个关键的硬件前提。EvoPhys团队将模型训练在摩尔线程的MTT S5000千卡集群上。这款芯片最特殊的地方在于：它不是英伟达H100那样的“纯训练卡”，而是保留了完整的图形渲染管线。World Engine要实时“画出”杯子被推倒的画面，World Policy要在这幅画上计算下一步的动作——渲染与训练必须在一颗芯片上同时完成，不能分到两台机器上倒腾数据。英伟达的数据中心卡为了极致算力阉割了渲染模块，而摩尔线程的“全功能GPU”恰好满足了世界模型的这种刚需。

二、它为什么特别？——英伟达和李飞飞提供的地图

EvoPhys这张底牌之所以在这个时间点显得如此锋利，是因为它同时与两件大事形成了对照。

英伟达的“主流”路线。

就在EvoPhys发布的三天前，英伟达推出了世界模型Cosmos 3。黄仁勋将其定位为“Physical AI的ChatGPT时刻”，打出了三张牌：数万亿级别的多模态token、开放的开发者生态、以及与宇树科技等本体厂商的硬件协同。

但解剖它的数据构成，会发现一些有意思的细节。据英伟达公开的技术报告，在Cosmos 3 Reasoner的预训练阶段，约2200万样本中，OCR文字识别占42.9%，2D空间定位占16.5%，视觉问答占11.3%，而视频理解与推理仅占0.05%。

换句话说，英伟达的模型是一个极其渊博的“通才”，但在“如何推一个杯子”这门物理课上，它可能还是个初学者。它的“教材”里，掺杂了太多“语言”和“合成画面”。它可能学到的更多是“推”和“动”在统计上总是一起出现的语言关联，而不是“当施加的力大于最大静摩擦力时，物体才会发生位移”的物理因果。它强大，但它解决的是规模化问题，而不是“理解”问题。

与此同时，来自产业前线的真实需求数字，显得更为冷静。智元机器人合伙人姚卯青曾估算，GPT-5训练语料折合约100亿小时，而全行业汇聚的高质量具身数据仅约50万小时，差距以万倍计。黄仁勋所说的“GPT时刻”，更准确地讲，或许是“基础设施的归因时刻”，而非“模型能力的落地时刻”。算力可以买到，但真实世界数据，必须是一天一天攒出来的。

李飞飞的“地图”。

同样是在这个时间窗口，学界给出了自己的框架。6月4日，斯坦福教授李飞飞发表论文，把被严重滥用的“世界模型”划出了三大功能类别：渲染器（生成逼真像素）、仿真器（生成符合物理规律的世界状态）、规划器（生成动作序列）。她特别强调，这三者中最被低估、但价值最深远的，是仿真器。她预言，最终这三类模型的边界将不断消融，走向一个“大一统世界模型”。

在这张地图上，英伟达和北大的位置被照见了。

Cosmos 3，偏重渲染与仿真，试图涵盖一切，但重心是“生成逼真的未来世界”。而EvoPhys，恰好精准地押注在李飞飞所说的那片“无人区”——价值最深、也最难啃的“仿真器”上。但更关键的是，EvoPhys悄悄画出了超越地图的路线。李飞飞的框架里，三者在分头演进后需要被“缝合”。而EvoPhys用“一个基模，两种形态”给出了更极致的答案：这三个功能从来不需要被缝合，它们从一开始就共享同一个隐空间，通过“螺旋自进化”互相喂养。

也就是说，当李飞飞还在为行业画出“如何走到终点”的地图时，EvoPhys已经拿出了“走到终点之后”的引擎。

三、从“是什么”到“为什么”

现在需要解释一个问题：为什么EvoPhys的这条“5D”路线，比Cosmos 3的“4D”路线，更接近对物理世界的“理解”？

我们可以借用围棋的变化图来理解所谓5D。

棋手在考虑下一步时，脑子里不是只算一个点，而是同时摆几张变化图。图一，我下这里，对手应那里；图二，我打入，对手反击，我是否做活。棋手在零点几秒内剪掉明显低胜率的分支，落子。世界模型推演物理后果，本质上在做同样的事——但棋盘从361个交叉点变成了无限的连续空间。一个动作下去，可能的后果有无限多种。模型要在零点几秒内剪掉那些违反物理规律的分支，只保留符合重力、摩擦力、碰撞体积的路径，再从中选最优。

这就是模式匹配与因果推断的区别。

模式匹配，是模型在数据里看到“推”这个动作，和“杯子动”这个画面，在统计上总是一起出现。于是它学会了这个规律。结果，当它被要求推一个铁块时，它依然会用同样的力气——因为它不理解“为什么”需要更用力。它只是记住了一对表象。

因果推断，是模型在无数真实交互中，学会了一条底层物理规律：“当施加的力大于最大静摩擦力时，物体才会发生位移”。它不是在匹配“推”和“动”的画面，而是在学习那个通用的物理方程。因此，无论是推杯子还是推铁块，它都能根据物体的质量和材质，计算出需要多大的力。它理解了原因和结果之间的必然联系。

更进一步。反事实推理问的是：“如果刚才我没推，杯子会不会因为桌面的震动而自己滑落？”这是在脑子里构建一个与现实不同的平行世界去推演。EvoPhys的5D引擎，本质上就是在工程化这种“反事实”能力。

教一个模型“为什么”，和教它“是什么”，完全是两个世界的事情。前者通向真正的智能，后者只是更高级的鹦鹉学舌。

结尾：两种出牌，定义权博弈

英伟达Cosmos 3走的是“主流”道路——20万亿token、开放生态、硬件协同，它解决的是“如何让更多机器人快速学会一个动作”的规模化问题。这是算力帝国的一次标准出牌。

EvoPhys的激进，在于它连李飞飞刚画出的地图都不满足。李飞飞说世界模型应该融合渲染器、仿真器、规划器三类功能。EvoPhys的回应是：这三者从来不需要被融合，它们从一开始就应该长在一起。“一个基模，两种形态”，不是一个愿景，而是已经跑通了的架构。李飞飞还在指出“前方应该有一座桥”，EvoPhys已经站到了桥的对岸，回头看地图说：“我们的引擎已经过了河。”

李飞飞画出“渲染器-仿真器-规划器”三分地图，其本质是学术正统的渐进主义：承认三者终将消融，但坚持必须经历“先分后合”的阶段，以“大一统”为终极静态终点。EvoPhys的架构更激进。它直接取消“三分法”的中间状态，将仿真器（World Engine）与规划器（World Policy）压进同一隐空间，让两者不是“边界消融”后的并列选项，而是相互喂养的动态闭环——Policy执行后的真实结果反馈给Engine，Engine生成更精准的状态预测再驱动Policy。这不是“先分后合”的渐进融合，而是知行合一的螺旋上升。

团队曾将AI的三层进阶概括为：LLM读万卷书，具身智能行万里路，世界模型知行合一。前两者或知或行，各有偏重；而世界模型的终点，恰恰是知行互训的即时融合——没有静止的“大一统”，只有持续的螺旋。

而这场竞赛最意味深长的一幕，或许发生在硬件层面。摩尔线程为EvoPhys提供了一颗“会渲染”的GPU——这恰好是英伟达数据中心卡被阉割掉的能力。这是一个信号：在世界模型这个新战场上，中国芯片公司正在用“渲染+训练”的融合架构，试图定义一个新的标准。如果世界模型最终被证明需要一张“会画画”的芯片，英伟达可能不得不在下一代产品中恢复这项功能。

这不再是追逐，我们在一起做的，是路线定义权的博弈。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.