网易首页 > 网易号 > 正文 申请入驻

白热化:北大团队发布5D世界模型

0
分享至

来源:市场资讯

(来源:观察者网)

(文/周远方 编辑/刘媛媛)

2026年6月5日,北大EvoPhys团队与摩尔线程联合发布了EvoPhys-World。一个试图让机器人学会“想象”的5D世界模型,在这一天正式亮相。

四天前,英伟达刚刚发布了他们的世界模型Cosmos 3;前一天,斯坦福教授李飞飞发表论文,为“世界模型”这个被严重滥用的概念画出了权威的“三分法”地图。学界、产业界、算力巨头在同一时间窗口亮牌,显现当前AI新主流路线的竞争,进入白热化的阶段。

这场竞争的核心,可以用一个极为简单的动作来检验:

你让机器人把桌上杯子移到左边。

第一种做法,它看到杯子,识别指令,伸手抓取,平移放下。整个过程像条件反射,不会想。这是VLA时代,视觉语言动作模型,眼睛和手脚直接连线,中间没有脑子。

第二种做法,它看到杯子,脑子里展开几张图。图一,轻轻推,杯子滑到左边。图二,用力推,杯子翻倒,水洒出来。图三,没碰到,杯子不动。它剪掉图二和图三,选择图一。这是世界模型,4D版,三维空间加时间。它能预测下一秒会发生什么,就像一个能观看物理规则电影的观众,但它仍然只是一个观众。

第三种做法,还是这几张图,但它进一步想。如果桌面有水渍,图一的滑动距离会不会改变。如果杯子是空的和满的,翻倒的阈值有何不同。如果推的时候手指碰了一下杯沿,杯子会不会转。它同时推演多条世界线,并在分叉中选择。这是世界模型,5D版,在时间和空间之上,再加一维动作与因果。它不是在预测电影,而是在导演剧本——它在行动前,快速做完了一场关于“后果”的短梦。

这不是让机器人的眼睛升级,而是给它造了一个脑子。一个是学会“看”,一个是学会“想”。

一、EvoPhys的底牌:5D世界模型与“一个基模,两种形态”

EvoPhys-World不是一个由多个独立模块拼凑起来的“缝合怪”。它是一个统一的基础模型,将感知、记忆、预测、决策、行动全部压缩进了同一个隐空间。


EvoPhys-World 模型架构示意图。展示了Latent Memory Pool、Unified State-Action Token、World Engine 与 World Policy 的双模式螺旋结构,以及Next-State Prediction与Next-Action Prediction的并行推演路径。

在这个隐空间里,它呈现出两种形态。

第一种叫World Engine,即“世界引擎”。你给它一个动作,比如“推”,它就能在脑子里模拟出这个世界接下来会变成什么样——杯子会滑多远、会不会倒、水会不会洒。这是它的“想象”能力,所谓“万物可孪生,物理可交互”。

第二种叫World Policy,即“世界策略”。你给它一个目标,比如“让杯子停在这里”,它就能倒推出实现这个目标需要的一系列动作——手应该伸多快、用多大的力、角度怎么调整。这是它的“行动”能力,所谓“世界可预演,万物可操控”。


它们不是割裂的。World Policy执行后产生的结果,会反馈给World Engine,让它的“想象”更精准;更精准的“想象”又能生成更好的“行动”。这就是“自进化”的核心——它不是让机器人学会“做动作”,而是让它学会“做实验”。先在大脑里做一万次实验,再挑出最优的那个方案去执行。

这种设计有一个深层的哲学基础:动作空间的设计。英伟达Cosmos 3是机器人中心主义的,它的动作被定义为机械臂的关节角度、夹爪的位置。而EvoPhys采用人本主义路线:它不教机器人“二指夹爪怎么动”,而是先教模型学“人的五指怎么捏杯子、怎么拧瓶盖”。

但人本主义不只是路线的选择,它延伸出一套更完整的工程标准——“三位一体”。这套标准认为,人类的数据采集设备、机器人本体、以及人类远程操控机器人的交互设备,必须共享同一个数据接口。人类戴着设备去推杯子时,眼睛看到的画面、头部转动的姿态、手指的骨骼点与用力大小,都遵循同一套格式。这套格式被机器人直接读取,也被远程操控的人类原样接收。这样一来,人类采集的交互数据可以直接用于训练,学到的行为可以直接转移到机器人上,而人类在远程操控时也不会有任何感知上的错位。

这意味着,它理解的是任务本身,而不是被特定的硬件形态所绑定。在机器人形态尚未收敛的今天,人,才是那具最通用的本体。

说到“知”与“行”的关系,World Engine承担的就是“知”的角色——它知道推杯子后世界会如何变化;World Policy承担的是“行”的角色——它知道为实现目标该如何出手。据接近该团队的人士透露,他们将两者的闭环概括为“知行合一”:不是先仿真再决策的“先知后行”,而是知行互训、螺旋上升。


这个螺旋能够高效运转,有一个关键的硬件前提。EvoPhys团队将模型训练在摩尔线程的MTT S5000千卡集群上。这款芯片最特殊的地方在于:它不是英伟达H100那样的“纯训练卡”,而是保留了完整的图形渲染管线。World Engine要实时“画出”杯子被推倒的画面,World Policy要在这幅画上计算下一步的动作——渲染与训练必须在一颗芯片上同时完成,不能分到两台机器上倒腾数据。英伟达的数据中心卡为了极致算力阉割了渲染模块,而摩尔线程的“全功能GPU”恰好满足了世界模型的这种刚需。

二、它为什么特别?——英伟达和李飞飞提供的地图

EvoPhys这张底牌之所以在这个时间点显得如此锋利,是因为它同时与两件大事形成了对照。

英伟达的“主流”路线。

就在EvoPhys发布的三天前,英伟达推出了世界模型Cosmos 3。黄仁勋将其定位为“Physical AI的ChatGPT时刻”,打出了三张牌:数万亿级别的多模态token、开放的开发者生态、以及与宇树科技等本体厂商的硬件协同。

但解剖它的数据构成,会发现一些有意思的细节。据英伟达公开的技术报告,在Cosmos 3 Reasoner的预训练阶段,约2200万样本中,OCR文字识别占42.9%,2D空间定位占16.5%,视觉问答占11.3%,而视频理解与推理仅占0.05%。

换句话说,英伟达的模型是一个极其渊博的“通才”,但在“如何推一个杯子”这门物理课上,它可能还是个初学者。它的“教材”里,掺杂了太多“语言”和“合成画面”。它可能学到的更多是“推”和“动”在统计上总是一起出现的语言关联,而不是“当施加的力大于最大静摩擦力时,物体才会发生位移”的物理因果。它强大,但它解决的是规模化问题,而不是“理解”问题。

与此同时,来自产业前线的真实需求数字,显得更为冷静。智元机器人合伙人姚卯青曾估算,GPT-5训练语料折合约100亿小时,而全行业汇聚的高质量具身数据仅约50万小时,差距以万倍计。黄仁勋所说的“GPT时刻”,更准确地讲,或许是“基础设施的归因时刻”,而非“模型能力的落地时刻”。算力可以买到,但真实世界数据,必须是一天一天攒出来的。

李飞飞的“地图”。

同样是在这个时间窗口,学界给出了自己的框架。6月4日,斯坦福教授李飞飞发表论文,把被严重滥用的“世界模型”划出了三大功能类别:渲染器(生成逼真像素)、仿真器(生成符合物理规律的世界状态)、规划器(生成动作序列)。她特别强调,这三者中最被低估、但价值最深远的,是仿真器。她预言,最终这三类模型的边界将不断消融,走向一个“大一统世界模型”。


在这张地图上,英伟达和北大的位置被照见了。

Cosmos 3,偏重渲染与仿真,试图涵盖一切,但重心是“生成逼真的未来世界”。而EvoPhys,恰好精准地押注在李飞飞所说的那片“无人区”——价值最深、也最难啃的“仿真器”上。但更关键的是,EvoPhys悄悄画出了超越地图的路线。李飞飞的框架里,三者在分头演进后需要被“缝合”。而EvoPhys用“一个基模,两种形态”给出了更极致的答案:这三个功能从来不需要被缝合,它们从一开始就共享同一个隐空间,通过“螺旋自进化”互相喂养。

也就是说,当李飞飞还在为行业画出“如何走到终点”的地图时,EvoPhys已经拿出了“走到终点之后”的引擎。

三、从“是什么”到“为什么”

现在需要解释一个问题:为什么EvoPhys的这条“5D”路线,比Cosmos 3的“4D”路线,更接近对物理世界的“理解”?

我们可以借用围棋的变化图来理解所谓5D。

棋手在考虑下一步时,脑子里不是只算一个点,而是同时摆几张变化图。图一,我下这里,对手应那里;图二,我打入,对手反击,我是否做活。棋手在零点几秒内剪掉明显低胜率的分支,落子。世界模型推演物理后果,本质上在做同样的事——但棋盘从361个交叉点变成了无限的连续空间。一个动作下去,可能的后果有无限多种。模型要在零点几秒内剪掉那些违反物理规律的分支,只保留符合重力、摩擦力、碰撞体积的路径,再从中选最优。


这就是模式匹配与因果推断的区别。

模式匹配,是模型在数据里看到“推”这个动作,和“杯子动”这个画面,在统计上总是一起出现。于是它学会了这个规律。结果,当它被要求推一个铁块时,它依然会用同样的力气——因为它不理解“为什么”需要更用力。它只是记住了一对表象。

因果推断,是模型在无数真实交互中,学会了一条底层物理规律:“当施加的力大于最大静摩擦力时,物体才会发生位移”。它不是在匹配“推”和“动”的画面,而是在学习那个通用的物理方程。因此,无论是推杯子还是推铁块,它都能根据物体的质量和材质,计算出需要多大的力。它理解了原因和结果之间的必然联系。

更进一步。反事实推理问的是:“如果刚才我没推,杯子会不会因为桌面的震动而自己滑落?”这是在脑子里构建一个与现实不同的平行世界去推演。EvoPhys的5D引擎,本质上就是在工程化这种“反事实”能力。

教一个模型“为什么”,和教它“是什么”,完全是两个世界的事情。前者通向真正的智能,后者只是更高级的鹦鹉学舌。

结尾:两种出牌,定义权博弈

英伟达Cosmos 3走的是“主流”道路——20万亿token、开放生态、硬件协同,它解决的是“如何让更多机器人快速学会一个动作”的规模化问题。这是算力帝国的一次标准出牌。

EvoPhys的激进,在于它连李飞飞刚画出的地图都不满足。李飞飞说世界模型应该融合渲染器、仿真器、规划器三类功能。EvoPhys的回应是:这三者从来不需要被融合,它们从一开始就应该长在一起。“一个基模,两种形态”,不是一个愿景,而是已经跑通了的架构。李飞飞还在指出“前方应该有一座桥”,EvoPhys已经站到了桥的对岸,回头看地图说:“我们的引擎已经过了河。”

李飞飞画出“渲染器-仿真器-规划器”三分地图,其本质是学术正统的渐进主义:承认三者终将消融,但坚持必须经历“先分后合”的阶段,以“大一统”为终极静态终点。EvoPhys的架构更激进。它直接取消“三分法”的中间状态,将仿真器(World Engine)与规划器(World Policy)压进同一隐空间,让两者不是“边界消融”后的并列选项,而是相互喂养的动态闭环——Policy执行后的真实结果反馈给Engine,Engine生成更精准的状态预测再驱动Policy。这不是“先分后合”的渐进融合,而是知行合一的螺旋上升。

团队曾将AI的三层进阶概括为:LLM读万卷书,具身智能行万里路,世界模型知行合一。前两者或知或行,各有偏重;而世界模型的终点,恰恰是知行互训的即时融合——没有静止的“大一统”,只有持续的螺旋。

而这场竞赛最意味深长的一幕,或许发生在硬件层面。摩尔线程为EvoPhys提供了一颗“会渲染”的GPU——这恰好是英伟达数据中心卡被阉割掉的能力。这是一个信号:在世界模型这个新战场上,中国芯片公司正在用“渲染+训练”的融合架构,试图定义一个新的标准。如果世界模型最终被证明需要一张“会画画”的芯片,英伟达可能不得不在下一代产品中恢复这项功能。

这不再是追逐,我们在一起做的,是路线定义权的博弈。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
AI改变世界杯

AI改变世界杯

九万里
2026-06-22 08:38:50
美国“最胖城市”曝光!汉堡比脑袋还要大,办公椅承重超450斤

美国“最胖城市”曝光!汉堡比脑袋还要大,办公椅承重超450斤

译言
2026-06-21 18:48:21
大年初一舅舅扇我爸两巴掌,妈摘三百万玉镯砸桌,吼:老公断亲

大年初一舅舅扇我爸两巴掌,妈摘三百万玉镯砸桌,吼:老公断亲

墨染尘香
2026-06-21 17:14:43
离婚两年前夫每月来我家睡一觉:昨晚他照例来,可这回我没让他碰

离婚两年前夫每月来我家睡一觉:昨晚他照例来,可这回我没让他碰

i书与房
2026-06-21 10:12:22
韩联社:朝鲜无权转播世界杯,报道中刻意删除美日韩消息

韩联社:朝鲜无权转播世界杯,报道中刻意删除美日韩消息

懂球帝
2026-06-21 10:54:11
新疆:坚决拥护党中央决定

新疆:坚决拥护党中央决定

上观新闻
2026-06-21 20:30:28
豪门最大黑马!被踢出千亿信托的私生子,凭全科满分逆袭翻盘

豪门最大黑马!被踢出千亿信托的私生子,凭全科满分逆袭翻盘

看尽落尘花q
2026-06-20 07:07:23
防长遭中国制裁,菲总统亲自出面见普京,不料遭俄罗斯狮子大开口

防长遭中国制裁,菲总统亲自出面见普京,不料遭俄罗斯狮子大开口

铁锤简科
2026-06-19 14:25:41
中国将迎来前所未有的死亡高峰,专家得出答案:是这些因素导致的

中国将迎来前所未有的死亡高峰,专家得出答案:是这些因素导致的

医学科普汇
2026-06-16 21:50:07
雷军学黄仁勋吃面,红衣怎么不跟了?

雷军学黄仁勋吃面,红衣怎么不跟了?

芳华青年
2026-06-20 09:19:45
1972年,得知何香凝在讣告中被称为先生,周总理下令:改一下称呼

1972年,得知何香凝在讣告中被称为先生,周总理下令:改一下称呼

简史档案馆
2026-06-21 11:05:03
曼联又要当冤大头!1.2 亿砸世界杯新星,曼城不要的人也抢?

曼联又要当冤大头!1.2 亿砸世界杯新星,曼城不要的人也抢?

奶盖熊本熊
2026-06-22 06:09:03
发现没:大学班干部履历,在面试官眼里还不如一段实习经历值钱

发现没:大学班干部履历,在面试官眼里还不如一段实习经历值钱

侃故事的阿庆
2026-06-22 08:03:55
尼克斯阿尔瓦拉多夺冠庆祝多疯狂:已连醉7天 夜店开心撒钱

尼克斯阿尔瓦拉多夺冠庆祝多疯狂:已连醉7天 夜店开心撒钱

醉卧浮生
2026-06-21 17:24:36
打遍四邻的沙俄,每临大事必打东方牌?屡试不爽还是黔驴技穷

打遍四邻的沙俄,每临大事必打东方牌?屡试不爽还是黔驴技穷

鹤羽说个事
2026-06-15 22:53:30
纸尿裤甲酰胺“罗生门”:三家品牌均称未检出,消费者该信谁?

纸尿裤甲酰胺“罗生门”:三家品牌均称未检出,消费者该信谁?

华夏时报
2026-06-19 22:53:21
短剧最强演员出现了,比郭宇欣有气质,比韩雨彤漂亮,网友:确实

短剧最强演员出现了,比郭宇欣有气质,比韩雨彤漂亮,网友:确实

李橑在北漂
2026-06-21 15:59:48
陈建斌也没想到,被自己抛弃的吴越,如今竟凭一身黑衣碾压全场!

陈建斌也没想到,被自己抛弃的吴越,如今竟凭一身黑衣碾压全场!

精彩背后的故事
2026-06-22 03:03:28
当全世界都忙着吵架时,中国把整整5万亿元,悄悄埋进了地底深处

当全世界都忙着吵架时,中国把整整5万亿元,悄悄埋进了地底深处

离离言几许
2026-06-21 22:43:34
震惊!曹德旺要福耀大学自负盈亏,网友:这是真正意义上的好大学

震惊!曹德旺要福耀大学自负盈亏,网友:这是真正意义上的好大学

火山詩话
2026-06-19 07:57:26
2026-06-22 09:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3708695文章数 8250关注度
往期回顾 全部

科技要闻

SpaceX 74天闪电IPO,OpenAI能照搬吗?

头条要闻

涨粉1400多万接"失业通知书" 佛得角门将收不续约通知

头条要闻

涨粉1400多万接"失业通知书" 佛得角门将收不续约通知

体育要闻

18岁斩世界杯首球!亚马尔连创5大纪录

娱乐要闻

原来她就是张颂文老婆

财经要闻

这门“躺赚”的生意,要凉了?

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

手机
艺术
家居
亲子
房产

手机要闻

三星S26实测:发热降频仍比骁龙严重,难道2nm工艺还是不太行?

艺术要闻

310米!欧盟第一高楼,坐落于波兰

家居要闻

绿意盎然 自然之境

亲子要闻

纸尿裤“罗生门”:消费信任透支,真相越辩越远?

房产要闻

商业清零式退潮,大量住宅登场!三亚又要大规模调规!

无障碍浏览 进入关怀版