AI的致命缺陷！能写诗却不懂杯子会碎，物理直觉成行业新战场|推理|机器人|真实世界

AI的致命缺陷！能写诗却不懂杯子会碎，物理直觉成行业新战场

2026-03-25 12:02:06　来源: 话史官1

四川举报

分享至

一个大语言模型写诗、答题、总结报告，它表现得游刃有余。但如果你让它预测一个玻璃杯从桌边滑落后会发生什么，或者指挥一台机器人在杂乱的车间里搬运零件，它很可能一塌糊涂。

Google DeepMind首席执行官德米斯·哈萨比斯也在公开场合指出，当前AI存在"智能不均衡"的问题，能解出高难度数学题，却搞不定基本的物理直觉。

这个判断，正在引发AI行业有史以来规模最大的一次技术路线转向。

2026年3月，杨立昆离开Meta后创立的新公司Advanced Machine Intelligence（AMI Labs）完成了10.3亿美元的种子轮融资，估值约35亿美元，投资方包括英伟达和多家顶级机构。这距离李飞飞创立的World Labs完成10亿美元融资，仅仅过去了数月。

两家公司押注的，是同一个赛道："世界模型"。

世界模型的核心思路，是为AI构建一套内部的物理模拟器，让它在真正行动之前，能够在脑子里先"预演"后果。这与人类思考方式更为接近，也是机器人、自动驾驶和工业自动化等实体应用真正落地所必需的能力基础。

"世界模型"并非一种单一的技术，它是至少三种截然不同的技术路线的统称，每一条路线背后的逻辑、优势和适用场景都大相径庭。

第一条路是杨立昆力推的JEPA路线，即联合嵌入预测架构。

JEPA的关键在于"放弃细节"。传统模型试图在像素级别预测世界的每一帧画面，而JEPA学的是更抽象的"规则"，它会丢掉背景树叶上的光影变化，专注于理解场景中物体运动的核心模式，就像人类看一辆车行驶时追踪的是轨迹和速度，而不是每片窗玻璃的反光角度。

这种"放弃"带来的好处是极高的效率。JEPA模型计算量小、延迟低、对噪声不敏感，非常适合对实时响应要求苛刻的机器人控制和医疗辅助决策。Meta的V-JEPA 2是这一路线目前最成熟的公开成果，已被证明能在视频理解任务中达到业界领先水准。

第二条路是World Labs代表的高斯散射（Gaussian Splatting）路线。

第三条路是Google DeepMind和英伟达主导的端到端生成路线。

DeepMind的Genie 3和英伟达的Cosmos平台，代表的是一种最为激进的方案：模型本身就是物理引擎。它实时接收用户操作，逐帧生成场景、物理动力学和光照响应，而不是把结果输出到外部引擎。Genie 3已经被Waymo用于训练自动驾驶系统，英伟达Cosmos则专门为机器人和自动驾驶开发者提供合成极端场景的能力，让高风险的真实路测变成可以无限重复的数字实验。

这条路线的代价是高昂的算力消耗，但它提供了目前最为灵活和强大的合成数据工厂能力。

三条路线之间并非非此即彼的竞争关系，混合架构正在出现。大语言模型继续承担推理和沟通的接口角色，而世界模型在后端处理物理和空间信息，二者分工协作，各司其职。

超过20亿美元的资本押注，正在告诉整个行业：下一个AI时代的入场券，是理解物理世界的能力，而不仅仅是预测下一个词。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.