![]()
一个大语言模型写诗、答题、总结报告,它表现得游刃有余。但如果你让它预测一个玻璃杯从桌边滑落后会发生什么,或者指挥一台机器人在杂乱的车间里搬运零件,它很可能一塌糊涂。
Google DeepMind首席执行官德米斯·哈萨比斯也在公开场合指出,当前AI存在"智能不均衡"的问题,能解出高难度数学题,却搞不定基本的物理直觉。
这个判断,正在引发AI行业有史以来规模最大的一次技术路线转向。
2026年3月,杨立昆离开Meta后创立的新公司Advanced Machine Intelligence(AMI Labs)完成了10.3亿美元的种子轮融资,估值约35亿美元,投资方包括英伟达和多家顶级机构。这距离李飞飞创立的World Labs完成10亿美元融资,仅仅过去了数月。
两家公司押注的,是同一个赛道:"世界模型"。
世界模型的核心思路,是为AI构建一套内部的物理模拟器,让它在真正行动之前,能够在脑子里先"预演"后果。这与人类思考方式更为接近,也是机器人、自动驾驶和工业自动化等实体应用真正落地所必需的能力基础。
"世界模型"并非一种单一的技术,它是至少三种截然不同的技术路线的统称,每一条路线背后的逻辑、优势和适用场景都大相径庭。
第一条路是杨立昆力推的JEPA路线,即联合嵌入预测架构。
JEPA的关键在于"放弃细节"。传统模型试图在像素级别预测世界的每一帧画面,而JEPA学的是更抽象的"规则",它会丢掉背景树叶上的光影变化,专注于理解场景中物体运动的核心模式,就像人类看一辆车行驶时追踪的是轨迹和速度,而不是每片窗玻璃的反光角度。
这种"放弃"带来的好处是极高的效率。JEPA模型计算量小、延迟低、对噪声不敏感,非常适合对实时响应要求苛刻的机器人控制和医疗辅助决策。Meta的V-JEPA 2是这一路线目前最成熟的公开成果,已被证明能在视频理解任务中达到业界领先水准。
第二条路是World Labs代表的高斯散射(Gaussian Splatting)路线。
第三条路是Google DeepMind和英伟达主导的端到端生成路线。
DeepMind的Genie 3和英伟达的Cosmos平台,代表的是一种最为激进的方案:模型本身就是物理引擎。它实时接收用户操作,逐帧生成场景、物理动力学和光照响应,而不是把结果输出到外部引擎。Genie 3已经被Waymo用于训练自动驾驶系统,英伟达Cosmos则专门为机器人和自动驾驶开发者提供合成极端场景的能力,让高风险的真实路测变成可以无限重复的数字实验。
这条路线的代价是高昂的算力消耗,但它提供了目前最为灵活和强大的合成数据工厂能力。
三条路线之间并非非此即彼的竞争关系,混合架构正在出现。大语言模型继续承担推理和沟通的接口角色,而世界模型在后端处理物理和空间信息,二者分工协作,各司其职。
超过20亿美元的资本押注,正在告诉整个行业:下一个AI时代的入场券,是理解物理世界的能力,而不仅仅是预测下一个词。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.