图灵奖得主Yann LeCun押注 10 亿美元做空 LLM的新 AI 架构是什么？|算法|显式|贝叶斯|智能体|新论文|lecun

分享至

来源：市场资讯

（来源：图灵人工智能）

这篇文章我们将讨论另一条同样重要、但理论重心与工程路径明显不同的路线——LeCun 所倡导的以世界模型、联合嵌入预测与表征学习为核心的新 AI 架构。

图灵奖得主 Yann LeCun 作为联合创始人和执行主席深度参与、由华人科学家谢赛宁（DiT 共同作者）共同创立的 AMI Labs，已经完成高达 10.3 亿美元的种子轮融资。以 10.3 亿美元级别的融资规模，AMI Labs 几乎是以资本市场罕见的方式，正式在技术路线上向当前的 LLM 范式发起正面挑战。

单纯依赖“堆算力、堆数据”的扩展路径，是否真的能够抵达可规划、可理解、可行动的通用智能。

当前的生成式人工智能几乎被“大语言模型＝通用智能”这一叙事所主导。但以LeCun为代表的另一条路线始终在质疑：仅靠在词元层面做自回归预测，是否足以得到真正理解世界、能够长期规划、能够在现实环境中行动的智能体？

围绕这一问题，一种新的技术构想逐渐成形：不再把“生成下一像素、下一帧、下一个词”当作智能的核心，而是让系统在抽象表征空间中学习世界的稳定结构、可预测约束与行动后果，再把语言、规划与控制建立在这一层之上。这一路线当前最具代表性的实现，就是 Joint-Embedding Predictive Architecture（JEPA）及其向视频世界模型发展的分支。

一、为什么大语言模型不够好

这套新架构的出发点并不是否认大语言模型的工程价值，而是指出：语言预测擅长压缩人类已经写出来的知识，却并不自动等价于对物理世界、因果结构、身体行动与长期目标的真正掌握。根据《A Path Towards Autonomous Machine Intelligence》这篇立场论文，如果机器要像动物或人类那样学习，它至少需要同时具备三类能力：对世界状态形成层级化表征、在多个时间尺度上做预测与规划、以及在不完全可观测、不完全可预测的环境中选择行动。这一定义本身已经把问题从“生成语言”转向了“学习世界模型”。

从这个角度看，当前主流生成式模型有两个根本局限。

第一，它们通常在数据空间直接建模，也就是在像素、声波或词元上逼近条件分布；

第二，它们往往把训练目标与最终智能目标混在一起。然而现实世界不是静态语料库，而是一个高度多模态、部分可观测、充满分叉的动力系统。给定同一时刻的世界状态，下一时刻可能出现多个同样合理的结果。若模型被迫在原始像素上给出一个确定答案，它最容易学到的不是“未来为什么会这样”，而是“把多种可能平均起来”。这正是早期视频预测模型经常输出模糊结果的重要原因。

二、核心判断

这一路线并不否认生成本身，而是否定“在最低层数据细节上穷举生成”应当成为通向智能的主路线。其核心判断是：智能系统首先应学会预测那些真正可预测、真正与任务相关的抽象结构，而把高频细节、偶然噪声、不可约随机性留给潜变量、下游解码器或专门的生成模块去处理。I-JEPA 论文对此说得非常明确：它是一种“非生成式（non-generative）”的自监督方法，其做法不是重建图像像素，而是从图像的一部分上下文去预测同一图像中其他区域的表征；为了让模型学到语义级信息，目标块必须足够大、上下文必须足够分布式。换句话说，模型并不是去记住每一个像素，而是逼自己抓住“这个区域大致是什么、和周围结构的关系是什么、下一步哪些变化值得预测”。

到了视频版本，这一点更被放大。 V-JEPA 的官方介绍把它定义为一种“非生成式模型”，它在抽象表征空间中预测被遮蔽的视频片段，而不是直接补像素；这样做的目的，是让模型把计算资源集中到高层概念信息，而不是耗费在对下游任务不重要的细枝末节上。官方解释里用了一个非常直观的例子：如果视频里出现一棵树，系统真正需要把握的是“场景中有树、树在怎样运动、树与其他对象的关系如何”，而不是预测每一片叶子的微小抖动。

三、从孪生网络到反塌缩

要理解 JEPA，必须先理解它所继承的表征学习传统。其关键问题不是“如何生成”，而是“如何得到不塌缩、可迁移、有语义的表示”。孪生网络思路在这里非常重要：给同一对象的两个视图，要求两个编码器产生一致但不过度冗余的表征。真正的难点在于表征塌缩（representation collapse）——也就是模型把不同输入都映射到几乎相同的向量，表面上损失很低，实际上什么也没学到。Barlow Twins 论文把这一点说得非常清楚：自监督表征学习的 recurring issue 就是 trivial constant solutions；其解决办法是测量两个分支输出之间的互相关矩阵，并把它逼近单位阵，从而既保持不同视图的一致性，又压低不同维度之间的冗余。

这一思想后来在一系列非对比自监督方法中继续发展。DINO 论文进一步显示，教师—学生式的自蒸馏在视觉 Transformer 上可以产生相当强的语义结构，甚至使无监督特征中显式出现语义分割信息，而这种性质在有监督 ViT 或卷积网络中并不那么自然。这一步很关键，因为它说明：不依赖人工标签，模型也可能通过“预测另一个视角下的自己”而学到高度结构化的语义表征。JEPA 正是在这条路上进一步前进——不再只追求两个视图的一致，而是直接在抽象表示层面对被遮蔽区域做条件预测。

四、JEPA 到底是什么：在表示空间预测世界

JEPA 的要点可以用一句话概括：给定上下文表征，预测目标区域的潜在表征。I-JEPA 的做法是：先用编码器把可见上下文映射到表示空间，再让预测器去估计被遮蔽目标块的表征；目标表征来自另一条编码支路，但训练目标不是像素重建，而是两种表示之间的一致。这种设计背后有两个深层好处。其一，模型天然更偏向语义层、关系层与结构层，因为只有这些信息才可能在缺失细节的条件下被稳定预测。其二，它把“不确定性”从表面细节里分离了出去：那些无法由当前上下文推出的因素，不必硬塞进主预测里，可以交给潜变量、后续采样或者更专门的生成组件。

在更完整的世界模型构想中，这种“抽象表征预测”还会与潜变量结合。立场论文明确提出：世界模型必须能表达多个合理未来，而潜变量正是用来表示那些无法从当前观测中确定、却会影响未来演化的隐藏因素。如果前方车辆在岔路口即将转向，那么“向左”与“向右”都可能是合理预测；优秀的世界模型不该输出模糊的中间影像，而应把这种分叉作为可采样、可规划、可搜索的潜在结构来表达。

五、从 I-JEPA 到 V-JEPA 2：这条路线如何走向世界模型与规划

如果说 I-JEPA 主要证明了这种方法在图像表征学习上可行，那么 V-JEPA 与 V-JEPA 2 则试图把它推进到时序理解、未来预测与机器人规划。V-JEPA 的官方说明强调，它在学习到的潜在空间中预测被遮蔽的时空区域，而不是预测原始视频帧，因此能够把重心放在运动、交互与事件结构上。到了 2025 年的 V-JEPA 2，目标进一步扩大：论文提出先在超过一百万小时的互联网视频和图像上进行动作无关的预训练，再结合少量机器人轨迹数据，形成能够“理解、预测和规划”的自监督视频世界模型。

从结果上看，V-JEPA 2 已经不只是“表征学习器”。论文报告它在 Something-Something v2 上达到 77.3 的 top-1，在 Epic-Kitchens-100 的动作预判上达到 39.7 的 recall@5；当与大语言模型对齐时，它在若干视频问答任务上达到当时 8B 参数规模的 SOTA；在机器人部分，作者又在不足 62 小时无标签机器人视频基础上训练了一个动作条件世界模型 V-JEPA 2-AC，并在两个新实验室的 Franka 机械臂上实现零样本的抓取、放置与图像目标规划。

但这一结果必须被谨慎理解。

第一，V-JEPA 2 当前最强证据仍然集中在视觉世界建模、动作预判与受控机器人场景中，它并未证明自己已经可以替代大语言模型完成开放域知识推理。

第二，论文中“视频问答表现很强”这一点本身也说明：当任务需要自然语言接口时，这条路线仍然需要与语言模型耦合。

因此，更准确的判断是：它为下一代智能系统提供了一个可能位于 LLM 之下、旁边或之前的世界建模底座。语言模型可以成为接口层、解释层或知识调度层，但未必再是整个系统的核心学习机制。

六、真正的新架构是“世界模型＋成本模块＋行动者＋记忆”的整套系统

如果只把这一路线理解成一种新的自监督算法，就低估了它的野心。那篇立场论文其实提出的是一整套自主智能体结构：感知模块负责从传感器中提取与任务相关的状态表示；世界模型模块负责补全不可见状态并预测未来的可能世界状态；成本模块由“内在成本”和“可训练评论家”构成，用来衡量系统在当前或未来状态下的能量/不适；行动者模块则提出动作序列并通过世界模型与成本模块进行优化；短时记忆负责保存过去、当前与想象未来的状态；配置器则像执行控制系统一样，根据具体任务在线重配感知、世界模型、成本与行动者。

这套结构把“看见世界”“想象未来”“评估后果”“选择动作”分成了可分工、可接口化的模块，而不是把一切都压进一个统一的下一个词预测器中。尤其值得注意的是，论文把 actor 明确表述为一个利用世界模型和成本梯度进行优化与搜索的模块，类似模型预测控制；它甚至强调 actor 不仅要搜索动作，也要搜索潜变量配置，以便在不确定条件下做规划。这使得该架构与经典控制、规划、价值学习、世界模型学习之间形成了一个统一闭环。JEPA 在这里扮演的角色，主要是让“世界模型”这一环不再从像素层出发，而是建立在稳定抽象表征之上。

七、这套路线真正解决了什么，又还没有解决什么

它目前真正解决的，是“如何让模型在没有大量人工标签的情况下学到更语义化、更可迁移、更适合预测与规划的视觉表征”。I-JEPA 证明，非生成式的表示预测可以高效扩展，并在图像任务上产生高质量语义特征；V-JEPA 与 V-JEPA 2 则显示，这一思想可以进入视频理解、动作预判乃至一定程度的机器人规划。在这个意义上，这条路线确实提供了一个比“全靠像素重建或文本生成”更接近世界建模的技术通道。

但它尚未解决的同样重要。

首先，开放世界中的长期因果推理、跨模态统一表示、复杂语言组合泛化、层级任务分解与终身记忆仍是未完成问题。

其次，JEPA 类方法虽然强调不确定性与多重未来，但在现阶段的主流实现中，不确定性往往更多体现在潜变量设计或后续规划结构上，而不是像某些贝叶斯架构那样从头到尾都维持显式概率信念。

再次，这条路线在机器人上的成功还处在“少量动作数据＋受控任务＋较短时程规划”阶段，距离开放环境中的通用 embodied intelligence 仍有显著距离。

八、它与Karl Friston 的主动推断式新AI 架构到底有什么不同？

如果把Yann LeCun的JEPA—世界模型路线与Karl Friston 的主动推断（active inference）路线并置比较，会发现两者表面上都在反对“纯自回归生成＝智能”，也都强调世界模型、预测、行动、具身性与不确定性。但它们的底层哲学和工程重心并不相同。主动推断来自变分自由能框架，其核心主张是：智能体通过最小化变分自由能与期望自由能来同时完成感知、学习和行动；在这一过程中，显式信念、贝叶斯更新、风险与信息增益是统一的。而 JEPA 路线更像一种面向可扩展学习系统的工程蓝图：它强调先学到高质量的世界表征，再把行动、代价、记忆与规划挂接到这个表征系统上。

两条路线的核心差异

比较维度

JEPA／世界模型路线

主动推断路线

理论出发点

以自监督表征学习与世界模型工程为核心，目标是构造可扩展的感知—预测—规划底座。

以自由能原理与贝叶斯推断为核心，目标是统一解释感知、学习、行动与探索。

主训练对象

预测被遮蔽区域或未来状态的抽象表征，而非直接生成像素/词元。

维持并更新对隐变量、状态与策略的概率信念。

不确定性处理

通常通过潜变量、多重未来或后续规划机制表达，工程上可强可弱。

不确定性是第一等公民，风险与信息增益被显式写进目标函数。

行动选择

通过世界模型+成本模块+actor 进行优化，接近模型预测控制。

通过最小化期望自由能统一处理利用与探索。

与 LLM 的关系

更像为 LLM 提供下层世界模型；语言模型可作为接口层或上层模块。

可与 LLM 结合，但重点通常放在显式信念更新与消息传递，而非大型自回归语言建模。

系统风格

偏可扩展深度学习与表示学习工程。

偏规范性理论、概率图模型与信念传播。

当前强证据

图像/视频表征、视频理解、动作预判、受控机器人规划。

认知建模、规划、导航、探索与部分主动推断智能体原型。

可以把两者的差异概括为一句话：JEPA 路线是在问“怎样构造一个不会被数据细节拖垮、能够学到世界稳定结构的表征—预测系统”；主动推断路线则是在问“一个智能体怎样在显式不确定性下，通过统一的贝叶斯目标函数把知觉、行动、探索和偏好整合起来”。前者更像一套通向工程可扩展性的学习范式，后者更像一套通向统一智能理论的规范性框架。两者并非互斥：完全可以想象一种未来系统，底层用 JEPA 类世界模型学习抽象状态，上层再用主动推断式信念更新与策略选择来处理不确定决策。

结语

智能究竟首先来自语言生成，还是首先来自世界建模？如果智能体必须生活在一个部分可观测、充满分叉、需要行动才能验证预测的现实世界里，那么答案很可能是后者。

未来更强的智能系统，极可能不再由单一的自回归语言模型独占核心位置。它们也许会由世界模型、记忆、成本/价值、行动优化与语言接口共同构成；其中，JEPA 路线提供的是关于“世界如何被表征和预测”的新底座，而主动推断路线提供的则是关于“信念如何更新、行动如何在不确定性下被选择”的规范性原则。从这个意义上说，这些新的AI 架构是在押注：理解世界，终究比复述世界更接近智能。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.