LeCun押注的世界模型算法与硬件需求|高维|高斯|显式|时域|新论文

分享至

一个 17 岁的少年，花 20 小时就能学会开车。

GPT-4 读完了 30 万亿个 token，约 10^14 字节的文本。一个 4 岁孩子的视觉皮层，从出生到 4 岁，通过 200 万根视神经纤维，同样接收了约 10^14 字节的信息。信息量在一个数量级上，结果天差地别：孩子掌握了重力、物体永久性、因果、动量守恒，GPT-4 掌握了语言的统计规律。

这个差距说明一件事——孩子有世界模型，GPT-4 没有。

从 Meta 离开，LeCun在巴黎创立 AMI Labs，募了 10 亿美元，远离硅谷 VC。理念是：当前所有 AI，包括最强的 LLM，都无法对世界建模；任何缺少内部预测模型的系统，会永久停留在脆弱、不安全、样本效率低下的状态；补上这块缺口的，是建立在联合嵌入预测架构（JEPA）之上的世界模型，而不仅仅是生成式的 token 预测。

一、世界模型是什么

世界模型回答一个问题：给定世界当前状态 s_t，以及我设想采取的动作 a，下一刻的状态 s_{t+1} 会是什么样？

ŝ_{t+1} = WM(s_t, a_t)

关键是在一个抽象的、学到的状态表示上运算。把这个模型沿时间向前滚动，在想象出的动作序列上做优化，通过优化来规划——System 2 推理的基础。

世界是非确定的。前方的车可能加速也可能刹车，球可能弹向左也可能弹向右。世界模型不预测单一未来，维护一个隐变量 z 来参数化所有合理未来的分布：

ŝ_{t+1} = WM(s_t, a_t, z),    z ~ p(z)

"正确的表示"是什么意思：预测木星 100 年后的位置，只需要 6 个数字——位置和速度向量。不需要模拟木星上的每一个分子。正确的表示消除无关细节，只保留预测所需的结构。这个直觉贯穿整个 JEPA 框架。

世界模型的完整认知架构：感知模块估计状态，工作记忆保存近期信息，世界模型滚动预测想象中的未来，代价函数同时编码任务目标和安全约束，优化器搜索同时满足两者的动作。安全护栏（guardrail）被硬编码进代价函数，作为优化问题定义的一部分，不是现在llm这种事后过滤器或者 sft/rlvr。系统逃不出护栏，因为护栏就是它求解的约束本身。

二、为什么 LLM 走不到这一步

LLM是优秀的语言产品，但自回归 token 预测在结构上产生不了世界模型。

2.1　缺陷一：每个 token 分到的计算量恒定

Transformer 的一次前向传播，attention 部分是 O(n²d)。序列里每个 token，无论承载的是"2+2 等于几"还是"证明这个 NP 难问题"，拿到的计算量完全一样。

难题需要比简单问题更多的计算，LLM 没有识别"这个问题难、要多算一会儿"的机制。Chain-of-thought 的本质，是诱导模型多吐 token，用 token 数量换计算量。底层仍然是逐 token 生成，只是被提示生成得更多。

正确的推理机制应该是在输出空间上做优化——一个能把更多计算分配给更难子问题的搜索过程。A*、MCTS、SAT 求解、经典规划都具备这个性质，token 预测不具备。

2.2　缺陷二：自回归误差按指数衰减

LLM 逐 token 生成，每一步从约 10 万个 token 的分布里采样一个。设每步偏离正确子树的概率为 ε。生成树没有回溯边——一旦走出正确子树，回不来。长度为 n 的序列全部正确的概率：

P(正确序列) = (1 - ε)^n

取 ε = 0.01，n = 1000：

P ≈ 4.3 × 10⁻⁵ ≈ 0.004%

这不来自训练不足。语言本身有歧义、依赖上下文，ε 永远压不到零。唯一的出路是改变答案的产生方式。人类不靠一个词一个词往外蹦来回答问题，而是先形成一个抽象的想法——答案的语义表示——再翻译成词。LLM 跳过了抽象想法，直接输出到 token 表面含义上了。

2.3　缺陷三：没有世界模型，就没有规划地瞎预测

一个规划系统必须能回答"我在状态 s 执行动作 a，会发生什么"。LLM 没有显式的状态表示，没有运动模型，无法把世界向前滚动。它能生成描述计划的文本，但是缺点是没有机制去验证这些计划在物理世界里是否成立。

当前基于 LLM 的智能体（browser-use、computer-use）执行动作、观察结果，再执行下一步——这是错误的规划方式，不是预测式规划。我无法理解，一个系统在不具备预测自身行为后果能力的前提下，怎么能被叫做智能体系统。

2.4　缺陷四：语言是有损的抽象

语言为共享世界模型的人类之间的沟通而演化。"猫在垫子上"你能听懂，因为你早已从现实中的物理经验里知道猫、垫子和"在……上"分别意味着什么。语言是对思想的压缩表达，本身不是思想。LLM 只接触到压缩后的产物，够不到语言当初要压缩的那些物理直觉。

由此引出对 VLA（视觉-语言-动作）模型的错误分析。RT-2、Physical Intelligence 的 π 系列把 VLM 接上动作头，用人类演示数据做大规模行为克隆。继承 LLM 的全部结构性缺陷，又叠加了机器人特有的脆弱：

•泛化有硬边界。能迁移 LLM 主干已知的概念（RT-2 能把可乐罐移到 Taylor Swift 的图片上），但发明不了新的操作策略，遇到与预/后训练分布差太远的配置就崩。
•数据采集不可扩展。人类演示昂贵，受限于人的可用性，而物理环境的多样性是无穷的。
•没有显式规划过程。端到端从图像映射到动作，无法模拟"如果我把箱子往左推而不是往右推会怎样"，没有安全保证。

作为对照，V-JEPA 2 在 100 万小时互联网视频上预训练，不用机器人数据、不用标注；只需加入 62 小时无标注机器人轨迹，就能做动作条件预测。1M+ 小时观察 : 62 小时动作数据，这个比例比行为克隆所需的数量级有利得多。

2.5　缺陷的根源：生成式视频在数学上不是可行的

最深的技术理由针对生成式视频模型。预测下一帧，目标是一个 [H × W × 3] 的张量。以 1080p 为例：

1920 × 1080 × 3 ≈ 620 万个像素值
每通道 256 个离散值
可能的下一帧：256^(620万) ≈ 10^(1500万)

可观测宇宙的原子数约 10^80。LLM 能工作，是因为词表只有约 10 万 token，可以枚举并赋概率。视频帧没有对应的枚举方案。生成式视频模型面对不确定性只剩三条路：对所有未来取平均（得到模糊画面，这正是观察到的现象）；用隐变量（简单视频可行，复杂自然场景失败）；学连续分布（需要估计配分函数 Z）。

第三条是原则上正确的，但 Z = ∫ exp(-E(y)) dy 对任何非平凡的神经能量函数都没有闭式解。这是数学上的不可解。JEPA 绕开了这个死胡同：不建模下一帧的分布，而是建模下一个嵌入的分布——一个维度低得多的空间。像素级细节的不确定性被编码器吸收（丢掉不可预测的信息），不再要求预测器显式建模。

三、能量、坍缩与 SIGReg 3.1　能量模型：统一视角

整个自监督学习放进能量模型（EBM）的框架。一个 EBM 定义标量函数 F_θ(x, y)，度量输入 x 和候选输出 y 的相容程度。低能量等于相容，高能量等于不相容。训练就是塑形这个能量曲面，让观察到的 (x, y) 对能量趋近 0，未观察到的对能量远大于 0。推理则是给定 x，求最小化能量的 y：

y* = argmin_y F_θ(x, y)

这是通过优化来推理，不是llm的一次前向传播。最短路径、SAT 求解、Viterbi 解码、最优控制都是这个结构。Gibbs 分布 p(y|x) = exp(-F_θ(x,y)) / Z(x) 能把能量转成概率，但配分函数 Z(x) 对绝大多数分布不可解。直接和能量打交道，从源头绕开归一化问题。

3.2　坍缩问题

最朴素的 JEPA 目标是最小化正样本对之间的预测误差：

L = ‖E_θ(y) - P_φ(E_θ(x), z)‖²

它有一个平凡最优解：编码器把一切映射成同一个常向量。此时预测误差为零，表示携带的信息也为零。能量曲面变得处处平坦，模型什么都没学到。防止坍缩，是所有 JEPA 方法真正在解决的工程问题。两条大路。

3.3　路线 A：对比方法

构造负样本，把不相容对的能量推高。最有原则的目标是 InfoNCE：

L = -log [ exp(q·k⁺/τ) / (exp(q·k⁺/τ) + Σᵢ exp(q·kᵢ⁻/τ)) ]

它等价于一个 (N+1) 类分类的交叉熵，并且给互信息提供下界 I(q;k⁺) ≥ log(N) - L。MoCo 用一个缓慢更新的动量编码器维护负样本队列，把队列大小和 batch 大小解耦，让大规模对比学习不再依赖巨大显存。存在维度灾难：覆盖 d 维表示空间，最坏情况需要 O(exp(d)) 个负样本，高维下太脆。

3.4　路线 B：冗余消除

不去推开负样本，而是约束能量低的区域体积，强迫表示用满整个空间。

Barlow Twins来自 Horace Barlow 1961 年关于视觉神经元消除冗余的假说。对两个增强视图的嵌入计算互相关矩阵 C，损失把对角线推向 1（同一特征在两视图上一致）、把非对角推向 0（不同特征去相关），目标是 C = I，等价于对表示做白化。

VICReg把反坍缩逻辑拆成三项显式相加：不变性项拉近匹配视图，方差项让每个维度的标准差保持在阈值之上（直接防坍缩），协方差项让不同维度去相关。

这两条路有 60 年的跨度：Barlow 1961 年说神经元应当去相关，Barlow Twins 2021 年说嵌入维度应当去相关，同一个原理。

3.5　SIGReg：现代的有原则替代

Balestriero 提出的 SIGReg（Sketched Isotropic Gaussian Regularization）用一个目标替掉 VICReg 的多项：把整个嵌入分布正则化到各向同性高斯 N(0, I)。各向同性高斯零均值、各方向单位方差、维度间无相关。

直接检验高维分布是否高斯很贵。SIGReg 借助 Cramér-Wold 定理——一个分布由它全部一维边缘完全确定——把问题转成：让所有一维投影看起来都像 N(0,1)。抽 M 个随机单位向量 u_m，对每个投影 Z·u_m 施加可微的 Epps-Pulley 正态性检验统计量：

SIGReg(Z) = (1/M) Σ_m T_EP(Z·u_m)

好处是只剩一个超参（权重 λ），自带反坍缩保证（常向量在所有投影上方差为零，偏离高斯最远，惩罚趋于无穷），不需要 stop-gradient，不需要 EMA，靠随机草图扩展到高维。

LeWorldModel 最干净的训练目标：

L_LeWM = L_pred + λ · SIGReg(Z)
L_pred = ‖pred_φ(z_t, a_t) - z_{t+1}‖²₂,    z_t = enc_θ(o_t)

端到端从原始像素训练，没有 stop-gradient、没有 EMA、没有预训练编码器、没有奖励信号、没有辅助头。两项损失、一个超参。

值得注意的还有 BYOL/DINO 这条蒸馏路线：靠师生不对称（教师是学生的 EMA，对教师 stop-gradient，学生多挂一个预测器 MLP）来防坍缩。它有效，但 LeCun 坦承"机制神秘"——线性情形下梯度动力学的不动点落在 PCA 解（满秩、不坍缩），非线性情形理论上仍未完全解释。SIGReg 的价值正在于它把"为什么不坍缩"变成了可证明的事。

防止表示坍缩

路线A: 对比方法推开负样本

路线B: 冗余消除用满表示空间

InfoNCE / CPC

MoCo 动量队列

SimCLR

Barlow Twins

VICReg

SIGReg可证明反坍缩

路线C: 蒸馏不对称机制神秘但有效

BYOL

DINO

3.6　表示的几何意义

物理里的重整化群消除细粒度自由度、保留粗粒度的预测结构——好的编码器就是一个学出来的重整化操作。每上升一个表示层级（粒子→原子→分子→细胞），丢失的信息就是熵；每一层科学抽象都由它刻意丢弃的信息来定义。编码器应当丢弃在给定上下文下不可预测的信息——世界的"不可约熵"——剩下的就是可预测的结构：位置、速度、力、意图。

四、JEPA 架构家族：从 1992 到现在

自监督学习路线可以归纳为三类：生成式（如预测像素的 GPT/MAE/Sora）、对比式（推拉样本的 SimCLR/MoCo/CLIP）、以及联合嵌入预测型（JEPA）。对于文本、代码等离散符号序列，生成式方法效果良好；而在处理图像、视频、音频、传感器数据等连续高维信号时，唯有联合嵌入预测架构具备扩展性。生成式方法在不可压缩的像素噪声上消耗建模能力，对比式方法遇到组合爆炸的扩展瓶颈，JEPA 以极简结构突破限制，实现对高维复杂信号的有效建模。

自监督学习

生成式预测像素/token

对比式推拉

联合嵌入预测式 JEPA

GPT / BERT

MAE / Sora

SimCLR / MoCo

CLIP

孪生网络 1992

I-JEPA 图像

V-JEPA 视频

V-JEPA 2-AC 动作条件

VL-JEPA 语言

LeWorldModel 端到端

4.1　起点：孪生网络（贝尔实验室，1992）

LeCun 1994 年为签名防伪造了第一个孪生网络：两个共享权重的编码器分别编码签名 A 和 B，在嵌入空间比距离。1992 年就已具备的性质——共享编码器权重、正负对对比训练、不重建原始输入、在嵌入空间做预测——是所有现代 JEPA 变体的直系祖先。三十多年里核心架构思想没变，变的是防坍缩策略和规模。

4.2　I-JEPA：图像（image）

把图像的一大块连续区域作为上下文（55-75% 可见），4 个各约 15% 的连续块作为预测目标。预测器以掩码块的空间位置 z 为条件，必须学出场景的空间地图，在任意被查询的位置预测语义连贯的内容。和 MAE 的对比很说明问题：MAE 预测像素、学到纹理、冻结表示弱（ImageNet 线性探针 67.8%）；I-JEPA 预测嵌入、学到语义、冻结表示强（72.9%），且训练 GPU 时间约为 MAE 的 1/7。

观察 x上下文

编码器 E_x

嵌入 s_x

预测器 P

位置/动作条件 z

预测嵌入 ŝ_y

观察 y目标

编码器 E_y

目标嵌入 s_y

损失 = ‖ŝ_y − s_y‖²

4.3　V-JEPA：视频（video）

把 2D 空间预测扩展到 3D 时空预测，输入视频被切成 [2 帧 × 16×16] 的时空管。预测器学会物体永久性、运动连续性、物理因果，全部来自原始视频、没有标注。V-JEPA 2 的编码器是 ViT-g/16（约 10 亿参数），用 3D-RoPE 做位置编码，在 22M 小时视频上训练。基准上 Something-Something v2 达 77.3% top-1，Epic-Kitchens 动作预判相对提升 44%。

最有意思的是常识物理：给它看球在半空中瞬移、物体向上掉落这类违反物理的视频，预测误差会在不可能事件发生的那一刻急剧飙升。这是第一个纯从视频、无任何物理标签或符号规则，就能检测物理不合理性的 AI 系统。

4.4　V-JEPA 2-AC：动作条件

两阶段训练。阶段一是上面的自监督预训练，产出冻结的视频编码器。阶段二冻住编码器，在 62 小时无标注机器人轨迹（DROID 数据集）上训练一个 300M 参数、用 block-causal attention 的动作条件预测器，每帧只能注意当前和过去、不能看未来。重活由预训练编码器干完，动作条件预测器只需学习动作如何修改已学好的表示。

部署时零样本：在两个不同实验室的 Franka 机械臂上，不采集这些环境的数据、不做任务特定训练、不给奖励信号，目标用图像观察指定。规划用 MPC + CEM 在世界模型上搜索想象的动作序列，选预测末态嵌入离目标嵌入最近的那条。机械臂完成了对新物体的拿取-放置。

4.5　VL-JEPA：接住语言

标准 VLM 是"图像编码器 + 自回归 LLM"，逐 token 生成文本。VL-JEPA 把生成式输出换成嵌入预测：视觉编码器（冻结的 V-JEPA 2）输出视觉嵌入，查询文本和目标文本各自编码，预测器预测目标文本的嵌入，损失在嵌入空间算。需要人类可读输出时，才用一个事后训练的解码器把预测嵌入翻成文本。

这为什么更高效呢？同一个物理事实在文本里有许多种说法。问"这蘑菇能吃吗"，"别吃这个蘑菇""这蘑菇有毒""不，这蘑菇不安全"都对。token 空间里这几句几乎正交，训练数据通常只含一种措辞，模型选了正确的另一种措辞反而被惩罚。嵌入空间里语义相近的句子被 Y-Encoder 映射到邻近点，预测器只需命中"这蘑菇危险"对应的区域，换措辞不受罚。目标分布从多峰（峰之间支撑不相交）变成近似单峰，单峰分布好拟合得多。

实测的对照：同数据、同模型、同算力，5M 训练样本下 VLM 准确率约 20%，VL-JEPA 约 35%，相对提升约 75%。VL-JEPA 用 1.6B 参数在 GQA 上胜过 7B 的标准 VLM。在运动密集型基准上优势最明显——SSv2 上 19.3% vs PE-Core-G 的 9.0%——因为它的视觉表示来自纯视觉预训练，没被"语言常描述什么"裁剪过。

顺带解决了实时视频流。VLM 对每帧都要自回归解码整段答案，30fps 下根本来不及。VL-JEPA 每帧一次前向得到一个嵌入（O(1)），持续监控这条平滑的语义嵌入流，只在检测到语义突变（‖Ŝ_Y^(t) - Ŝ_Y^(t-1)‖ 超阈值）时才触发解码器，解码调用减少 2.85×。智能眼镜需要这种方法：常开监控视野，只在重要的事发生时才出声。

4.6　LeWorldModel：最干净的端到端系统

ViT-Tiny 编码器（约 5M 参数，CLS token 池化）加 Transformer 预测器（约 10M 参数，用 AdaLN 做动作条件），总计 15M 参数，单 GPU 几小时训完。它是第一个从像素端到端、带可证明反坍缩保证（SIGReg）的 JEPA。

它的规划速度优势来自 token 数量。DINO-WM 用冻结 DINOv2，每帧约 200 个 patch token，H=25 步规划每次 CEM 迭代要 200×25 = 5000 次 token 预测；LeWM 每帧 1 个 CLS token，同样 25 步只要 25 次预测。结果是 LeWM 规划快 48×。训练后用线性探针能从它的潜空间读出物体位置、速度、朝向、质量——它从像素-动作轨迹里隐式学到了牛顿定律，没有任何物理标签。

五、学到"真正的"世界模型的时间

一个世界模型要可信，它的内部表示必须对应世界真实的自由度。如果机器人的世界模型把物体位置和光照颜色缠在一起，把速度和纹理混在一起，那么线性探针读不出真实状态、潜空间距离不对应物理距离、潜空间里的规划找不到物理上有意义的方案。

在什么条件下，学到的表示能线性恢复世界真实的隐变量？

设定如下。世界有隐变量 z ∈ ℝⁿ（位置、速度、物体身份、光照……），我们从不直接观察 z，一个未知非线性混合函数 g 生成观察 x = g(z)（把 g 想成 3D 物理状态到 2D 像素的渲染管线）。我们训练编码器 f，让复合 h = f∘g 在某个固有对称性下恢复 z。线性可识别性即存在矩阵 Q 使 h(z) = Qz——这是线性探针能工作的必要条件。

理论假设高斯隐变量 z ~ N(0, I)（最大熵分布，且由中心极限定理，许多微观变量的聚合趋于高斯），正样本对之间是 Ornstein-Uhlenbeck 转移 z' = ρz + √(1-ρ²)η，ρ 控制两视图的相关度。在这个设定下，转移算子的本征函数恰好是 Hermite 多项式，d 次多项式的本征值是 ρᵈ。含义很关键：

• 线性函数（d=1）最可预测，本征值 ρ
• 二次（d=2）次之，本征值 ρ²
• 更高的非线性，本征值 ρᵈ 指数级变小

任何带单位方差的表示分量都能分解成 Hermite 多项式的加权和，其跨视图相关 ≤ ρ，等号当且仅当该分量是线性的。任何对表示的非线性扭曲都会严格降低正样本对之间的相关。

四个主要定理由此展开：

定理一（正向）　在高斯世界、OU 转移下，最小化对齐损失并约束嵌入为 N(0,I)，唯一的最优解是 h(z) = Qz，Q 是正交矩阵。要在保持嵌入高斯的同时最大化视图一致，表示别无选择，只能学成真实隐变量的一个旋转/反射。

定理二（逆向）　如果每个满足协方差为 I 的最优解都是线性的，那么 z 必须是高斯的。推论很实际——只匹配二阶矩的 VICReg 不够，只有匹配完整高斯的 SIGReg 才保证线性可识别性。把隐变量分布在广义正态族里扫描，恢复 R² 在高斯（形状参数 α=2）处尖锐地达到 0.999，偏离高斯则崩，且与用哪个正则项无关。

定理三（近似可识别性）　实践中对齐和高斯约束都只近似满足。定理给出恢复误差随近似误差的缩放界，且界优雅退化——随训练收敛、两个损失下降，恢复误差单调下降。这让 JEPA 的训练损失第一次变得可解释：损失越低，世界模型越好，不需要监督验证集。

定理四（桥接）　若 h(z) = Qz，则对任何代价函数旋转不变的有限时域最优控制问题，潜空间里的规划等价于真实隐变量空间里的规划。可识别性不是一个抽象的好性质，它是潜空间规划能找到物理上正确方案的前提。

六、分层规划：唯一还没解决的硬骨头

单层 JEPA 配 CEM/MPC 在短任务上能用，超过约 5 步就会失败，原因有二。

其一是误差累积。世界模型自回归滚动，单步误差 ε，H 步后误差约 Hε（小 ε 下线性，最坏情况指数）。H=50 的任务，再准的预测器也会让 rollout 偏离现实。其二是搜索空间爆炸。CEM 在 K×H×|action| 维连续空间里采样，H=50、action_dim=7 就是 350 维，随机样本里含一条好轨迹的概率随 H 指数下降。

最能说明问题的是拿取-放置任务。机械臂必须先朝物体移动（远离目标、代价上升）才能抓取，再移向容器（代价下降）。短视的平坦规划器看到第一步代价上升就拒绝，卡在原地或来回振荡。VJEPA2-AC 配平坦 MPC 在这个任务上成功率 0%。

HWM（分层世界模型，Zhang 等，2026，FAIR/NYU）用两层解决：

•低层世界模型P⁽¹⁾(z_{t+1} | z_t, a_t)，处理原始动作，规划时域 5-10 步，高时间分辨率
•高层世界模型P⁽²⁾(z_{t+K} | z_t, l_t)，处理潜宏动作 l_t（一段原始动作序列的压缩表示），规划时域 3-5 个宏步，低时间分辨率

两个模型活在同一个编码器产生的潜空间里。这是让耦合干净的关键设计——高层预测的中间状态可直接作为低层规划器的目标。规划分两段：高层在宏动作空间做 CEM，到达目标，产出一串中间潜子目标，第一个子目标 z̃₁ 是机器人途中应当经过的路标；低层在原始动作空间做 CEM 去够到 z̃₁，执行前几个动作，重规划，子目标达成后推进到下一个。非贪心结构被高层捕捉，低层只需对子目标局部贪心。

是, 取下一子目标

观察 o_current

编码 z = E o

目标 z_goal = E o_goal

高层 CEM

宏动作计划 l*

首个子目标 z̃₁ = P² z,l*₁

低层 CEM

原始动作计划 a*

执行前 k 个动作

子目标达成?

推进 z̃ → z̃₂

总目标达成?

完成

结果：拿取-放置 HWM 70% vs 平坦 MPC 0%，并且胜过用 77× 更多机器人数据训练的 VLA。开关抽屉 70% vs 30%，Push-T（DINO-WM）61% vs 17%，多样迷宫（PLDM）83% vs 44%。

模式跨架构、跨任务一致：只要任务需要非贪心行为或长时域，分层就带来大幅提升。HWM 是一个即插即用的规划模块，不重训就能改进任何 JEPA 世界模型。

天花板在哪里？用外部提供的"神谕子目标"绕开高层规划器，HWM 和平坦 MPC 都能到 80%。差距完全在高层规划器产出子目标的质量上。剩下的开放问题：子目标质量、训练时如何选路标（现在是固定步长，更有原则的做法是在潜速度 ‖z_{t+1}-z_t‖ 的局部极大处——状态剧变的时刻——选路标）、以及最重要的，层级能否自发涌现而非手工指定。

一个人从纽约飞巴黎，会在至少四个抽象层次上规划（去巴黎 → 到 JFK 登机 → 打车去机场 → 走到电梯按按钮），最底层是无需规划的反应式运动。他希望训练分层 JEPA 时，低层学短时精细预测、高层学长时粗粒度预测，合适的层级结构会像 CNN 自发学出"边缘→形状→物体→场景"那样涌现出来。慢特征分析理论给了这个猜想一些依据，但还没有规模上的实证。HWM 是一个起点，目前只有两层。

七、与大脑的对应

JEPA 与神经科学的对应：

预测编码。大脑不被动接收感觉输入，而主动预测它，用预测误差更新内部模型。这套框架（Helmholtz 1867，Rao-Ballard 1999，Friston 2010 的自由能原理）和 JEPA 结构高度同构：自顶向下的预测信号对应预测器，自底向上的预测误差对应预测损失，分层皮层区对应分层世界模型，注意力的显著性加权对应掩码预测目标。

婴儿认知。发展心理学解释"一个智能系统应当学会什么、多快学会"。给 6 个月大的婴儿看小车被推下平台后悬浮（违反重力），婴儿不惊讶——还没有重力的世界模型。给 10 个月大的婴儿看同样画面，婴儿明显多盯着看——惊讶反应，说明已内化"无支撑物体会下落"。V-JEPA 在同类实验里表现出相同行为：物理不可能事件处预测误差飙升。它没被喂过物理标签，纯训练于视频，就建起了 10 个月婴儿那样的原始直觉物理。10 个月大的婴儿没被训练在标注物理数据集上，他们的世界模型完全通过观察和互动学来。

System 1 与 System 2。Kahneman 的两套系统直接映射到 JEPA 认知架构：System 1 是反应式策略（感知→立即行动，前馈网络，无需世界模型，适合走路、伸手、接球），System 2 是通过优化规划（世界模型 + CEM/MPC，在想象的动作序列上搜索，适合新任务和安全攸关决策）。LLM 只作为 System 1 运行，单次前向给出输出，没有真正的 System 2。成熟系统应当能动态切换——熟练技能交给 System 1（走向电梯），新情形启用 System 2（规划去巴黎）。

神经底物的对应。前额叶皮层对应世界模型（规划、预测），海马体对应情景/工作记忆，视觉皮层 V1-V5 对应编码器（分层视觉特征），基底节对应代价函数，小脑对应低层运动世界模型（快速精确），杏仁核对应先天代价函数。小脑尤其值得注意——它维护一个极精确的身体力学前向模型（给定运动指令，我的手 50ms 后在哪），是运动控制层面的生物 JEPA，且在演化上非常古老，世界模型是脊椎动物大脑的一种基本计算策略。

前额叶皮层

世界模型规划/预测

海马体

情景/工作记忆

视觉皮层 V1-V5

编码器分层特征

基底节

代价函数

小脑

低层运动世界模型

杏仁核

先天代价函数

从神经科学直接长出算法。Barlow Twins 是罕见的：Horace Barlow 1961 年关于视网膜神经节细胞去相关的神经科学论文，预言了最优图像编码器的结构，比能实现它的深度学习早了几十年。

开放问题：意识与主观体验（JEPA 不涉及）、好奇心与内在动机（能否实现为奖励访问高预测误差状态的代价函数）、社会认知与心智理论（需要建模他人模型的高阶世界模型）、语言习得的接地机制、睡眠与记忆巩固。

八、硬件：当这套范式落地，芯片要变成什么样

JEPA 对端侧硬件的需求与 LLM 完全不同。讲清楚需求差异，才谈得上演化。

8.1　两种截然不同的访问模式

LLM 自回归解码，每生成一个 token，要把整个模型的权重过一遍内存总线。7B 模型为例：

计算量：~14 GFLOPs（矩阵-向量积，batch=1）
内存访问：~14 GB（加载权重）
Arithmetic Intensity ≈ 1 FLOP/byte

H100 算力 1979 TFLOPS，带宽 3.35 TB/s。在 1 FLOP/byte 工况下，算力利用率约 0.17%。HBM 存在的全部意义就是把这点利用率喂饱——每秒 5 TB 的带宽，防止芯片饿死。LLM 推理是内存带宽受限的工作负载。

JEPA 的访问模式倒过来。CEM 规划并行评估 K 条轨迹（K=500）、H 步（H=25），共 12,500 次预测器前向，全部共享同一套预测器权重。权重加载一次，K 条轨迹同时复用：

预测器权重（LeWorldModel）：10M params ≈ 10 MB（INT8）
K=500 条轨迹激活：每条 ~4.6 KB，合计 ~2.3 MB
全程在片上 SRAM 内完成，DRAM 带宽压力近似为零
Arithmetic Intensity >> 100 FLOP/byte，算力利用率接近峰值

JEPA 不需要 HBM，需要的是足够大的片上 SRAM。LLM 是"每生成一个 token 把 70GB 权重过一遍"，JEPA 是"把权重加载一次然后 500 条轨迹并行复用"，带宽需求量级根本不同。

8.2　三大端侧平台的真实差距

用两个核心负载横评高通 Hexagon NPU（SD 8 Gen 4）、Apple ANE（M4）、NVIDIA Jetson Orin NX。

负载一：ViT Encoder 推理。三个平台有个共同盲点——3D-RoPE。V-JEPA 2 的位置编码要把 feature dimension 分成时间、空间H、空间W 三段分别旋转，现有 NPU 的 RoPE 单元只实现了为语言模型设计的 1D 版本，3D 版本回退到通用矩阵乘法，效率降 3-5×。

平台                 Encoder 单帧（含 3D-RoPE 降级）   功耗
Hexagon NPU          ~15-25 ms                        ~5W
Apple ANE + Metal    ~20-35 ms（Metal GPU 补位）       ~2W
Jetson Orin NX GPU   ~30-50 ms（CUDA 自定义 kernel）   ~15W

Jetson 是唯一有 CUDA 自定义 kernel 能力的平台，3D-RoPE 可针对性优化，纯延迟上占优，代价是功耗。

负载二：CEM 规划（K=500）。这是拉开差距的测试。Hexagon 的张量加速器设计上限 batch≤16，K=500 要分 4 批循环、无法流水线，实际 K 压到约 150 才能进 100ms 预算，规划质量损失约 40%。Apple ANE 要求编译时定死 batch，CEM 需要的动态 K 它原生不支持，只能预编译多份模型，切换有 5-10ms 开销，K=500 跑不动只能降级到 Metal GPU（~200-300ms）。Jetson 的 CUDA 对 batch=500 无设计限制：

batch=500 预测器 TensorRT 推理：500 × 10 MFLOPs = 5 GFLOPs
@4.4 TOPS INT8：~1.1 ms/迭代，50 次迭代 ~55ms → 进 100ms 预算

Jetson Orin NX 是当下唯一能在实际功耗下跑完 V-JEPA 2-AC + CEM K=500 完整规划循环的端侧平台，但 10-25W 功耗在穿戴场景是瓶颈。Hexagon 和 ANE 对 CEM 的支持都属于"设计之外"，需要绕路，2027-2028 架构更新后会改善。Apple 的统一内存有个被低估的优势：ANE 和 GPU 共享同一块物理 DRAM，切换计算路径零拷贝，这在 ANE 扩大 SRAM、支持大 batch 之后会成为重要竞争力。

8.3　各类芯片的受力方向

NPU是最直接的受益者，也要做最大调整：片上 SRAM 从 4-16MB 扩到 32-64MB（容纳 CEM 的大 batch 激活），增加 3D-RoPE 专用路径，重组内部 SRAM 支持大 batch 并行推理。EMA 更新这类逐元素 scatter 操作对 MAC 阵列不友好，端侧在线微调时需要专用向量单元或折交给 CPU SIMD。

CPU从GPU 的服务员变成规划循环的指挥者。HWM 两层规划需要 CPU 维护 CEM 的高斯分布参数、对 K 个分数排序选精英、更新分布、调度轨迹、判断高低层切换。需求变化是低延迟核间通信（CPU 到 NPU 零拷贝传 latent state）、确定性延迟（实时控制）、片上硬件 PRNG（CEM 每次迭代要生成上万个高斯随机数，软件太慢）。

LPDDR崛起。JEPA 预测器参数小、访问模式是"一次加载大量复用"，带宽不是瓶颈，端侧 LPDDR5X（68 GB/s）理论上足以支撑 LeWorldModel 级别。LPDDR6（~130 GB/s，2027-2028）能让 Encoder 权重加载快 2×，对 CEM 阶段提升有限——真正的瓶颈是片上 SRAM 大小，不是片外带宽。HBM 在训练侧维持，在 JEPA 推理服务器里的必要性下降。

8.4　RISC-V：实时规划循环

HWM 的调度层需要持续运行、μs 级延迟：NPU 跑完一批推理后，读 K 个分数、做 top-k、更新高斯分布、触发下一次迭代。计算量小，但延迟必须确定。ARM Cortex-A 是乱序核，缓存缺失带来 100μs 级随机抖动，对 1000Hz 力传感器中断不可接受。

RISC-V 顺序执行核（如 SiFive E/P 系列）有结构性优势：无乱序缓冲区，中断响应等于固定流水线深度（2-5 周期）；开放 ISA 可加自定义指令服务 CEM 调度。

cem.topk  rd, rs1, K, elite_n     // K=500 分数 top-elite 排序，目标 <1μs
cem.gauss.update rd, rs1, rs2, n  // 据精英样本更新 (μ,σ)，目标 <0.5μs
hwm.waypoint.set rs1              // 写 waypoint 触发低层重规划，单周期

RISC-V V 向量扩展（512-bit SIMD）约 1000 周期完成 K=500 的 top-30 排序，@1.8GHz 约 0.55μs，且不占 NPU 资源——NPU 跑下一批推理时，RISC-V 同时处理上一批结果，两者真正并行。预期 2027-2028 的机器人 SoC 会是三层异构：Cortex-A 跑 Linux/ROS 做高层协调，RISC-V 实时核跑 RTOS 做 CEM 调度和传感器融合，NPU/ASIC 跑 Encoder 和预测器。

8.5　专用 CEM ASIC 的 dataflow

通用 NPU 撞到效率上限后，专用 ASIC 会出现。核心抉择是 systolic array 还是 vector processor。CEM 的计算分两类：GEMM 密集（预测器前向，K 条轨迹共享权重）和非 GEMM（LayerNorm、AdaLN、top-k、高斯更新、PRNG 采样）。systolic array 只擅长 GEMM，vector processor 两类都能但 GEMM 效率低。最优解是混合，且 systolic array 的 dataflow 必须选weight-stationary：

Weight-Stationary：每个 PE 持有预测器权重的一个 tile，不动
                   K=500 条轨迹激活依次流过阵列
                   → 权重在 K 条轨迹里完全复用，零重新加载
                   这正是 CEM 的计算结构


 对比 Output-Stationary：每个 PE 持有一个输出元素，权重和输入都要动
                       需要 K×d ≈ 96,000 个 PE，面积不现实

四个模块——systolic array、向量单元、CEM 控制器、PRNG——可以完全流水线化：阵列算第 i 次迭代的第 j 层时，向量单元处理 j-1 层的归一化，控制器处理 i-1 次迭代的 top-k，PRNG 已在生成 i+1 次迭代的样本。实现后 50 次迭代延迟≈单次迭代延迟，而非 50× 串行。

PRNG 单元是不可忽视的关键路径。CEM 每次迭代要生成 K×H×action_dim = 500×25×7 = 87,500 个高斯随机数。软件 PRNG 约 875,000 周期 ≈ 875μs，超过单次迭代时间；硬件 PRNG（32 路并行 LFSR + Box-Muller 流水线）171 周期 ≈ 342ns，完全隐藏在阵列计算延迟内。单元面积 <0.2mm²（5nm），但去掉它，K=500 的 CEM 在端侧实时运行的可能性直接归零。

8.6　演化路线图与能效约束

2026     Jetson Orin NX 唯一实用（机器人控制板）
         Hexagon/ANE 跑 LeWorldModel 可行，CEM K 限于 100-150
2027-28  NPU 架构更新：SRAM 扩到 32-64MB，3D-RoPE 专用路径
         LPDDR6 量产，RISC-V 实时核进入机器人 SoC
2028-30  专用 CEM ASIC：weight-stationary 阵列 + 向量单元
         预测器权重驻留 SRAM，硬件 PRNG，四模块全流水线
2030+    能效拐点：穿戴 1-5W 跑完整规划循环
         神经形态方向（Loihi/NorthPole 后继）<0.1W

能效是最终约束。GPU 做 CEM 约 15-25W，设计良好的专用 ASIC 约 1-3W（10× 提升），神经形态推测 ~0.1W。穿戴预算 1-5W，工业机器人控制板 10-30W。LLM 时代芯片竞争围绕"谁的内存带宽更大"，JEPA 时代转向"谁能在有限 SRAM 里并行跑最多条规划轨迹、同时功耗足够低"。这一轮里 NPU 和专用 ASIC 比 GPU 受益更多，RISC-V 作为它们之间的实时连接器补上最后一块。

九、时间表

预计行业在 2027 年前后开始承认这次范式转移。AMI Labs 的近期计划分两步：头一两年把 JEPA 世界模型用于复杂工业控制——喷气发动机、化工厂、电网、个性化医疗、材料与催化剂设计——这些领域方程写不全，但有传感器数据，学一个现象学动力学模型加规划就能产生价值，而且人类没法演示喷气发动机控制，VLA 式行为克隆在这里不适用。这是 JEPA 在家用机器人解决之前的工业楔子。第三到五年扩展为智能机器人系统的主要供应商。

竞争对手——Physical Intelligence、DeepMind Robotics、Tesla Optimus——都在走 VLA 优先路线。AMI Labs是另一条路：JEPA 加分层规划，不只是原则上更优，而是会在 VLA 路线触顶之前先造出可商业部署的机器人。

标准是，家用机器人第一次被口头告知去清晚餐桌，就能完成——像一个被吩咐收拾餐桌的 10 岁孩子。目前没有任何系统接近这个目标。

过去十年，AI 领域痴迷于"蛋糕上的樱桃"（强化学习），偶然靠 next-token prediction 实现了蛋糕底层的自监督学习，但只在语言这个离散域里。让自监督学习在连续高维信号——视频、传感器流、物理世界——里也成立，在表示空间而非像素空间里预测，用优化来推理，把安全约束融合进优化问题本身。这同时会催生新的硬件迭代和爆发。a芯片还会继续高歌猛进。

参考：ETH Zürich "Frontiers of Embodied AI" 演讲、I-JEPA / V-JEPA / V-JEPA 2 / VL-JEPA / LeJEPA / LeWorldModel / HWM 论文。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.