网易首页 > 网易号 > 正文 申请入驻

LeCun押注的世界模型算法与硬件需求

0
分享至

一个 17 岁的少年,花 20 小时就能学会开车。

GPT-4 读完了 30 万亿个 token,约 10^14 字节的文本。一个 4 岁孩子的视觉皮层,从出生到 4 岁,通过 200 万根视神经纤维,同样接收了约 10^14 字节的信息。信息量在一个数量级上,结果天差地别:孩子掌握了重力、物体永久性、因果、动量守恒,GPT-4 掌握了语言的统计规律。

这个差距说明一件事——孩子有世界模型,GPT-4 没有。

从 Meta 离开,LeCun在巴黎创立 AMI Labs,募了 10 亿美元,远离硅谷 VC。理念是:当前所有 AI,包括最强的 LLM,都无法对世界建模;任何缺少内部预测模型的系统,会永久停留在脆弱、不安全、样本效率低下的状态;补上这块缺口的,是建立在联合嵌入预测架构(JEPA)之上的世界模型,而不仅仅是生成式的 token 预测。

一、世界模型是什么

世界模型回答一个问题:给定世界当前状态 s_t,以及我设想采取的动作 a,下一刻的状态 s_{t+1} 会是什么样?

ŝ_{t+1} = WM(s_t, a_t)

关键是在一个抽象的、学到的状态表示上运算。把这个模型沿时间向前滚动,在想象出的动作序列上做优化,通过优化来规划——System 2 推理的基础。

世界是非确定的。前方的车可能加速也可能刹车,球可能弹向左也可能弹向右。世界模型不预测单一未来,维护一个隐变量 z 来参数化所有合理未来的分布:

ŝ_{t+1} = WM(s_t, a_t, z),    z ~ p(z)

"正确的表示"是什么意思:预测木星 100 年后的位置,只需要 6 个数字——位置和速度向量。不需要模拟木星上的每一个分子。正确的表示消除无关细节,只保留预测所需的结构。这个直觉贯穿整个 JEPA 框架。


世界模型的完整认知架构:感知模块估计状态,工作记忆保存近期信息,世界模型滚动预测想象中的未来,代价函数同时编码任务目标和安全约束,优化器搜索同时满足两者的动作。安全护栏(guardrail)被硬编码进代价函数,作为优化问题定义的一部分,不是现在llm这种事后过滤器或者 sft/rlvr。系统逃不出护栏,因为护栏就是它求解的约束本身。


二、为什么 LLM 走不到这一步

LLM是优秀的语言产品,但自回归 token 预测在结构上产生不了世界模型。

2.1 缺陷一:每个 token 分到的计算量恒定

Transformer 的一次前向传播,attention 部分是 O(n²d)。序列里每个 token,无论承载的是"2+2 等于几"还是"证明这个 NP 难问题",拿到的计算量完全一样。

难题需要比简单问题更多的计算,LLM 没有识别"这个问题难、要多算一会儿"的机制。Chain-of-thought 的本质,是诱导模型多吐 token,用 token 数量换计算量。底层仍然是逐 token 生成,只是被提示生成得更多。

正确的推理机制应该是在输出空间上做优化——一个能把更多计算分配给更难子问题的搜索过程。A*、MCTS、SAT 求解、经典规划都具备这个性质,token 预测不具备。

2.2 缺陷二:自回归误差按指数衰减

LLM 逐 token 生成,每一步从约 10 万个 token 的分布里采样一个。设每步偏离正确子树的概率为 ε。生成树没有回溯边——一旦走出正确子树,回不来。长度为 n 的序列全部正确的概率:

P(正确序列) = (1 - ε)^n

取 ε = 0.01,n = 1000:

P ≈ 4.3 × 10⁻⁵ ≈ 0.004%

这不来自训练不足。语言本身有歧义、依赖上下文,ε 永远压不到零。唯一的出路是改变答案的产生方式。人类不靠一个词一个词往外蹦来回答问题,而是先形成一个抽象的想法——答案的语义表示——再翻译成词。LLM 跳过了抽象想法,直接输出到 token 表面含义上了。


2.3 缺陷三:没有世界模型,就没有规划地瞎预测

一个规划系统必须能回答"我在状态 s 执行动作 a,会发生什么"。LLM 没有显式的状态表示,没有运动模型,无法把世界向前滚动。它能生成描述计划的文本,但是缺点是没有机制去验证这些计划在物理世界里是否成立。

当前基于 LLM 的智能体(browser-use、computer-use)执行动作、观察结果,再执行下一步——这是错误的规划方式,不是预测式规划。我无法理解,一个系统在不具备预测自身行为后果能力的前提下,怎么能被叫做智能体系统

2.4 缺陷四:语言是有损的抽象

语言为共享世界模型的人类之间的沟通而演化。"猫在垫子上"你能听懂,因为你早已从现实中的物理经验里知道猫、垫子和"在……上"分别意味着什么。语言是对思想的压缩表达,本身不是思想。LLM 只接触到压缩后的产物,够不到语言当初要压缩的那些物理直觉。

由此引出对 VLA(视觉-语言-动作)模型的错误分析。RT-2、Physical Intelligence 的 π 系列把 VLM 接上动作头,用人类演示数据做大规模行为克隆。继承 LLM 的全部结构性缺陷,又叠加了机器人特有的脆弱:

  • 泛化有硬边界。能迁移 LLM 主干已知的概念(RT-2 能把可乐罐移到 Taylor Swift 的图片上),但发明不了新的操作策略,遇到与预/后训练分布差太远的配置就崩。

  • 数据采集不可扩展。人类演示昂贵,受限于人的可用性,而物理环境的多样性是无穷的。

  • 没有显式规划过程。端到端从图像映射到动作,无法模拟"如果我把箱子往左推而不是往右推会怎样",没有安全保证。

作为对照,V-JEPA 2 在 100 万小时互联网视频上预训练,不用机器人数据、不用标注;只需加入 62 小时无标注机器人轨迹,就能做动作条件预测。1M+ 小时观察 : 62 小时动作数据,这个比例比行为克隆所需的数量级有利得多。

2.5 缺陷的根源:生成式视频在数学上不是可行的

最深的技术理由针对生成式视频模型。预测下一帧,目标是一个 [H × W × 3] 的张量。以 1080p 为例:

1920 × 1080 × 3 ≈ 620 万个像素值
每通道 256 个离散值
可能的下一帧:256^(620万) ≈ 10^(1500万)

可观测宇宙的原子数约 10^80。LLM 能工作,是因为词表只有约 10 万 token,可以枚举并赋概率。视频帧没有对应的枚举方案。生成式视频模型面对不确定性只剩三条路:对所有未来取平均(得到模糊画面,这正是观察到的现象);用隐变量(简单视频可行,复杂自然场景失败);学连续分布(需要估计配分函数 Z)。


第三条是原则上正确的,但 Z = ∫ exp(-E(y)) dy 对任何非平凡的神经能量函数都没有闭式解。这是数学上的不可解。JEPA 绕开了这个死胡同:不建模下一帧的分布,而是建模下一个嵌入的分布——一个维度低得多的空间。像素级细节的不确定性被编码器吸收(丢掉不可预测的信息),不再要求预测器显式建模。

三、能量、坍缩与 SIGReg 3.1 能量模型:统一视角

整个自监督学习放进能量模型(EBM)的框架。一个 EBM 定义标量函数 F_θ(x, y),度量输入 x 和候选输出 y 的相容程度。低能量等于相容,高能量等于不相容。训练就是塑形这个能量曲面,让观察到的 (x, y) 对能量趋近 0,未观察到的对能量远大于 0。推理则是给定 x,求最小化能量的 y:

y* = argmin_y F_θ(x, y)

这是通过优化来推理,不是llm的一次前向传播。最短路径、SAT 求解、Viterbi 解码、最优控制都是这个结构。Gibbs 分布 p(y|x) = exp(-F_θ(x,y)) / Z(x) 能把能量转成概率,但配分函数 Z(x) 对绝大多数分布不可解。直接和能量打交道,从源头绕开归一化问题。

3.2 坍缩问题

最朴素的 JEPA 目标是最小化正样本对之间的预测误差:

L = ‖E_θ(y) - P_φ(E_θ(x), z)‖²

它有一个平凡最优解:编码器把一切映射成同一个常向量。此时预测误差为零,表示携带的信息也为零。能量曲面变得处处平坦,模型什么都没学到。防止坍缩,是所有 JEPA 方法真正在解决的工程问题。两条大路。


3.3 路线 A:对比方法

构造负样本,把不相容对的能量推高。最有原则的目标是 InfoNCE:

L = -log [ exp(q·k⁺/τ) / (exp(q·k⁺/τ) + Σᵢ exp(q·kᵢ⁻/τ)) ]

它等价于一个 (N+1) 类分类的交叉熵,并且给互信息提供下界 I(q;k⁺) ≥ log(N) - L。MoCo 用一个缓慢更新的动量编码器维护负样本队列,把队列大小和 batch 大小解耦,让大规模对比学习不再依赖巨大显存。存在维度灾难:覆盖 d 维表示空间,最坏情况需要 O(exp(d)) 个负样本,高维下太脆。

3.4 路线 B:冗余消除

不去推开负样本,而是约束能量低的区域体积,强迫表示用满整个空间。

Barlow Twins来自 Horace Barlow 1961 年关于视觉神经元消除冗余的假说。对两个增强视图的嵌入计算互相关矩阵 C,损失把对角线推向 1(同一特征在两视图上一致)、把非对角推向 0(不同特征去相关),目标是 C = I,等价于对表示做白化。

VICReg把反坍缩逻辑拆成三项显式相加:不变性项拉近匹配视图,方差项让每个维度的标准差保持在阈值之上(直接防坍缩),协方差项让不同维度去相关。


这两条路有 60 年的跨度:Barlow 1961 年说神经元应当去相关,Barlow Twins 2021 年说嵌入维度应当去相关,同一个原理。

3.5 SIGReg:现代的有原则替代

Balestriero 提出的 SIGReg(Sketched Isotropic Gaussian Regularization)用一个目标替掉 VICReg 的多项:把整个嵌入分布正则化到各向同性高斯 N(0, I)。各向同性高斯零均值、各方向单位方差、维度间无相关。

直接检验高维分布是否高斯很贵。SIGReg 借助 Cramér-Wold 定理——一个分布由它全部一维边缘完全确定——把问题转成:让所有一维投影看起来都像 N(0,1)。抽 M 个随机单位向量 u_m,对每个投影 Z·u_m 施加可微的 Epps-Pulley 正态性检验统计量:

SIGReg(Z) = (1/M) Σ_m T_EP(Z·u_m)

好处是只剩一个超参(权重 λ),自带反坍缩保证(常向量在所有投影上方差为零,偏离高斯最远,惩罚趋于无穷),不需要 stop-gradient,不需要 EMA,靠随机草图扩展到高维。


LeWorldModel 最干净的训练目标:

L_LeWM = L_pred + λ · SIGReg(Z)
L_pred = ‖pred_φ(z_t, a_t) - z_{t+1}‖²₂, z_t = enc_θ(o_t)

端到端从原始像素训练,没有 stop-gradient、没有 EMA、没有预训练编码器、没有奖励信号、没有辅助头。两项损失、一个超参。

值得注意的还有 BYOL/DINO 这条蒸馏路线:靠师生不对称(教师是学生的 EMA,对教师 stop-gradient,学生多挂一个预测器 MLP)来防坍缩。它有效,但 LeCun 坦承"机制神秘"——线性情形下梯度动力学的不动点落在 PCA 解(满秩、不坍缩),非线性情形理论上仍未完全解释。SIGReg 的价值正在于它把"为什么不坍缩"变成了可证明的事。

防止表示坍缩

路线A: 对比方法推开负样本

路线B: 冗余消除用满表示空间

InfoNCE / CPC

MoCo 动量队列

SimCLR

Barlow Twins

VICReg

SIGReg可证明反坍缩

路线C: 蒸馏不对称机制神秘但有效

BYOL

DINO


3.6 表示的几何意义

物理里的重整化群消除细粒度自由度、保留粗粒度的预测结构——好的编码器就是一个学出来的重整化操作。每上升一个表示层级(粒子→原子→分子→细胞),丢失的信息就是熵;每一层科学抽象都由它刻意丢弃的信息来定义。编码器应当丢弃在给定上下文下不可预测的信息——世界的"不可约熵"——剩下的就是可预测的结构:位置、速度、力、意图。

四、JEPA 架构家族:从 1992 到现在

自监督学习路线可以归纳为三类:生成式(如预测像素的 GPT/MAE/Sora)、对比式(推拉样本的 SimCLR/MoCo/CLIP)、以及联合嵌入预测型(JEPA)。对于文本、代码等离散符号序列,生成式方法效果良好;而在处理图像、视频、音频、传感器数据等连续高维信号时,唯有联合嵌入预测架构具备扩展性。生成式方法在不可压缩的像素噪声上消耗建模能力,对比式方法遇到组合爆炸的扩展瓶颈,JEPA 以极简结构突破限制,实现对高维复杂信号的有效建模。

自监督学习

生成式预测像素/token

对比式推拉

联合嵌入预测式 JEPA

GPT / BERT

MAE / Sora

SimCLR / MoCo

CLIP

孪生网络 1992

I-JEPA 图像

V-JEPA 视频

V-JEPA 2-AC 动作条件

VL-JEPA 语言

LeWorldModel 端到端

4.1 起点:孪生网络(贝尔实验室,1992)

LeCun 1994 年为签名防伪造了第一个孪生网络:两个共享权重的编码器分别编码签名 A 和 B,在嵌入空间比距离。1992 年就已具备的性质——共享编码器权重、正负对对比训练、不重建原始输入、在嵌入空间做预测——是所有现代 JEPA 变体的直系祖先。三十多年里核心架构思想没变,变的是防坍缩策略和规模。

4.2 I-JEPA:图像(image)

把图像的一大块连续区域作为上下文(55-75% 可见),4 个各约 15% 的连续块作为预测目标。预测器以掩码块的空间位置 z 为条件,必须学出场景的空间地图,在任意被查询的位置预测语义连贯的内容。和 MAE 的对比很说明问题:MAE 预测像素、学到纹理、冻结表示弱(ImageNet 线性探针 67.8%);I-JEPA 预测嵌入、学到语义、冻结表示强(72.9%),且训练 GPU 时间约为 MAE 的 1/7。

观察 x上下文

编码器 E_x

嵌入 s_x

预测器 P

位置/动作条件 z

预测嵌入 ŝ_y

观察 y目标

编码器 E_y

目标嵌入 s_y

损失 = ‖ŝ_y − s_y‖²

4.3 V-JEPA:视频(video)

把 2D 空间预测扩展到 3D 时空预测,输入视频被切成 [2 帧 × 16×16] 的时空管。预测器学会物体永久性、运动连续性、物理因果,全部来自原始视频、没有标注。V-JEPA 2 的编码器是 ViT-g/16(约 10 亿参数),用 3D-RoPE 做位置编码,在 22M 小时视频上训练。基准上 Something-Something v2 达 77.3% top-1,Epic-Kitchens 动作预判相对提升 44%。

最有意思的是常识物理:给它看球在半空中瞬移、物体向上掉落这类违反物理的视频,预测误差会在不可能事件发生的那一刻急剧飙升。这是第一个纯从视频、无任何物理标签或符号规则,就能检测物理不合理性的 AI 系统。


4.4 V-JEPA 2-AC:动作条件

两阶段训练。阶段一是上面的自监督预训练,产出冻结的视频编码器。阶段二冻住编码器,在 62 小时无标注机器人轨迹(DROID 数据集)上训练一个 300M 参数、用 block-causal attention 的动作条件预测器,每帧只能注意当前和过去、不能看未来。重活由预训练编码器干完,动作条件预测器只需学习动作如何修改已学好的表示。

部署时零样本:在两个不同实验室的 Franka 机械臂上,不采集这些环境的数据、不做任务特定训练、不给奖励信号,目标用图像观察指定。规划用 MPC + CEM 在世界模型上搜索想象的动作序列,选预测末态嵌入离目标嵌入最近的那条。机械臂完成了对新物体的拿取-放置。



4.5 VL-JEPA:接住语言

标准 VLM 是"图像编码器 + 自回归 LLM",逐 token 生成文本。VL-JEPA 把生成式输出换成嵌入预测:视觉编码器(冻结的 V-JEPA 2)输出视觉嵌入,查询文本和目标文本各自编码,预测器预测目标文本的嵌入,损失在嵌入空间算。需要人类可读输出时,才用一个事后训练的解码器把预测嵌入翻成文本。

这为什么更高效呢?同一个物理事实在文本里有许多种说法。问"这蘑菇能吃吗","别吃这个蘑菇""这蘑菇有毒""不,这蘑菇不安全"都对。token 空间里这几句几乎正交,训练数据通常只含一种措辞,模型选了正确的另一种措辞反而被惩罚。嵌入空间里语义相近的句子被 Y-Encoder 映射到邻近点,预测器只需命中"这蘑菇危险"对应的区域,换措辞不受罚。目标分布从多峰(峰之间支撑不相交)变成近似单峰,单峰分布好拟合得多。

实测的对照:同数据、同模型、同算力,5M 训练样本下 VLM 准确率约 20%,VL-JEPA 约 35%,相对提升约 75%。VL-JEPA 用 1.6B 参数在 GQA 上胜过 7B 的标准 VLM。在运动密集型基准上优势最明显——SSv2 上 19.3% vs PE-Core-G 的 9.0%——因为它的视觉表示来自纯视觉预训练,没被"语言常描述什么"裁剪过。

顺带解决了实时视频流。VLM 对每帧都要自回归解码整段答案,30fps 下根本来不及。VL-JEPA 每帧一次前向得到一个嵌入(O(1)),持续监控这条平滑的语义嵌入流,只在检测到语义突变(‖Ŝ_Y^(t) - Ŝ_Y^(t-1)‖ 超阈值)时才触发解码器,解码调用减少 2.85×。智能眼镜需要这种方法:常开监控视野,只在重要的事发生时才出声

4.6 LeWorldModel:最干净的端到端系统

ViT-Tiny 编码器(约 5M 参数,CLS token 池化)加 Transformer 预测器(约 10M 参数,用 AdaLN 做动作条件),总计 15M 参数,单 GPU 几小时训完。它是第一个从像素端到端、带可证明反坍缩保证(SIGReg)的 JEPA。

它的规划速度优势来自 token 数量。DINO-WM 用冻结 DINOv2,每帧约 200 个 patch token,H=25 步规划每次 CEM 迭代要 200×25 = 5000 次 token 预测;LeWM 每帧 1 个 CLS token,同样 25 步只要 25 次预测。结果是 LeWM 规划快 48×。训练后用线性探针能从它的潜空间读出物体位置、速度、朝向、质量——它从像素-动作轨迹里隐式学到了牛顿定律,没有任何物理标签。


五、学到"真正的"世界模型的时间

一个世界模型要可信,它的内部表示必须对应世界真实的自由度。如果机器人的世界模型把物体位置和光照颜色缠在一起,把速度和纹理混在一起,那么线性探针读不出真实状态、潜空间距离不对应物理距离、潜空间里的规划找不到物理上有意义的方案。

在什么条件下,学到的表示能线性恢复世界真实的隐变量?

设定如下。世界有隐变量 z ∈ ℝⁿ(位置、速度、物体身份、光照……),我们从不直接观察 z,一个未知非线性混合函数 g 生成观察 x = g(z)(把 g 想成 3D 物理状态到 2D 像素的渲染管线)。我们训练编码器 f,让复合 h = f∘g 在某个固有对称性下恢复 z。线性可识别性即存在矩阵 Q 使 h(z) = Qz——这是线性探针能工作的必要条件。

理论假设高斯隐变量 z ~ N(0, I)(最大熵分布,且由中心极限定理,许多微观变量的聚合趋于高斯),正样本对之间是 Ornstein-Uhlenbeck 转移 z' = ρz + √(1-ρ²)η,ρ 控制两视图的相关度。在这个设定下,转移算子的本征函数恰好是 Hermite 多项式,d 次多项式的本征值是 ρᵈ。含义很关键:

  • • 线性函数(d=1)最可预测,本征值 ρ

  • • 二次(d=2)次之,本征值 ρ²

  • • 更高的非线性,本征值 ρᵈ 指数级变小

任何带单位方差的表示分量都能分解成 Hermite 多项式的加权和,其跨视图相关 ≤ ρ,等号当且仅当该分量是线性的。任何对表示的非线性扭曲都会严格降低正样本对之间的相关。


四个主要定理由此展开:

定理一(正向) 在高斯世界、OU 转移下,最小化对齐损失并约束嵌入为 N(0,I),唯一的最优解是 h(z) = Qz,Q 是正交矩阵。要在保持嵌入高斯的同时最大化视图一致,表示别无选择,只能学成真实隐变量的一个旋转/反射。
定理二(逆向) 如果每个满足协方差为 I 的最优解都是线性的,那么 z 必须是高斯的。推论很实际——只匹配二阶矩的 VICReg 不够,只有匹配完整高斯的 SIGReg 才保证线性可识别性。把隐变量分布在广义正态族里扫描,恢复 R² 在高斯(形状参数 α=2)处尖锐地达到 0.999,偏离高斯则崩,且与用哪个正则项无关。
定理三(近似可识别性) 实践中对齐和高斯约束都只近似满足。定理给出恢复误差随近似误差的缩放界,且界优雅退化——随训练收敛、两个损失下降,恢复误差单调下降。这让 JEPA 的训练损失第一次变得可解释:损失越低,世界模型越好,不需要监督验证集。
定理四(桥接) 若 h(z) = Qz,则对任何代价函数旋转不变的有限时域最优控制问题,潜空间里的规划等价于真实隐变量空间里的规划。可识别性不是一个抽象的好性质,它是潜空间规划能找到物理上正确方案的前提。
六、分层规划:唯一还没解决的硬骨头

单层 JEPA 配 CEM/MPC 在短任务上能用,超过约 5 步就会失败,原因有二。

其一是误差累积。世界模型自回归滚动,单步误差 ε,H 步后误差约 Hε(小 ε 下线性,最坏情况指数)。H=50 的任务,再准的预测器也会让 rollout 偏离现实。其二是搜索空间爆炸。CEM 在 K×H×|action| 维连续空间里采样,H=50、action_dim=7 就是 350 维,随机样本里含一条好轨迹的概率随 H 指数下降。

最能说明问题的是拿取-放置任务。机械臂必须先朝物体移动(远离目标、代价上升)才能抓取,再移向容器(代价下降)。短视的平坦规划器看到第一步代价上升就拒绝,卡在原地或来回振荡。VJEPA2-AC 配平坦 MPC 在这个任务上成功率 0%。

HWM(分层世界模型,Zhang 等,2026,FAIR/NYU)用两层解决:

  • 低层世界模型P⁽¹⁾(z_{t+1} | z_t, a_t),处理原始动作,规划时域 5-10 步,高时间分辨率

  • 高层世界模型P⁽²⁾(z_{t+K} | z_t, l_t),处理潜宏动作 l_t(一段原始动作序列的压缩表示),规划时域 3-5 个宏步,低时间分辨率

两个模型活在同一个编码器产生的潜空间里。这是让耦合干净的关键设计——高层预测的中间状态可直接作为低层规划器的目标。规划分两段:高层在宏动作空间做 CEM,到达目标,产出一串中间潜子目标,第一个子目标 z̃₁ 是机器人途中应当经过的路标;低层在原始动作空间做 CEM 去够到 z̃₁,执行前几个动作,重规划,子目标达成后推进到下一个。非贪心结构被高层捕捉,低层只需对子目标局部贪心。

是, 取下一子目标

观察 o_current

编码 z = E o

目标 z_goal = E o_goal

高层 CEM

宏动作计划 l*

首个子目标 z̃₁ = P² z,l*₁

低层 CEM

原始动作计划 a*

执行前 k 个动作

子目标达成?

推进 z̃ → z̃₂

总目标达成?

完成

结果:拿取-放置 HWM 70% vs 平坦 MPC 0%,并且胜过用 77× 更多机器人数据训练的 VLA。开关抽屉 70% vs 30%,Push-T(DINO-WM)61% vs 17%,多样迷宫(PLDM)83% vs 44%。


模式跨架构、跨任务一致:只要任务需要非贪心行为或长时域,分层就带来大幅提升。HWM 是一个即插即用的规划模块,不重训就能改进任何 JEPA 世界模型。


天花板在哪里?用外部提供的"神谕子目标"绕开高层规划器,HWM 和平坦 MPC 都能到 80%。差距完全在高层规划器产出子目标的质量上。剩下的开放问题:子目标质量、训练时如何选路标(现在是固定步长,更有原则的做法是在潜速度 ‖z_{t+1}-z_t‖ 的局部极大处——状态剧变的时刻——选路标)、以及最重要的,层级能否自发涌现而非手工指定。

一个人从纽约飞巴黎,会在至少四个抽象层次上规划(去巴黎 → 到 JFK 登机 → 打车去机场 → 走到电梯按按钮),最底层是无需规划的反应式运动。他希望训练分层 JEPA 时,低层学短时精细预测、高层学长时粗粒度预测,合适的层级结构会像 CNN 自发学出"边缘→形状→物体→场景"那样涌现出来。慢特征分析理论给了这个猜想一些依据,但还没有规模上的实证。HWM 是一个起点,目前只有两层。

七、与大脑的对应

JEPA 与神经科学的对应:

预测编码。大脑不被动接收感觉输入,而主动预测它,用预测误差更新内部模型。这套框架(Helmholtz 1867,Rao-Ballard 1999,Friston 2010 的自由能原理)和 JEPA 结构高度同构:自顶向下的预测信号对应预测器,自底向上的预测误差对应预测损失,分层皮层区对应分层世界模型,注意力的显著性加权对应掩码预测目标。

婴儿认知。发展心理学解释"一个智能系统应当学会什么、多快学会"。给 6 个月大的婴儿看小车被推下平台后悬浮(违反重力),婴儿不惊讶——还没有重力的世界模型。给 10 个月大的婴儿看同样画面,婴儿明显多盯着看——惊讶反应,说明已内化"无支撑物体会下落"。V-JEPA 在同类实验里表现出相同行为:物理不可能事件处预测误差飙升。它没被喂过物理标签,纯训练于视频,就建起了 10 个月婴儿那样的原始直觉物理。10 个月大的婴儿没被训练在标注物理数据集上,他们的世界模型完全通过观察和互动学来。


System 1 与 System 2。Kahneman 的两套系统直接映射到 JEPA 认知架构:System 1 是反应式策略(感知→立即行动,前馈网络,无需世界模型,适合走路、伸手、接球),System 2 是通过优化规划(世界模型 + CEM/MPC,在想象的动作序列上搜索,适合新任务和安全攸关决策)。LLM 只作为 System 1 运行,单次前向给出输出,没有真正的 System 2。成熟系统应当能动态切换——熟练技能交给 System 1(走向电梯),新情形启用 System 2(规划去巴黎)。

神经底物的对应。前额叶皮层对应世界模型(规划、预测),海马体对应情景/工作记忆,视觉皮层 V1-V5 对应编码器(分层视觉特征),基底节对应代价函数,小脑对应低层运动世界模型(快速精确),杏仁核对应先天代价函数。小脑尤其值得注意——它维护一个极精确的身体力学前向模型(给定运动指令,我的手 50ms 后在哪),是运动控制层面的生物 JEPA,且在演化上非常古老,世界模型是脊椎动物大脑的一种基本计算策略。

前额叶皮层

世界模型 规划/预测

海马体

情景/工作记忆

视觉皮层 V1-V5

编码器 分层特征

基底节

代价函数

小脑

低层运动世界模型

杏仁核

先天代价函数

从神经科学直接长出算法。Barlow Twins 是罕见的:Horace Barlow 1961 年关于视网膜神经节细胞去相关的神经科学论文,预言了最优图像编码器的结构,比能实现它的深度学习早了几十年。

开放问题:意识与主观体验(JEPA 不涉及)、好奇心与内在动机(能否实现为奖励访问高预测误差状态的代价函数)、社会认知与心智理论(需要建模他人模型的高阶世界模型)、语言习得的接地机制、睡眠与记忆巩固。

八、硬件:当这套范式落地,芯片要变成什么样

JEPA 对端侧硬件的需求与 LLM 完全不同。讲清楚需求差异,才谈得上演化。

8.1 两种截然不同的访问模式

LLM 自回归解码,每生成一个 token,要把整个模型的权重过一遍内存总线。7B 模型为例:

计算量:~14 GFLOPs(矩阵-向量积,batch=1)
内存访问:~14 GB(加载权重)
Arithmetic Intensity ≈ 1 FLOP/byte

H100 算力 1979 TFLOPS,带宽 3.35 TB/s。在 1 FLOP/byte 工况下,算力利用率约 0.17%。HBM 存在的全部意义就是把这点利用率喂饱——每秒 5 TB 的带宽,防止芯片饿死。LLM 推理是内存带宽受限的工作负载。

JEPA 的访问模式倒过来。CEM 规划并行评估 K 条轨迹(K=500)、H 步(H=25),共 12,500 次预测器前向,全部共享同一套预测器权重。权重加载一次,K 条轨迹同时复用:

预测器权重(LeWorldModel):10M params ≈ 10 MB(INT8)
K=500 条轨迹激活:每条 ~4.6 KB,合计 ~2.3 MB
全程在片上 SRAM 内完成,DRAM 带宽压力近似为零
Arithmetic Intensity >> 100 FLOP/byte,算力利用率接近峰值

JEPA 不需要 HBM,需要的是足够大的片上 SRAM。LLM 是"每生成一个 token 把 70GB 权重过一遍",JEPA 是"把权重加载一次然后 500 条轨迹并行复用",带宽需求量级根本不同。

8.2 三大端侧平台的真实差距

用两个核心负载横评高通 Hexagon NPU(SD 8 Gen 4)、Apple ANE(M4)、NVIDIA Jetson Orin NX。

负载一:ViT Encoder 推理。三个平台有个共同盲点——3D-RoPE。V-JEPA 2 的位置编码要把 feature dimension 分成时间、空间H、空间W 三段分别旋转,现有 NPU 的 RoPE 单元只实现了为语言模型设计的 1D 版本,3D 版本回退到通用矩阵乘法,效率降 3-5×。

平台                 Encoder 单帧(含 3D-RoPE 降级)   功耗
Hexagon NPU ~15-25 ms ~5W
Apple ANE + Metal ~20-35 ms(Metal GPU 补位) ~2W
Jetson Orin NX GPU ~30-50 ms(CUDA 自定义 kernel) ~15W

Jetson 是唯一有 CUDA 自定义 kernel 能力的平台,3D-RoPE 可针对性优化,纯延迟上占优,代价是功耗。

负载二:CEM 规划(K=500)。这是拉开差距的测试。Hexagon 的张量加速器设计上限 batch≤16,K=500 要分 4 批循环、无法流水线,实际 K 压到约 150 才能进 100ms 预算,规划质量损失约 40%。Apple ANE 要求编译时定死 batch,CEM 需要的动态 K 它原生不支持,只能预编译多份模型,切换有 5-10ms 开销,K=500 跑不动只能降级到 Metal GPU(~200-300ms)。Jetson 的 CUDA 对 batch=500 无设计限制:

batch=500 预测器 TensorRT 推理:500 × 10 MFLOPs = 5 GFLOPs
@4.4 TOPS INT8:~1.1 ms/迭代,50 次迭代 ~55ms → 进 100ms 预算

Jetson Orin NX 是当下唯一能在实际功耗下跑完 V-JEPA 2-AC + CEM K=500 完整规划循环的端侧平台,但 10-25W 功耗在穿戴场景是瓶颈。Hexagon 和 ANE 对 CEM 的支持都属于"设计之外",需要绕路,2027-2028 架构更新后会改善。Apple 的统一内存有个被低估的优势:ANE 和 GPU 共享同一块物理 DRAM,切换计算路径零拷贝,这在 ANE 扩大 SRAM、支持大 batch 之后会成为重要竞争力。


8.3 各类芯片的受力方向

NPU是最直接的受益者,也要做最大调整:片上 SRAM 从 4-16MB 扩到 32-64MB(容纳 CEM 的大 batch 激活),增加 3D-RoPE 专用路径,重组内部 SRAM 支持大 batch 并行推理。EMA 更新这类逐元素 scatter 操作对 MAC 阵列不友好,端侧在线微调时需要专用向量单元或折交给 CPU SIMD。

CPUGPU 的服务员变成规划循环的指挥者。HWM 两层规划需要 CPU 维护 CEM 的高斯分布参数、对 K 个分数排序选精英、更新分布、调度轨迹、判断高低层切换。需求变化是低延迟核间通信(CPU 到 NPU 零拷贝传 latent state)、确定性延迟(实时控制)、片上硬件 PRNG(CEM 每次迭代要生成上万个高斯随机数,软件太慢)。

LPDDR崛起。JEPA 预测器参数小、访问模式是"一次加载大量复用",带宽不是瓶颈,端侧 LPDDR5X(68 GB/s)理论上足以支撑 LeWorldModel 级别。LPDDR6(~130 GB/s,2027-2028)能让 Encoder 权重加载快 2×,对 CEM 阶段提升有限——真正的瓶颈是片上 SRAM 大小,不是片外带宽。HBM 在训练侧维持,在 JEPA 推理服务器里的必要性下降。

8.4 RISC-V:实时规划循环

HWM 的调度层需要持续运行、μs 级延迟:NPU 跑完一批推理后,读 K 个分数、做 top-k、更新高斯分布、触发下一次迭代。计算量小,但延迟必须确定。ARM Cortex-A 是乱序核,缓存缺失带来 100μs 级随机抖动,对 1000Hz 力传感器中断不可接受。

RISC-V 顺序执行核(如 SiFive E/P 系列)有结构性优势:无乱序缓冲区,中断响应等于固定流水线深度(2-5 周期);开放 ISA 可加自定义指令服务 CEM 调度。

cem.topk  rd, rs1, K, elite_n     // K=500 分数 top-elite 排序,目标 <1μs
cem.gauss.update rd, rs1, rs2, n // 据精英样本更新 (μ,σ),目标 <0.5μs
hwm.waypoint.set rs1 // 写 waypoint 触发低层重规划,单周期

RISC-V V 向量扩展(512-bit SIMD)约 1000 周期完成 K=500 的 top-30 排序,@1.8GHz 约 0.55μs,且不占 NPU 资源——NPU 跑下一批推理时,RISC-V 同时处理上一批结果,两者真正并行。预期 2027-2028 的机器人 SoC 会是三层异构:Cortex-A 跑 Linux/ROS 做高层协调,RISC-V 实时核跑 RTOS 做 CEM 调度和传感器融合,NPU/ASIC 跑 Encoder 和预测器。


8.5 专用 CEM ASIC 的 dataflow

通用 NPU 撞到效率上限后,专用 ASIC 会出现。核心抉择是 systolic array 还是 vector processor。CEM 的计算分两类:GEMM 密集(预测器前向,K 条轨迹共享权重)和非 GEMM(LayerNorm、AdaLN、top-k、高斯更新、PRNG 采样)。systolic array 只擅长 GEMM,vector processor 两类都能但 GEMM 效率低。最优解是混合,且 systolic array 的 dataflow 必须选weight-stationary

Weight-Stationary:每个 PE 持有预测器权重的一个 tile,不动
K=500 条轨迹激活依次流过阵列
→ 权重在 K 条轨迹里完全复用,零重新加载
这正是 CEM 的计算结构


对比 Output-Stationary:每个 PE 持有一个输出元素,权重和输入都要动
需要 K×d ≈ 96,000 个 PE,面积不现实

四个模块——systolic array、向量单元、CEM 控制器、PRNG——可以完全流水线化:阵列算第 i 次迭代的第 j 层时,向量单元处理 j-1 层的归一化,控制器处理 i-1 次迭代的 top-k,PRNG 已在生成 i+1 次迭代的样本。实现后 50 次迭代延迟≈单次迭代延迟,而非 50× 串行。

PRNG 单元是不可忽视的关键路径。CEM 每次迭代要生成 K×H×action_dim = 500×25×7 = 87,500 个高斯随机数。软件 PRNG 约 875,000 周期 ≈ 875μs,超过单次迭代时间;硬件 PRNG(32 路并行 LFSR + Box-Muller 流水线)171 周期 ≈ 342ns,完全隐藏在阵列计算延迟内。单元面积 <0.2mm²(5nm),但去掉它,K=500 的 CEM 在端侧实时运行的可能性直接归零。

8.6 演化路线图与能效约束

2026     Jetson Orin NX 唯一实用(机器人控制板)
Hexagon/ANE 跑 LeWorldModel 可行,CEM K 限于 100-150
2027-28 NPU 架构更新:SRAM 扩到 32-64MB,3D-RoPE 专用路径
LPDDR6 量产,RISC-V 实时核进入机器人 SoC
2028-30 专用 CEM ASIC:weight-stationary 阵列 + 向量单元
预测器权重驻留 SRAM,硬件 PRNG,四模块全流水线
2030+ 能效拐点:穿戴 1-5W 跑完整规划循环
神经形态方向(Loihi/NorthPole 后继)<0.1W

能效是最终约束。GPU 做 CEM 约 15-25W,设计良好的专用 ASIC 约 1-3W(10× 提升),神经形态推测 ~0.1W。穿戴预算 1-5W,工业机器人控制板 10-30W。LLM 时代芯片竞争围绕"谁的内存带宽更大",JEPA 时代转向"谁能在有限 SRAM 里并行跑最多条规划轨迹、同时功耗足够低"。这一轮里 NPU 和专用 ASIC 比 GPU 受益更多,RISC-V 作为它们之间的实时连接器补上最后一块。


九、时间表

预计行业在 2027 年前后开始承认这次范式转移。AMI Labs 的近期计划分两步:头一两年把 JEPA 世界模型用于复杂工业控制——喷气发动机、化工厂、电网、个性化医疗、材料与催化剂设计——这些领域方程写不全,但有传感器数据,学一个现象学动力学模型加规划就能产生价值,而且人类没法演示喷气发动机控制,VLA 式行为克隆在这里不适用。这是 JEPA 在家用机器人解决之前的工业楔子。第三到五年扩展为智能机器人系统的主要供应商。

竞争对手——Physical Intelligence、DeepMind Robotics、Tesla Optimus——都在走 VLA 优先路线。AMI Labs是另一条路:JEPA 加分层规划,不只是原则上更优,而是会在 VLA 路线触顶之前先造出可商业部署的机器人。

标准是,家用机器人第一次被口头告知去清晚餐桌,就能完成——像一个被吩咐收拾餐桌的 10 岁孩子。目前没有任何系统接近这个目标。

过去十年,AI 领域痴迷于"蛋糕上的樱桃"(强化学习),偶然靠 next-token prediction 实现了蛋糕底层的自监督学习,但只在语言这个离散域里。让自监督学习在连续高维信号——视频、传感器流、物理世界——里也成立,在表示空间而非像素空间里预测,用优化来推理,把安全约束融合进优化问题本身。这同时会催生新的硬件迭代和爆发。a芯片还会继续高歌猛进。

参考:ETH Zürich "Frontiers of Embodied AI" 演讲、I-JEPA / V-JEPA / V-JEPA 2 / VL-JEPA / LeJEPA / LeWorldModel / HWM 论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
缓刑期间男子杀害女友 二审改判死缓,死者家属申诉被驳回

缓刑期间男子杀害女友 二审改判死缓,死者家属申诉被驳回

红星新闻
2026-06-27 19:35:10
1场1-0,给韩国雪中送炭!出线突然柳暗花明,世界杯冠军耻辱出局

1场1-0,给韩国雪中送炭!出线突然柳暗花明,世界杯冠军耻辱出局

侃球熊弟
2026-06-27 10:01:27
两不满14岁女孩称被强奸,警方立案后撤案 办案刑警:多部门调查后认为无犯罪事实

两不满14岁女孩称被强奸,警方立案后撤案 办案刑警:多部门调查后认为无犯罪事实

红星新闻
2026-06-27 17:09:14
身高1米3 体重230斤!美国一7岁男童"胖到去世"

身高1米3 体重230斤!美国一7岁男童"胖到去世"

看看新闻Knews
2026-06-27 21:37:48
一场5-1让阿根廷队偷着乐!保送世界杯八强,梅西卫冕有戏了!

一场5-1让阿根廷队偷着乐!保送世界杯八强,梅西卫冕有戏了!

绿茵舞着
2026-06-27 15:05:56
东鹏饮料:“创始人不喝自家饮料”系有人捏造,已报案

东鹏饮料:“创始人不喝自家饮料”系有人捏造,已报案

新京报
2026-06-27 20:15:41
名记:伦纳德已表明他不愿意与活塞签下续约合同

名记:伦纳德已表明他不愿意与活塞签下续约合同

北青网-北京青年报
2026-06-27 12:56:20
终于弄明白了为什么开空调蚊子就不咬了——不是蚊子被冻着了,也不是蚊子不想咬,而是蚊子的“导航系统”失灵了

终于弄明白了为什么开空调蚊子就不咬了——不是蚊子被冻着了,也不是蚊子不想咬,而是蚊子的“导航系统”失灵了

二胡的岁月如歌
2026-06-27 15:11:11
世界杯小组赛L组出线形势:英格兰加纳晋级在望 克罗地亚末轮需力拼胜利

世界杯小组赛L组出线形势:英格兰加纳晋级在望 克罗地亚末轮需力拼胜利

快乐加载中21
2026-06-28 00:09:39
电影《抓特务》票房扑街,这个时代的观众不喜欢任何人通过电影“夹带私货”

电影《抓特务》票房扑街,这个时代的观众不喜欢任何人通过电影“夹带私货”

明叔杂谈
2026-06-27 20:18:56
演员王安宇登报声明:本人王安宇,不慎遗失中国传媒大学本科毕业证书和学位证书,现声明作废

演员王安宇登报声明:本人王安宇,不慎遗失中国传媒大学本科毕业证书和学位证书,现声明作废

大象新闻
2026-06-27 16:50:09
岸田文雄冒着被骂的风险,对中国说了大实话!高市比想象中狠得多

岸田文雄冒着被骂的风险,对中国说了大实话!高市比想象中狠得多

浮黎礼
2026-06-27 15:02:54
预赛9胜1平0丢球,世界杯3战全败丢12球,球迷:和国足有得一拼!

预赛9胜1平0丢球,世界杯3战全败丢12球,球迷:和国足有得一拼!

我就是一个说球的
2026-06-27 19:58:36
韩国出线概率跌至11%!四大愿景全部落空 韩国球迷:洪明甫下课吧

韩国出线概率跌至11%!四大愿景全部落空 韩国球迷:洪明甫下课吧

颜小白的篮球梦
2026-06-27 07:24:03
2026高考成绩公布后,张桂梅式教育被批,再次证明:父母放任不管的代价,远比想象中更残酷......

2026高考成绩公布后,张桂梅式教育被批,再次证明:父母放任不管的代价,远比想象中更残酷......

LULU生活家
2026-06-27 18:18:30
民进党,极有可能在下届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下届台湾地区选举后,成为长期一家独大政党

离离言几许
2026-06-27 15:45:51
85分钟登场传射,卢卡库成为世界杯史上最晚出场献传射的球员

85分钟登场传射,卢卡库成为世界杯史上最晚出场献传射的球员

懂球帝
2026-06-27 15:45:10
北青:佛得角足协副主席称计划与中国队热身,对中国表达感谢

北青:佛得角足协副主席称计划与中国队热身,对中国表达感谢

懂球帝
2026-06-27 19:46:20
韩国球迷集体建议,取消德国世界杯资格,球迷:理由看似很合理

韩国球迷集体建议,取消德国世界杯资格,球迷:理由看似很合理

酷侃体坛
2026-06-27 17:50:10
难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

华庭讲美食
2026-06-21 15:26:10
2026-06-28 02:28:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4848文章数 37482关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

时尚
数码
教育
健康
游戏

伊姐周六热推:电视剧《昨夜将至》;电影《蝴蝶楼·惊魂》......

数码要闻

存储芯片大涨 苹果美光打口水战

教育要闻

又生了啊!!!2027更新版|人民日报出版社|新传考研热点专题笔记(二宝)堂堂上新!!!

“无糖汤圆”是否隐藏着健康陷阱?

《GTA6》PC版遥遥无期!销量太低不备重视?

无障碍浏览 进入关怀版