LeCun在Meta最后论文？还是共同一作，LeJEPA：JEPAs理论拼图补完|显式|meta

LeCun在Meta最后论文？还是共同一作，LeJEPA：JEPAs理论拼图补完

2025-11-14 10:21:40　来源: 机器之心Pro

北京举报

分享至

机器之心报道

编辑：+0

这可能是 LeCun 在 Meta 发表的最后几篇论文之一。这次，LeCun 为 JEPA 架构补上了关键的理论拼图。

学习世界及其动态的可操控表征是人工智能的核心。联合嵌入预测架构（JEPAs）是实现这一目标的有前景的蓝图。其核心思想是：通过最大化语义相关视图（例如图像的不同变换或裁剪）的嵌入之间的一致性，来学习一个有组织且可操作的高维嵌入空间。

然而，当前的 JEPA 训练方法缺乏坚实的理论指导，导致研发过程临时且脆弱。它们面临一个共同的难题：表征崩溃（即所有输入都映射到相似的嵌入）。

为了缓解这种「捷径解」，当今的先进方法严重依赖各种复杂的「启发式方法」，例如：停止梯度、教师-学生网络（及精心调整的 EMA 调度）、非对称的视图生成、显式的归一化和白化层。

这些机制不仅使训练过程复杂、脆弱，而且对超参数、架构和数据分布非常敏感，并且缺乏坚实的理论保证。

LeCun 团队提出了一个关于 JEPAs 的全面理论，并将其具体化为LeJEPA，这是一个精简、可扩展且有理论基础的训练目标。

论文标题：LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics
论文地址：https://arxiv.org/abs/2511.08544

团队首先提出了一个关键问题：JEPAs 的嵌入应遵循什么样的最优分布？

首先，团队证明了各向同性高斯分布是基础模型的最佳嵌入分布。在广泛的下游任务族中（无论使用线性还是非线性探针），该分布都能唯一地最小化下游预测风险。这一理论结果将 JEPA 的设计从依赖「启发式」的探索，转向了有目标的、基于理论的最优化。

基于这一理论，研究团队引入了一种新颖的分布匹配目标：概略各向同性高斯正则化（SIGReg）。

SIGReg 是一种新颖的目标，它通过随机投影和特征函数匹配来高效地强制嵌入服从理想的各向同性高斯分布。

它独特地结合了可证明的正确性与大规模计算效率：

理论上合理：提供了统计保证和有界梯度。
计算上高效：实现了线性（而非二次方）的时间和内存复杂度，并克服了高维嵌入中的「维度灾难」。

最终，通过将 JEPA 的预测目标与 SIGReg 相结合，LeJEPA 成为了一个通过构造就能消除表征崩溃的、具有统计最优性的 JEPA 解决方案。

这种有原则的理论设计直接带来了实践中的简洁性、鲁棒性和高性能。

告别启发式：无需停止梯度、教师-学生网络、EMA 调度器或显式白化层。
极致简洁：整个设计只有一个权衡超参数。
高效稳定：具有线性的时间和内存复杂度，在不同超参数、架构（ResNets、ViTs、ConvNets 等）和领域中均保持高度稳定性。
易于实现：其分布式训练友好型实现仅需约 50 行代码。

实验涵盖 10 多个数据集和 60 多种架构（规模接近 10 亿参数），LeJEPA 达到或超过了最先进的方法。例如，在 ImageNet-1K 上预训练并进行线性评估，LeJEPA（ViT-H/14）达到了 79% 的准确率。

更重要的是，LeJEPA 在特定领域的数据集（如 Galaxy10、Food101）上，直接进行领域内预训练的效果优于基于 DINOv2 的迁移学习。这表明，有原则的 SSL 可以解锁以往被认为在小型数据集上不切实际的领域内预训练。

从名字 LeJEPA 也能看出来，这篇论文对 LeCun 来说似乎有特别的意义，评论区的反响也很好。

所以，LeCun 的创业公司会叫 LeAGI 吗？

LeJEPA: 稳定且可扩展的实现

在确定了各向同性高斯分布是基础模型的理想嵌入分布，并引入了 SIGReg 之后，团队提出了完整的 LeJEPA 框架。

LeJEPA：SIGReg + 预测损失

SIGReg 损失。研究者选择（Epps–Pulley）检验，因为它具有可证明的有界性（定理 4）和可扩展性。其实现基本遵循方程，只是积分部分使用了求积近似（一种数值估算方法）来进行估计。

研究发现，即使节点数少至 17，简单的梯形求积法则也足够了（如图 20 所示）。另外，研究者利用被积函数的对称性来免费将节点数加倍（详见官方代码）。

与先前工作的关系

在展示实验之前，研究者最后讨论了 LeJEPA 和 SIGReg 目标与文献中现有框架的关系。

虽然目前没有在 JEPA 中使用这种切片和分布匹配的解决方案，但在生成模型和最优传输领域存在类似的流程，例如切片分数匹配和切片 Wasserstein 距离。

此外，当（Epps–Pulley）检验的积分被精确计算时，每个切片损失值在数学上接近于核 MMD 方法。

最后，研究指出，通过在 LeJEPA 中使用特定的检验（而非首选的 Epps–Pulley），可以在极限情况下恢复某些现有的 SSL 框架（如 VICReg）。然而，基于定理 3，研究者强烈反对这种设置，因为它会导致捷径解，这一现象在 VICReg 中已被观察到。

LeJEPA：实证验证

实验表明 LeJEPA：（i）在不同架构和数据集上都能可靠训练，（ii）为模型选择提供了信息丰富的训练损失，（iii）在小规模域内预训练上优于前沿视觉模型，（iv）在 ImageNet-1k 上成功扩展到近 10 亿参数，以及（v）无需显式监督即可学习丰富的语义分割特征。

LeJEPA 在不同超参数和架构上的稳定性

Epps-Pulley 超参数的稳定性

接下来研究检查了 LeJEPA 特有的超参数：SIGReg 的切片数量、（Epps–Pulley）检验的积分设置等。

结果显示，积分的具体设置（如积分域和求积点数）对性能影响极小。切片数量有适度影响——虽然更多的切片会略微提高性能，但即使 512 个切片也能产生有竞争力的结果。因此，研究者推荐了 17 个积分点、[-5, 5]的积分域和 1024 个切片作为起始点。

架构的稳定性

LeJEPA 相较于最近的方法（例如 IJEPA、DINOv2）的一个关键优势是其架构无关的设计。

为了验证这一点，研究者在 ImageNet-10 上预训练了来自 8 个不同族的约 50 种架构。所有模型都能够学习到高质量的表示，通过冻结主干进行线性探测，top 1 准确率达到了 91.5% 到 95%。

移除流行的启发式方法

LeJEPA 的可证明构造使其能够移除许多传统上用于防止坍塌的启发式方法。先前的工作表明，预测器和教师-学生架构主要用于防止坍塌。得益于 LeJEPA 的 SIGReg 损失，该框架可以同时移除预测器和教师-学生架构，而不会遭受坍塌（如表 4 所示）。

其次，最近的工作表明需要使用寄存器令牌来防止训练不稳定。表 1 的结果表明，这种不稳定性可能源于条件不良的训练目标。相反，LeJEPA 不需要寄存器令牌，无论有无它们都能实现稳定性能。

LeJEPA 的训练损失对下游性能具有信息指示性

SSL 预训练中的一个主要挑战是训练损失与下游性能的相关性很低。

相比之下，研究发现 LeJEPA 的训练损失为模型质量提供了有意义的信号。如图 10 所示，SIGReg 损失和预测损失与下游任务准确率之间存在清晰趋势。

域内 LeJEPA 优于前沿模型的迁移学习

自监督学习的一个关键承诺是学习通用表示。然而，目前的前沿模型（如 DINOv2/v3、IJEPA）是在自然图像上预训练的，这迫使特定领域的从业者使用大量标签进行监督微调。

为了展示 LeJEPA 的多功能性，研究者建议直接在专业领域上进行预训练，而无需更改流程。研究者选择了 Galaxy10 数据集（一个星系形态分类任务）。该研究与最新的 DINOv2、DINOv3 和 IJEPA 进行了比较。

图 12 报告了线性探测和全量微调的 top 1 准确率。结果观察到，使用 LeJEPA 进行域内预训练，在这两项评估中均显著优于顶尖的前沿模型。

表 5 中的额外结果展示了 LeJEPA 即使在小至 1000 个样本的数据集上也能有效训练。

LeJEPA 在数据和模型上均具有可扩展性

研究者接着将 LeJEPA 应用于更大的预训练数据集（ImageNet-1k）和更大的主干网络，例如 ViT/Large（3 亿参数）和 ConvNextV2-Huge（6 亿参数），分别达到了 77.1% 和 78.5% 的在线线性探测准确率。

在迁移学习方面（表 2），该研究的基线是 IJEPA（ViT-Huge，6 亿参数）及其改进版 IJEPA + STOP。结果观察到，LeJEPA 尽管使用了更小的模型和更短的训练计划，其性能仍持续优于 IJEPA。

此外，该模型在 ViT-gigantic（18 亿参数）上的训练曲线（图 1）也显示出非常稳定和平滑，表明其优化景观稳定，无需仔细的超参数调整。

LeJEPA 表示中涌现的语义结构

成功的自监督学习的一个标志是，在没有显式监督的情况下涌现出具有语义意义的注意力模式。为了评估 LeJEPA 是否学习了这种结构，研究者将其学习到的表示的注意力图进行了可视化。继 DINO 之后，该研究对嵌入应用 PCA（主成分分析）并可视化第一个主成分，其显示出与物体边界和显著区域的清晰对应关系（图 14）。

此外，研究者们探索了这些注意力模式是否能够实现无监督视频分割。通过对 [CLS] 令牌的自注意力图进行阈值处理，获得了可以在没有训练标签的情况下跨帧跟踪物体的二值掩码。

如图 13 所示，LeJEPA 的注意力以卓越的时间一致性自然地将前景物体与背景分割开来，这表明学习到的表示同时捕捉了空间语义和时间结构。这种涌现的能力表明，LeJEPA 注重稳定性的目标并没有牺牲所学特征的语义丰富性。

更多技术细节请参见原论文。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.