网易首页 > 网易号 > 正文 申请入驻

LeCun在Meta最后论文?还是共同一作,LeJEPA:JEPAs理论拼图补完

0
分享至



机器之心报道

编辑:+0

这可能是 LeCun 在 Meta 发表的最后几篇论文之一。这次,LeCun 为 JEPA 架构补上了关键的理论拼图。

学习世界及其动态的可操控表征是人工智能的核心。联合嵌入预测架构(JEPAs)是实现这一目标的有前景的蓝图。其核心思想是:通过最大化语义相关视图(例如图像的不同变换或裁剪)的嵌入之间的一致性,来学习一个有组织且可操作的高维嵌入空间。

然而,当前的 JEPA 训练方法缺乏坚实的理论指导,导致研发过程临时且脆弱。它们面临一个共同的难题:表征崩溃(即所有输入都映射到相似的嵌入)。

为了缓解这种「捷径解」,当今的先进方法严重依赖各种复杂的「启发式方法」,例如:停止梯度、教师-学生网络(及精心调整的 EMA 调度)、非对称的视图生成、显式的归一化和白化层。

这些机制不仅使训练过程复杂、脆弱,而且对超参数、架构和数据分布非常敏感,并且缺乏坚实的理论保证。

LeCun 团队提出了一个关于 JEPAs 的全面理论,并将其具体化为LeJEPA,这是一个精简、可扩展且有理论基础的训练目标。



  • 论文标题:LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics
  • 论文地址:https://arxiv.org/abs/2511.08544

团队首先提出了一个关键问题:JEPAs 的嵌入应遵循什么样的最优分布?

首先,团队证明了各向同性高斯分布是基础模型的最佳嵌入分布。在广泛的下游任务族中(无论使用线性还是非线性探针),该分布都能唯一地最小化下游预测风险。这一理论结果将 JEPA 的设计从依赖「启发式」的探索,转向了有目标的、基于理论的最优化。

基于这一理论,研究团队引入了一种新颖的分布匹配目标:概略各向同性高斯正则化(SIGReg)。

SIGReg 是一种新颖的目标,它通过随机投影和特征函数匹配来高效地强制嵌入服从理想的各向同性高斯分布。

它独特地结合了可证明的正确性与大规模计算效率:

  • 理论上合理:提供了统计保证和有界梯度。
  • 计算上高效:实现了线性(而非二次方)的时间和内存复杂度,并克服了高维嵌入中的「维度灾难」。

最终,通过将 JEPA 的预测目标与 SIGReg 相结合,LeJEPA 成为了一个通过构造就能消除表征崩溃的、具有统计最优性的 JEPA 解决方案。

这种有原则的理论设计直接带来了实践中的简洁性、鲁棒性和高性能。

  • 告别启发式:无需停止梯度、教师-学生网络、EMA 调度器或显式白化层。
  • 极致简洁:整个设计只有一个权衡超参数。
  • 高效稳定:具有线性的时间和内存复杂度,在不同超参数、架构(ResNets、ViTs、ConvNets 等)和领域中均保持高度稳定性。
  • 易于实现:其分布式训练友好型实现仅需约 50 行代码。

实验涵盖 10 多个数据集和 60 多种架构(规模接近 10 亿参数),LeJEPA 达到或超过了最先进的方法。例如,在 ImageNet-1K 上预训练并进行线性评估,LeJEPA(ViT-H/14)达到了 79% 的准确率。

更重要的是,LeJEPA 在特定领域的数据集(如 Galaxy10、Food101)上,直接进行领域内预训练的效果优于基于 DINOv2 的迁移学习。这表明,有原则的 SSL 可以解锁以往被认为在小型数据集上不切实际的领域内预训练。

从名字 LeJEPA 也能看出来,这篇论文对 LeCun 来说似乎有特别的意义,评论区的反响也很好。







所以,LeCun 的创业公司会叫 LeAGI 吗?

LeJEPA: 稳定且可扩展的实现

在确定了各向同性高斯分布是基础模型的理想嵌入分布,并引入了 SIGReg 之后,团队提出了完整的 LeJEPA 框架。

LeJEPA:SIGReg + 预测损失

SIGReg 损失。研究者选择(Epps–Pulley)检验,因为它具有可证明的有界性(定理 4)和可扩展性。其实现基本遵循方程,只是积分部分使用了求积近似(一种数值估算方法)来进行估计。

研究发现,即使节点数少至 17,简单的梯形求积法则也足够了(如图 20 所示)。另外,研究者利用被积函数的对称性来免费将节点数加倍(详见官方代码)。







与先前工作的关系

在展示实验之前,研究者最后讨论了 LeJEPA 和 SIGReg 目标与文献中现有框架的关系。

虽然目前没有在 JEPA 中使用这种切片和分布匹配的解决方案,但在生成模型和最优传输领域存在类似的流程,例如切片分数匹配和切片 Wasserstein 距离。

此外,当(Epps–Pulley)检验的积分被精确计算时,每个切片损失值在数学上接近于核 MMD 方法。

最后,研究指出,通过在 LeJEPA 中使用特定的检验(而非首选的 Epps–Pulley),可以在极限情况下恢复某些现有的 SSL 框架(如 VICReg)。然而,基于定理 3,研究者强烈反对这种设置,因为它会导致捷径解,这一现象在 VICReg 中已被观察到。

LeJEPA:实证验证

实验表明 LeJEPA:(i)在不同架构和数据集上都能可靠训练,(ii)为模型选择提供了信息丰富的训练损失,(iii)在小规模域内预训练上优于前沿视觉模型,(iv)在 ImageNet-1k 上成功扩展到近 10 亿参数,以及(v)无需显式监督即可学习丰富的语义分割特征。

LeJEPA 在不同超参数和架构上的稳定性



  • Epps-Pulley 超参数的稳定性

接下来研究检查了 LeJEPA 特有的超参数:SIGReg 的切片数量、(Epps–Pulley)检验的积分设置等。

结果显示,积分的具体设置(如积分域和求积点数)对性能影响极小。切片数量有适度影响——虽然更多的切片会略微提高性能,但即使 512 个切片也能产生有竞争力的结果。因此,研究者推荐了 17 个积分点、[-5, 5]的积分域和 1024 个切片作为起始点。

  • 架构的稳定性

LeJEPA 相较于最近的方法(例如 IJEPA、DINOv2)的一个关键优势是其架构无关的设计。

为了验证这一点,研究者在 ImageNet-10 上预训练了来自 8 个不同族的约 50 种架构。所有模型都能够学习到高质量的表示,通过冻结主干进行线性探测,top 1 准确率达到了 91.5% 到 95%。

  • 移除流行的启发式方法

LeJEPA 的可证明构造使其能够移除许多传统上用于防止坍塌的启发式方法。先前的工作表明,预测器和教师-学生架构主要用于防止坍塌。得益于 LeJEPA 的 SIGReg 损失,该框架可以同时移除预测器和教师-学生架构,而不会遭受坍塌(如表 4 所示)。



其次,最近的工作表明需要使用寄存器令牌来防止训练不稳定。表 1 的结果表明,这种不稳定性可能源于条件不良的训练目标。相反,LeJEPA 不需要寄存器令牌,无论有无它们都能实现稳定性能。



LeJEPA 的训练损失对下游性能具有信息指示性

SSL 预训练中的一个主要挑战是训练损失与下游性能的相关性很低。

相比之下,研究发现 LeJEPA 的训练损失为模型质量提供了有意义的信号。如图 10 所示,SIGReg 损失和预测损失与下游任务准确率之间存在清晰趋势。



域内 LeJEPA 优于前沿模型的迁移学习

自监督学习的一个关键承诺是学习通用表示。然而,目前的前沿模型(如 DINOv2/v3、IJEPA)是在自然图像上预训练的,这迫使特定领域的从业者使用大量标签进行监督微调。

为了展示 LeJEPA 的多功能性,研究者建议直接在专业领域上进行预训练,而无需更改流程。研究者选择了 Galaxy10 数据集(一个星系形态分类任务)。该研究与最新的 DINOv2、DINOv3 和 IJEPA 进行了比较。

图 12 报告了线性探测和全量微调的 top 1 准确率。结果观察到,使用 LeJEPA 进行域内预训练,在这两项评估中均显著优于顶尖的前沿模型。



表 5 中的额外结果展示了 LeJEPA 即使在小至 1000 个样本的数据集上也能有效训练。



LeJEPA 在数据和模型上均具有可扩展性

研究者接着将 LeJEPA 应用于更大的预训练数据集(ImageNet-1k)和更大的主干网络,例如 ViT/Large(3 亿参数)和 ConvNextV2-Huge(6 亿参数),分别达到了 77.1% 和 78.5% 的在线线性探测准确率。

在迁移学习方面(表 2),该研究的基线是 IJEPA(ViT-Huge,6 亿参数)及其改进版 IJEPA + STOP。结果观察到,LeJEPA 尽管使用了更小的模型和更短的训练计划,其性能仍持续优于 IJEPA。



此外,该模型在 ViT-gigantic(18 亿参数)上的训练曲线(图 1)也显示出非常稳定和平滑,表明其优化景观稳定,无需仔细的超参数调整。



LeJEPA 表示中涌现的语义结构

成功的自监督学习的一个标志是,在没有显式监督的情况下涌现出具有语义意义的注意力模式。为了评估 LeJEPA 是否学习了这种结构,研究者将其学习到的表示的注意力图进行了可视化。继 DINO 之后,该研究对嵌入应用 PCA(主成分分析)并可视化第一个主成分,其显示出与物体边界和显著区域的清晰对应关系(图 14)。



此外,研究者们探索了这些注意力模式是否能够实现无监督视频分割。通过对 [CLS] 令牌的自注意力图进行阈值处理,获得了可以在没有训练标签的情况下跨帧跟踪物体的二值掩码。

如图 13 所示,LeJEPA 的注意力以卓越的时间一致性自然地将前景物体与背景分割开来,这表明学习到的表示同时捕捉了空间语义和时间结构。这种涌现的能力表明,LeJEPA 注重稳定性的目标并没有牺牲所学特征的语义丰富性。



更多技术细节请参见原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1-0绝杀!2-0爆冷!U23亚洲太疯狂:CCTV5调整直播,中伊大战打响

1-0绝杀!2-0爆冷!U23亚洲太疯狂:CCTV5调整直播,中伊大战打响

二疯说球
2026-01-08 09:20:50
马斯克预测世界大战时间,大战最可能爆发在两地区

马斯克预测世界大战时间,大战最可能爆发在两地区

妙知
2025-12-29 00:08:32
中美贸易战又出事了,1月8日,今日深夜的五大消息已发酵!

中美贸易战又出事了,1月8日,今日深夜的五大消息已发酵!

老殁体育解说
2026-01-08 10:23:28
71岁的成龙说:这辈子我要钱有钱,要名有名,但唯独做错了一件事

71岁的成龙说:这辈子我要钱有钱,要名有名,但唯独做错了一件事

扶苏聊历史
2026-01-01 07:00:03
这应该是目前世界上最美的女总统了。

这应该是目前世界上最美的女总统了。

南权先生
2026-01-03 17:05:59
如果你买的股票早上快速拉高然后慢慢下跌,你明白是怎么回事吗?

如果你买的股票早上快速拉高然后慢慢下跌,你明白是怎么回事吗?

一方聊市
2025-12-26 05:05:06
北约秘书长:格陵兰岛已准备好接收更多美军,我知道丹麦完全愿意

北约秘书长:格陵兰岛已准备好接收更多美军,我知道丹麦完全愿意

李健政观察
2026-01-08 09:33:30
罗马诺:这2位主帅此前曾拒绝曼联,但现在情况不同了;罗马日报:即使索肖回归执教,齐尔克泽仍希望离队

罗马诺:这2位主帅此前曾拒绝曼联,但现在情况不同了;罗马日报:即使索肖回归执教,齐尔克泽仍希望离队

MUREDS
2026-01-09 00:04:59
李在明也没想到,访华仅3天,59岁妻子竟凭一个举动给他长脸了

李在明也没想到,访华仅3天,59岁妻子竟凭一个举动给他长脸了

浮光惊掠影
2026-01-08 00:49:35
莫言:那些越是穷到骨子里的人,越喜欢讲道理,越是倾向于用钱解决问题的人,越来越有钱

莫言:那些越是穷到骨子里的人,越喜欢讲道理,越是倾向于用钱解决问题的人,越来越有钱

LULU生活家
2026-01-08 19:07:38
萧敬腾在岳父追思会上拥抱妻子,含泪致辞,感谢亲友!

萧敬腾在岳父追思会上拥抱妻子,含泪致辞,感谢亲友!

素素娱乐
2026-01-08 18:08:34
官媒发文!宗馥莉再破天花板,让亲叔宗泽后和整个商界沉默了

官媒发文!宗馥莉再破天花板,让亲叔宗泽后和整个商界沉默了

银河史记
2026-01-08 12:55:54
这次不一样了:美国扣押俄国油轮,最受伤的不是俄罗斯

这次不一样了:美国扣押俄国油轮,最受伤的不是俄罗斯

十柱
2026-01-08 12:55:50
不上镜的人有多不上镜?网友:终于知道为啥有人不知道自己长啥样

不上镜的人有多不上镜?网友:终于知道为啥有人不知道自己长啥样

另子维爱读史
2026-01-07 21:58:05
吹杨被交易至奇才!掏出手机起身离场 落寞背影预示老鹰时代落幕

吹杨被交易至奇才!掏出手机起身离场 落寞背影预示老鹰时代落幕

颜小白的篮球梦
2026-01-08 10:44:54
特朗普指示美国退出“不符合该国利益”的66个国际组织

特朗普指示美国退出“不符合该国利益”的66个国际组织

环球网资讯
2026-01-08 06:29:06
女子开车碾压草场后续:扬言撞死牧民,真实身份被扒,公司被牵连

女子开车碾压草场后续:扬言撞死牧民,真实身份被扒,公司被牵连

奇思妙想草叶君
2026-01-07 23:56:24
心理学家:极度自私的人,往往不是斤斤计较,而是有着这3个特征

心理学家:极度自私的人,往往不是斤斤计较,而是有着这3个特征

木言观
2025-12-27 18:01:28
云尽孝8年后:她被加拿大市长抛弃,样貌大变,遇到国人慌忙躲避

云尽孝8年后:她被加拿大市长抛弃,样貌大变,遇到国人慌忙躲避

归客历史
2025-12-29 09:03:35
郭艾伦伤停!浙江35分狂胜广州 徐昕仅2分陆文博16+4三分

郭艾伦伤停!浙江35分狂胜广州 徐昕仅2分陆文博16+4三分

醉卧浮生
2026-01-08 21:09:49
2026-01-09 02:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12080文章数 142533关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

数码
艺术
健康
教育
军事航空

数码要闻

CES 2026 | TCL实业携全球首创SQD-Mini LED显示技术亮相

艺术要闻

震撼!阿森西奥的人体绘画揭示情感的深渊!

这些新疗法,让化疗不再那么痛苦

教育要闻

一觉醒来,全球传播学倒退100年(无限流)

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版