网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

LeCun在Meta的最后一篇论文

2025-11-14 15:40:33　来源: 量子位

北京举报

0

分享至

henry 发自凹非寺
量子位 | 公众号 QbitAI

《LeJEPA：无需启发式的可证明且可扩展的自监督学习》

“这可能是LeCun以Meta身份发表的最后一篇论文了。”

没错，这篇带“Le”的论文，介绍了一种自监督学习方法，于11月11日在arXiv提交，是LeCun的最新公开成果。

也是在这一天，他离职Meta的消息被曝光。

如果说LeCun在2013年加入开启了Meta AI研究的一个时代，那么LeJEPA就是他在Meta的告别之作。

LeJEPA究竟是怎样的“最后一舞”？

LeJEPA：基于各向同性高斯嵌入的自监督学习方法

LeJEPA核心是提出了一种基于各向同性高斯嵌入的自监督学习方法，通过引入SIGReg正则化，有效解决了表示崩溃问题，并显著提升了模型的泛化能力。

在传统的JEPA框架中，预测任务常面临表示崩溃的问题。

这意味着，在训练过程中，模型可能将所有输入映射到单一的点或低维空间，导致嵌入空间中的样本不可区分，从而无法有效捕捉样本间的语义差异。

针对这一问题，现有方法依赖启发式技术，如停止梯度、非对称视图生成和教师-学生网络，但这些方法由于缺乏对JEPA基础理论的探索，被视为替代方案。

基于以上背景，研究提出一种新的JEPA框架——潜在欧几里得JEPA（Latent-Euclidean Joint Embedding PredictiveArchitecture，LeJEPA），其核心是使嵌入空间遵循特定的统计分布，从而提升模型的预测性能。

嵌入分布的影响

首先，研究通过最小二乘回归（OLS）分析了嵌入分布对偏差和方差的影响。

结果表明，等向高斯分布能够最小化训练过程中的偏差和方差。

特别地，在总方差相同的情况下，非等向分布会导致更高的偏差和方差，而等向高斯分布则能够有效地保证最小的偏差和方差，从而提高下游任务的稳定性和准确性。

通过在非线性探测和几何直觉方面的实验，研究进一步验证了等向高斯分布的优越性。

实验表明，无论是在回归任务还是分类任务中，等向高斯分布都能保持最小的误差，而非等向分布则表现出较高的方差。

研究表明，各向同性高斯分布是嵌入空间的最佳分布，它可以在没有任务信息的情况下，保证最小化偏差和方差，从而提高下游任务的表现。

SIGReg：实现高斯分布的正则化

为实现上述分布匹配，研究提出了草图化各向同性高斯正则化（Sketched Isotropic Gaussian Regularization，SIGReg），这是一种可处理、可证明正确的正则化方法。

SIGReg的创新点在于：

将分布匹配问题转化为统计假设检验，通过零假设与目标分布的匹配来实现
提供了一种测试方法，保证在多GPU训练时的高效性，并确保梯度和曲率有界
解决了高维空间中的维度灾难问题。

SIGReg通过单变量方向检验，结合Epps-Pulley测试来判断嵌入分布与目标分布（等向高斯分布）的匹配程度。

它将分布匹配转化为零假设与备择假设的检验，并通过统计量判断是否拒绝零假设，从而确认分布是否匹配。

高维问题的解决

SIGReg还通过两条机制解决了高维空间中的计算挑战：

平滑性：嵌入函数的Sobolev平滑性保证了在仅需O(K)个方向切片的情况下即可有效约束整个空间，进行有效的统计检验。
SGD迭代特性：训练过程中方向的重复采样累积效应使得即使方向数量很少（如M=16），也能迅速收敛到各向同性分布，优于固定方向集。

在实现方面，LeJEPA结合了SIGReg和预测损失两部分，通过Epps-Pulley统计量实现分布匹配，并通过小批次训练保证计算效率和稳定性。最终的总损失是SIGReg损失和预测损失的加权和。

SIGReg损失：通过Epps-Pulley统计量计算，确保训练过程中梯度有界，并通过积分近似提升计算效率。小批次训练引入的偏差对训练影响较小。
预测损失：与DINO方法相似，通过计算所有视图预测全局视图的差异。
LeJEPA总损失：是SIGReg损失和预测损失的加权和，其中一个超参数λ用于平衡这两部分的权重。

实验验证与结果

为了验证LeJEPA的可靠性，研究在多个大型架构上进行实验，包括ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等，模型规模接近10亿参数。

实验结果显示，LeJEPA在这些架构上表现超越现有方法，且保持了训练的简便性和鲁棒性。

特别地，在领域特定的数据集（如Galaxy10、Food101）上，LeJEPA在直接在目标数据上预训练时超越了基于DINOv2的迁移学习方法。

总的来说，LeJEPA延续了之前JEPA的探索，重新确立了自监督学习作为AI研究的核心方法。

LeJEPA通过提供一个简单且理论上有支持的框架，使得从数据中学习表示变得更加高效，并在多个任务中展示了优越的性能。

JEPA世界模型

自LeCun于2022年在《A Path Towards Autonomous Machine Intelligence》中首次提出JEPA以来，基于JEPA的架构已经发展了整整三年。

JEPA（Joint-Embedding Predictive Architecture）是一种自监督学习框架，旨在通过基于嵌入空间的联合预测方法来提升模型的表达能力和推理能力。

与生成式模型不同，它并不能简单地用于从x预测y，它仅捕捉x和y之间的依赖关系而无需显式生成y的预测。

此外，为了应对长期规划问题，JEPA还可以进一步通过分层架构（即H-JEPA）来增强其抽象能力。

在H-JEPA中，低层表示处理短期预测任务，而高层表示则用于长期预测。

这种分层结构使得模型在进行长期规划时，可以在不同的抽象层次上进行操作，从而提高可预测性和减少信息损失。

值得一提的是，JEPA架构通常与世界模型密切相关，只不过其与一般意义上的世界模型仍有区别。

传统的世界模型一般指能够模拟环境或系统的模型，其主要目的是通过预测未来状态来实现长期规划和决策（如强化学习）。

而JEPA则是一种通过联合嵌入空间学习状态与动作转移的架构，重点在于结合表示学习和自监督学习来完成预测和规划任务。

在JEPA中，世界模型的目的是预测世界状态的未来表现形式。

具体而言，JEPA通过学习状态与动作的转移来训练世界模型，其核心在于从当前状态的表示推断未来状态的表示，这一过程是在联合嵌入空间中完成的。该空间通过最小化预测误差来学习状态表示与动作之间的关系。

尽管最初的JEPA论文呈现出一种对生成式AI的反思，描述了人工智能未来的愿景，并指出这一愿景可能需要数十年的时间才能实现。

但自2022年夏季发布以来，在LeCun的推动下，JEPA架构已经取得了一些显著进展。

I-JEPA: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

与其他图像SSL方法相比，I-JEPA充分利用了Transformer架构的灵活性。

在I-JEPA中，上下文编码器是一个ViT，它仅处理可见的上下文块。

预测器接收上下文编码器的输出，并根据位置标记（以颜色显示）预测特定位置的目标块表示。

目标表示对应于目标编码器的输出，权重在每次迭代中通过上下文编码器权重的指数滑动平均进行更新。

V-JEPA: Revisiting Feature Prediction for Learning Visual Representations from Video

V-JEPA是I-JEPA在视频领域的扩展，它通过将视频视为3D图像来实现这一点。

训练过程基于一个包含T帧的视频片段，空间分辨率为H×W，并将其展平成一个L个token的序列。

首先通过从视频片段中去除一些tokens来获得x-encoder的输入。

接着，x-encoder处理被屏蔽的视频序列，并为每个输入token输出一个嵌入向量。

然后，x-encoder的输出与一组可学习的mask tokens进行拼接，这些mask tokens包含了被屏蔽的时空补丁的位置信息嵌入。

预测网络处理拼接后的token序列，并为每个mask token输出一个嵌入向量。

最后，预测网络的输出通过 L1 损失回归到预测目标。预测目标对应于y-encoder的输出。

今年7月，LeCun团队又进一步发布了V-JEPA 2

V -JEPA 2基于V-JEPA，进一步提升了动作预测和世界建模能力，使机器人能够与陌生物体和环境进行交互，从而完成任务。

MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features

MC-JEPA是JEPA 的扩展，使其能够包含运动信息。

架构通过在视频中使用光流估计学习运动，并通过图像视角的联合嵌入学习内容，以多任务方式共享编码器。其光流估计架构基于PWC-Net。

光流估计采用粗到精的方式，先估算初步的光流，再逐层精细化，最终通过图像重建损失来优化。

整个过程中，前向-反向光流的一致性通过循环一致性损失得到强化。为了避免训练不稳定，模型在每个特征层使用方差-协方差正则化。

除上述工作以外，LeCun及其团队还进一步围绕JEPA发表了JEPAsLLM-JEAP等工作。

总的来说，尽管JEPA架构相较于传统监督学习方法提供了一条新路径，但其自发布以来就毁誉参半。

比如，有人批评JEPA架构过于抽象，难以应用到最前沿的主流模型中，其与生成式AI的背离也让不少网友将Meta的失利归咎于LeCun的学术取向。

甚至有Meta AI员工表示：Fair尚未证明自己是DeepMind等研究机构的真正竞争对手。

而最新发布的LeJEPA也彻底在LeCun和Meta之间划上了句号。

不过，LeJEPA虽然可能LeCun在Meta的研究终点，但肯定不是JEPA发展的终结。

据消息称，LeCun已经在筹集资金，创办初创公司，继续推进他在世界模型方面的工作。

而在AI热辣滚烫之下，这位65岁图灵奖得主、AI三巨头之一的教父级人物，创业又岂会缺资源？

唯一的问题，只可能是LeCun一直以来给人过于“学术”的风格和印象，担忧他在严格计算ROI的商业世界里，再次遭遇Meta生涯末期里的分歧和困境。

One more thing

虽然LeCun与Meta的“分手”说不上体面，但在Meta的这十多年也许是LeCun生涯中最顺的时期——

深度学习爆发、加入纽大、建立FAIR、办顶会（ICLR）、拿图灵奖、出自传（《科学之路》）、发paper，带学生。

自2013年加入Meta以来，LeCun的个人被引飙升，约为次，占总数的93%

虽然光三巨头合写的《深度学习》综述就贡献了10万多次，但也足见LeCun学术影响力的飙升。

这段黄金时期不仅见证了LeCun个人事业的巅峰，更推动了整个AI领域的发展。

江湖上至今流传着扎克伯格当年现身NIPS时的轰动，并且都在认为他会带走一票AI天才……

扎克伯格与约书亚·本吉奥在NIPS 2013

但最后扎克伯格只是请来了LeCun，一人胜过千军万马。

LeCun成就了Facebook\Meta的AI转型之名，成为了金字招牌；Meta也一度给过LeCun足够自由的研究待遇和环境。

只是最后结局前的波澜，令人唏嘘～

好在，65岁的Yann LeCun，依旧是闯的年纪～～

[1]https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

[2]https://arxiv.org/abs/2511.08544

[3]https://arxiv.org/abs/2301.08243

[4]https://malcolmlett.medium.com/critical-review-of-lecuns-introductory-jepa-paper-fabe5783134e

[5]https://github.com/GihhArwtw

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

他47岁转方向，一举解决了球体堆积领域内最大的未解问题

机器之心Pro 2025-07-10 14:12:12
3 跟贴 3
FDA对偶锚点：模型知识迁移的新视角——从参数空间到输入空间

机器之心Pro 2025-11-14 13:46:56
0 跟贴 0

NeurIPS Spotlight｜GHAP：3DGS“剪枝”变成“重建高斯世界”

机器之心Pro 2025-11-14 19:05:05
0 跟贴 0

高交会探馆 | 机器人格斗、无人机艺术表演、载人飞碟⋯⋯高交会这些“黑科技”吸引观众驻足打卡

每日经济新闻 2025-11-14 18:27:26
0 跟贴 0
忍无可忍，LeCun离职！Meta市值应声蒸发1400亿

量子位 2025-11-12 14:53:06
15 跟贴 15

模型曝光大量细节，福建舰还有同款姐妹舰？004是核动力？

深蓝航迹 2025-11-12 16:24:44
1 跟贴 1

失衡的乌托邦：Meta的开源AI路线是如何遭遇滑铁卢的

钛媒体APP 2025-11-12 15:31:58
2 跟贴 2
红军城战事接近尾声血腥且残酷库尔斯克之战重演了

中国新闻周刊 2025-11-13 17:55:52
33873 跟贴 33873

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型推理成绩飙升

量子位 2025-10-13 17:09:26
1 跟贴 1
杨立昆出走，AI战略失焦， Meta怎么了？

DeepTech深科技 2025-11-12 22:25:46
1 跟贴 1
有没有可能外星人智力远超于人类，我们根本无法理解他们的存在？

宇宙时空 2025-11-10 08:19:22
20 跟贴 20
金鱼损失随机剔除token，让AI不再死记硬背

量子位 2025-09-03 17:37:23
0 跟贴 0
中国科学院×兰州大学合作最新Science论文：狗与人类近万年来的共迁移历史

生物世界 2025-11-14 16:08:59
0 跟贴 0
基于3DGS场景理解和视觉语言预训练，让3D高斯「听懂人话」的一跃

机器之心Pro 2025-09-08 13:26:10
0 跟贴 0
Large Avatar Model：单图打造写实3D交互数字人，跨平台驱动渲染

机器之心Pro 2025-06-20 19:31:34
0 跟贴 0
欧拉5预售10.98万起，设计是最大卖点，瞄准元PLUS/银河E5

驾仕派 2025-11-13 12:05:35
5 跟贴 5
几何难题挑战！初阶几何压轴题等你来解

郎老师趣味数学课堂 2025-11-11 22:19:16
0 跟贴 0
求三角形面积，根据比例模型求解

公考客栈店小二 2025-11-12 14:33:00
0 跟贴 0
中央网信办严打一批涉学术论文买卖违法违规账号

界面新闻 2025-11-13 09:20:54
0 跟贴 0
《吸血鬼幸存者》VR版发布率先登陆Meta Store

3DM游戏 2025-11-14 09:34:05
0 跟贴 0
能被顶刊看上的论文，都有这两个特点

复旦张军平 2025-11-12 15:57:04
0 跟贴 0
一个叫高斯的AI，只用了三周完成强素数定理

量子位 2025-09-20 00:57:38
0 跟贴 0
国际刊能不能发

撸钱二三事 2025-11-13 23:02:41
0 跟贴 0
如何去“水”一篇论文

复旦张军平 2025-11-11 20:20:27
0 跟贴 0
SCI论文从投稿到发表最快多长时间？

智梦科研 2025-11-13 11:32:57
6 跟贴 6
快速发表新思路——论文投稿多关注人大哲社预印本平台征文活动！

超先声 2025-11-14 13:46:51
3 跟贴 3
颠覆光计算范式？牛津90后教授用光的拓扑解锁AI算力新引擎

DeepTech深科技 2025-11-14 18:48:18
0 跟贴 0
我国完成第一阶段6G技术试验

央视新闻客户端 2025-11-13 19:25:47
13734 跟贴 13734
陈冬、陈中瑞、王杰全部顺利出舱

央视新闻客户端 2025-11-14 17:26:30
280 跟贴 280
女生素颜展示体态，正脸绝了侧脸更绝，好权威的建模！

笑匠老顽童 2025-11-10 16:48:44
1 跟贴 1
紫牛热点｜绝味鸭脖标价方式遭吐槽：半斤鸭舌89元，消费者结账直呼太贵

扬子晚报 2025-11-10 19:59:10
6708 跟贴 6708
詹姆斯·韦伯太空望远镜，捕捉到宇宙中最壮观的星系碰撞图像！

世界地理小知识 2025-11-13 17:33:41
1 跟贴 1
浙江29岁CEO现身相亲市场被吐槽惨公司年营业额过亿

鲁中晨报 2025-11-13 20:27:06
788 跟贴 788
中国军号发布日语海报

环球时报 2025-11-14 10:49:09
2113 跟贴 2113
轮子在上膛前转过了，除非轮子上有标记可以定位

五娃看剧 2025-11-11 10:57:22
1 跟贴 1
奉劝各位别追求特异功能，修这个比你想象得要危险得多

田先生研究室 2025-11-12 16:44:17
14 跟贴 14
求△CDF 的面积，根据任意四边形的一半模型求解

公考客栈店小二 2025-11-14 10:33:00
0 跟贴 0
二次函数与韦达定理，一个视频学会！

大鹏老师讲数学 2025-11-13 05:07:00
0 跟贴 0
3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

机器之心Pro 2025-11-13 16:52:27
0 跟贴 0
SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

机器之心Pro 2025-11-14 19:18:57
0 跟贴 0

确认了！郇斯楠重磅加盟！预测NBA首轮第12号秀

确认了！郇斯楠重磅加盟！预测NBA首轮第12号秀

篮球实战宝典

2025-11-13 17:31:19

“果篮子”越做越大我国近七成进口瓜果来自东盟

“果篮子”越做越大我国近七成进口瓜果来自东盟

新华社

2025-11-13 19:10:01

布冯说意大利输挪威是因国米输欧冠？贝尔戈米：他能说得优雅些

布冯说意大利输挪威是因国米输欧冠？贝尔戈米：他能说得优雅些

懂球帝

2025-11-14 17:44:16

“交不起服务费，就能把4个娃撵回家？”家长哭穷无果后选择举报

“交不起服务费，就能把4个娃撵回家？”家长哭穷无果后选择举报

妍妍教育日记

2025-11-12 19:44:34

中国终于实现突破！央视镜头下中国发动机测试成功，全场欢呼不断

中国终于实现突破！央视镜头下中国发动机测试成功，全场欢呼不断

辉辉历史记

2025-11-12 22:11:31

什么是文明？看挪威富裕后如何对待自己的国民

什么是文明？看挪威富裕后如何对待自己的国民

深度报

2025-11-07 22:57:08

11月13日俄乌最新：壮士断腕

11月13日俄乌最新：壮士断腕

西楼饮月

2025-11-13 18:12:19

中方态度：支持，但暂不出资

陆弃

2025-11-12 10:33:33

央视对全红婵的称呼变了！两字之差看出差距，陈芋汐的话有人信了

央视对全红婵的称呼变了！两字之差看出差距，陈芋汐的话有人信了

泠泠说史

2025-11-12 17:24:02

湖北省政府这个部门领导职位调整

湖北省政府这个部门领导职位调整

鲁中晨报

2025-11-14 12:39:02

杀人放火金腰带，修桥补路无尸骸

杀人放火金腰带，修桥补路无尸骸

最爱历史

2025-11-13 15:48:51

“大湾鸡”蘑菇蹲竟是即兴瞬间？独家对话导演帅好瑞：走红是对小演员们的最大肯定丨封面头条

“大湾鸡”蘑菇蹲竟是即兴瞬间？独家对话导演帅好瑞：走红是对小演员们的最大肯定丨封面头条

封面新闻

2025-11-13 17:09:05

官宣！世界名帅沙特下课，执教卡塔尔，年薪1100万欧，拒绝尤文

官宣！世界名帅沙特下课，执教卡塔尔，年薪1100万欧，拒绝尤文

小金体坛大视野

2025-11-13 21:27:27

造纸厂储罐发现3具女尸，法医：三人为亲姐妹，生前骨盆均被破坏

造纸厂储罐发现3具女尸，法医：三人为亲姐妹，生前骨盆均被破坏

罪案洞察者

2025-10-28 15:33:21

广州增城崩了。2.5万跌至7000元每平，业主血亏百万

广州增城崩了。2.5万跌至7000元每平，业主血亏百万

流苏晚晴

2025-11-14 17:24:41

领证了！江苏首张！

娱乐洞察点点

2025-11-14 11:36:14

《鬼灭之刃》首映，好评如潮，看完我只想说：日漫这样拍才对味！

《鬼灭之刃》首映，好评如潮，看完我只想说：日漫这样拍才对味！

青橘罐头

2025-11-14 16:19:39

“一觉醒来，大学变高中了”，当本升高成为现实，大学生天都塌了

“一觉醒来，大学变高中了”，当本升高成为现实，大学生天都塌了

妍妍教育日记

2025-11-12 20:05:44

越来越不对劲，小县城的工资开始崩塌了

越来越不对劲，小县城的工资开始崩塌了

诗意世界

2025-11-13 10:25:43

硬刚！惨败石宇奇后国羽名将突然自曝队内矛盾，公开质疑领导排阵

硬刚！惨败石宇奇后国羽名将突然自曝队内矛盾，公开质疑领导排阵

体坛小二哥

2025-11-13 23:46:12

追踪人工智能动态

11675文章数 176330关注度

往期回顾全部

科技要闻

京东“失去的五年”后，找到新增长了吗？

头条要闻

荒野求生赛唯一女选手"冷美人"退赛本人表示"不甘心"

头条要闻

荒野求生赛唯一女选手"冷美人"退赛本人表示"不甘心"

体育要闻

40岁C罗肘击染红离场时怒骂对手主帅

娱乐要闻

王家卫让古二替秦雯写剧情主线？

财经要闻

统计局:前10月房地产开发投资下降14.7%

汽车要闻

小鹏X9超级增程动态评测全网首发高速实测车内65分贝

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

健康

游戏

教育

旅游

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

金振口服液助力科学应对呼吸道疾病

逍遥情缘手游万妖劫世副本攻略煌焰燎原适宜循序渐进

教育要闻

“小学生选大队委，堪比考公”，宝妈分享题库，网友：时代不同了

旅游要闻

从安吉到加纳利：联合国榜单背后的“乡村价值”再发现

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版