网易首页 > 网易号 > 正文 申请入驻

LeCun力荐的JEPA杀入LLM,用CV的思路训练LLM,性能鲁棒性双丰收

0
分享至

来源:市场资讯

(来源:机器之心)

LeCun 这次不是批评 LLM,而是亲自改造。


当前 LLM 的训练(包括预训练、微调和评估)主要依赖于在「输入空间」进行重构与生成,例如预测下一个词。

而在 CV 领域,基于「嵌入空间」的训练目标,如联合嵌入预测架构(JEPA),已被证明远优于在输入空间操作的同类方法。


JEPA 的核心概念最早由 Yann LeCun 及其团队提出,旨在通过在抽象表征空间中预测未来或缺失的特征来高效学习世界知识。随后,Meta AI 团队提出了具体实现,包括 I-JEPA(用于图像、自监督学习、CVPR 2023)和 V-JEPA(用于视频),验证了 JEPA 在视觉表征学习中的有效性。

这就启发了一个新思路:语言模型的训练,能否从视觉领域获得一些启发?

此前,由于设计上的挑战,适用于语言任务的 JEPA 风格模型一直未能出现。主要原因是 LLM 的能力主要通过其生成文本来评判,这是一种输入空间的操作,使得非重构的 JEPA 思想难以直接应用。

为填补这一空白,Hai Huang、Yann LeCun 及 Randall Balestriero 提出了 LLM-JEPA。这项工作基于 JEPA 理念,首次将这种高效的自监督学习架构成功地从视觉领域扩展到了 LLM。

该工作通过将(文本、代码)等数据对视为同一概念的多种视图,成功地将 JEPA 目标应用于 LLM,作为标准「文本→代码」等生成任务的有效补充。这既保留了 LLM 强大的生成能力,又引入了 JEPA 在嵌入空间学习高质量表征的优势。


  • 论文标题: LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures

  • 论文地址:https://arxiv.org/pdf/2509.14252v1

  • 代码:https://github.com/rbalestr-lab/llm-jepa

实验证明,LLM-JEPA 的性能显著超越了标准的 LLM 训练目标。该方法不仅表现出色,还对过拟合问题显示出强大的鲁棒性。

这些结论在 Llama3、OpenELM、Gemma2、Olmo 等多个主流模型系列以及 NL-RX、GSM8K、Spider、Rotten Tomatoes 等多样化的数据集上均得到了有力验证。

JEPA-LLM:提升 LLM 的推理与生成能力

LLM 简介

当代 LLM 的构建大多遵循着相同的核心原则:即通过堆叠大量的非线性运算层与跳跃连接(即 Transformer 架构)来搭建。

尽管各模型在细节上,如位置嵌入、初始化方法或归一化层上可能有所不同,但其性能表现的主要驱动力,依旧是预训练阶段所使用的高质量数据集。在训练目标上,现有方法也基本趋于统一,即自回归 token 空间重构。

作者首先将特定任务和数据集下所使用的典型 LLM 目标函数定义为。在绝大多数情况下,该函数具体表现为一个交叉熵损失,用于衡量模型预测的 token 与需要重构的真实 token 之间的差异。

值得注意的是,该研究提出的 LLM-JEPA 方法并不依赖于

的具体形式,因此具有很强的通用性,能够适应多种应用场景。


在此公式中,Classifier 负责根据上下文 token


来预测下一个

token

logits。整个计算过程通过因果自回归机制一次性完成。根据训练阶段或任务的不同,该损失函数的输入与输出也会相应变化。

LLM-JEPA 目标函数的设计

作者以「Text」(文本)和「Code」(代码)为例,来说明如何处理对同一底层知识的不同「视角(view)」。通过这个例子,读者可以清晰地理解,LLM-JEPA 目标函数能够以统一的方式处理各种不同类型的视角。

LLM-JEPA 目标函数的设计遵循两大原则:第一,必须保留 LLM 的生成能力,因此算法的起点是传统的

损失。第二,旨在利用联合嵌入预测任务来增强 LLM 的抽象能力。

基于此,研究团队在

之上,引入了成熟的 JEPA 目标,构建了如下的完整损失函数

L:


其中,λ≥0 是一个用于平衡两项损失权重的超参数;Pred 和 Enc 分别代表预测器和编码器网络;d 则是一个可选择的度量函数,例如 ℓ2 距离。下面将对各个组件进行详细说明。

编码器: 编码器的实现方式沿用了 LLM 探查中的常见做法,即取模型最后一层最后一个 token 的 hidden_state 作为输入序列的嵌入向量。在实践中,研究团队指出,无法通过单次前向传播同时产出 Enc(Text) 和 Enc(Code)。一种看似高效的做法是将 [Text,Code] 拼接后输入,但这需要修改自注意力机制以避免跨视角信息泄露,从而导致方案与特定 LLM 架构绑定。为此,研究团队提出通过两次独立的前向传播来分别获取 Text 和 Code 的编码。这种方式虽然增加了训练成本,但并不影响推理效率。

度量:在嵌入向量的比较方面,CV 领域已广泛采用余弦相似度。因此,该研究建议在 LLM-JEPA 中也采用相同的度量方式。

预测: 该设计巧妙地利用了 LLM 的自回归特性和内部的自注意力机制,构建了一个权重绑定预测器。具体来说,通过在输入序列末尾添加一个特殊的 [PRED] token ,模型可以对输入信息进行进一步的非线性处理,并将最后一层 [PRED] token 对应的最终嵌入作为预测结果。由于预测任务复用了 LLM 的内部权重,这种设计极大地减少了额外的训练开销和架构设计的复杂性。实践中,通过在输入提示后附加 k 个预测器 token ,并取最后一个 token 的嵌入作为最终预测。当 k=0 时,预测器退化为恒等函数,即


与先前工作的关系: 研究表明,类似

这样的输入空间重构损失(

token 可视为原始文本的无损压缩)在视觉领域并非最优。受此启发,一些研究开始为 LLM 引入嵌入空间正则化器。然而,现有方案大多依赖对嵌入空间施加复杂的结构性约束(如层次结构、聚类等),这与 JEPA 的理念不同。作者同时指出,将(文本问题、代码差异)这类数据对视为不同「视角」并加以利用,在 LLM 微调中已有应用,但它们通常通过生成式任务(从一个视角生成另一个)来学习,并未采用 JEPA 风格的损失函数。

实证验证:LLM-JEPA 性能优于传统 LLM

  • 传统

    损失无法隐式优化

    LJEPA 目标

研究团队首先观察到一个关键现象(如图 4 所示):仅仅最小化传统的

损失项的必要性。

损失。这一发现直接说明了在训练中显式地加入

损失,并不会隐式地优化


  • LLM-JEPA 能够提升微调效果

研究团队在多个主流预训练 LLM(包括 Llama-3.2-1B-Instruct、gemma-2-2b-it 等)及多种数据集(如 NL-RX-SYNTH、GSM8K 等)上展开了全面的微调实验。

实验流程是,首先为每个(模型、数据集)组合搜索出最优学习率,然后在此基础上,通过网格搜索确定 LLM-JEPA 的两个关键超参数 k 和 λ 的最佳组合。评估指标根据任务特性而定,例如在 NL-RX 数据集上采用精确匹配准确率。

实验结果(图 1 左)清晰地表明,LLM-JEPA 能够在不同模型、不同数据集、不同训练时长和不同模型尺寸下全面提升性能。


如表 3 所示,即使在不同的 LoRA 秩配置下,LLM-JEPA 的性能优势依然稳固。


此外,研究还提供了证据(图 6、7、10),证明 LLM-JEPA 能够学习到从

Text 编码到 Code 编码之间的一个近似线性变换。



  • LLM-JEPA 同样能改进预训练过程

为了验证其在预训练阶段的有效性,研究团队在一个数据集上从零开始训练 Llama-3.2-1B-Instruct。结果如表 1 所示,采用 LLM-JEPA 的模型在学习表示的质量上显著优于传统方法。


在另一项对释义数据集的预训练实验中,使用 JEPA 预训练过的模型,在下游情感分类任务上进行微调时,也表现出更强的性能(表 4)。这证明了 JEPA 在预训练阶段带来的益处可以迁移到下游任务。


最后,表 2 的生成样本表明,经过 JEPA 预训练后,模型在遵循提示进行文本生成时,其原有的生成能力并未受到损害。


研究团队表示,尽管当前实验主要聚焦于微调阶段,但初步的预训练结果同样展现了巨大潜力,研究团队计划在未来工作中对其进行更大规模、更全面的测试。

关于该方法的局限性,当前最主要的瓶颈是训练过程中为获取多视角表示而导致的三倍计算开销。

未来,研究团队计划探索通过掩码自注意力矩阵等方式,实现在单次前向传播中完成 LLM-JEPA 损失的计算,以降低训练成本。

不过也有人指出,该方法因严重依赖「配对数据」而导致其泛化性不足,再加上高昂的训练成本,使其缺乏实际应用价值。


对此你怎么看?

更多细节请参见原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马励武被俘后通过渔船转送,被国军海军错过,气得他大骂海军失职

马励武被俘后通过渔船转送,被国军海军错过,气得他大骂海军失职

历史龙元阁
2025-11-13 12:55:09
2-3!全运会乒乓球再爆冷门:全国冠军被逆转,省队小将让二追三

2-3!全运会乒乓球再爆冷门:全国冠军被逆转,省队小将让二追三

星Xin辰大海
2025-11-14 13:00:14
88年前侵华,88年后挑衅,中国强烈谴责严厉警告

88年前侵华,88年后挑衅,中国强烈谴责严厉警告

笔尖视界
2025-11-14 13:06:17
中国凌晨宣布召见日本大使,用2个字告诉高市,这事不好收场了

中国凌晨宣布召见日本大使,用2个字告诉高市,这事不好收场了

林子说事
2025-11-14 13:07:33
该反思了,诈骗头目都外国抓获没收,老百姓取款都要被询问,为啥

该反思了,诈骗头目都外国抓获没收,老百姓取款都要被询问,为啥

你食不食油饼
2025-11-12 11:48:56
联合国审议中日琉球主权,日本人破防:有关言论“无法接受”

联合国审议中日琉球主权,日本人破防:有关言论“无法接受”

诗意世界
2025-11-13 11:39:43
为啥男人宁愿付出巨大代价也要离婚?网友:因为命比钱重要,自由

为啥男人宁愿付出巨大代价也要离婚?网友:因为命比钱重要,自由

带你感受人间冷暖
2025-11-06 16:27:51
“买得起,用不起”,如果不是很有钱,劝你别买这5种电器

“买得起,用不起”,如果不是很有钱,劝你别买这5种电器

巢客HOME
2025-11-13 08:35:03
美军上将大胆预言:解放军的统一之战,会以这个名义打响第一枪?

美军上将大胆预言:解放军的统一之战,会以这个名义打响第一枪?

健身狂人
2025-10-27 01:01:13
全场不得100分?约基奇首节25分创NBA中锋首节最高得分纪录

全场不得100分?约基奇首节25分创NBA中锋首节最高得分纪录

懂球帝
2025-11-13 12:37:22
不再为面子买单!国际奥委会向中国发出求援,我们为何拒绝接盘?

不再为面子买单!国际奥委会向中国发出求援,我们为何拒绝接盘?

历史求知所
2025-11-12 12:55:08
德国挑衅升级,邀请台独沈伯洋参加国会,别忘了大陆重拳已经开始

德国挑衅升级,邀请台独沈伯洋参加国会,别忘了大陆重拳已经开始

历史有些冷
2025-11-14 14:10:03
中日混血、知名职业麻将选手公开近照,粉丝惊叹

中日混血、知名职业麻将选手公开近照,粉丝惊叹

随波荡漾的漂流瓶
2025-11-12 18:15:04
杨颖赢麻了!与参加前夫家宴的小海绵,合力撕下叶柯仅存的体面

杨颖赢麻了!与参加前夫家宴的小海绵,合力撕下叶柯仅存的体面

林木体育解说
2025-11-14 12:09:58
你做过最疯狂的事是什么?网友:在公园亲了一小时

你做过最疯狂的事是什么?网友:在公园亲了一小时

解读热点事件
2025-10-11 00:20:03
日本若是与中国对战?日专家:与中国发生冲突,最长只能坚持一周

日本若是与中国对战?日专家:与中国发生冲突,最长只能坚持一周

通文知史
2025-10-28 21:00:06
杨振宁和杜致礼,在欣赏自家院子里盛开的花,杜致礼满身富贵气

杨振宁和杜致礼,在欣赏自家院子里盛开的花,杜致礼满身富贵气

大江
2025-11-14 10:55:47
王伟忠一句点破大S一生所求:汪小菲给不了的陪伴,具俊晔为何精准拿捏?

王伟忠一句点破大S一生所求:汪小菲给不了的陪伴,具俊晔为何精准拿捏?

草莓解说体育
2025-11-14 09:18:57
王星军与关牧村离婚34年,一个与高官收获幸福,一个单身定居美国

王星军与关牧村离婚34年,一个与高官收获幸福,一个单身定居美国

白面书誏
2025-11-12 15:59:17
神舟二十号乘组14日返回,乘坐二十一号飞船,择机发射二十二号

神舟二十号乘组14日返回,乘坐二十一号飞船,择机发射二十二号

光电科技君
2025-11-14 09:04:54
2025-11-14 14:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1384203文章数 4491关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

大陆发布"台独"打手悬赏通告后 岛内网民的反应来了

头条要闻

大陆发布"台独"打手悬赏通告后 岛内网民的反应来了

体育要闻

40岁C罗肘击染红 离场时怒骂对手主帅

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

统计局:前10月房地产开发投资下降14.7%

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

手机
旅游
艺术
时尚
数码

手机要闻

荣耀500 Pro手机规格曝光:骁龙8至尊版芯片、2亿主摄等

旅游要闻

走,逛街去!河南新增12家省级旅游休闲街区

艺术要闻

伟人写给宋庆龄的信:狂草艺术的巅峰之作

上头又上脸,奶皮子糖葫芦真有点东西

数码要闻

迎广DLITE中塔机箱上市:摩卡棕、丁香紫双配色,679元

无障碍浏览 进入关怀版