网易首页 > 网易号 > 正文 申请入驻

田渊栋离职Meta,最后一篇论文?

0
分享至


新智元报道

编辑:桃子

【新智元导读】离职Meta后,田渊栋团队最新论文放出了。他们提出的「三门理论」发现,RLVR微调只在小权重里发力,性能提升的同时又不破坏模型结构。

田渊栋离职Meta之后,最后一篇亲笔?

上月末,Meta血裁600人团队,AI大佬田渊栋官宣自己也被裁员。

最近,他在Meta期间一篇论文正式发布,已被顶会NeurIPS 2025录用。


最新研究中,他们发现一个反常却稳定的规律——

强化学习与可验证奖励(RLVR)虽能提升模型性能,但几乎不碰主方向上的权重。

这是一种受模型结构自身约束的优化偏置。

这背后的原因究竟是什么,不如打开「黑箱」看一看。


论文地址:https://arxiv.org/pdf/2511.08567

论文中,团队提出了「三门理论」,即KL锚点 → 几何结构 → 精度。

它能解释并刻画AI独特的优化行为,也为近期一系列来自参数空间的观察现象,提供了可解释性:

其中就包括,RL更新稀疏、RL遗忘较少,在线量化秩序一次校准。

更重要的是,RLVR的优化方式与监督微调(SFT)完全不同,而且,人们常在SFT中用到的方法,不一定在RL中好使。



总言之,新论文最大的贡献在于,首次绘制出RLVR训练动态的「参数层面全景图」。

RL学习,优化偏差从哪来?

在研究之前,Meta团队提出了一个关于RL学习动态的核心问题:

优化偏差是从哪里产生的?它在训练过程中如何影响参数的变化?


为此,他们专门探索了RLVR方法。

它是通过使用确定性的、可验证的奖励函数,去提高LLM在精确任务中的性能。

RLVR会在同一个预训练模型的前提下,把更新引导到跨不同运行、数据集和训练方案中的同一类偏好区域。这是一种受模型本身影响的优化偏向。

如下所示,在训练过程中,RL会把更新集中在同一模型的相同区域。


每个面板展示的是一个0-1更新掩码(1=已更改,0= 更改)。尽管使用的数据和算法不同,这种条纹状模式仍在不同运行中反复出现

1 RL会将更新定位到同一模型的相同区域

这里,作者分析了DeepSeek-R1-Distill-Qwen-1.5B的5次微调运行。

这些运行分别使用了,包括数学、代码等多样化数据,以及不同的RL变体,如GRPO、DAPO、Reinforcement++。

首先计算更新掩码 M_i,通过比较基础模型和微调模型来追踪更新集中在哪些位置。

随后,更新一致性比率:


如下所示,在五次RLVR运行中,团队绘制了第13层的投影(Q/K/V/O)以及MLP的下投影。

较亮的条带标记了在大多数运行中被更新的坐标,呈现出一种稳定的、类似条纹的路由模式,而不是随机散布。


权重更新的一致性比例

2 优化偏向在整个训练过程中持续存在

为了研究单次运行内部的动态变化,作者又在DeepSeek-R1-Distill-Qwen-1.5上,跟踪了训练步骤中的按行和按列的更新比率:


下图中,路由偏向在训练初期便开始出现,并在训练推进中不断增强。

这表明这是一种随时间保持稳定的现象,而不是短暂的偶发现象。 其峰值与图2中的偏置结构一致。


3 这种偏向可在不同模型族之间泛化

不仅如此,作者又在Llama和Mistral上,同样观察到了类似的条纹结构特征。

这表明,这种路由偏向是RLVR的普遍现象。


「三门」理论,破解黑盒

那么,究竟是什么驱动了RLVR独特的训练动态?

论文中,研究人员提出了一个「三门理论」。具体来说,每一步RL更新都会经过三个「门」——

它们共同将更新从主方向偏离,并引导进入低曲率、保持谱结构的区域。

门一: KL锚点对更新的约束

实验显示,同策略(on-policy) 的RL更新,会施加一种隐式的KL「牵引绳」,即锚点效应。

这使得每一步策略的偏移都保持很小。

巧的是,这一观察与近期MIT、斯坦福等机构研究的观点一致。此前研究表明,最终策略也与初始策略保持KL上的接近。



接下来的重点在于,这条「牵引绳」是如何影响权重更新的动态过程?

门二:模型几何结构决定KL约束下更新的落点

上面的门一,提供了限制单步偏移的KL「牵引绳」,但并不规定更新会落在哪里。

在一个预训练良好、具有结构化几何特性的模型中,小幅更新会局限在其既有几何结构内。

根据矩阵扰动理论,如Wedin的sin-Θ定理),小范数扰动只会导致极小的子空间旋转,并保持近乎稳定的谱结构。

在KL约束下,RL更新往往会保持模型的原始权重结构,而不是将其破坏。

因此,更新会自然偏向优化地形的低曲率方向,从而避免模型行为出现剧烈变化。

鉴于直接在长CoT的LRM中量化曲率成本极高,团队又采用一种高效的替代指标——主权重(principal weight)。

门三:精度限制

正如作者所言,存不下的东西看起来就像「稀疏」的。

bf16的有限精度(仅有7位尾数)像一块「透镜」:它会掩盖那些RL想持续施加但幅度过小、无法被有效存储的微更新。

基于理论的验证:RLVR优化动态

在参数层面,作者验证了RLVR的学习动态,其与理论框架高度一致。

尤其是,门二所描述的「更新偏向非主权重」。RLVR在提升推理能力的同时避开主方向:

它保持谱几何结构、避开主权重;而一旦预训练的几何结构被破坏,这种优化偏向也会随之消失。


RLVR保持谱几何结构,而SFT会破坏它

如下所示,是SFT与RLVR在Qwen3-8B-Base上的谱几何对比。

与SFT相比,RLVR能保持稳定的前k阶谱,并显著减少子空间旋转。


左图:示例层的前k个主角度和奇异值曲线;右图:跨所有层的最大主角度与归一化谱漂移

RLVR会避开主权重,而SFT则会直接更新主权重

下图中,RL会避免更新主权重。

研究人员将RL的更新掩码与主权重掩码M_princ、低幅值掩码M_low,以及二者的组合M_princ ∩ M_low^c进行对比。

RL更新与主权重之间的逐层重叠比例始终低于随机水平;

而当去除其与M_low的重叠权重(即M_princ ∩ M_low^c)后,这种效应表现得更为明显。


RL算法重新思考

作者观察到的训练动态揭示了一个超越机制本身的重要洞见:

RL在参数空间中的优化机制,与SFT完全不同。

那些诞生于SFT时代的旧PEFT方法,尤其是依赖稀疏或低秩先验、并因此与SFT训练动态高度对齐的方法,在RLVR中的迁移表现并不好。

下图中的曲线直接验证了:SFT中偏好的主方向更新,对于RL并不有效。


下图中,是LoRA与PiSSA在DS-Qwen-1.5B(DeepMath-103K)上的表现对比。

整体来看,PiSSA(以主方向为目标)相较LoRA并未带来额外收益;

并且在较高学习率、被强制推动主方向更新时,它往往会在早期崩溃,而LoRA依然更为稳定。

这一结果支持了研究中的几何分析:强行将更新推入SFT所偏好的主方向与RL的优化特性并不匹配,不但无法带来明显收益,还会在放大学习率时导致训练崩溃。


智能体与RLHF任务

此外,作者还分析了额外的智能体与RLHF(基于人类反馈的 RL)检查点,并确认它们在权重空间上的诊断结果与前文一致:

(i) 主子空间旋转幅度极小,

(ii) 谱漂移轻微,

(iii) 更新与主方向存在显著错位。

如下是更多关于关于智能体和RLHF的实验结果。



参考资料:

https://x.com/tydsh/status/1989049095575728156?s=20

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德比大战热度飙升!米兰名宿称中场是关键,国米9号伤愈积极请战

德比大战热度飙升!米兰名宿称中场是关键,国米9号伤愈积极请战

星Xin辰大海
2025-11-18 12:17:46
看63岁林芳兵和59岁陶慧敏,才知上了年纪,会打扮比好身材更重要

看63岁林芳兵和59岁陶慧敏,才知上了年纪,会打扮比好身材更重要

大铁猫娱乐
2025-11-09 16:47:23
事实证明,“消失”7年的周立波,早已经走上了一条“不归路”

事实证明,“消失”7年的周立波,早已经走上了一条“不归路”

优趣纪史记
2025-08-13 18:46:36
耿宝昌先生遗体告别仪式,在京举行

耿宝昌先生遗体告别仪式,在京举行

新京报
2025-11-17 20:34:28
被抵毁的“东南互保”:实质是不抵抗的爱国

被抵毁的“东南互保”:实质是不抵抗的爱国

深度报
2025-11-17 23:00:01
中超第30轮:英博对阵海港,赛前传3喜4忧,海港有望取胜

中超第30轮:英博对阵海港,赛前传3喜4忧,海港有望取胜

小七七体育解说
2025-11-18 11:04:46
仅差262分!仅差569分!哈登迎来2项神级里程碑,快船不配拥有你

仅差262分!仅差569分!哈登迎来2项神级里程碑,快船不配拥有你

世界体育圈
2025-11-18 11:47:59
为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

阿斚田侃故事
2025-11-03 22:56:11
抢在解放军演习前,自卫队叫嚣击沉福建舰,055抵近日本土亮剑

抢在解放军演习前,自卫队叫嚣击沉福建舰,055抵近日本土亮剑

梁讯
2025-11-18 11:45:34
王楚钦被牵扯!央视揭露令人震惊的“隐私链条”真相!

王楚钦被牵扯!央视揭露令人震惊的“隐私链条”真相!

舞指飞扬
2025-11-18 09:10:27
650万发炮弹打光,朝军血战波兰和美国雇佣兵,朝鲜帮了普京大忙,经过这一战,俄朝关系更紧密,而战后重建,朝鲜也能分一杯羹

650万发炮弹打光,朝军血战波兰和美国雇佣兵,朝鲜帮了普京大忙,经过这一战,俄朝关系更紧密,而战后重建,朝鲜也能分一杯羹

军霆说
2025-11-18 11:09:04
多部日本电影撤档!《鬼灭之刃》遭抵制,回本艰难退票人次超百万

多部日本电影撤档!《鬼灭之刃》遭抵制,回本艰难退票人次超百万

娱圈小愚
2025-11-18 09:48:30
太嚣张!山西反杀案当晚申家儿子不在场,郭某夫妇竟对警方撂狠话

太嚣张!山西反杀案当晚申家儿子不在场,郭某夫妇竟对警方撂狠话

爱写的樱桃
2025-11-16 21:36:38
活了101岁的英王太后,很有远见,把遗产大部分留给了哈里

活了101岁的英王太后,很有远见,把遗产大部分留给了哈里

喜欢历史的阿繁
2025-11-14 15:35:44
6国外援候命,高市通知全球,对华打响第二枪,中方被逼上硬菜

6国外援候命,高市通知全球,对华打响第二枪,中方被逼上硬菜

来科点谱
2025-11-17 09:09:40
陈数:14年幸福婚姻,被赵胤胤狠狠撕碎,爱情终究还是败给了现实

陈数:14年幸福婚姻,被赵胤胤狠狠撕碎,爱情终究还是败给了现实

乡野小珥
2025-11-16 06:43:55
戏子误国!国家出手后,人民日报点名的这3位明星永无出头之日

戏子误国!国家出手后,人民日报点名的这3位明星永无出头之日

不八卦掌门人
2025-07-25 21:56:46
两年新增 20 万女骑手?到底是谁把中国女人,逼成了外卖员?

两年新增 20 万女骑手?到底是谁把中国女人,逼成了外卖员?

知鉴明史
2025-11-15 21:31:17
薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

扬平说史
2025-11-06 20:22:42
疯狂的清朝乡试

疯狂的清朝乡试

汉周读书
2025-11-17 13:36:29
2025-11-18 13:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13895文章数 66259关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

超市被员工偷到倒闭 收银员给1700元商品结账仅1元

头条要闻

超市被员工偷到倒闭 收银员给1700元商品结账仅1元

体育要闻

直到退役那天,“海湾梅西”也没去欧洲踢球

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

健康
时尚
本地
手机
数码

血液科专家揭秘白血病七大误区

听说冷帽是“美女检验神器”?

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

手机要闻

华为新款折叠屏最新架构技术曝光

数码要闻

三个月暴涨超3倍:三星16GB DDR5内存价格在韩国失控

无障碍浏览 进入关怀版