网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

田渊栋离职Meta，最后一篇论文？

2025-11-18 08:55:45　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子

【新智元导读】离职Meta后，田渊栋团队最新论文放出了。他们提出的「三门理论」发现，RLVR微调只在小权重里发力，性能提升的同时又不破坏模型结构。

田渊栋离职Meta之后，最后一篇亲笔？

上月末，Meta血裁600人团队，AI大佬田渊栋官宣自己也被裁员。

最近，他在Meta期间一篇论文正式发布，已被顶会NeurIPS 2025录用。

最新研究中，他们发现一个反常却稳定的规律——

强化学习与可验证奖励（RLVR）虽能提升模型性能，但几乎不碰主方向上的权重。

这是一种受模型结构自身约束的优化偏置。

这背后的原因究竟是什么，不如打开「黑箱」看一看。

论文地址：https://arxiv.org/pdf/2511.08567

论文中，团队提出了「三门理论」，即KL锚点 → 几何结构 → 精度。

它能解释并刻画AI独特的优化行为，也为近期一系列来自参数空间的观察现象，提供了可解释性：

其中就包括，RL更新稀疏、RL遗忘较少，在线量化秩序一次校准。

更重要的是，RLVR的优化方式与监督微调（SFT）完全不同，而且，人们常在SFT中用到的方法，不一定在RL中好使。

总言之，新论文最大的贡献在于，首次绘制出RLVR训练动态的「参数层面全景图」。

RL学习，优化偏差从哪来？

在研究之前，Meta团队提出了一个关于RL学习动态的核心问题：

优化偏差是从哪里产生的？它在训练过程中如何影响参数的变化？

为此，他们专门探索了RLVR方法。

它是通过使用确定性的、可验证的奖励函数，去提高LLM在精确任务中的性能。

RLVR会在同一个预训练模型的前提下，把更新引导到跨不同运行、数据集和训练方案中的同一类偏好区域。这是一种受模型本身影响的优化偏向。

如下所示，在训练过程中，RL会把更新集中在同一模型的相同区域。

每个面板展示的是一个0-1更新掩码（1=已更改，0= 更改）。尽管使用的数据和算法不同，这种条纹状模式仍在不同运行中反复出现

1 RL会将更新定位到同一模型的相同区域

这里，作者分析了DeepSeek-R1-Distill-Qwen-1.5B的5次微调运行。

这些运行分别使用了，包括数学、代码等多样化数据，以及不同的RL变体，如GRPO、DAPO、Reinforcement++。

首先计算更新掩码 M_i，通过比较基础模型和微调模型来追踪更新集中在哪些位置。

随后，更新一致性比率：

如下所示，在五次RLVR运行中，团队绘制了第13层的投影（Q/K/V/O）以及MLP的下投影。

较亮的条带标记了在大多数运行中被更新的坐标，呈现出一种稳定的、类似条纹的路由模式，而不是随机散布。

权重更新的一致性比例

2 优化偏向在整个训练过程中持续存在

为了研究单次运行内部的动态变化，作者又在DeepSeek-R1-Distill-Qwen-1.5上，跟踪了训练步骤中的按行和按列的更新比率：

下图中，路由偏向在训练初期便开始出现，并在训练推进中不断增强。

这表明这是一种随时间保持稳定的现象，而不是短暂的偶发现象。其峰值与图2中的偏置结构一致。

3 这种偏向可在不同模型族之间泛化

不仅如此，作者又在Llama和Mistral上，同样观察到了类似的条纹结构特征。

这表明，这种路由偏向是RLVR的普遍现象。

「三门」理论，破解黑盒

那么，究竟是什么驱动了RLVR独特的训练动态？

论文中，研究人员提出了一个「三门理论」。具体来说，每一步RL更新都会经过三个「门」——

它们共同将更新从主方向偏离，并引导进入低曲率、保持谱结构的区域。

门一： KL锚点对更新的约束

实验显示，同策略（on-policy）的RL更新，会施加一种隐式的KL「牵引绳」，即锚点效应。

这使得每一步策略的偏移都保持很小。

巧的是，这一观察与近期MIT、斯坦福等机构研究的观点一致。此前研究表明，最终策略也与初始策略保持KL上的接近。

接下来的重点在于，这条「牵引绳」是如何影响权重更新的动态过程？

门二：模型几何结构决定KL约束下更新的落点

上面的门一，提供了限制单步偏移的KL「牵引绳」，但并不规定更新会落在哪里。

在一个预训练良好、具有结构化几何特性的模型中，小幅更新会局限在其既有几何结构内。

根据矩阵扰动理论，如Wedin的sin-Θ定理），小范数扰动只会导致极小的子空间旋转，并保持近乎稳定的谱结构。

在KL约束下，RL更新往往会保持模型的原始权重结构，而不是将其破坏。

因此，更新会自然偏向优化地形的低曲率方向，从而避免模型行为出现剧烈变化。

鉴于直接在长CoT的LRM中量化曲率成本极高，团队又采用一种高效的替代指标——主权重（principal weight）。

门三：精度限制

正如作者所言，存不下的东西看起来就像「稀疏」的。

bf16的有限精度（仅有7位尾数）像一块「透镜」：它会掩盖那些RL想持续施加但幅度过小、无法被有效存储的微更新。

基于理论的验证：RLVR优化动态

在参数层面，作者验证了RLVR的学习动态，其与理论框架高度一致。

尤其是，门二所描述的「更新偏向非主权重」。RLVR在提升推理能力的同时避开主方向：

它保持谱几何结构、避开主权重；而一旦预训练的几何结构被破坏，这种优化偏向也会随之消失。

RLVR保持谱几何结构，而SFT会破坏它

如下所示，是SFT与RLVR在Qwen3-8B-Base上的谱几何对比。

与SFT相比，RLVR能保持稳定的前k阶谱，并显著减少子空间旋转。

左图：示例层的前k个主角度和奇异值曲线；右图：跨所有层的最大主角度与归一化谱漂移

RLVR会避开主权重，而SFT则会直接更新主权重

下图中，RL会避免更新主权重。

研究人员将RL的更新掩码与主权重掩码M_princ、低幅值掩码M_low，以及二者的组合M_princ ∩ M_low^c进行对比。

RL更新与主权重之间的逐层重叠比例始终低于随机水平；

而当去除其与M_low的重叠权重（即M_princ ∩ M_low^c）后，这种效应表现得更为明显。

RL算法重新思考

作者观察到的训练动态揭示了一个超越机制本身的重要洞见：

RL在参数空间中的优化机制，与SFT完全不同。

那些诞生于SFT时代的旧PEFT方法，尤其是依赖稀疏或低秩先验、并因此与SFT训练动态高度对齐的方法，在RLVR中的迁移表现并不好。

下图中的曲线直接验证了：SFT中偏好的主方向更新，对于RL并不有效。

下图中，是LoRA与PiSSA在DS-Qwen-1.5B（DeepMath-103K）上的表现对比。

整体来看，PiSSA（以主方向为目标）相较LoRA并未带来额外收益；

并且在较高学习率、被强制推动主方向更新时，它往往会在早期崩溃，而LoRA依然更为稳定。

这一结果支持了研究中的几何分析：强行将更新推入SFT所偏好的主方向与RL的优化特性并不匹配，不但无法带来明显收益，还会在放大学习率时导致训练崩溃。

智能体与RLHF任务

此外，作者还分析了额外的智能体与RLHF（基于人类反馈的 RL）检查点，并确认它们在权重空间上的诊断结果与前文一致：

(i) 主子空间旋转幅度极小，

(ii) 谱漂移轻微，

(iii) 更新与主方向存在显著错位。

如下是更多关于关于智能体和RLHF的实验结果。

参考资料：

https://x.com/tydsh/status/1989049095575728156?s=20

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

800万人围观！虾爹给Agent套上循环，让它自己跑起来！

机器之心Pro 2026-06-17 12:13:35
0 跟贴 0
三个月融两轮，清华00后团队要给机器人“装上”触觉

钛媒体APP 2026-06-25 21:14:24
0 跟贴 0

中国AI智能体爆火FIFA世界杯：48支球队全在用，每场比赛问上百个问题！

智东西 2026-06-25 18:05:25
0 跟贴 0

DeepMind老兵，正在离开伦敦

机器之心Pro 2026-06-25 13:29:31
0 跟贴 0
RoboScience机器科学发布Visics通用具身大模型，实现跨本体、跨物体、跨任务｜最前线

36氪 2026-06-25 15:47:30
0 跟贴 0

AI生成图片正在反向对齐人类的审美？ICML 2026观点论文Spotlight

机器之心Pro 2026-06-25 13:14:12
0 跟贴 0

印度，成了全球机器人“数据工厂”：拍摄日常时薪4美元

智东西 2026-06-25 18:16:31
0 跟贴 0
连续6天，每天11小时，8台机器人"进厂"的进化史

钛媒体APP 2026-06-25 21:14:29
0 跟贴 0

OpenAI首款芯片问世：用AI设计，9个月流片

机器之心Pro 2026-06-25 20:45:28
0 跟贴 0
ACL2026圣地亚哥现场,上海AI实验室北极星X星启交流会(报名开启)

机器之心Pro 2026-06-25 20:49:08
0 跟贴 0
清华微软联合提出STAR-PólyaMath，Apex基准超GPT-5.5 13.5%

机器之心Pro 2026-06-24 19:43:36
0 跟贴 0
【张捷杂谈】境外论文大面积丑闻与生物界的造假潜规则

张捷财经 2026-06-23 12:02:52
0 跟贴 0
韩乔生已就位，当算法数据与脑洞大开同步登场，谁会是最后的赢家？

咪咕体育 2026-06-25 06:03:16
0 跟贴 0
孙继海已就位，当算法数据与硬核实力同步登场，谁会是最后的赢家

咪咕体育 2026-06-24 21:01:09
31 跟贴 31
贾浅浅被指“涉学术论文抄袭”西北大学两月前启动调查

江西都市现场 2026-06-24 03:05:43
11 跟贴 11
投资600万元的加油站，建成即被“责令限期拆除”？河南淮滨县发布情况通报

环球网资讯 2026-06-25 14:21:30
6600 跟贴 6600
2026 Nature指数发布：浙大打破哈佛垄断登顶，前十中国占九席

算法与数学之美 2026-06-25 17:00:38
2 跟贴 2
一篇从田间地头“长”出来的论文，何以捧回“启真杯”？

浙江大学管理学院 2026-06-25 18:53:25
0 跟贴 0
她在硕博期间以一作身份发表SCI论文8篇，其中一区7篇，累计影响因子为72.995

生活帮 2026-06-24 01:28:48
0 跟贴 0
智能体从「单兵作战」到「精锐团队」 -2

机器之心Pro 2026-04-28 16:56:00
0 跟贴 0
中国化学论文发表量世界第一，为啥国内却没有什么知名化工巨头？

俄罗斯安娜 2026-06-24 01:12:41
0 跟贴 0
2026夏季VR游戏展炸了：8款新游进清单，Meta礼品卡打折正好下手

硬核玩家2哈 2026-06-25 02:58:52
0 跟贴 0
李想：底层全栈自研将带来真正不可替代的价值丨新经济观察

封面新闻 2026-06-25 10:24:12
0 跟贴 0
7k星标的开源skill，给你组一支AI科研团队

量子位 2026-05-16 19:58:50
0 跟贴 0
科学通报 | “探索精神疾病非药物干预的新方法”专题征稿

科学通报 2026-06-25 16:24:40
0 跟贴 0
元护士助理机器人进驻杭州市第一医院GCP科室：护理大模型赋能，智能体驱动，打造“人机协同”新生态

新浪财经 2026-06-25 10:51:19
0 跟贴 0
IAEIS 2026国际汽车电子产业峰会合作企业 | 南京行车宝智能科技有限公司

新浪财经 2026-06-25 20:50:02
0 跟贴 0
张维为：中国哲学从不信奉所谓的“绝对真理”

看看新闻Knews 2026-06-24 23:22:23
3512 跟贴 3512
掼蛋绝学揭秘：应对对手百变双下策略

青树柠檬q 2026-06-24 15:17:13
2 跟贴 2
奇经疗法在张必清手中的理论建构

新财经传奇 2026-06-25 09:50:56
1 跟贴 1
船员应对海盗策略，直接水枪喷他，索马里海域最危险了

幽默达人馆 2026-06-25 15:20:45
1 跟贴 1
男子网购银条，行情一跌就7天无理由退货，商家：已反复退货3次，银价涨了他就要留，银价跌了他就要退

扬子晚报 2026-06-25 07:14:44
2391 跟贴 2391
刚买的奔驰，只能停在车库“吃灰”，类似情况的车主还不止1个人……浙江这家老牌奔驰4S店怎么了？

都市快报橙柿互动 2026-06-25 09:50:28
2248 跟贴 2248
1:9宝马合金模型！避震联动+灯光，细节绝了！#机车模型

制造科技 2026-06-23 01:02:22
0 跟贴 0
从瑞金医院出发去考场，考出618分！对话救治医生：他情绪好稳

上观新闻 2026-06-25 20:39:28
3 跟贴 3
蔡磊段睿夫妇的7年“破冰”之战：“渐冻症，已经迎来了它的倒计时”｜面孔

大象新闻 2026-06-25 09:45:40
45 跟贴 45
瑞士2-1加拿大两队携手出线

财联社 2026-06-25 05:12:50
216 跟贴 216
俄境内唯一氦气厂不到一年再遭乌军打击

三湘都市报 2026-06-25 14:39:10
31 跟贴 31
莫氏鸡煲流量退去以前一天卖200多只现在不到20只

极目新闻 2026-06-25 13:38:50
632 跟贴 632
C9教授论文，被五大权威学术文摘转载

双一流高校 2026-06-24 03:27:54
0 跟贴 0

延迟退休突然没声了？并非政策暂停，四大现实难题把进度给卡死了

延迟退休突然没声了？并非政策暂停，四大现实难题把进度给卡死了

曹莽看世界

2026-06-25 15:50:51

里夫斯4年1.85亿留守湖人，火箭成最大赢家！伊森外部报价被锁死

里夫斯4年1.85亿留守湖人，火箭成最大赢家！伊森外部报价被锁死

去山野间追风

2026-06-25 12:05:09

世卫组织推荐的肌肉不流失四大黄金法则，照着做，准没错

世卫组织推荐的肌肉不流失四大黄金法则，照着做，准没错

观星赏月

2026-06-18 15:29:58

高中成绩好不好，初中就能看出来！初中越吃力，高中越有可能掉队

高中成绩好不好，初中就能看出来！初中越吃力，高中越有可能掉队

好爸育儿

2026-04-07 17:07:54

世界杯：韩国出线堪忧！或遭遇卡九出局，多小组局势对韩国不利

世界杯：韩国出线堪忧！或遭遇卡九出局，多小组局势对韩国不利

乒烧泳球

2026-06-25 12:06:05

演习刚拉开序幕，岛内发现不对劲：解放军大批舰机突然出动

演习刚拉开序幕，岛内发现不对劲：解放军大批舰机突然出动

曹兴教授TALK

2026-06-25 17:11:55

“我们允许你儿子考0分！”家长晒报恩男孩，成绩已经没有意义了

“我们允许你儿子考0分！”家长晒报恩男孩，成绩已经没有意义了

熙熙说教

2026-06-25 19:29:41

93年辽宁大批77式手枪失窃，北京限期春节破案，嫌犯身份出人意料

93年辽宁大批77式手枪失窃，北京限期春节破案，嫌犯身份出人意料

磊子讲史

2026-06-06 13:11:48

罗永浩曾痛批iPhone设计属于二流苹果新CEO调转方向：将设计视为第一优先级

罗永浩曾痛批iPhone设计属于二流苹果新CEO调转方向：将设计视为第一优先级

快科技

2026-06-22 23:04:05

我为什么不看《抓特务》

秋月独朗

2026-06-25 13:55:24

从首战赢球到听天由命，高开低走的韩国队终要告别孙兴慜

从首战赢球到听天由命，高开低走的韩国队终要告别孙兴慜

澎湃新闻

2026-06-25 15:06:28

2026美加墨世界杯头号黑马：日本队，从战术体系到核心球员解析

2026美加墨世界杯头号黑马：日本队，从战术体系到核心球员解析

每日点冰

2026-06-24 18:53:35

上海炒股冠军罕见发声：目前股市想要逢低建仓，建议死磕两大信号

上海炒股冠军罕见发声：目前股市想要逢低建仓，建议死磕两大信号

股经纵横谈

2026-06-25 20:57:19

这个一妻多夫制的民族，晚上怎么过？女人直言：简直就是受罪

这个一妻多夫制的民族，晚上怎么过？女人直言：简直就是受罪

哄动一时啊

2026-06-24 14:26:23

由于长得太美，她先后被6人轮番霸占60年，48岁依然被人争来抢去

由于长得太美，她先后被6人轮番霸占60年，48岁依然被人争来抢去

老达子

2026-06-21 06:10:06

高市愿意参加峰会，但拒绝跟中方碰面！声称：中国对她人身攻击？

高市愿意参加峰会，但拒绝跟中方碰面！声称：中国对她人身攻击？

小影的娱乐

2026-06-25 18:36:56

磷化铟，缺疯了！

中国粉体网

2026-06-24 09:09:35

世预赛实力榜更新！男篮高居第二，杨瀚森上海报，2对手排名低！

世预赛实力榜更新！男篮高居第二，杨瀚森上海报，2对手排名低！

篮球资讯达人

2026-06-25 12:48:57

韩国队运气爆棚！拿第2，1/16决赛PK加拿大，孙兴慜进16强容易了

韩国队运气爆棚！拿第2，1/16决赛PK加拿大，孙兴慜进16强容易了

何老师呀

2026-06-25 07:11:51

67岁富商与网红偷情九年生四胎，原配蒙在鼓里，小三竟公开炫富

67岁富商与网红偷情九年生四胎，原配蒙在鼓里，小三竟公开炫富

橙星文娱

2026-06-24 11:57:25

AI产业主平台领航智能+时代

15529文章数 66935关注度

往期回顾全部

科技要闻

宇树机器人大降价

头条要闻

"美如家"被"如家"起诉侵权并索赔10万酒店经营者发声

头条要闻

"美如家"被"如家"起诉侵权并索赔10万酒店经营者发声

体育要闻

世界杯最动人一吻：我若离世你就改嫁吧

娱乐要闻

这国产剧太装了，居然还热播第一？

财经要闻

又有纸尿裤送检后被检测出甲酰胺！

汽车要闻

东风奕派纳米06智趣版上市指导价9.99万元起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

亲子

数码

公开课

家居要闻

绿意盎然自然之境

本地新闻

2026世界杯全勤太难？这份保姆级攻略请收好

亲子要闻

2026孕前养巢肌醇分享，肌醇哪个牌子不易产生身体不适感？呵护卵巢实现助孕目标

数码要闻

酷比魔方iPlay 70 Max Pro将上市 13英寸2.5K屏＋国产芯片

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版