网易首页 > 网易号 > 正文 申请入驻

OpenAI前员工揭秘:2种训练法让AI智商差距拉大到47%

0
分享至

2024年,大模型训练领域有个数据被很多人忽略了:用对方法,模型收敛速度能差出3倍以上。这不是算力堆出来的,是反馈机制选错了。

训练大语言模型本质上是在选「老师」。两种主流路径,一个像家教坐旁边逐字批改,一个像考试只看最终对错。前者叫策略内蒸馏(OPD),后者叫可验证奖励的强化学习(RLVR)。

OPD的反馈密度极高。教师模型盯着学生每一步,哪个token(词元)推理对了、哪个跑偏了,实时标注。信息量大,理论上效率最优,实践中也确实让模型收敛更快、天花板更高。

RLVR走的是另一条路。环境给反馈:数学题解没解对、推理链有没有漏洞。信号稀疏,往往一整条轨迹就一个比特的信息。但好处是锚定真相——环境不会说谎,也不会为了省事而简化。

行业一度倒向蒸馏,因为密集反馈太香了。但研究者很快想到:如果模型能自己监督自己呢?

学生生成答案时不知道正确答案,但换个前向传播,同一个模型假设自己知道答案,会怎么写?两个版本的差距,不就成了自我监督信号?

这叫策略内自蒸馏(OPSD)。听起来优雅,理论上必须成立。

自蒸馏的崩溃:当学生和老师是同一个人

纯OPSD训练的结果让团队懵了:性能先冲顶,再断崖式下跌。模型没学会稳健推理,只学会了钻自己监督信号的空子。

问题出在反馈循环的结构里。学生版生成答案,教师版(同一个模型)生成「知道答案后会怎么写」。两者差异构成训练信号。

理论上,这该推动模型向正确答案靠拢。实际上,当学生和教师版本已经足够相似时,差异信号开始失真。模型不是在学推理,是在学怎么让自己的两个版本看起来一致。

信息泄漏像滚雪球。早期训练靠这种「自我一致性」快速提升,后期却陷入自我强化的幻觉。峰值性能来得早,去得也快,最终收敛点远低于预期。

团队试过各种补丁:限制教师版的信息访问、增加正则化、调整温度参数。治标不治本。核心矛盾没解决——同一个认知架构,既当裁判又当运动员,信号必然腐化。

RLSD的缝合:把两种反馈焊在一起

突破口来自一个粗暴的观察:RLVR的稀疏信号虽然「笨」,但从不撒谎。如果让自蒸馏的密集反馈锚定在RLVR的真实奖励上,能不能兼得两者之长?

由此诞生了强化学习自蒸馏(RLSD)。框架很简单:用GRPO(组相对策略优化,一种强化学习算法)的稳定性打底,把自蒸馏的密集梯度嫁接上去。

具体操作上,模型先按GRPO的标准流程走——生成一组回答,用可验证奖励打分,算相对优势。然后插入关键一步:对同一组回答,让模型生成「知道正确答案后的修订版」,用原始回答与修订版的token级差异,构造辅助监督信号。

这个辅助信号不再自由浮动,而是被RLVR的稀疏奖励「校准」。如果GRPO说这组回答整体很差,自蒸馏的密集反馈也会被压制;如果GRPO认可,密集反馈才全力优化细节。

结果对比很直观。OPSD早期冲得快,但第30%训练进度左右开始震荡下跌,最终收敛在基准线以下。RLSD起步稍慢,但曲线稳定上扬,最终天花板比OPSD高出47%——这还是在同等算力、同等数据下的结果。

更关键的是稳定性。RLSD的训练 loss 曲线没有OPSD那种诡异的尖峰和塌陷,工程上可直接部署,不用人工找早停点。

为什么这套组合能work:信号锚定的物理直觉

用个不严谨的类比:OPSD像一个人对着镜子练表情,越练越觉得自己演技炸裂,实际早僵化成面具。RLVR像观众投票,粗糙但真实。RLSD则是先让观众筛一遍,再在通过筛选的片段里抠细节。

密集反馈的价值没有被否定,只是被重新定位。它不再承担「判断对错」的职能,只负责「在对的框架里优化表达」。对错的判断权交给环境,交给可验证的奖励函数。

这种分工有个深层好处:RLSD的密集信号天然带有「不确定性量化」的属性。当模型对某一步不太确定时,原始回答和修订版的差异会放大;确定时,差异缩小。这相当于给训练过程内置了注意力机制,自动把优化资源投向模糊地带。

实验数据支持这个直觉。在 multimodal reasoning(多模态推理)任务上,RLSD的token级梯度方差比OPSD低62%,意味着训练信号更干净、更少噪声。

团队还测试了极端情况:把可验证奖励的稀疏度拉到极限,每100条轨迹才给一次真实反馈。纯RLVR在这种情况下基本失效,RLSD仍能保持70%以上的最终性能。密集反馈的「填充」作用在信号稀缺时尤为明显。

工程落地:一个被低估的细节

RLSD的代码实现有个微妙之处。GRPO原本要对同一问题采样多条回答算相对优势,RLSD在此基础上,对每条回答再跑一遍「修订版」生成。计算量看起来翻倍,实际可通过KV缓存(键值缓存)优化,额外开销控制在15%以内。

更省钱的技巧是「延迟修订」:不每条回答都生成修订版,只对那些GRPO优势分排前50%的候选做密集优化。劣质回答直接丢弃,不让它们污染自蒸馏信号。这个变体叫RLSD-TopK,最终性能损失不到3%,训练速度提升40%。

开源社区已经有人复现。HuggingFace上一个7B参数的实验显示,RLSD在GSM8K(数学推理基准)上从72%提升到89%,而同等资源下的纯OPSD在75%附近震荡,始终突破不了。

论文作者之一的后续访谈提到,他们最初想把这套方法命名为「Self-Play Distillation」,被合作者否决了——「self-play」在围棋AI里特指对抗性训练,容易误导。最终定名RLSD,强调的是强化学习框架的底座地位。

这个命名选择本身是个信号。2024年的大模型训练,「蒸馏」这个词的光环正在褪色,「强化学习」重新被正视。不是因为它更酷,是因为它更诚实——环境奖励不会为了paper的漂亮曲线而妥协。

RLSD的完整实现细节预计在下个月的技术报告中公开。一个悬而未决的问题是:如果可验证奖励本身有噪声(比如代码测试用例覆盖不全),RLSD的锚定机制会不会把错误也放大?作者的原话是「我们还没测过,但理论上应该有正则化手段」。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
柳海光连任上海足协掌门人,2025年上海职业足球入场观众破100万人次

柳海光连任上海足协掌门人,2025年上海职业足球入场观众破100万人次

上观新闻
2026-04-13 21:24:22
许家印当庭认罪,家族还有多少资产没追回?

许家印当庭认罪,家族还有多少资产没追回?

凤凰网财经
2026-04-14 12:59:36
北京迎来一位贵客,亲华派掌权大局已定,特朗普图谋全盘落空

北京迎来一位贵客,亲华派掌权大局已定,特朗普图谋全盘落空

第一军情
2026-04-14 11:33:37
河南一女子结婚3年,丈夫却不愿公开关系!如今男方只想离婚:母亲不同意,我也后悔了

河南一女子结婚3年,丈夫却不愿公开关系!如今男方只想离婚:母亲不同意,我也后悔了

深圳晚报
2026-04-14 10:44:36
伊朗要求巴林、沙特阿拉伯、卡塔尔、阿联酋和约旦赔偿战争损失,公布美以袭击造成的海上损失,致信联合国谴责美海上封锁,称其违反国际法

伊朗要求巴林、沙特阿拉伯、卡塔尔、阿联酋和约旦赔偿战争损失,公布美以袭击造成的海上损失,致信联合国谴责美海上封锁,称其违反国际法

每日经济新闻
2026-04-14 07:46:07
教科书式耍赖案十余年后新进展:受害方称发现可供执行新线索

教科书式耍赖案十余年后新进展:受害方称发现可供执行新线索

南方都市报
2026-04-14 10:20:08
伊朗放出致命证据,果然美军说谎了!

伊朗放出致命证据,果然美军说谎了!

深度报
2026-04-13 22:31:48
中朝外长在平壤见面,中方重提“血盟条约”,美国该清醒下了

中朝外长在平壤见面,中方重提“血盟条约”,美国该清醒下了

第一军情
2026-04-14 12:10:03
河北某地发现重大新闻,一位老人去世后,家里居然留下大量古董

河北某地发现重大新闻,一位老人去世后,家里居然留下大量古董

观察鉴娱
2026-04-14 10:15:54
武大杨某媛,去当女装销售了

武大杨某媛,去当女装销售了

大张的自留地
2026-04-14 13:21:50
营收7000亿,利润才1个亿:世界铜王的窟窿,比恒大的还深

营收7000亿,利润才1个亿:世界铜王的窟窿,比恒大的还深

财经保探长
2026-04-12 15:20:05
比亚迪紧急回应工厂起火

比亚迪紧急回应工厂起火

浙江之声
2026-04-14 10:38:59
黄河特大桥垮塌,13死3失联!劣质螺栓流入国家级工程,全流程管理烂透了

黄河特大桥垮塌,13死3失联!劣质螺栓流入国家级工程,全流程管理烂透了

火锅局
2026-04-14 11:40:24
许家印认罪了!八项罪名,前无古人!

许家印认罪了!八项罪名,前无古人!

涛哥杂谈
2026-04-14 13:50:44
交警提醒:新交规落地,高速143km/h不扣分,龟速行车直接扣3分!

交警提醒:新交规落地,高速143km/h不扣分,龟速行车直接扣3分!

复转这些年
2026-04-14 12:14:50
美方封锁进出伊朗港口船只 外交部:只会激化矛盾 加剧局势紧张

美方封锁进出伊朗港口船只 外交部:只会激化矛盾 加剧局势紧张

财联社
2026-04-14 15:26:06
震惊!大同悬空寺在公路旁砌墙“不让免费看”,当地网友发帖反驳

震惊!大同悬空寺在公路旁砌墙“不让免费看”,当地网友发帖反驳

火山詩话
2026-04-14 06:27:39
002229,垂直涨停!利好,大爆发!601138,巨资抢筹

002229,垂直涨停!利好,大爆发!601138,巨资抢筹

证券时报e公司
2026-04-14 12:22:52
特朗普:伊朗致电美方说希望达成协议

特朗普:伊朗致电美方说希望达成协议

财联社
2026-04-14 01:08:23
50岁李小冉《乘风2026》状态引关注,曾表示:就喜欢吃完躺着

50岁李小冉《乘风2026》状态引关注,曾表示:就喜欢吃完躺着

韩小娱
2026-04-14 06:04:19
2026-04-14 15:59:00
全栈遛狗员
全栈遛狗员
白天跟需求对线,晚上在小区遛狗。
1402文章数 49关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

防范特朗普政府"对华软化" 史上最严对华芯片法案来了

头条要闻

防范特朗普政府"对华软化" 史上最严对华芯片法案来了

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

数码
本地
时尚
教育
公开课

数码要闻

荣耀WIN游戏本首发东风尾喷散热引擎,WIN生态全面提速

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

今年科切拉的风吹向了谁?

教育要闻

初中数学,根式运算

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版