网易首页 > 网易号 > 正文 申请入驻

MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

“预测下一个token”——这个支撑LLM的核心训练机制,正在被强化学习颠覆。

微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个token前都能先“动脑推理”,并根据推理正确性获得奖励。

传统预训练依赖海量文本进行自监督学习,模型通过简单预测下一个token建立语言能力,作者将之比喻为一块蛋糕胚,而RL只是作为上面点缀的一颗樱桃。

现在RPT要做的就是用樱桃直接做蛋糕,即将这一过程重构为推理任务,促进模型更深层次理解和提升下一个token的预测准确度。

那这块樱桃蛋糕到底怎么做?详细烘焙流程我们接着往下看。

将强化学习引入预训练

传统的预训练方法采用自监督的下一个token预测任务,而RL通常承担微调LLM的功能,使其与人类偏好对齐或者增强复杂推理。

然而基于人类反馈的强化学习(RLHF)过度依赖昂贵数据,且模型容易受到奖励破解;可验证奖励的强化学习(RLVR)也会受到数据稀缺的限制,只能应用于特定领域的微调。

为了让强化学习更好地作用于LLM,团队提出的全新范式强化预训练RPT,激励使用RL进行有效的Next-Token推理任务,将预训练语料库重构为推理问题集,推动预训练从学习表面的token相关性转为理解深层含义。

模型首先需要对多个token生成一个思维链推理序列,涉及多种推理模式(如头脑风暴、自我批评和自我纠正),然后再为下一个token生成预测。

具体来说,RPT就是通过让LLM同策略(on-policy)执行,以生成多条不同的思维轨迹,每条轨迹包含中间推理步骤和对下一个token的最终预测。

引入前缀匹配奖励,验证预测的正确性。如果预测与真实token匹配,则分配正奖励1,反之为0。该奖励信号将用于更新LLM,以鼓励生成能准确延续上下文的轨迹。

团队使用包含4428个竞赛数学问题及答案的OmniMATH数据集,并通过计算下一token的熵和设定阈值,进行数据过滤,只保留更难预测的token参与训练。

另外采用Deepseek-R1-Distill-Qwen-14B作为基础模型,使用GRPO算法和8K的训练长度,批大小为256个问题,每个问题采样8个响应。

更深层次的推理

实验表明,与R1-Distill-Queen-14B相比,RPT-14B在三种难度(简单、中等、困难)上均实现了更高的下一个token预测准确率,优于标准下一token预测基线和使用推理的预测基线。

在性能上,也可与更大的模型R1-Distill-Queen-32B相媲美,说明RPT能有效捕捉token生成背后的复杂推理信号,并在提升LLM的语言建模能力方面拥有巨大潜力。

RPT在跨难度的训练计算方面,也表现出清晰的幂律缩放(Power-law Scaling),预测准确性随着计算的增加而不断提高,并且与理论曲线紧密拟合。

与传统的使用下一个token预测相比,在具有可验证答案的问题(即Skywork-OR1)上,使用RL微调RPT模型显示出更强的推理能力

在数据有限的情况下,可以快速将从下一token推理中学习到的强化推理模式迁移至最终任务。

另外模型在SuperGPQA和MMLU-Pro基准测试上的零样本评估表明,RPT-14B不仅优于R1-Distill-Queen-14B,还在推理模式中显著超过了R1-Distill-Qwen-32B。

最后团队还对推理轨迹进行分析,发现与显式问题解决模型相比,RPT-14B采用了更多的假设生成、替代方案的考虑以及对结构线索甚至颗粒度token级细节的反思。

既包含高级语义理解,又包含低级文本特征,说明RPT在训练过程中会培养更深层次的推理习惯

One More Thing

这个著名的“蛋糕论”最早出自图灵奖得主Yann LeCun在2016年的演讲。

  • 如果智能是一块蛋糕,那么大部分蛋糕都是无监督学习,蛋糕上的裱花是监督学习,而蛋糕顶部的樱桃则是强化学习。

而现在试图用强化学习碾碎这块蛋糕的,还有OpenAI

在上个月红杉组织的AI Ascent活动中,OpenAI科学家Dan Roberts就提及了他们在将RL置于模型预训练过程中的转变。

在GPT-4o中全是传统预训练计算,在o1中引入了一些强化学习运算并且取得了不错的效果,在o3中则引入更多,他们预计在未来的某一代模型中,将会完全由RL计算主导

有理由相信,未来RL或许将在LLM预训练过程中掀起更大的风暴,且让我们拭目以待。

论文链接:https://arxiv.org/abs/2506.08007

参考链接:
[1]https://x.com/omarsar0/status/1932522665182703664
[2]https://x.com/qx_dong/status/1932268949238067482
[3]https://www.youtube.com/watch?v=_rjD_2zn2JU

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧尔班惨败!欧盟刚庆祝完就傻眼:普京的“不死鸟”替补早已磨刀

欧尔班惨败!欧盟刚庆祝完就傻眼:普京的“不死鸟”替补早已磨刀

安珈使者啊
2026-04-14 09:48:42
快船勇士附加赛预测:快船胜率7成,勇士命悬一线

快船勇士附加赛预测:快船胜率7成,勇士命悬一线

冷月小风风
2026-04-14 11:18:47
广东珠海一女神好漂亮, 身高179cm,体重50kg 美的让人移不开眼

广东珠海一女神好漂亮, 身高179cm,体重50kg 美的让人移不开眼

今日搞笑分享
2026-04-06 17:55:16
一个奇怪的现象:兄弟姐妹中最大方的那个,往往日子过得更好

一个奇怪的现象:兄弟姐妹中最大方的那个,往往日子过得更好

洞读君
2026-03-12 09:38:56
张雪机车卖到香港了!网友:“香港总代理”含金量等同于摇钱树…

张雪机车卖到香港了!网友:“香港总代理”含金量等同于摇钱树…

火山詩话
2026-04-13 17:49:43
我妈让我婚前把4套房公证了,领证后,老公果然说:给我弟一套房

我妈让我婚前把4套房公证了,领证后,老公果然说:给我弟一套房

小影的娱乐
2026-04-14 07:17:03
AJ自曝7年积蓄全赔光!解约RNG花光所有钱,网友:不愧是合同的神

AJ自曝7年积蓄全赔光!解约RNG花光所有钱,网友:不愧是合同的神

电竞瓜皮
2026-04-13 10:45:27
央视曝光:AI色情视频产业链,九块九就能“定制”任何人

央视曝光:AI色情视频产业链,九块九就能“定制”任何人

三人成虎V5
2026-04-13 23:06:35
巴基斯坦:新一轮美伊谈判将开始,以总理称美承诺“伊朗在未来几十年内将不具备铀浓缩的能力”

巴基斯坦:新一轮美伊谈判将开始,以总理称美承诺“伊朗在未来几十年内将不具备铀浓缩的能力”

每日经济新闻
2026-04-14 00:32:15
三十多位作家、编辑在五台山遭遇离奇车祸,竟是因为口无遮拦?

三十多位作家、编辑在五台山遭遇离奇车祸,竟是因为口无遮拦?

心灵短笛
2025-04-11 14:08:32
山东美女老师任丛丛去世,仅41岁,外貌酷似朱媛媛,原因令人惋惜

山东美女老师任丛丛去世,仅41岁,外貌酷似朱媛媛,原因令人惋惜

裕丰娱间说
2026-04-13 18:09:32
二甲双胍抗衰老再获证据!新研究发现:中年开始用,减轻衰弱、保持肌肉骨骼健康,从源头延缓衰老

二甲双胍抗衰老再获证据!新研究发现:中年开始用,减轻衰弱、保持肌肉骨骼健康,从源头延缓衰老

医诺维
2026-04-12 12:35:26
12306积分转让成了一门生意:六折买车票!12306:控制不了

12306积分转让成了一门生意:六折买车票!12306:控制不了

快科技
2026-04-14 07:36:39
湘南民宅翻修惊现毛主席80年前旧照,专家鉴定弥足珍贵可补史遗缺

湘南民宅翻修惊现毛主席80年前旧照,专家鉴定弥足珍贵可补史遗缺

云霄纪史观
2026-04-14 02:08:48
郑丽文返台,“三驾马车”亲自迎接、释放2大信号!1人现身不简单

郑丽文返台,“三驾马车”亲自迎接、释放2大信号!1人现身不简单

时尚的弄潮
2026-04-13 12:11:58
火湖对决!湖人记者支招:限制1人,可打乱火箭体系,静待东契奇

火湖对决!湖人记者支招:限制1人,可打乱火箭体系,静待东契奇

熊哥爱篮球
2026-04-14 11:56:22
紧急!即日起中小学全面严查!教师、家长、学生三类人红线碰不得

紧急!即日起中小学全面严查!教师、家长、学生三类人红线碰不得

糖逗在娱乐
2026-04-13 16:35:12
东契奇即将与湖人会合?火箭球迷别担心,这很可能只是烟雾弹

东契奇即将与湖人会合?火箭球迷别担心,这很可能只是烟雾弹

姜大叔侃球
2026-04-14 12:04:00
莫氏鸡煲老板公开配方,就想五一好好放个假:一天200桌排队3小时

莫氏鸡煲老板公开配方,就想五一好好放个假:一天200桌排队3小时

韩小娱
2026-04-12 10:51:40
张水华大方承认差距:我能力不够!心率150真的拼了

张水华大方承认差距:我能力不够!心率150真的拼了

老王谈跑步
2026-04-14 10:04:50
2026-04-14 12:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12465文章数 176449关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

24岁准新娘诊所输液昏迷近3个月未醒 涉事诊所变超市

头条要闻

24岁准新娘诊所输液昏迷近3个月未醒 涉事诊所变超市

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

伊朗要求五个中东国家赔偿战争损失

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

艺术
家居
本地
旅游
军事航空

艺术要闻

这位美女画家的夏天竟如此梦幻

家居要闻

复古风格 自然简约

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

旅游要闻

东环公园:3000余株牡丹花开倾城

军事要闻

特朗普:今晚10点封锁伊朗 对北约非常失望

无障碍浏览 进入关怀版