网易首页 > 网易号 > 正文 申请入驻

MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

“预测下一个token”——这个支撑LLM的核心训练机制,正在被强化学习颠覆。

微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个token前都能先“动脑推理”,并根据推理正确性获得奖励。

传统预训练依赖海量文本进行自监督学习,模型通过简单预测下一个token建立语言能力,作者将之比喻为一块蛋糕胚,而RL只是作为上面点缀的一颗樱桃。

现在RPT要做的就是用樱桃直接做蛋糕,即将这一过程重构为推理任务,促进模型更深层次理解和提升下一个token的预测准确度。

那这块樱桃蛋糕到底怎么做?详细烘焙流程我们接着往下看。

将强化学习引入预训练

传统的预训练方法采用自监督的下一个token预测任务,而RL通常承担微调LLM的功能,使其与人类偏好对齐或者增强复杂推理。

然而基于人类反馈的强化学习(RLHF)过度依赖昂贵数据,且模型容易受到奖励破解;可验证奖励的强化学习(RLVR)也会受到数据稀缺的限制,只能应用于特定领域的微调。

为了让强化学习更好地作用于LLM,团队提出的全新范式强化预训练RPT,激励使用RL进行有效的Next-Token推理任务,将预训练语料库重构为推理问题集,推动预训练从学习表面的token相关性转为理解深层含义。

模型首先需要对多个token生成一个思维链推理序列,涉及多种推理模式(如头脑风暴、自我批评和自我纠正),然后再为下一个token生成预测。

具体来说,RPT就是通过让LLM同策略(on-policy)执行,以生成多条不同的思维轨迹,每条轨迹包含中间推理步骤和对下一个token的最终预测。

引入前缀匹配奖励,验证预测的正确性。如果预测与真实token匹配,则分配正奖励1,反之为0。该奖励信号将用于更新LLM,以鼓励生成能准确延续上下文的轨迹。

团队使用包含4428个竞赛数学问题及答案的OmniMATH数据集,并通过计算下一token的熵和设定阈值,进行数据过滤,只保留更难预测的token参与训练。

另外采用Deepseek-R1-Distill-Qwen-14B作为基础模型,使用GRPO算法和8K的训练长度,批大小为256个问题,每个问题采样8个响应。

更深层次的推理

实验表明,与R1-Distill-Queen-14B相比,RPT-14B在三种难度(简单、中等、困难)上均实现了更高的下一个token预测准确率,优于标准下一token预测基线和使用推理的预测基线。

在性能上,也可与更大的模型R1-Distill-Queen-32B相媲美,说明RPT能有效捕捉token生成背后的复杂推理信号,并在提升LLM的语言建模能力方面拥有巨大潜力。

RPT在跨难度的训练计算方面,也表现出清晰的幂律缩放(Power-law Scaling),预测准确性随着计算的增加而不断提高,并且与理论曲线紧密拟合。

与传统的使用下一个token预测相比,在具有可验证答案的问题(即Skywork-OR1)上,使用RL微调RPT模型显示出更强的推理能力

在数据有限的情况下,可以快速将从下一token推理中学习到的强化推理模式迁移至最终任务。

另外模型在SuperGPQA和MMLU-Pro基准测试上的零样本评估表明,RPT-14B不仅优于R1-Distill-Queen-14B,还在推理模式中显著超过了R1-Distill-Qwen-32B。

最后团队还对推理轨迹进行分析,发现与显式问题解决模型相比,RPT-14B采用了更多的假设生成、替代方案的考虑以及对结构线索甚至颗粒度token级细节的反思。

既包含高级语义理解,又包含低级文本特征,说明RPT在训练过程中会培养更深层次的推理习惯

One More Thing

这个著名的“蛋糕论”最早出自图灵奖得主Yann LeCun在2016年的演讲。

  • 如果智能是一块蛋糕,那么大部分蛋糕都是无监督学习,蛋糕上的裱花是监督学习,而蛋糕顶部的樱桃则是强化学习。

而现在试图用强化学习碾碎这块蛋糕的,还有OpenAI

在上个月红杉组织的AI Ascent活动中,OpenAI科学家Dan Roberts就提及了他们在将RL置于模型预训练过程中的转变。

在GPT-4o中全是传统预训练计算,在o1中引入了一些强化学习运算并且取得了不错的效果,在o3中则引入更多,他们预计在未来的某一代模型中,将会完全由RL计算主导

有理由相信,未来RL或许将在LLM预训练过程中掀起更大的风暴,且让我们拭目以待。

论文链接:https://arxiv.org/abs/2506.08007

参考链接:
[1]https://x.com/omarsar0/status/1932522665182703664
[2]https://x.com/qx_dong/status/1932268949238067482
[3]https://www.youtube.com/watch?v=_rjD_2zn2JU

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
屠颖家属及公司发表联合声明:要求万豪及喜来登酒店公开道歉

屠颖家属及公司发表联合声明:要求万豪及喜来登酒店公开道歉

南方都市报
2026-06-29 15:33:19
美媒晒3方交易方案:詹姆斯3年5830万重返骑士 湖人连获墨菲+阿伦

美媒晒3方交易方案:詹姆斯3年5830万重返骑士 湖人连获墨菲+阿伦

锅子篮球
2026-06-28 12:40:30
公益太难了!韩红百人援蒙帮扶活动引争议,网友:这是百人旅行团

公益太难了!韩红百人援蒙帮扶活动引争议,网友:这是百人旅行团

火山詩话
2026-06-28 12:52:05
冯小刚导演的《抓特务》为何受到冷落?孙玉良:宣传导向出了问题

冯小刚导演的《抓特务》为何受到冷落?孙玉良:宣传导向出了问题

孙玉良
2026-06-28 08:43:41
注意!海淀这场演唱会取消!

注意!海淀这场演唱会取消!

海淀邻友圈
2026-06-29 18:18:51
国常会:研究当前外贸形势和贸易强国建设有关工作

国常会:研究当前外贸形势和贸易强国建设有关工作

界面新闻
2026-06-29 19:16:55
布洛芬立大功!研究发现:老人吃布洛芬,或能缓解4种症状

布洛芬立大功!研究发现:老人吃布洛芬,或能缓解4种症状

医学科普汇
2026-06-26 21:00:04
韩国史上最大规模产业投资计划!五年内DRAM产能翻倍,三星、SK海力士各新建两座芯片厂

韩国史上最大规模产业投资计划!五年内DRAM产能翻倍,三星、SK海力士各新建两座芯片厂

华尔街见闻官方
2026-06-29 14:26:36
银行行长提醒:家庭存款达到这3个标准之一,你就是有钱人了!

银行行长提醒:家庭存款达到这3个标准之一,你就是有钱人了!

时尚的弄潮
2026-06-29 18:00:24
贵州18岁篮球帅哥冯发胜去世,同学曝死因,家中独生子人缘好

贵州18岁篮球帅哥冯发胜去世,同学曝死因,家中独生子人缘好

悠悠说世界
2026-06-29 16:55:25
苏提达出访巴黎为何故意素颜?机舱内公主的一跪暴露了真实内幕

苏提达出访巴黎为何故意素颜?机舱内公主的一跪暴露了真实内幕

白露文娱志
2026-06-29 16:05:34
毛岸英入朝作战牺牲,主要责任人是谁?毛主席其实早就点明过真相

毛岸英入朝作战牺牲,主要责任人是谁?毛主席其实早就点明过真相

听风行天涯
2026-06-25 17:37:54
前天和男友约会,在接吻的过程中,突然有一股热流进了我嘴里

前天和男友约会,在接吻的过程中,突然有一股热流进了我嘴里

千秋文化
2026-06-24 19:51:09
医生发现:每天早起后先喝水的人,用不了半年,身体迎来5大改变

医生发现:每天早起后先喝水的人,用不了半年,身体迎来5大改变

坠入二次元的海洋
2026-06-27 12:04:05
日本黄鳝泛滥,到处钻洞毁农田,农民头疼不已,为何当地人不吃?

日本黄鳝泛滥,到处钻洞毁农田,农民头疼不已,为何当地人不吃?

农夫也疯狂
2026-06-26 11:22:17
黄国昌、柯文哲力挺郑丽文,韩国瑜尴尬了,季麟连终获“清白”!

黄国昌、柯文哲力挺郑丽文,韩国瑜尴尬了,季麟连终获“清白”!

执笔写思念
2026-06-29 13:21:55
荷兰争议大臣率17家半导体巨头来华,唯独安世半导体不在名单

荷兰争议大臣率17家半导体巨头来华,唯独安世半导体不在名单

时尚的弄潮
2026-06-29 19:01:16
东大玩阳谋有多牛 看网友讲述外国人不是我们的对手真不是没道理

东大玩阳谋有多牛 看网友讲述外国人不是我们的对手真不是没道理

侃神评故事
2026-06-29 07:16:43
日本慌了!日本陷入唐朝以来千年最大败局!百年优势崩塌,无解

日本慌了!日本陷入唐朝以来千年最大败局!百年优势崩塌,无解

魔都姐姐杂谈
2026-06-28 00:03:11
滚石唱片就屠颖离世发布联合声明,指出万豪集团七大失职

滚石唱片就屠颖离世发布联合声明,指出万豪集团七大失职

界面新闻
2026-06-29 17:11:10
2026-06-29 20:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12862文章数 176506关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

媒体:中国再对日本出重拳 一红一黄两张牌同时打出

头条要闻

媒体:中国再对日本出重拳 一红一黄两张牌同时打出

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

近20家半导体企业开启新一轮涨价潮

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

健康
家居
游戏
本地
军事航空

狂吃“糯叽叽”小心肠梗阻!

家居要闻

传奇筑 日常诗

R星取消《GTA6》实体版!三大原因带你看清背后真相

本地新闻

贵州小城的新目标:举办“村超”世界杯!

军事要闻

普京最新发声:俄罗斯正处于命运攸关之际

无障碍浏览 进入关怀版