网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o

2025-09-28 17:34:31　来源: 算法与数学之美

北京举报

0

分享至

结合RLHF+RLVR，8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。

陈丹琦新作来了。

他们提出了一个结合RLHF和RLVR优点的方法，RLMT（Reinforcement Learning with Model-rewarded Thinking，基于模型奖励思维的强化学习）。

它要求模型在回答之前生成CoT，然后使用人类偏好训练的奖励模型来评价输出。

支持在基础模型上直接使用，甚至不需要SFT，可以大幅节省后训练成本。

网友觉得，这种方法为通用强化学习设定了一个新基线：谁制定了偏好的定义，谁就是后训练时代的“新得分手”。

让小模型轻松超越大模型

RLVR（通过可验证奖励的强化学习）能够在数学、代码等任务中大幅提升模型的推理能力，但是在更开放的任务（比如写大纲、制定饮食计划）上的泛化能力有限，这些任务是人类日常推理的常见场景。

本文提出的RLMT就是证明，RLVR范式在可验证领域之外同样有效。

它要求模型在生成回答之前输出长思维链（CoT），并利用基于人类偏好的奖励模型（与RLHF中相同）进行在线强化学习。

比如对于非数学代码问题，它依旧可以分步骤拆解：回顾→综合→关键主题→核心准则→举例→结构化回答。

比如在Wildbench（一个基于真实任务建立的基准）上，优化后的Qwen2.5-7B大幅领先其他模型。

它的训练流程如下：

给定一个用户提示x，模型先生成一个推理轨迹z，在推理基础上生成最终回答y，奖励模型r(x,y)对结果进行打分。

数学上，RLMT优化的目标是：

然后使用人类偏好奖励模型（论文中用的是Skywork-v2），对生成的回答在流畅性、相关性、逻辑性、创意等维度给出分数。

在优化算法方面，RLMT使用在线强化学习算法来更新模型参数，主要实验了DPO、PPO、GRPO，结果表明GRPO效果最好。但即使使用DPO/PPO，RLMT也始终优于RLHF。

训练数据来自于真实用户对话，避免像RLVR那样过度偏向数学/代码。

训练方式有两种：

Warm-start（带SFT预热）：先使用少量SFT数据教会模型CoT格式，再用RLMT优化；
Zero（无SFT直接训练）：在基础模型上直接加入固定前缀提示，让它学会“思考+回答”结构，通过RLMT强化最终也能超过instruct模型表现。

最终通过RLMT，模型在推理风格上更像人类思考：它自然学会了分组、约束分析、跨部分联系、迭代修正等，从而带来更高质量的对话和写作效果。

研究团队主要测试了Llama3.1-8B和Qwen2.5-7B两个模型的表现效果。

结果显示小模型经过RLMT训练可超越大模型，大幅简化后训练成本。

陈丹琦团队出品

本项研究一共三位作者：陈丹琦、Adithya Bhaskar、叶曦。

陈丹琦，普林斯顿大学计算机副教授，普林斯顿NLP小组负责人。最近加盟了Thinking Machines Lab。

她本科就读于清华大学“姚班”，2018年在斯坦福大学获得计算机科学博士学位，导师为Christopher Manning。曾获得诺奖风向标之称的斯隆奖。

她的研究方向主要是自然语言理解、知识表示与推理、问答系统、信息抽取、对话代理等。

研究一作为Adithya Bhaskar和叶曦。

Adithya Bhaskar现在是普林斯顿大学博三学生，师从陈丹琦。

叶曦是普林斯顿语言与智能研究所博士后。

本科毕业于清华大学，在奥斯汀大学获得博士学位。主要研究方向是NLP，重点在提高大语言模型的可解释性和推理能力。

论文地址：
https://arxiv.org/abs/2509.20357

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

网友称四川自贡一街道现“红绿灯刺客”，红灯笼遮挡信号灯致误闯，当地交警回应：将迅速核实

大风新闻 2026-02-06 17:21:05
2638 跟贴 2638
伊美谈判在阿曼开始举行

CCTV国际时讯 2026-02-06 15:47:56
2593 跟贴 2593

白银LOF五连跌停、逾1.7万人集体投诉，国投瑞银称“已成立工作小组”

第一财经资讯 2026-02-06 19:17:29
209 跟贴 209

已突破1000万单！有人刷了近6小时才出现可下单界面，结果被AI提示下单“香飘飘奶茶”，千问：今天累垮了，求求明天再来

极目新闻 2026-02-06 18:43:40
958 跟贴 958
视频：乌拉圭总统在上海"惊讶"收不住

环球时报 2026-02-06 21:36:55
78 跟贴 78

湖北95后小伙从上海走回老家过年！36天瘦了27斤

环球网资讯 2026-02-07 07:54:37
7 跟贴 7

当无锡贴心邀请苏州人去坐飞机，网友们却炸了锅

江苏新闻 2026-02-06 14:43:52
124 跟贴 124
团体赛出现失误，隋文静哭着说“对不起”

中国青年报 2026-02-06 21:51:34
773 跟贴 773

广东“别墅村”分钱！16岁以上35000元/人，1岁也有近1万

南方都市报 2026-02-06 18:21:26
190 跟贴 190
全国实现生育津贴直接发放至个人

央视新闻客户端 2026-02-06 08:04:47
837 跟贴 837
“诸葛亮后人”再发声：近200家企业用“猪葛亮”注册商标或当作店名，无法逐一沟通，希望主管部门介入

极目新闻 2026-02-06 13:45:29
391 跟贴 391
中央网信办会同国家医保局整治网上涉医药虚假信息（2026·02·06）

今日辟谣 2026-02-06 19:02:12
12 跟贴 12
黄子韬透露朵薇卫生巾工厂现状：卖了1.5亿还没回本

界面新闻 2026-02-06 18:49:38
102 跟贴 102
特斯拉中国AI训练中心已投入使用

财联社 2026-02-06 19:13:48
298 跟贴 298
AI之争又打成了奶茶大战

界面新闻 2026-02-06 20:48:41
44 跟贴 44
中国球员首次包揽斯诺克排名赛四强

齐鲁壹点 2026-02-07 08:39:13
67 跟贴 67
教育部将持续推进校园餐、教辅、校服等专项整治

新华社 2026-02-06 12:08:03
432 跟贴 432
逛游园、品家宴、领年礼......滴滴三十余城陪司机暖心过年

齐鲁壹点 2026-02-07 09:53:24
3 跟贴 3
米兰冬奥会开幕视频回看中国代表团亮相

央视新闻客户端 2026-02-07 05:39:56
0 跟贴 0
最新 | 官宣延期！网友质疑：拉新了却没收到

天津广播 2026-02-07 10:37:25
0 跟贴 0
太原两车不慎坠入河道被冰封，救援人员冒风雪历时9个多小时救出

太原全接触 2026-02-07 10:32:01
0 跟贴 0
恒泰康公司已派出调查组赶赴襄阳，配合政府调查工作严格核查

上游新闻 2026-02-07 10:45:06
0 跟贴 0

在北京，周末夫妻越来越多了

朗玥

2026-02-06 23:54:23

意外！上港新外援仅仅用一场热身赛就征服球迷，发挥不比茹萨差

意外！上港新外援仅仅用一场热身赛就征服球迷，发挥不比茹萨差

张丽说足球

2026-02-07 08:33:58

领先3350分！阿尔卡拉斯稳坐世界第一，辛纳目标法网拼生涯全满贯

领先3350分！阿尔卡拉斯稳坐世界第一，辛纳目标法网拼生涯全满贯

体育妞世界

2026-02-07 00:45:03

16GB+1TB！新机官宣：3月20日，即将发售！

16GB+1TB！新机官宣：3月20日，即将发售！

科技堡垒

2026-02-06 11:54:49

国际奥委会呼吁无济于事！美国队亮相开幕式，现场观众一片嘘声

国际奥委会呼吁无济于事！美国队亮相开幕式，现场观众一片嘘声

全景体育V

2026-02-07 06:48:11

特朗普这次麻烦大了

牛弹琴

2026-02-07 07:44:29

萝莉岛文件再公开！背后更可怕的，是每年50万“消失的孩子”

萝莉岛文件再公开！背后更可怕的，是每年50万“消失的孩子”

秋枫凋零

2026-02-04 21:04:24

大逆转！湖人双杀76人，詹姆斯一战连创3大神迹，东契奇腿筋重伤

大逆转！湖人双杀76人，詹姆斯一战连创3大神迹，东契奇腿筋重伤

老侃侃球

2026-02-06 13:41:46

英超仅1球！曼联弃将坑惨切尔西夏窗面临被清洗

英超仅1球！曼联弃将坑惨切尔西夏窗面临被清洗

球事百科吖

2026-02-07 07:07:41

英超史诗级抽象对决即将开始：利物浦与曼城的教练自我证明之战

英超史诗级抽象对决即将开始：利物浦与曼城的教练自我证明之战

新新自圆其说说体育

2026-02-07 10:42:41

王阳明：摆脱精神内耗最好的方法，不是运动、独处，而是......

王阳明：摆脱精神内耗最好的方法，不是运动、独处，而是......

诗词中国

2026-02-01 19:42:22

两野猫把景观池当“自助餐厅”走红，江苏园博园：不干涉，抓得到是本事

两野猫把景观池当“自助餐厅”走红，江苏园博园：不干涉，抓得到是本事

上游新闻

2026-02-06 12:05:11

大家都具体老到什么程度了？网友：地铁坐一半想起出门开的车

大家都具体老到什么程度了？网友：地铁坐一半想起出门开的车

另子维爱读史

2026-01-19 19:00:43

1941 莫斯科保卫战：9288 公里驰援，晚到半天苏联或不存在

1941 莫斯科保卫战：9288 公里驰援，晚到半天苏联或不存在

磊子讲史

2026-01-26 17:39:15

越来越多人不装玻璃淋浴房了！这玩意儿正在被聪明人悄悄淘汰！

越来越多人不装玻璃淋浴房了！这玩意儿正在被聪明人悄悄淘汰！

绘本家居

2026-02-06 08:13:25

66岁山口百惠的残酷家规：儿子40岁，仍在挤电车。

66岁山口百惠的残酷家规：儿子40岁，仍在挤电车。

果妈聊军事

2026-02-05 15:31:06

近40岁的金刻羽，为何甘愿被浙江土豪围猎而非婚生女？

近40岁的金刻羽，为何甘愿被浙江土豪围猎而非婚生女？

波哥看楼市

2026-02-05 23:51:51

六旬男子刚退休就瘫痪！小23岁女友坚持照护，终于正式登记结婚

六旬男子刚退休就瘫痪！小23岁女友坚持照护，终于正式登记结婚

观威海

2026-02-06 17:02:22

卖一部亏一部？知名大厂“暂停研发旗舰机”，手机圈真要变天了…

卖一部亏一部？知名大厂“暂停研发旗舰机”，手机圈真要变天了…

躺倒鸭

2026-02-05 13:47:41

1965，风暴前的宁静

方待夜半听君语

2026-02-01 07:43:54

算法与数学之美

分享知识，交流思想

5344文章数 64601关注度

往期回顾全部

科技要闻

小米千匹马力新车亮相！问界M6双动力齐报

头条要闻

牛弹琴：特朗普这次麻烦大了美国人看得目瞪口呆

头条要闻

牛弹琴：特朗普这次麻烦大了美国人看得目瞪口呆

体育要闻

西甲射手榜第2，身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

AITO问界与Abu Dhabi Motors达成战略合作

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

时尚

手机

亲子

军事航空

家居要闻

现代轻奢温馨治愈系

冬天不要只穿“黑白灰”！看看这些彩色的穿搭，简单又高级

手机要闻

Blackview Xplore 1手机发布，自带对讲机功能

亲子要闻

奶奶带娃和外婆带娃差别竟这么大

军事要闻

美国“肯尼迪”号核动力航母完成首次海试

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版