网易首页 > 网易号 > 正文 申请入驻

学术分享丨陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

0
分享至

转自 量子位

结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。

陈丹琦新作来了。


他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)

它要求模型在回答之前生成CoT,然后使用人类偏好训练的奖励模型来评价输出。

支持在基础模型上直接使用,甚至不需要SFT,可以大幅节省后训练成本


网友觉得,这种方法为通用强化学习设定了一个新基线:谁制定了偏好的定义,谁就是后训练时代的“新得分手”。


让小模型轻松超越大模型

RLVR(通过可验证奖励的强化学习)能够在数学、代码等任务中大幅提升模型的推理能力,但是在更开放的任务(比如写大纲、制定饮食计划)上的泛化能力有限,这些任务是人类日常推理的常见场景。

本文提出的RLMT就是证明,RLVR范式在可验证领域之外同样有效

它要求模型在生成回答之前输出长思维链(CoT),并利用基于人类偏好的奖励模型(与RLHF中相同)进行在线强化学习。


比如对于非数学代码问题,它依旧可以分步骤拆解:回顾→综合→关键主题→核心准则→举例→结构化回答。


比如在Wildbench(一个基于真实任务建立的基准)上,优化后的Qwen2.5-7B大幅领先其他模型。


它的训练流程如下:

给定一个用户提示x,模型先生成一个推理轨迹z,在推理基础上生成最终回答y,奖励模型r(x,y)对结果进行打分。

数学上,RLMT优化的目标是:


然后使用人类偏好奖励模型(论文中用的是Skywork-v2),对生成的回答在流畅性、相关性、逻辑性、创意等维度给出分数。

在优化算法方面,RLMT使用在线强化学习算法来更新模型参数,主要实验了DPO、PPO、GRPO,结果表明GRPO效果最好。但即使使用DPO/PPO,RLMT也始终优于RLHF。


训练数据来自于真实用户对话,避免像RLVR那样过度偏向数学/代码。

训练方式有两种:

  • Warm-start(带SFT预热):先使用少量SFT数据教会模型CoT格式,再用RLMT优化;

  • Zero(无SFT直接训练):在基础模型上直接加入固定前缀提示,让它学会“思考+回答”结构,通过RLMT强化最终也能超过instruct模型表现。

最终通过RLMT,模型在推理风格上更像人类思考:它自然学会了分组、约束分析、跨部分联系、迭代修正等,从而带来更高质量的对话和写作效果。


研究团队主要测试了Llama3.1-8B和Qwen2.5-7B两个模型的表现效果。

结果显示小模型经过RLMT训练可超越大模型,大幅简化后训练成本。


陈丹琦团队出品

本项研究一共三位作者:陈丹琦、Adithya Bhaskar、叶曦。

陈丹琦,普林斯顿大学计算机副教授,普林斯顿NLP小组负责人。最近加盟了Thinking Machines Lab。

她本科就读于清华大学“姚班”,2018年在斯坦福大学获得计算机科学博士学位,导师为Christopher Manning。曾获得诺奖风向标之称的斯隆奖。

她的研究方向主要是自然语言理解、知识表示与推理、问答系统、信息抽取、对话代理等。


研究一作为Adithya Bhaskar和叶曦。

Adithya Bhaskar现在是普林斯顿大学博三学生,师从陈丹琦。


叶曦是普林斯顿语言与智能研究所博士后。

本科毕业于清华大学,在奥斯汀大学获得博士学位。主要研究方向是NLP,重点在提高大语言模型的可解释性和推理能力。


论文地址:
https://arxiv.org/abs/2509.20357

【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息的传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA杯八进四焦点战:广东残阵挑战卫冕冠军,单场决胜引爆关注

CBA杯八进四焦点战:广东残阵挑战卫冕冠军,单场决胜引爆关注

狼叔评论
2026-02-06 00:42:30
华为Mate 90首曝,性能很猛,屏幕很强

华为Mate 90首曝,性能很猛,屏幕很强

科技堡垒
2026-02-04 10:59:19
央视主持人大洗牌:3人晋升2人调岗1人离职,海霞龙洋在列

央视主持人大洗牌:3人晋升2人调岗1人离职,海霞龙洋在列

月下守候
2026-02-04 02:30:57
就在今天!2月6日凌晨,亚洲杯传来王曼昱、陈熠、张本美和新消息

就在今天!2月6日凌晨,亚洲杯传来王曼昱、陈熠、张本美和新消息

皮皮观天下
2026-02-06 06:27:38
俄美乌新一轮三方会谈结束!乌方:谈判“富有成效”!泽连斯基、美特使发声

俄美乌新一轮三方会谈结束!乌方:谈判“富有成效”!泽连斯基、美特使发声

每日经济新闻
2026-02-06 00:02:04
民呼我应 武珞路丁字桥路口人车交织消失 车辆通行效率提升20%,行人、非机动车事故率下降35%

民呼我应 武珞路丁字桥路口人车交织消失 车辆通行效率提升20%,行人、非机动车事故率下降35%

武汉交通广播
2026-02-05 10:44:20
沙特给C罗开的价码,一句话:离谱到让普通人怀疑人生。

沙特给C罗开的价码,一句话:离谱到让普通人怀疑人生。

南权先生
2025-12-31 15:59:56
太平年:钱弘俶纳土归宋从非自愿!崔仁冀藏太深,一手定终局

太平年:钱弘俶纳土归宋从非自愿!崔仁冀藏太深,一手定终局

怂熊剧场
2026-02-06 03:35:40
我和我老公七年无性婚姻 出轨后和我老公坦白了

我和我老公七年无性婚姻 出轨后和我老公坦白了

王二哥老搞笑
2026-02-06 06:09:37
重磅!官方宣布:禁止房子大降价,“限跌令”重出江湖!

重磅!官方宣布:禁止房子大降价,“限跌令”重出江湖!

常州壹楼市
2026-01-17 23:59:54
百度官宣50亿美元回购计划!腾讯、小米已近百亿港元扫货,互联网巨头集体开启“护盘模式”?

百度官宣50亿美元回购计划!腾讯、小米已近百亿港元扫货,互联网巨头集体开启“护盘模式”?

证券时报
2026-02-05 22:23:23
50岁吉雪萍近况:女儿离世六年,三子随富商生活

50岁吉雪萍近况:女儿离世六年,三子随富商生活

暖心萌阿菇凉
2026-02-04 23:25:54
日本右翼发出警告:中国一旦发动核打击,日本人绝不坐以待毙!

日本右翼发出警告:中国一旦发动核打击,日本人绝不坐以待毙!

现代小青青慕慕
2026-01-25 10:52:23
突发!多股盘中直线暴跌跌停,白银市场崩盘风暴席卷!

突发!多股盘中直线暴跌跌停,白银市场崩盘风暴席卷!

风风顺
2026-02-06 06:50:03
秦岚和王思聪的瓜,网友:太意外了

秦岚和王思聪的瓜,网友:太意外了

背包旅行
2026-02-05 15:04:32
“九年无爱生活”凉菜波美 ,换一次自我成全!

“九年无爱生活”凉菜波美 ,换一次自我成全!

碧波万览
2026-02-04 02:45:03
哭穷?26岁前国乒名将:我年薪50万 在上海仅够温饱 绝无财富自由

哭穷?26岁前国乒名将:我年薪50万 在上海仅够温饱 绝无财富自由

念洲
2026-02-03 16:01:29
卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

以茶带书
2025-12-09 23:33:58
记者:勇士在得知雄鹿拒绝报价后,迅速放弃追求字母哥

记者:勇士在得知雄鹿拒绝报价后,迅速放弃追求字母哥

懂球帝
2026-02-05 13:00:06
“血裁”下亚马逊员工自述:赔偿N+6,有60天冷静期,以后很难找到这么好的公司了

“血裁”下亚马逊员工自述:赔偿N+6,有60天冷静期,以后很难找到这么好的公司了

搜狐科技
2026-02-05 20:30:08
2026-02-06 07:20:49
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3864文章数 1489关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

头条要闻

与爱泼斯坦共舞嬉笑的神秘红衣女子身份披露

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

家居
游戏
健康
旅游
军事航空

家居要闻

简雅序章 自然且闲适

《无主之地4》现已通过Steam Deck验证

耳石症分类型,症状大不同

旅游要闻

一片明亮的林间空地(旅人心语)

军事要闻

54岁荷兰王后以预备役军人身份参军 王室解释原因

无障碍浏览 进入关怀版