网易首页 > 网易号 > 正文 申请入驻

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

0
分享至

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。

陈丹琦新作来了。



他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)

它要求模型在回答之前生成CoT,然后使用人类偏好训练的奖励模型来评价输出。

支持在基础模型上直接使用,甚至不需要SFT,可以大幅节省后训练成本



网友觉得,这种方法为通用强化学习设定了一个新基线:谁制定了偏好的定义,谁就是后训练时代的“新得分手”。



让小模型轻松超越大模型

RLVR(通过可验证奖励的强化学习)能够在数学、代码等任务中大幅提升模型的推理能力,但是在更开放的任务(比如写大纲、制定饮食计划)上的泛化能力有限,这些任务是人类日常推理的常见场景。

本文提出的RLMT就是证明,RLVR范式在可验证领域之外同样有效

它要求模型在生成回答之前输出长思维链(CoT),并利用基于人类偏好的奖励模型(与RLHF中相同)进行在线强化学习。



比如对于非数学代码问题,它依旧可以分步骤拆解:回顾→综合→关键主题→核心准则→举例→结构化回答。



比如在Wildbench(一个基于真实任务建立的基准)上,优化后的Qwen2.5-7B大幅领先其他模型。



它的训练流程如下:

给定一个用户提示x,模型先生成一个推理轨迹z,在推理基础上生成最终回答y,奖励模型r(x,y)对结果进行打分。

数学上,RLMT优化的目标是:



然后使用人类偏好奖励模型(论文中用的是Skywork-v2),对生成的回答在流畅性、相关性、逻辑性、创意等维度给出分数。

在优化算法方面,RLMT使用在线强化学习算法来更新模型参数,主要实验了DPO、PPO、GRPO,结果表明GRPO效果最好。但即使使用DPO/PPO,RLMT也始终优于RLHF。



训练数据来自于真实用户对话,避免像RLVR那样过度偏向数学/代码。

训练方式有两种:

  • Warm-start(带SFT预热):先使用少量SFT数据教会模型CoT格式,再用RLMT优化;
  • Zero(无SFT直接训练):在基础模型上直接加入固定前缀提示,让它学会“思考+回答”结构,通过RLMT强化最终也能超过instruct模型表现。

最终通过RLMT,模型在推理风格上更像人类思考:它自然学会了分组、约束分析、跨部分联系、迭代修正等,从而带来更高质量的对话和写作效果。



研究团队主要测试了Llama3.1-8B和Qwen2.5-7B两个模型的表现效果。

结果显示小模型经过RLMT训练可超越大模型,大幅简化后训练成本。



陈丹琦团队出品

本项研究一共三位作者:陈丹琦、Adithya Bhaskar、叶曦。

陈丹琦,普林斯顿大学计算机副教授,普林斯顿NLP小组负责人。最近加盟了Thinking Machines Lab。

她本科就读于清华大学“姚班”,2018年在斯坦福大学获得计算机科学博士学位,导师为Christopher Manning。曾获得诺奖风向标之称的斯隆奖。

她的研究方向主要是自然语言理解、知识表示与推理、问答系统、信息抽取、对话代理等。



研究一作为Adithya Bhaskar和叶曦。

Adithya Bhaskar现在是普林斯顿大学博三学生,师从陈丹琦。



叶曦是普林斯顿语言与智能研究所博士后。

本科毕业于清华大学,在奥斯汀大学获得博士学位。主要研究方向是NLP,重点在提高大语言模型的可解释性和推理能力。



论文地址:
https://arxiv.org/abs/2509.20357

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
善恶终有报!放弃国籍、贬低中国,瘫在轮椅上的张铁林彻底成笑话

善恶终有报!放弃国籍、贬低中国,瘫在轮椅上的张铁林彻底成笑话

舍子花
2026-02-04 22:36:05
英国首相斯塔默:前驻美大使背叛国家 我后悔任命他

英国首相斯塔默:前驻美大使背叛国家 我后悔任命他

新京报
2026-02-05 22:12:06
三亚不香了?东北人撤离成潮,压垮他们的不是物价,而是生活现实

三亚不香了?东北人撤离成潮,压垮他们的不是物价,而是生活现实

历史求知所
2025-12-09 20:55:05
ISW证实,俄军已占领米尔诺赫拉德,在波克罗夫斯克也取得进展

ISW证实,俄军已占领米尔诺赫拉德,在波克罗夫斯克也取得进展

山河路口
2026-02-05 16:58:16
假“惠民保”骗局曝光:涉案7100万遍及30省,这些套路需警惕

假“惠民保”骗局曝光:涉案7100万遍及30省,这些套路需警惕

环球网资讯
2026-02-05 16:52:06
1900万粉丝军事大V“听风的蚕”遭平台重锤,违规细节曝光!

1900万粉丝军事大V“听风的蚕”遭平台重锤,违规细节曝光!

水泥土的搞笑
2026-02-05 07:23:53
一游客称花200元幸运独享一架客机从九寨沟飞成都,起飞前还接到客服电话, “早点到随到随走”

一游客称花200元幸运独享一架客机从九寨沟飞成都,起飞前还接到客服电话, “早点到随到随走”

每日经济新闻
2026-02-04 23:21:07
现在不光是美国站在日本这边了,连联合国都在默许日本的行为

现在不光是美国站在日本这边了,连联合国都在默许日本的行为

安安说
2026-02-05 12:44:57
巴萨进四强,他的神鬼二象性还在继续

巴萨进四强,他的神鬼二象性还在继续

西哇体育
2026-02-05 15:00:33
《人民日报》:70%的病跟情绪有关!很多人被亲人给慢性折磨死的

《人民日报》:70%的病跟情绪有关!很多人被亲人给慢性折磨死的

诗词中国
2026-01-23 18:47:36
今日最惨股,五分钟走出天地板跌停,一股民刚进去就亏20个点!

今日最惨股,五分钟走出天地板跌停,一股民刚进去就亏20个点!

财经智多星
2026-02-05 16:55:43
王菲飞机上被拍,55岁老态尽显,没有网上吹的那么漂亮

王菲飞机上被拍,55岁老态尽显,没有网上吹的那么漂亮

乡野小珥
2026-02-03 13:44:43
Nature和Science同时报道了一篇论文,试图根治AI幻觉

Nature和Science同时报道了一篇论文,试图根治AI幻觉

新智元
2026-02-05 19:44:47
越南披露中越战争内幕,坦言中国若迟撤军五日,谅山主力将被全歼

越南披露中越战争内幕,坦言中国若迟撤军五日,谅山主力将被全歼

磊子讲史
2026-02-04 12:02:50
这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

这跟不穿有啥区别?格莱美红毯女星穿衣大胆,连美国网友都无语了

洲洲影视娱评
2026-02-02 17:11:05
疯了!瓜迪奥拉撕碎曼城根基,皇马两大巨星互换空降伊蒂哈德!

疯了!瓜迪奥拉撕碎曼城根基,皇马两大巨星互换空降伊蒂哈德!

澜归序
2026-02-05 07:39:17
贾跃亭在美国发布人形机器人产品

贾跃亭在美国发布人形机器人产品

观察者网
2026-02-05 17:45:07
巨星一个接一个地罢赛,沙特联赛还有未来吗?

巨星一个接一个地罢赛,沙特联赛还有未来吗?

篮球看比赛
2026-02-05 18:42:11
英媒透露安全保障具体措施,美军将在必要时参战:乌克兰不再天真

英媒透露安全保障具体措施,美军将在必要时参战:乌克兰不再天真

鹰眼Defence
2026-02-04 18:17:12
记者:勇士在得知雄鹿拒绝报价后,迅速放弃追求字母哥

记者:勇士在得知雄鹿拒绝报价后,迅速放弃追求字母哥

懂球帝
2026-02-05 13:00:06
2026-02-06 01:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12120文章数 176372关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

上海男子刚退休就瘫痪 小23岁女友照护崩溃:无名无分

头条要闻

上海男子刚退休就瘫痪 小23岁女友照护崩溃:无名无分

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

游戏
家居
旅游
房产
健康

《无主之地4》现已通过Steam Deck验证

家居要闻

简雅序章 自然且闲适

旅游要闻

中国文旅看山西:解读《山西省黄河、长城、太行三个一号旅游公路与文化旅游融合发展规划(2026—2030年)》

房产要闻

新春三亚置业,看过这个热盘再说!

耳石症分类型,症状大不同

无障碍浏览 进入关怀版