网易首页 > 网易号 > 正文 申请入驻

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

0
分享至

结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。

陈丹琦新作来了。


他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)

它要求模型在回答之前生成CoT,然后使用人类偏好训练的奖励模型来评价输出。

支持在基础模型上直接使用,甚至不需要SFT,可以大幅节省后训练成本


网友觉得,这种方法为通用强化学习设定了一个新基线:谁制定了偏好的定义,谁就是后训练时代的“新得分手”。


让小模型轻松超越大模型

RLVR(通过可验证奖励的强化学习)能够在数学、代码等任务中大幅提升模型的推理能力,但是在更开放的任务(比如写大纲、制定饮食计划)上的泛化能力有限,这些任务是人类日常推理的常见场景。

本文提出的RLMT就是证明,RLVR范式在可验证领域之外同样有效

它要求模型在生成回答之前输出长思维链(CoT),并利用基于人类偏好的奖励模型(与RLHF中相同)进行在线强化学习。


比如对于非数学代码问题,它依旧可以分步骤拆解:回顾→综合→关键主题→核心准则→举例→结构化回答。


比如在Wildbench(一个基于真实任务建立的基准)上,优化后的Qwen2.5-7B大幅领先其他模型。


它的训练流程如下:

给定一个用户提示x,模型先生成一个推理轨迹z,在推理基础上生成最终回答y,奖励模型r(x,y)对结果进行打分。

数学上,RLMT优化的目标是:


然后使用人类偏好奖励模型(论文中用的是Skywork-v2),对生成的回答在流畅性、相关性、逻辑性、创意等维度给出分数。

在优化算法方面,RLMT使用在线强化学习算法来更新模型参数,主要实验了DPO、PPO、GRPO,结果表明GRPO效果最好。但即使使用DPO/PPO,RLMT也始终优于RLHF。


训练数据来自于真实用户对话,避免像RLVR那样过度偏向数学/代码。

训练方式有两种:

  • Warm-start(带SFT预热):先使用少量SFT数据教会模型CoT格式,再用RLMT优化;

  • Zero(无SFT直接训练):在基础模型上直接加入固定前缀提示,让它学会“思考+回答”结构,通过RLMT强化最终也能超过instruct模型表现。

最终通过RLMT,模型在推理风格上更像人类思考:它自然学会了分组、约束分析、跨部分联系、迭代修正等,从而带来更高质量的对话和写作效果。


研究团队主要测试了Llama3.1-8B和Qwen2.5-7B两个模型的表现效果。

结果显示小模型经过RLMT训练可超越大模型,大幅简化后训练成本。


陈丹琦团队出品

本项研究一共三位作者:陈丹琦、Adithya Bhaskar、叶曦。

陈丹琦,普林斯顿大学计算机副教授,普林斯顿NLP小组负责人。最近加盟了Thinking Machines Lab。

她本科就读于清华大学“姚班”,2018年在斯坦福大学获得计算机科学博士学位,导师为Christopher Manning。曾获得诺奖风向标之称的斯隆奖。

她的研究方向主要是自然语言理解、知识表示与推理、问答系统、信息抽取、对话代理等。


研究一作为Adithya Bhaskar和叶曦。

Adithya Bhaskar现在是普林斯顿大学博三学生,师从陈丹琦。


叶曦是普林斯顿语言与智能研究所博士后。

本科毕业于清华大学,在奥斯汀大学获得博士学位。主要研究方向是NLP,重点在提高大语言模型的可解释性和推理能力。


论文地址:
https://arxiv.org/abs/2509.20357

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新加坡急了,外长几乎是拍着桌子,让中国“尊重”马六甲的地位。

新加坡急了,外长几乎是拍着桌子,让中国“尊重”马六甲的地位。

南权先生
2026-01-26 15:41:26
红军团长在河南当兽医8年,主席派人寻找,县领导:只找到一马夫

红军团长在河南当兽医8年,主席派人寻找,县领导:只找到一马夫

历史甄有趣
2026-02-06 07:10:12
狼队官方:徐彬租借加盟英甲巴恩斯利

狼队官方:徐彬租借加盟英甲巴恩斯利

懂球帝
2026-02-06 18:20:12
软肋与铠甲 3:酒桌定局,义诺赊货

软肋与铠甲 3:酒桌定局,义诺赊货

金昔说故事
2026-02-06 20:35:06
袭人与贾宝玉多次同房,为什么不怀孕?个中原因早被蒋玉菡戳破了

袭人与贾宝玉多次同房,为什么不怀孕?个中原因早被蒋玉菡戳破了

谈史论天地
2026-02-03 16:10:22
中央批准!中国工程院院士,任985大学校长

中央批准!中国工程院院士,任985大学校长

TOP大学来了
2026-02-06 10:39:40
上海股市天才肺腑之言:炒股要坚决做到“五不碰”,值得散户牢记

上海股市天才肺腑之言:炒股要坚决做到“五不碰”,值得散户牢记

股经纵横谈
2026-02-04 20:51:52
中方发“开战”檄文,对巴拿马连用9个判词,李嘉诚罕见带头冲锋

中方发“开战”檄文,对巴拿马连用9个判词,李嘉诚罕见带头冲锋

史智文道
2026-02-05 22:19:42
46年李立三拜访毛主席,走后主席面露不悦:让后勤部给他换套衣服

46年李立三拜访毛主席,走后主席面露不悦:让后勤部给他换套衣服

谈古论今历史有道
2026-02-01 14:45:03
立陶宛承认犯下巨大错误,中方表态!

立陶宛承认犯下巨大错误,中方表态!

占豪
2026-02-07 00:05:40
安徽省淮北市人大常委会原副主任杨彦颖接受审查调查

安徽省淮北市人大常委会原副主任杨彦颖接受审查调查

界面新闻
2026-02-06 17:04:06
《太平年》郭荣继位打破“死循环”!可惜寿短,让赵匡胤夺了江山

《太平年》郭荣继位打破“死循环”!可惜寿短,让赵匡胤夺了江山

露珠聊影视
2026-02-06 19:39:24
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
《妻子的浪漫旅行2026》官宣!4组嘉宾曝光,没结婚的他们来干啥

《妻子的浪漫旅行2026》官宣!4组嘉宾曝光,没结婚的他们来干啥

观察鉴娱
2026-02-05 08:46:04
夜场穿搭女当街下跪光头大哥,全程捂脸怕被认出,爹妈看到得咋想

夜场穿搭女当街下跪光头大哥,全程捂脸怕被认出,爹妈看到得咋想

小鹿姐姐情感说
2026-01-31 10:32:35
医生调查发现:稳定血糖最好的方式,不是少吃肥肉,而是这些习惯

医生调查发现:稳定血糖最好的方式,不是少吃肥肉,而是这些习惯

读懂世界历史
2026-02-03 19:47:26
“都2026年了,怎么还有老登指责年轻人没眼力见呢”

“都2026年了,怎么还有老登指责年轻人没眼力见呢”

雷斯林
2026-02-03 18:57:15
反转了!居然是演的!女博主彻底凉凉

反转了!居然是演的!女博主彻底凉凉

台州交通广播
2026-02-05 14:13:33
这是什么店?​​​​要不要进去?

这是什么店?​​​​要不要进去?

太急张三疯
2026-02-06 16:51:47
深度揭秘|一个“全家腐”的腐败标本:湖南政协原主席李微微的六宗罪与警示

深度揭秘|一个“全家腐”的腐败标本:湖南政协原主席李微微的六宗罪与警示

一分为三看人生
2026-02-07 00:10:52
2026-02-07 00:51:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5344文章数 64601关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

健康
旅游
时尚
亲子
家居

转头就晕的耳石症,能开车上班吗?

旅游要闻

琅琊古城·“文旅迎春 马跃新程”2026河东文旅新春联欢晚会举行

豆瓣8.5分,人美剧甜衣品好,小韩拍恋爱剧还是有两把刷子

亲子要闻

当孩子有了自己的审美眼光,理解了家长为什么会帮孩子买丑衣服!

家居要闻

现代轻奢 温馨治愈系

无障碍浏览 进入关怀版