网易首页 > 网易号 > 正文 申请入驻

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

0
分享至

结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。

陈丹琦新作来了。


他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)

它要求模型在回答之前生成CoT,然后使用人类偏好训练的奖励模型来评价输出。

支持在基础模型上直接使用,甚至不需要SFT,可以大幅节省后训练成本


网友觉得,这种方法为通用强化学习设定了一个新基线:谁制定了偏好的定义,谁就是后训练时代的“新得分手”。


让小模型轻松超越大模型

RLVR(通过可验证奖励的强化学习)能够在数学、代码等任务中大幅提升模型的推理能力,但是在更开放的任务(比如写大纲、制定饮食计划)上的泛化能力有限,这些任务是人类日常推理的常见场景。

本文提出的RLMT就是证明,RLVR范式在可验证领域之外同样有效

它要求模型在生成回答之前输出长思维链(CoT),并利用基于人类偏好的奖励模型(与RLHF中相同)进行在线强化学习。


比如对于非数学代码问题,它依旧可以分步骤拆解:回顾→综合→关键主题→核心准则→举例→结构化回答。


比如在Wildbench(一个基于真实任务建立的基准)上,优化后的Qwen2.5-7B大幅领先其他模型。


它的训练流程如下:

给定一个用户提示x,模型先生成一个推理轨迹z,在推理基础上生成最终回答y,奖励模型r(x,y)对结果进行打分。

数学上,RLMT优化的目标是:


然后使用人类偏好奖励模型(论文中用的是Skywork-v2),对生成的回答在流畅性、相关性、逻辑性、创意等维度给出分数。

在优化算法方面,RLMT使用在线强化学习算法来更新模型参数,主要实验了DPO、PPO、GRPO,结果表明GRPO效果最好。但即使使用DPO/PPO,RLMT也始终优于RLHF。


训练数据来自于真实用户对话,避免像RLVR那样过度偏向数学/代码。

训练方式有两种:

  • Warm-start(带SFT预热):先使用少量SFT数据教会模型CoT格式,再用RLMT优化;

  • Zero(无SFT直接训练):在基础模型上直接加入固定前缀提示,让它学会“思考+回答”结构,通过RLMT强化最终也能超过instruct模型表现。

最终通过RLMT,模型在推理风格上更像人类思考:它自然学会了分组、约束分析、跨部分联系、迭代修正等,从而带来更高质量的对话和写作效果。


研究团队主要测试了Llama3.1-8B和Qwen2.5-7B两个模型的表现效果。

结果显示小模型经过RLMT训练可超越大模型,大幅简化后训练成本。


陈丹琦团队出品

本项研究一共三位作者:陈丹琦、Adithya Bhaskar、叶曦。

陈丹琦,普林斯顿大学计算机副教授,普林斯顿NLP小组负责人。最近加盟了Thinking Machines Lab。

她本科就读于清华大学“姚班”,2018年在斯坦福大学获得计算机科学博士学位,导师为Christopher Manning。曾获得诺奖风向标之称的斯隆奖。

她的研究方向主要是自然语言理解、知识表示与推理、问答系统、信息抽取、对话代理等。


研究一作为Adithya Bhaskar和叶曦。

Adithya Bhaskar现在是普林斯顿大学博三学生,师从陈丹琦。


叶曦是普林斯顿语言与智能研究所博士后。

本科毕业于清华大学,在奥斯汀大学获得博士学位。主要研究方向是NLP,重点在提高大语言模型的可解释性和推理能力。


论文地址:
https://arxiv.org/abs/2509.20357

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东男篮拒绝输球!全力淘汰辽宁队,赵睿爆发,央视直播

广东男篮拒绝输球!全力淘汰辽宁队,赵睿爆发,央视直播

体坛瞎白话
2025-11-11 07:23:21
宝妈高铁堵道后续!正脸曝光,知情人揭更多内幕,12306硬核回应

宝妈高铁堵道后续!正脸曝光,知情人揭更多内幕,12306硬核回应

以茶带书
2025-11-10 20:15:21
恭喜!刘子琪官宣与张雨绮恋情,晒合照一起过春节,男方身份曝光

恭喜!刘子琪官宣与张雨绮恋情,晒合照一起过春节,男方身份曝光

科学发掘
2025-11-11 13:07:53
进攻红军城失败的俄军突击小组阵亡画面曝光!尸体被炸得残缺不全

进攻红军城失败的俄军突击小组阵亡画面曝光!尸体被炸得残缺不全

环球热点快评
2025-11-10 21:57:07
上门检测费只要7元,瓷砖空鼓被灌40斤胶水,维修费飙至6300元,男子写差评后遭商家电话骚扰

上门检测费只要7元,瓷砖空鼓被灌40斤胶水,维修费飙至6300元,男子写差评后遭商家电话骚扰

观威海
2025-11-10 10:18:22
北京拟招录600名人民警察

北京拟招录600名人民警察

新京报
2025-11-11 12:35:02
不是36万亿而是230万亿?美专家:美国已经破产,美元成“假钞”

不是36万亿而是230万亿?美专家:美国已经破产,美元成“假钞”

小莜读史
2025-11-10 20:22:21
发力了!曝沙特基金准备以700亿美元全现金收购华纳

发力了!曝沙特基金准备以700亿美元全现金收购华纳

游民星空
2025-11-10 20:11:25
心梗去世的人飙升!医生含泪苦劝:无论多大年纪,天冷坚守7原则

心梗去世的人飙升!医生含泪苦劝:无论多大年纪,天冷坚守7原则

王二哥老搞笑
2025-11-09 00:18:07
38岁高叶“透视”上海滩!阿玛尼加身,熟龄魅力挡不住!

38岁高叶“透视”上海滩!阿玛尼加身,熟龄魅力挡不住!

锋哥与八卦哥
2025-11-09 11:15:59
这5位老将,还是没收到NBA球队的合同,可能真的要退役了

这5位老将,还是没收到NBA球队的合同,可能真的要退役了

篮坛扒客
2025-11-10 21:41:47
快递员河边救下一儿童,却被拘留7天,获释后被救者一家五口被灭门

快递员河边救下一儿童,却被拘留7天,获释后被救者一家五口被灭门

悬案解密档案
2025-11-06 10:39:29
万红,拟破格提拔

万红,拟破格提拔

鲁中晨报
2025-11-11 09:47:01
特朗普41岁次子讲述原生家庭:父亲定下六不准,母亲“又美又凶”

特朗普41岁次子讲述原生家庭:父亲定下六不准,母亲“又美又凶”

法老不说教
2025-11-07 15:24:59
CCTV5直播!女单全国冠军出局!今日产生首金!王曼昱陈梦出战!王艺迪惊险过关!

CCTV5直播!女单全国冠军出局!今日产生首金!王曼昱陈梦出战!王艺迪惊险过关!

好乒乓
2025-11-11 11:40:14
连锁效应,独行侠连续24年主场门票售罄的纪录作古

连锁效应,独行侠连续24年主场门票售罄的纪录作古

懂球帝
2025-11-11 14:18:06
1966年傅雷夫妇选择自缢,儿子傅聪多年后回忆:父亲之死是必然,母亲本不该是这样的结局

1966年傅雷夫妇选择自缢,儿子傅聪多年后回忆:父亲之死是必然,母亲本不该是这样的结局

花开无田
2025-10-27 23:37:04
全运男篮四强出炉!浙江注定陪跑 四川实力太恐怖 辽粤优劣势相同

全运男篮四强出炉!浙江注定陪跑 四川实力太恐怖 辽粤优劣势相同

篮球圈里的那些事
2025-11-10 21:11:23
为躲避突然冲出的一只狗,著名导演陈可辛驾奔驰车撞断人行道旁的树木,陈可辛未受伤

为躲避突然冲出的一只狗,著名导演陈可辛驾奔驰车撞断人行道旁的树木,陈可辛未受伤

极目新闻
2025-11-11 15:34:26
四川农村商业联合银行股份有限公司原副行长刘杰被“双开”:长期与管理和服务对象打麻将赢取钱财

四川农村商业联合银行股份有限公司原副行长刘杰被“双开”:长期与管理和服务对象打麻将赢取钱财

界面新闻
2025-11-11 16:05:20
2025-11-11 18:40:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5225文章数 64596关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

欧委会迫使欧盟成员排除中兴、华为设备 外交部回应

头条要闻

欧委会迫使欧盟成员排除中兴、华为设备 外交部回应

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

健康
手机
房产
家居
公开课

超声探头会加重受伤情况吗?

手机要闻

鸿蒙6加速完善生态:华为Mate 80出厂预装

房产要闻

海口湾,1300亩巨无霸地块登场!

家居要闻

国美学子 打造筑梦空间

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版