网易首页 > 网易号 > 正文 申请入驻

陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

0
分享至

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。

陈丹琦新作来了。



他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)

它要求模型在回答之前生成CoT,然后使用人类偏好训练的奖励模型来评价输出。

支持在基础模型上直接使用,甚至不需要SFT,可以大幅节省后训练成本



网友觉得,这种方法为通用强化学习设定了一个新基线:谁制定了偏好的定义,谁就是后训练时代的“新得分手”。



让小模型轻松超越大模型

RLVR(通过可验证奖励的强化学习)能够在数学、代码等任务中大幅提升模型的推理能力,但是在更开放的任务(比如写大纲、制定饮食计划)上的泛化能力有限,这些任务是人类日常推理的常见场景。

本文提出的RLMT就是证明,RLVR范式在可验证领域之外同样有效

它要求模型在生成回答之前输出长思维链(CoT),并利用基于人类偏好的奖励模型(与RLHF中相同)进行在线强化学习。



比如对于非数学代码问题,它依旧可以分步骤拆解:回顾→综合→关键主题→核心准则→举例→结构化回答。



比如在Wildbench(一个基于真实任务建立的基准)上,优化后的Qwen2.5-7B大幅领先其他模型。



它的训练流程如下:

给定一个用户提示x,模型先生成一个推理轨迹z,在推理基础上生成最终回答y,奖励模型r(x,y)对结果进行打分。

数学上,RLMT优化的目标是:



然后使用人类偏好奖励模型(论文中用的是Skywork-v2),对生成的回答在流畅性、相关性、逻辑性、创意等维度给出分数。

在优化算法方面,RLMT使用在线强化学习算法来更新模型参数,主要实验了DPO、PPO、GRPO,结果表明GRPO效果最好。但即使使用DPO/PPO,RLMT也始终优于RLHF。



训练数据来自于真实用户对话,避免像RLVR那样过度偏向数学/代码。

训练方式有两种:

  • Warm-start(带SFT预热):先使用少量SFT数据教会模型CoT格式,再用RLMT优化;
  • Zero(无SFT直接训练):在基础模型上直接加入固定前缀提示,让它学会“思考+回答”结构,通过RLMT强化最终也能超过instruct模型表现。

最终通过RLMT,模型在推理风格上更像人类思考:它自然学会了分组、约束分析、跨部分联系、迭代修正等,从而带来更高质量的对话和写作效果。



研究团队主要测试了Llama3.1-8B和Qwen2.5-7B两个模型的表现效果。

结果显示小模型经过RLMT训练可超越大模型,大幅简化后训练成本。



陈丹琦团队出品

本项研究一共三位作者:陈丹琦、Adithya Bhaskar、叶曦。

陈丹琦,普林斯顿大学计算机副教授,普林斯顿NLP小组负责人。最近加盟了Thinking Machines Lab。

她本科就读于清华大学“姚班”,2018年在斯坦福大学获得计算机科学博士学位,导师为Christopher Manning。曾获得诺奖风向标之称的斯隆奖。

她的研究方向主要是自然语言理解、知识表示与推理、问答系统、信息抽取、对话代理等。



研究一作为Adithya Bhaskar和叶曦。

Adithya Bhaskar现在是普林斯顿大学博三学生,师从陈丹琦。



叶曦是普林斯顿语言与智能研究所博士后。

本科毕业于清华大学,在奥斯汀大学获得博士学位。主要研究方向是NLP,重点在提高大语言模型的可解释性和推理能力。



论文地址:
https://arxiv.org/abs/2509.20357

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

每日经济新闻
2026-03-26 09:53:07
岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

红星新闻
2026-03-26 18:34:31
全线跳水!刚刚,伊朗发动攻击

全线跳水!刚刚,伊朗发动攻击

中国基金报
2026-03-26 16:15:26
斯柯达退出中国?大众中国回应:销售持续至年中,客户将持续获得全面售后支持

斯柯达退出中国?大众中国回应:销售持续至年中,客户将持续获得全面售后支持

澎湃新闻
2026-03-26 17:02:26
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
全国高速明天大调整!车主集体欢呼:早该这么干了

全国高速明天大调整!车主集体欢呼:早该这么干了

沙雕小琳琳
2026-03-26 02:05:39
心源性猝死人数逐渐增多,医生建议:少吃鸡肉,多喝7样增强免疫

心源性猝死人数逐渐增多,医生建议:少吃鸡肉,多喝7样增强免疫

垚垚分享健康
2026-03-26 16:09:56
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
32克金项链不翼而飞,闺蜜全程陪同报警勘察!警方:小偷就是……卖了3.4万元

32克金项链不翼而飞,闺蜜全程陪同报警勘察!警方:小偷就是……卖了3.4万元

环球网资讯
2026-03-26 13:30:10
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

刘蕳爱下厨
2026-03-24 17:29:01
参加世界杯,每人先交1.5万刀!特朗普政策影响多个世界杯参赛国

参加世界杯,每人先交1.5万刀!特朗普政策影响多个世界杯参赛国

全景体育V
2026-03-26 08:16:09
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
我国航空发动机领域著名专家严红病逝,年仅57岁

我国航空发动机领域著名专家严红病逝,年仅57岁

澎湃新闻
2026-03-26 11:40:26
张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

古希腊掌管松饼的神
2026-03-26 16:52:30
Manus的两名联合创始人被告知不要离开中国

Manus的两名联合创始人被告知不要离开中国

新浪财经
2026-03-26 13:50:59
张雪峰去世巨额遗产曝光,能给女儿留下多少钱?

张雪峰去世巨额遗产曝光,能给女儿留下多少钱?

蓝鲸新闻
2026-03-26 17:41:20
快讯!欧尔班的回旋镖来了!

快讯!欧尔班的回旋镖来了!

达文西看世界
2026-03-26 12:23:16
中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

好笑娱乐君每一天
2026-03-26 01:22:35
美国悬赏1000万美金,通缉一中国四川小伙,他到底做了什么?

美国悬赏1000万美金,通缉一中国四川小伙,他到底做了什么?

趣文说娱
2026-03-26 18:11:01
2026-03-26 19:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
旅游
房产
本地
公开课

皮衣+裙,高级到炸

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版