网易首页 > 网易号 > 正文 申请入驻

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

0
分享至

机器之心报道

编辑:冷猫

思考自身行为的后果,并在必要时进行修正 —— 这是人类智慧的核心特征之一。

一个月前,我们曾报道过清华姚班校友、普林斯顿教授陈丹琦似乎加入 Thinking Machines Lab的消息。有些爆料认为她在休假一年后,会离开普林斯顿,全职加入 Thinking Machines Lab。

最近,陈丹琦在普林斯顿大学的团队发布了最新学术成果,表明了 RLVR 范式在可验证领域之外依然有效,提出了 基于模型奖励思维的强化学习(RLMT) 方法,它将显式的思维链推理融入通用聊天模型之中。



  • 论文标题:Language Models that Think, Chat Better
  • 论文链接:https://www.arxiv.org/overview/2509.20357v1

众所周知,大型语言模型传统上遵循一种多阶段训练范式:首先在大规模文本语料上进行 预训练,然后通过 监督微调 来学习指令跟随,最后借助 强化学习 来对齐人类偏好。

这种方法确实催生了功能强大的对话式 AI 系统,但仍存在一个关键局限:

在数学、编程等领域通过可验证奖励的强化学习(RLVR)所获得的推理能力,并不能有效迁移到通用对话任务上。

本文介绍了基于模型奖励的思维强化学习(RLMT)方法,它弥合了专门推理能力与通用对话能力之间的差距。该方法使语言模型能够在开放式任务中进行显式的「思考」过程,将 链式思维 的优势从可验证领域扩展到更广泛的范围,从而提升整体对话表现。



使用基于奖励模型的强化学习,在多样化的、通用的用户提示上训练具备长链式思维的语言模型。与 RLHF 相比,RLMT 让模型能够进行「思考」,并且将 RLVR 扩展到了更广泛的、开放式任务之中。

当前的大语言模型训练面临一个根本性的两难局面。像 DeepSeek-R1 所采用的 RLVR 方法,在数学推理和代码生成等领域表现突出,因为它们训练模型在给出最终答案之前生成显式的推理轨迹。然而,这类专门化的推理技能难以推广到日常对话中多样化、主观性强的任务场景里,因为这些任务缺乏可行的基于规则的验证机制。

与之相对,RLHF(基于人类反馈的强化学习) 在对齐模型与人类偏好、提升通用对话能力方面非常成功,但它将模型输出视为一个整体,并未鼓励模型发展内部推理过程。结果导致模型要么能在窄域内进行出色的推理,要么能在广域中进行自然对话,但难以同时兼顾两种能力。

RLMT(基于模型奖励的思维强化学习) 的动机来源于一个关键观察:人类在处理开放式对话任务时,自然而然会进行审慎思考—— 包括规划、权衡不同可能性、不断修正回答。若能让语言模型也采用类似的显式推理过程,就可能在保持基于偏好的对齐优势的同时,显著提升其在通用对话基准上的表现。



由使用 RLMT 训练的语言模型在开放式问题上生成的推理轨迹示例。

RLMT 方法: RLHF 与 RLVR 结合

优化目标

尽管最新的 RLVR 模型在形式化领域中表现出色,但它们在更广泛的推理问题和聊天基准测试中的泛化能力有限。与此同时,规划与推理确实有助于人类完成各种日常任务。

研究团队提出模型奖励思维强化学习(RLMT),以在开放式任务上施加广泛监督。RLMT 通过以下目标函数来优化语言模型:



如公式所示,RLMT 要求语言模型在生成最终回答 y 之前,先生成推理轨迹 z。这与 RLHF 不同;同时,RLMT 使用奖励模型 r 来对回答进行评分,而不像 RLVR 那样依赖基于规则的验证。

训练方法

由于当前使用的语言模型并不会自然采用所需的思维格式,因此研究团队尝试了两种方法来引导这一行为:

  1. 通过有监督微调(SFT)进行热启动;
  2. 直接对基础模型进行提示而不经过 SFT(即 DeepSeek-AI (2025) 提出的 「Zero」 方法)。

通过 SFT 热启动。 首先通过有监督微调(SFT)来教授模型所需的思维格式。

具体来说,团队从 Tülü 3 SFT 混合数据集中采样了 6k 个提示(与用于 RLMT 的提示互不重叠),用于 SFT。使用 Gemini 2.5 Flash (0417 Preview) 生成响应,它是近期常用的一种教师模型,用于从推理模型中蒸馏推理行为 。由于 Gemini 的 CoT 不可直接获取,通过提示它在生成最终回答之前,先产生一个模拟的思维轨迹。

基础模型的零训练。 研究团队也直接在未经热启动的基础模型上应用 RLMT,这一设置称为 Zero。

具体而言,在 Llama-3.1-8B (Llama3, 2024) 和 Qwen-2.5-7B (Qwen-2.5, 2025) 上进行了实验,这些模型都没有经历过后训练。在这种情况下,通过在输入前添加一个固定的指令前缀来引导所需的输出结构。除此之外,后续的 RL 训练过程与 RLMT 的设置保持一致。

结果:思维有利于开放式推理



基于 GRPO 的实验结果。

实验比较了在 Llama-3.1-8B 和 Qwen2.5-7B(base 和 instruct 版本)上进行热启动 与 zero 训练的模型。表中展示了是否启用「思维」,其中 ✓ 表示 RLMT 模型,× 表示 RLHF 模型。

可以看到,启用思维的模型在表现上优于非思维基线模型,尤其是在聊天和创意写作任务上。主要关注点是聊天基准测试:WildBench (WB)、AlpacaEval2 (AE2) 和 ArenaHardV2 (AH2)。在评估未经训练的 base 模型时,研究团队使用了 思维模板 和 非思维模板 (tpl) 两种提示方式。



表 2:将 Llama-3.1-8B-InstructRLMT 与强大的开源和闭源模型进行比较,包括 GPT-4o 和 Claude-3.7-Sonnet。



DPO/PPO 在 warm-start 和 zero training 设置下的结果。

从表中可以看到,Warm-start + RLMT 在 DPO/PPO 下依然有效,但整体落后于 GRPO;而在 zero training 设置下,DPO 和 PPO 相比 GRPO 效果明显不足。

RL 训练如何改变模型行为

研究团队分析思维模型(thinking models)在聊天基准测试上表现优异的原因。具体做法是,将 Llama-3.1-8B-Instruct-RLMT(最佳模型) 与其 仅 warm-start 但未经过 RLMT 的版本进行对比,结果发现:

  • SFT 模型的思维过程往往从分层规划开始(先列大纲、分小节、用 checklist 进行规划)。
  • RLMT 模型则更倾向于先列出约束条件和相关子主题,再将想法归为主题组,最后才规划具体细节。
  • 规划风格上,SFT 模型是线性的,而 RLMT 模型是迭代式的:会回头修订之前的部分,比如交叉引用已提及的观点。

这些差异反映出 优秀写作者的思维习惯,而 RLMT 的训练能自然地诱发这些特质,令人鼓舞。



左图:展示了 SFT 模型与 GRPO 模型在不同思维特征上的逐项对比胜率。红色表示该特征在经过 GRPO 训练后减弱,绿色表示该特征增强。右图:给出了一段推理行为示例。当被要求撰写一个推文串时,模型首先梳理出题目要求的各种约束条件,然后规划推文的整体展开顺序。接着,它会通过 checklist 对全局进行检查,并标注出需要修正之处,最后才生成最终输出。

总结


RLMT 成功地将显式推理的优势从专业化领域扩展到通用对话式人工智能,在保持计算效率的同时实现了显著的性能提升。该方法在不同模型架构、训练算法和评测基准上的有效性,表明它具有广泛的适用性,并有潜力重塑我们对语言模型训练的方式。通过让模型「先思考再表达」,RLMT 代表着迈向更智能、更强大的对话式人工智能系统的重要一步。

更多细节,请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

孤酒老巷QA
2026-03-24 05:34:17
姆巴佩正在步卡卡后尘,皇马赶快续约维尼修斯吧!

姆巴佩正在步卡卡后尘,皇马赶快续约维尼修斯吧!

刘笤说体坛
2026-03-26 08:57:48
余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

快科技
2026-03-24 15:22:21
前女友缅怀张雪峰,呼吁大家嘴下留德,曾自曝遭家暴污蔑才分手!

前女友缅怀张雪峰,呼吁大家嘴下留德,曾自曝遭家暴污蔑才分手!

古希腊掌管松饼的神
2026-03-25 15:38:23
男子买菜顺手买体彩!花4元中698万 先上班再领奖 现场捐2000元

男子买菜顺手买体彩!花4元中698万 先上班再领奖 现场捐2000元

念洲
2026-03-26 13:12:32
普通人一生的存款标准

普通人一生的存款标准

捣蛋窝
2026-03-21 11:14:00
NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

DeepTech深科技
2026-03-25 22:49:10
炸裂!张雪峰遗产分配爆出大瓜

炸裂!张雪峰遗产分配爆出大瓜

互联网品牌官
2026-03-26 12:21:26
轰21+10!湖人捡漏2米13悍将真香:年薪345万,变三巨头喂饼绝配

轰21+10!湖人捡漏2米13悍将真香:年薪345万,变三巨头喂饼绝配

李喜林篮球绝杀
2026-03-26 11:34:01
40年后才揭开谜底对越真相:越南真正的溃败始于许世友的3道军令

40年后才揭开谜底对越真相:越南真正的溃败始于许世友的3道军令

鉴史录
2026-03-22 10:01:56
王曼昱看到可能会心痛!张雪峰曾放话:迟早邀你做公司代言人

王曼昱看到可能会心痛!张雪峰曾放话:迟早邀你做公司代言人

铿锵格斗
2026-03-26 13:01:34
周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

掉了颗大白兔糖
2026-03-26 01:00:31
一字之差变味儿了!防止规模性返贫,被扭曲成“防止规模性返乡”

一字之差变味儿了!防止规模性返贫,被扭曲成“防止规模性返乡”

雪中风车
2026-03-05 14:10:29
原来她是张雪峰母亲,一生操劳全力托举儿子,却中年丧夫晚年丧子

原来她是张雪峰母亲,一生操劳全力托举儿子,却中年丧夫晚年丧子

以茶带书
2026-03-26 13:38:50
内塔尼亚胡话音刚落,城市就遭袭击,联合国出面后,以军目的曝光

内塔尼亚胡话音刚落,城市就遭袭击,联合国出面后,以军目的曝光

小小科普员
2026-03-26 14:03:46
千万不要小看F-35,虽然打不过歼-20,却是东风快递、红旗导弹的巨大威胁

千万不要小看F-35,虽然打不过歼-20,却是东风快递、红旗导弹的巨大威胁

利刃号
2026-02-02 19:07:20
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
湖人7分险胜!差点翻车原因揭晓,4人表现太拉胯,数据一目了然

湖人7分险胜!差点翻车原因揭晓,4人表现太拉胯,数据一目了然

余飩搞笑段子
2026-03-26 11:33:35
逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

凉湫瑾言
2026-03-23 13:29:51
2026-03-26 14:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
数码
家居
时尚
亲子

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

家居要闻

傍海而居 静观蝴蝶海

2026年了,最好看的还是“这件针织”!

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

无障碍浏览 进入关怀版