网易首页 > 网易号 > 正文 申请入驻

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科

0
分享至

  • 梦晨 发自 凹非寺
    量子位 | 公众号 QbitAI

一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。

o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。

那么,想提升大模型在其他学科领域的能力该怎么办?

腾讯&苏州大学团队提出新框架RLVR,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科。

RLVR使用基于生成模型的软奖励,与传统基于二元规则的奖励相比,在泛化、稳健性和可扩展性方面有显著的提升。

除论文外,还开源了奖励模型和多学科数据集。

7B奖励模型搞定全学科

研究基于一个有趣的发现:当任务有客观参考答案时,不同大型语言模型在做二元判断(正确/错误)时表现出高度一致性。

这或许意味着,并不需要在每个领域都训练一个大规模的奖励模型。相反,直接用现成的大语言模型来充当验证器就能有效。

像这样的二元奖励虽然简单直接,但在参考答案缺乏结构化的领域又不直接适用。

于是研究团队进一步引入基于模型的软奖励(model-basedsoft scroing),相比直接给出0或1的二元硬标签,软奖励根据生成式验证器判断的置信度打分,有了更高的灵活性。

受启发于“大模型判断高度一致”的发现,团队用72B参数的Qwen2.5-Instruct蒸馏出一个7B的奖励模型。蒸馏过程不需要领域特定的标注,完全依靠在线探索阶段采集的数据进行训练。

整个过程分为3步流水线:

实验数据从ExamQA中随机采样了6000个问题,广泛分布于理工人文各学科。

实验对比基础模型(Base)、微调基础模型(SFT)、基于规则的RL、使用SFT模型作为验证器,以及本文蒸馏的RM-7B模型作为验证器的多种方法,有以下结论:

  • RM-7B在自由形式答案任务中表现出色
  • 基于模型的奖励在处理非结构化参考答案场景中优于基于规则的奖励
  • 软奖励在处理多学科任务中,面对复杂判断时比二元奖励表现更好

此外实验还验证了基于模型的奖励在数据量增加时可扩展性更好。

在讨论部分,作者指出本研究中未使用思维链推理(CoT),虽然CoT在有参考和无参考的场景中都有用,但对于评估同语言的参考答案和模型响应之间的语义等价性,深入的推理依据是否必要仍有待研究。此外,在RLVR的过程奖励建模中,当中间步骤缺乏直接监督时,如何分配奖励也是一个开放问题。

本研究也不对参考答案或模型响应设置格式约束,这样做好处是减少了数据标准化和模式设计的人力投入,但格式相关约束和奖励在这种情况下的作用仍需重新审视。

One More Thing

论文作者腾讯涂兆鹏发帖介绍了这篇文章,探讨强化学习是否可以扩展到数学和编码任务之外。

评论区有网友指出很有可能成立,因为不同的训练方法可以看成有不同边界条件的学习空间。

涂兆鹏也认为这个视角与RLVR方法的观点一致。

论文地址:
https://arxiv.org/abs/2503.23829

HuggingFace:
https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f


[1]https://x.com/tuzhaopeng/status/1906975869538914570

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台儿庄战役伤亡争议八十年,日方档案还原真实战况

台儿庄战役伤亡争议八十年,日方档案还原真实战况

磊子讲史
2026-05-26 14:22:17
11.5万个老旧小区或将被改造

11.5万个老旧小区或将被改造

21世纪经济报道
2026-05-28 23:19:32
悲催!杭州一女子嫌国企丈夫没本事,携42万存款离婚,鸡飞蛋打了

悲催!杭州一女子嫌国企丈夫没本事,携42万存款离婚,鸡飞蛋打了

火山詩话
2026-04-27 06:40:09
为老父亲做的桌面 Agent,不小心在 GitHub 霸榜一周

为老父亲做的桌面 Agent,不小心在 GitHub 霸榜一周

AI科技评论
2026-05-27 13:41:01
KTV的兴衰史,是七零八零后的社交消亡史

KTV的兴衰史,是七零八零后的社交消亡史

霹雳炮
2026-05-04 22:16:09
马斯克的用人哲学:一个员工有没有潜力,开会就能看出来,越是平庸的人,越会在这两个细节上暴露自己的“打工者思维”

马斯克的用人哲学:一个员工有没有潜力,开会就能看出来,越是平庸的人,越会在这两个细节上暴露自己的“打工者思维”

心理观察局
2026-05-25 07:20:34
《主角》结局:米兰坐牢,嘉禾电影明星,红兵秦娥结婚不见胡三元

《主角》结局:米兰坐牢,嘉禾电影明星,红兵秦娥结婚不见胡三元

八斗小先生
2026-05-28 14:21:19
“上当的都是农村父母!”中职女生穿廉价警服,毕业后只能做保姆

“上当的都是农村父母!”中职女生穿廉价警服,毕业后只能做保姆

妍妍教育日记
2026-05-28 10:05:08
特斯拉上线 FSD 订阅模式,月费 599 元?太假了!

特斯拉上线 FSD 订阅模式,月费 599 元?太假了!

新浪财经
2026-05-28 16:31:02
惊天反转,乌克兰战略彻底转向,要对俄罗斯全面去军事化

惊天反转,乌克兰战略彻底转向,要对俄罗斯全面去军事化

始于初见见
2026-05-24 23:23:34
2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

起喜电影
2026-05-23 11:24:35
退休后才明白:越是“不正经”的老人,晚年反而越有福气

退休后才明白:越是“不正经”的老人,晚年反而越有福气

艺鉴在线
2026-05-20 15:42:43
熬过劫难!日子一天比一天亮的3生肖,年底一算账,积蓄翻好几倍

熬过劫难!日子一天比一天亮的3生肖,年底一算账,积蓄翻好几倍

毅谈生肖
2026-05-28 12:36:54
郑州3名女子做整形手术后集体崩溃:嘴歪、斑秃、脸部变形,“变成了蛤蟆一样的青蛙脸”,整形机构工作人员一问三不知

郑州3名女子做整形手术后集体崩溃:嘴歪、斑秃、脸部变形,“变成了蛤蟆一样的青蛙脸”,整形机构工作人员一问三不知

极目新闻
2026-05-28 18:07:32
王金平喊话马英九,多名蓝要员跟进,金溥聪露马脚,赵少康尴尬了

王金平喊话马英九,多名蓝要员跟进,金溥聪露马脚,赵少康尴尬了

健身狂人
2026-05-29 00:08:53
中国电动汽车居然出了两叛徒,一个非法测绘,一个非法谈判

中国电动汽车居然出了两叛徒,一个非法测绘,一个非法谈判

过期少女致幻录
2026-05-28 05:21:49
台风“蔷薇”最新预报:可达强台风级!

台风“蔷薇”最新预报:可达强台风级!

台州交通广播
2026-05-29 01:11:34
Lisa世界杯歌曲遭抵制,歌词无关世界杯,全是物化女性的纸醉金迷

Lisa世界杯歌曲遭抵制,歌词无关世界杯,全是物化女性的纸醉金迷

芊手若
2026-05-28 12:43:59
长征结束后,毛主席一句“凡不是党员者,一律入党”背后的深意

长征结束后,毛主席一句“凡不是党员者,一律入党”背后的深意

芊芊子吟
2026-05-24 07:45:03
为什么都说今年榴莲大降价,但你还是没实现榴莲自由?

为什么都说今年榴莲大降价,但你还是没实现榴莲自由?

果壳
2026-05-27 16:14:30
2026-05-29 04:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
12701文章数 176471关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

从智驾兜底到自研4nm芯片,再到迪迪虾,比亚迪智能化战略凭什么封神?

态度原创

亲子
教育
手机
本地
公开课

亲子要闻

“家长听豆包给婴儿每顿只喂60ml奶”体重未增? 豆包回应

教育要闻

中考数学:很多同学表示无解题,思维太局限

手机要闻

红米K100 Pro Max与荣耀Magic9标准版,均传出新消息!

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版