网易首页 > 网易号 > 正文 申请入驻

不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限

0
分享至

书理 投稿自 凹非寺
量子位 | 公众号 QbitAI

仅通过强化学习,就能超越DeepSeek!

上海AI Lab提出了基于结果奖励的强化学习新范式——

从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。

团队发现,当前大模型数学推理任务面临”三重门”困局:

  • 奖励困境:最终答案对错的二元反馈,使复杂推理的优化变得困难
  • 局部正确陷阱:长思维链中部分正确步骤反而可能误导模型学习
  • 规模依赖魔咒:传统蒸馏方法迫使研究者陷入”参数规模军备竞赛”

因此,研究团队重新审视了当前基于结果奖励的强化学习算法,经过严格的理论推导与证明,重新设计了一个新的结果奖励强化学习算法,并在这个过程中得出了三点重要结论:

  • 对于正样本:在二元反馈环境下,通过最佳轨迹采样(BoN)的行为克隆即可学习最优策略
  • 对于负样本:需要使用奖励重塑来维护策略优化目标的一致性
  • 对于长序列:不同的序列部分对结果的贡献不同,因此需要更细粒度的奖励分配函数,这个函数可以通过结果奖励习得

通俗来说,就是通过对正确样本模仿学习,错误样本偏好学习,关键步骤重点学习,无需依赖超大规模的模型(例如DeepSeek-R1)进行蒸馏,仅通过强化学习即可达到惊人的效果。

除此之外,团队也对不同起点模型进行了强化学习训练对比和分析,发现强化学习的起点模型训练数据分布对最终的模型效果也很重要。因此,研究团队将RL训练的数据、起点和最终模型一起完整开源,来推动社区的公平比较和进一步研究。项目链接已放文末。

从头设计结果奖励强化学习

针对数学推理任务中强化学习面临的奖励局部正确难题,团队提出新的策略优化框架OREAL

通过理论创新实现针对性的算法改进,在用实验说明“怎么做更好”之前,首先论证“为什么这么做更好”

正负样本奖励重塑,解决稀奖励困境

在数学推理任务的采样流程中,团队经过理论分析推导,提出核心见解:在二元反馈机制下,采样任意数量包含正确答案的BoN(Best-of-N)设置,其正确轨迹的分布具有一致性特征。这一发现表明,通过直接行为克隆(behaviorcloning)采样得到的正确轨迹,已经构成了正样本训练中的最优设置。

在对正样本做模仿学习的基础上,团队提出直接惩罚负样本会导致梯度偏差问题,对负样本的训练原则应当是维护优化梯度形式与学习BoN分布一致。通过深入分析正负样本的训练梯度,研究者们提出了基于平均准确率p的奖励重塑因子来维护上述一致性,为GRPO等算法的改进提供了理论依据。这种设置使模型既能有效吸收成功经验,又能精确识别关键错误边界,对训练性能有明显帮助。

结果奖励「因果溯源」,跳出局部正确陷阱

针对复杂的长推理链问题,OREAL创新性地设计了token重要性估计器。通过构建序列累计形式的奖励函数,我们将结果奖励逆向分解到每个推理步骤(见下面的token-level RM热力图)。这种方法能够精确定位核心错误步骤,在训练时实现更精细的梯度更新,显著提升了模型在长序列任务中的表现。

OREAL框架

将几项认知组合起来,团队提出的最优强化学习策略可以概括为:在正确样本上模仿学习,在错误样本上偏好学习,对关键步骤做重点学习。

通过合理的分析和实践,一步步将强化学习性能推到最佳水平。

强化学习超越蒸馏,摆脱规模依赖魔咒

团队在7B和32B两个规模的模型上仅使用4千条高质量训练样本进行了训练和测试,

在7B量级上,Oreal-7B在MATH-500上取得了91.0的pass@1准确率。这是首次通过强化学习而非蒸馏方法达到了如此高的精度。这一成绩不仅为基于RL的方法树立了新的里程碑,还超越了更大参数量的模型,包括QWQ-32B-Preview和OpenAI-O1-Mini。

此外,将Oreal应用于此前最佳的7B模型(DeepSeek-r1-Distill-Qwen-7B)后,得到的新模型OREAL-DSR1-Distill-Qwen-7B在MATH-500上取得了94.0的pass@1精度,创下了7B模型的记录。千问的基座,经过DeepSeek的蒸馏训练,再经过上海AI Lab的强化学习训练,达到了中国原创新高度。

对于32B模型,Oreal-32B在MATH-500上也达到了95.0的分数,超越了同级别的DeepSeek-r1-Distill-Qwen-32B,实现32B模型的新SOTA。

One More Thing

最后,研究团队还对比了不同基座模型下的性能表现,发现不同性能起点的策略模型RL后性能上限是不同的,起点模型越强,RL后的性能越好。

并且,尽管在多个基座模型上,大部分benchmark性能都会在RL后有所提升,偶尔也会出现持平(OREAL-32B在AIME2025-I)或者性能下降(相比于DSR1-Distill-Qwen-7B在AIME2024)。

研究认为,这些情况的出现可能与训练语料的质量、难度和数量等方面准备的不够充分有关,这也给未来的研究留下了空间。

因此,除了强大的RL算法,团队还提出两个关键因素对于RL在数学推理任务中的成功至关重要:

强大的起点模型是RL可以有效激发模型潜在能力的前提。

在RL阶段使用的数据也必须在质量、难度、数量和多样性方面都得到充分保证。高质量的数据集能够让模型通过面对广泛的挑战和学习机会,充分发挥其潜力。

模型数据全面开源,助力强化学习研究

研究团队同时也注意到,尽管DeepSeek-R1的出现引发了社区对于大语言模型强化学习的学习和研究热情,大家使用的训练起点模型、训练数据、训练算法和超参细节都不尽相同,影响了算法和模型性能的清晰比较。

因此,研究团队将整个RL训练过程中用到的训练数据、起点模型和RL后模型都进行了全面开源,训练代码也将开源到XTuner。

欢迎下载体验:

项目链接:
https://github.com/InternLM/OREAL
论文地址:
https://arxiv.org/abs/2502.06781
RL 训练数据链接:
https://huggingface.co/datasets/internlm/OREAL-RL-Prompts
系列模型地址:
https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

林子说事
2026-03-26 14:08:00
马上评|双双被罚,友谊赛不是“友尽赛”

马上评|双双被罚,友谊赛不是“友尽赛”

澎湃新闻
2026-03-25 16:16:26
电力人气股,涨停!9连板

电力人气股,涨停!9连板

新浪财经
2026-03-26 12:19:23
上海11连胜展最佳姿态!顶级外援激发本土球员效率,小偰成大赢家

上海11连胜展最佳姿态!顶级外援激发本土球员效率,小偰成大赢家

篮球资讯达人
2026-03-26 00:31:17
不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:32:21
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

丞丞故事汇
2026-03-26 10:43:34
张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

苗苗情感说
2026-03-26 09:33:59
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
山东“老头乐”公司起诉小米汽车,当事企业称已和解

山东“老头乐”公司起诉小米汽车,当事企业称已和解

界面新闻
2026-03-26 16:30:03
A股:今天跌破3900点了,做好准备,明天周五走势提前分析!

A股:今天跌破3900点了,做好准备,明天周五走势提前分析!

明心
2026-03-26 15:15:16
多名大学校长炮轰机器人跳舞是哗众取宠

多名大学校长炮轰机器人跳舞是哗众取宠

上峰视点
2026-03-25 19:07:57
怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

南风不及你温柔
2026-03-26 14:07:38
张雪峰去世仅1天,办公室内景曝光,写真照被指像遗照,摆设奇怪

张雪峰去世仅1天,办公室内景曝光,写真照被指像遗照,摆设奇怪

180视角
2026-03-26 08:43:01
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

阿龙美食记
2026-03-25 10:38:40
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
朝鲜为何突然禁播部分中国影视作品

朝鲜为何突然禁播部分中国影视作品

东方不败然多多
2026-03-26 05:21:44
2026-03-26 18:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
教育
艺术
公开课
军事航空

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

教育要闻

中小学家长必看数据,看与不看都会后悔

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版