不蒸馏R1也能超越DeepSeek，上海 AI Lab 用RL突破数学推理极限|算法|轨迹|rl|上海市|deepseek

不蒸馏R1也能超越DeepSeek，上海 AI Lab 用RL突破数学推理极限

2025-02-16 12:14:14　来源: 量子位

北京举报

分享至

书理投稿自凹非寺
量子位 | 公众号 QbitAI

仅通过强化学习，就能超越DeepSeek！

上海AI Lab提出了基于结果奖励的强化学习新范式——

从Qwen2.5-32B-Base模型出发，仅通过微调和基于结果反馈的强化学习，在不蒸馏超大模型如DeepSeek-R1的情况下，就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。

团队发现，当前大模型数学推理任务面临”三重门”困局：

奖励困境：最终答案对错的二元反馈，使复杂推理的优化变得困难
局部正确陷阱：长思维链中部分正确步骤反而可能误导模型学习
规模依赖魔咒：传统蒸馏方法迫使研究者陷入”参数规模军备竞赛”

因此，研究团队重新审视了当前基于结果奖励的强化学习算法，经过严格的理论推导与证明，重新设计了一个新的结果奖励强化学习算法，并在这个过程中得出了三点重要结论：

对于正样本：在二元反馈环境下，通过最佳轨迹采样（BoN）的行为克隆即可学习最优策略
对于负样本：需要使用奖励重塑来维护策略优化目标的一致性
对于长序列：不同的序列部分对结果的贡献不同，因此需要更细粒度的奖励分配函数，这个函数可以通过结果奖励习得

通俗来说，就是通过对正确样本模仿学习，错误样本偏好学习，关键步骤重点学习，无需依赖超大规模的模型（例如DeepSeek-R1）进行蒸馏，仅通过强化学习即可达到惊人的效果。

除此之外，团队也对不同起点模型进行了强化学习训练对比和分析，发现强化学习的起点模型和训练数据分布对最终的模型效果也很重要。因此，研究团队将RL训练的数据、起点和最终模型一起完整开源，来推动社区的公平比较和进一步研究。项目链接已放文末。

从头设计结果奖励强化学习

针对数学推理任务中强化学习面临的稀疏奖励和局部正确难题，团队提出新的策略优化框架OREAL。

通过理论创新实现针对性的算法改进，在用实验说明“怎么做更好”之前，首先论证“为什么这么做更好”

正负样本奖励重塑，解决稀疏奖励困境

在数学推理任务的采样流程中，团队经过理论分析推导，提出核心见解：在二元反馈机制下，采样任意数量包含正确答案的BoN（Best-of-N）设置，其正确轨迹的分布具有一致性特征。这一发现表明，通过直接行为克隆（behaviorcloning）采样得到的正确轨迹，已经构成了正样本训练中的最优设置。

在对正样本做模仿学习的基础上，团队提出直接惩罚负样本会导致梯度偏差问题，对负样本的训练原则应当是维护优化梯度形式与学习BoN分布一致。通过深入分析正负样本的训练梯度，研究者们提出了基于平均准确率p的奖励重塑因子来维护上述一致性，为GRPO等算法的改进提供了理论依据。这种设置使模型既能有效吸收成功经验，又能精确识别关键错误边界，对训练性能有明显帮助。

结果奖励「因果溯源」，跳出局部正确陷阱

针对复杂的长推理链问题，OREAL创新性地设计了token重要性估计器。通过构建序列累计形式的奖励函数，我们将结果奖励逆向分解到每个推理步骤（见下面的token-level RM热力图）。这种方法能够精确定位核心错误步骤，在训练时实现更精细的梯度更新，显著提升了模型在长序列任务中的表现。

OREAL框架

将几项认知组合起来，团队提出的最优强化学习策略可以概括为：在正确样本上模仿学习，在错误样本上偏好学习，对关键步骤做重点学习。

通过合理的分析和实践，一步步将强化学习性能推到最佳水平。

强化学习超越蒸馏，摆脱规模依赖魔咒

团队在7B和32B两个规模的模型上仅使用4千条高质量训练样本进行了训练和测试，

在7B量级上，Oreal-7B在MATH-500上取得了91.0的pass@1准确率。这是首次通过强化学习而非蒸馏方法达到了如此高的精度。这一成绩不仅为基于RL的方法树立了新的里程碑，还超越了更大参数量的模型，包括QWQ-32B-Preview和OpenAI-O1-Mini。

此外，将Oreal应用于此前最佳的7B模型（DeepSeek-r1-Distill-Qwen-7B）后，得到的新模型OREAL-DSR1-Distill-Qwen-7B在MATH-500上取得了94.0的pass@1精度，创下了7B模型的记录。千问的基座，经过DeepSeek的蒸馏训练，再经过上海AI Lab的强化学习训练，达到了中国原创新高度。

对于32B模型，Oreal-32B在MATH-500上也达到了95.0的分数，超越了同级别的DeepSeek-r1-Distill-Qwen-32B，实现32B模型的新SOTA。

One More Thing

最后，研究团队还对比了不同基座模型下的性能表现，发现不同性能起点的策略模型RL后性能上限是不同的，起点模型越强，RL后的性能越好。

并且，尽管在多个基座模型上，大部分benchmark性能都会在RL后有所提升，偶尔也会出现持平（OREAL-32B在AIME2025-I）或者性能下降（相比于DSR1-Distill-Qwen-7B在AIME2024）。

研究认为，这些情况的出现可能与训练语料的质量、难度和数量等方面准备的不够充分有关，这也给未来的研究留下了空间。

因此，除了强大的RL算法，团队还提出两个关键因素对于RL在数学推理任务中的成功至关重要：

强大的起点模型是RL可以有效激发模型潜在能力的前提。

在RL阶段使用的数据也必须在质量、难度、数量和多样性方面都得到充分保证。高质量的数据集能够让模型通过面对广泛的挑战和学习机会，充分发挥其潜力。

模型数据全面开源，助力强化学习研究

研究团队同时也注意到，尽管DeepSeek-R1的出现引发了社区对于大语言模型强化学习的学习和研究热情，大家使用的训练起点模型、训练数据、训练算法和超参细节都不尽相同，影响了算法和模型性能的清晰比较。

因此，研究团队将整个RL训练过程中用到的训练数据、起点模型和RL后模型都进行了全面开源，训练代码也将开源到XTuner。

欢迎下载体验：

项目链接：
https://github.com/InternLM/OREAL
论文地址：
https://arxiv.org/abs/2502.06781
RL 训练数据链接：
https://huggingface.co/datasets/internlm/OREAL-RL-Prompts
系列模型地址：
https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.