4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开|算法|数学|推理|上下文

分享至

新智元报道

编辑：编辑部

【新智元导读】只用4500美元成本，就能成功复现DeepSeek？就在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，15亿参数模型直接吊打o1-preview，震撼业内。

强化学习迎来重大突破！

近日，来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B，通过简单的强化学习（RL）微调，得到了全新的DeepScaleR-1.5B-Preview。

在AIME2024基准中，模型的Pass@1准确率达高达43.1% ——不仅比基础模型提高了14.3%，而且在只有1.5B参数的情况下超越了OpenAI o1-preview！

目前，研究团队已开源数据集、代码和训练日志。

只用不到5000美元的预算，团队就复现了DeepSeek的成功。至此，开源又赢下一局。

网友们称赞：当机器学习和数学相遇，就是超强组合的诞生！

训练秘籍简版：先短后长

1.5B模型，通过RL训练，就能超越o1-preview，进行数学推理？

简而言之，团队这次的训练策略就是四个字——先短后长。

第一步，研究人员会训练模来型进行短思考。他们使用DeepSeek的GRPO方法，设定了8k的上下文长度来训练模型，以鼓励高效思考。

经过1000步训练后，模型的token使用量减少了3倍，并比基础模型提升了5%。

接下来，模型被训练进行长思考。强化学习训练扩展到16K和24K token，以解决更具挑战性、以前未解决的问题。

随着响应长度增加，平均奖励也随之提高，24K的魔力，就让模型最终超越了o1-preview！

DeepScaleR-1.5B-Preview

最近，Deepseek-R1开源发布，对推理模型技术普及来说，是个重要突破。不过，它具体的训练方法、超参数还有底层系统，都还没公开。

在扩展强化学习的时候，最大的难题之一就是计算成本太高。

就拿DeepSeek-R1的实验来说，要想完全复现，上下文长度得达到32K以上，训练大概8000步，就算是只有1.5B参数的模型，起码都得花70,000 GPU小时。

如何利用强化学习，把小型模型变成超厉害的推理模型呢？

为了解决这个问题，研究人员用了知识蒸馏模型，还创新性地引入了强化学习迭代延长方法。

团队推出了DeepScaleR-1.5B-Preview模型，它经过4万个高质量数学问题的训练，训练一共用了3800个A100 GPU小时。

最终，成本只需约4500美元，省了18.42倍！同时模型的性能还在几个竞赛级数学基准中，超过了o1-preview。

研究表明，用强化学习开发定制化的推理模型，既能大规模进行，还能控制成本，性价比超高！

AIME 2024测试集Pass@1准确率随训练进度而变：训练至第1040步，上下文长度扩至16K token；到第1520步，上下文长度增至24K token

技术方案

数据集构建

在训练数据集方面，研究人员收集了1984至2023年的美国国际数学邀请赛（AIME）、2023年之前的美国数学竞赛（AMC），以及来自Omni-MATH和Still数据集的各国及国际数学竞赛题目。

数据处理流程包含三个核心步骤：

答案提取：对于AMC和AIME等数据集，使用gemini-1.5-pro-002模型从AoPS官方解答中提取答案。
重复问题清理：基于RAG，并结合sentence-transformers/all-MiniLM-L6-v2的词向量嵌入来消除重复问题。同时，对训练集和测试集进行重叠检测，以防止数据污染。
不可评分题目过滤：数据集（如Omni-MATH）中的部分问题，无法通过sympy数学符号计算库评估（得靠LLM判断）。这不仅会降低训练速度，还会引入不稳定的奖励信号，因此需要增加额外的过滤步骤，来剔除无法自动评分的问题。

在经过去重和过滤之后，就得到了约4万个独特的问题-答案对作为训练数据集。

奖励函数设计

按Deepseek-R1的经验，用结果奖励模型（ORM）而不是过程奖励模型（PRM），来避免模型通过投机取巧得到奖励。

奖励函数返回值如下：

返回「1」：如果LLM的答案，既能通过LaTeX语法检查，又能通过Sympy数学验证，就给它奖励。
返回「0」：要是LLM的答案是错的，或者格式不对，比如少了和标记，那就不给奖励。

迭代增加上下文长度：从短到长的思维扩展

推理任务由于会生成比标准任务更长的输出，计算开销较大，这会同时降低轨迹采样（Trajectory Sampling）和策略梯度（Policy Gradient）更新的速度。

与此同时，上下文窗口大小翻倍，则会导致训练计算量至少增加2倍。

这种情况产生了一个根本性的权衡取舍：较长的上下文能为模型提供更充足的思维空间，但会显著降低训练速度；而较短的上下文虽然可以加快训练进度，但可能会限制模型解决那些需要长上下文的复杂问题的能力。

因此，在计算效率和准确性之间找到最佳平衡点至关重要。

基于Deepseek的广义近端策略优化（GRPO）算法的训练方案包含两个主要步骤：

首先，使用8K token的最大上下文长度进行强化学习训练，从而实现更有效的推理能力和训练效率。
随后，将上下文长度扩展到16K和24K token，使模型能够解决更具挑战性的、此前未能攻克的问题。

用8K上下文构建高效思维链推理

正式训练之前，先用AIME2024测试集对Deepseek-R1-Distilled-Qwen-1.5B模型进行评估，并分析它的推理轨迹数据。结果发现，错误答案里平均包含的token数量，是正确答案的三倍。这说明回答越长，越容易出错。

因此，直接采用长上下文窗口进行训练效率可能不高，因为大部分token都没有被有效利用。此外，冗长的回答还会表现出重复性模式，这表明它们并未对对思维链推理（CoT）产生实质性的贡献。

基于这些发现，团队决定先从8K token的上下文长度开始训练。在AIME2024测试里，获得了22.9％的初始准确率，只比原始模型低6%。

事实证明这个策略很有效：训练的时候，平均训练奖励从46％提高到了58％，平均响应长度从5500 token减少到了3500 token。

把输出限制在8K token以内，模型能更高效地利用上下文空间。如下表所示，不管是生成正确答案还是错误答案，token数量都大幅减少了。

在AIME准确率上，比原始基准模型还高了5%，用的token数量却只有原来的1/3左右。

扩展至16K token上下文，关键转折点出现

在大约1000步后，8K token运行中发生了一个有趣的变化：响应长度再次开始增加。然而，这却没有增加收益——输出准确率达到了平台期，并最终开始下降。

与此同时，响应截断比例从4.2%上升到了6.5%，这表明更多的响应在上下文长度的限制下被截断。

这些结果表明，模型试图通过「延长思考时间」来提高训练奖励。然而，随着更长的输出，模型越来越频繁地触及到8K token上下文窗口的上限，从而限制了性能的进一步提升。

研究人员意识到这是一个自然的过渡点，于是决定「放开笼子，让鸟儿飞翔」。

他们选择了在第1040步的检查点——即响应长度开始上升的地方——重新启动训练，并使用了16K上下文窗口。

这种两阶段的做法比从一开始就用16K token训练效率高得多：8K的预热阶段让平均响应长度保持在3K token而不是9K，这使得此阶段的训练速度至少提高了2倍。

在扩展上了下文窗口后，研究人员观察到训练奖励、输出长度和AIME准确率都呈现稳定提升趋势。经过额外的500步训练，平均输出长度从3.5K增加至5.5K token，AIME2024的Pass@1准确率达到了38％。

24K魔法，超越o1-preview

在16K token上下文环境下额外训练500步后，研究人员发现模型性能开始趋于平稳——平均训练奖励收敛在62.5％，AIME单次通过准确率徘徊在38％左右，输出长度再次呈现下降趋势。同时，最大输出截断比率逐渐升至2％。

为了最终推动模型性能达到o1级别，研究人员决定决定推出「24K魔法」——将上下文窗口扩大到24K token。

首先，将16K训练时的检查点设定在第480步，并重新启动了一个24K上下文窗口的训练。

随着上下文窗口的扩展，模型终于突破了瓶颈。在大约50步后，模型的AIME准确率首次超过了40%，并在第200步时达到了43%。24K的魔力发挥得淋漓尽致！

总体来看，训练历时约1750步。最初的8K阶段使用了8块A100 GPU进行训练，而16K和24K阶段则扩展到32块A100 GPU进行训练。

整个训练过程共耗时约3800个A100小时，相当于32块A100 GPU上运行了大约5天，计算成本约为4500美元。

研究人员用多个竞赛级别的数学评测基准来测试模型，像AIME 2024、AMC 2023、MATH-500、Minerva Math还有OlympiadBench。

这里报告的是Pass@1准确率，简单说，就是模型第一次就答对的概率。每个问题的结果，都是16次测试取平均值得到的。

将DeepScaleR和DeepSeek模型，以及近期专注推理任务强化学习的成果对比。DeepScaleR在所有评测里，都比基础模型强很多。

在AIME 2024测试中，成绩更是大幅提升了14.4％，整体性能也提高了8.1％。

DeepScaleR比最新模型的表现还好，像从7B参数模型微调来的rSTAR、Prime和SimpleRL。DeepScaleR只用1.5B参数，就达到了o1-preview的性能水平——这是模型效率的重大突破！

AIME准确率与模型规模对比，DeepScaleR实现性能与规模最佳平衡（帕累托最优）。

关键发现

很多人认为强化学习只对大型模型有用，其实强化学习在小型模型上也能发挥显著作用。

Deepseek-R1发现，直接在小型模型上用强化学习，效果不如知识蒸馏。在Qwen-32B模型上做对比实验，强化学习只能让AIME测试的准确率达到47％，但只用知识蒸馏就能达到72.6％。

不过，要是从更大的模型中，通过蒸馏得到高质量的SFT数据，再用强化学习，小模型的推理能力也能大幅提升。

研究证明了这一点：通过强化学习，小型模型在AIME测试中的准确率从28.9％提高到了43.1％。

不管是只用监督微调，还是只用强化学习，都没办法让模型达到最佳效果。只有把高质量的监督微调蒸馏和强化学习结合起来，才能真正发挥LLM的推理潜力。

之前的研究发现，强化学习直接在16K token的上下文环境里训练，和8K token比起来，效果并没有明显提升。这很可能是因为计算资源不够，模型没办法充分利用扩大后的上下文。

最近的研究也指出，模型回复太长，里面就会有很多冗余的推理内容，这些内容容易导致错误结果。本文的实验证实了这些发现。

团队先在较短的8K token上下文里，优化模型的推理能力，这样一来，后续在16K和24K token的环境里训练时，就能取得更快、更明显的进步。

这种一步一步增加长度的方法，能让模型在扩展到更长的上下文之前，先建立起稳定的推理模式，从而提高强化学习扩展上下文长度的效率。

核心贡献者

项目主页还展示了参与DeepScaleR设计的所有研究人员，其中有两位核心贡献者。

Michael Luo

Michael Luo目前是UC伯克利电气工程与计算机科学系（EECS）的博士生，导师是Ion Stoica教授。

在此之前，他获得了UC伯克利电气工程与计算机科学硕士和工商管理双学士学位。

他的研究兴趣主要在人工智能和系统领域。目前，其研究主要是为机器学习从业者构建可扩展的系统，以实现Sky Computing的愿景。

Sijun Tan（谭嗣俊）

谭嗣俊目前是UC伯克利计算机科学专业的三年级博士生，导师是Raluca Ada Popa。

此前，他在弗吉尼亚大学获得计算机科学和数学双学士学位，导师是David Wu和Yuan Tian。

他曾在Facebook AI Research（FAIR）实习过一段时间，并在蚂蚁集团担任过高级算法工程师。

他的研究领域涵盖机器学习、计算机安全和应用密码学。目前，其研究重点是增强通用型AI智能体的能力和鲁棒性。

参考资料：HNYZs

https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.