DeepSeek开源推理大模型R1：纯强化学习实现接近OpenAI o1水平|算法|数学|openai|deepseek

分享至

自此前发布了 DeepSeek-V3 和 R1-Preview-Lite 引发全网关注之后，DeepSeek 又发布了一项重磅成果。

1 月 20 日，DeepSeek 发布了全新的开源推理大模型 DeepSeek-R1，在数学、编程和推理等多个任务上达到了与 OpenAI o1 相当的表现水平，同时将应用程序编程接口（API，Application Programming Interface）调用成本降低了 90-95%。

更重要的是，这一模型的实验性版本 DeepSeek-R1-Zero 证明了仅通过强化学习（RL，Reinforcement Learning），无监督式微调（SFT，Supervised Fine-Tun-ing），大模型也可以有强大的推理能力。

英伟达高级研究科学家 Jim Fan 评价道：“我们正生活在一个特殊的时代：一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究，为所有人赋能。这看似不合常理，但最富戏剧性的往往最可能发生。DeepSeek-R1 不仅开源了大量模型，还公开了所有训练细节。

他们可能是首个展示出强化学习飞轮效应，并实现持续增长的开源项目。影响力的展现不一定要靠‘内部实现了 ASI’或‘草莓计划’这样神秘的名号，有时候直接公开原始算法和学习曲线同样可以产生深远影响。”

用 1/30 的价格比肩 OpenAI o1

性能评估结果显示，通过纯强化学习方法训练得到的 DeepSeek-R1-Zero 以及在此基础上改进的 DeepSeek-R1，在 2024 年 AIME（美国数学邀请赛）测试中分别取得了 71.0% 和 79.8% 的成绩，与 OpenAI o1 的 79.2% 水平相当。

在 MATH-500 基准测试中，DeepSeek-R1 更是以 97.3% 的成绩略微超越了 o1 的 96.4%。在编程领域，该模型在 Codeforces 平台上获得了 2029 的评分，超过了 96.3% 的人类程序员，与 o1-1217 的 2061 评分仅有小幅差距。

在通用知识评测方面，DeepSeek-R1 同样表现出色。在 MMLU（大规模多任务语言理解）测试中达到 90.8% 的准确率，虽然略低于 o1 的 91.8%，但显著优于其他开源模型。

在 MMLU-Pro 上取得 84.0% 的准确率，在 GPQA Diamond 测试中达到 71.5% 的通过率。在创意写作和问答任务上，模型在 AlpacaEval 2.0 中获得了 87.6% 的控长胜率，在 ArenaHard 评测中达到 92.3% 的胜率。

在 API 定价方面，DeepSeek 展现出极强的性价比优势。其 API 服务对输入 token 收取 0.55 美元/百万，输出 token 收取 2.19 美元/百万，而 OpenAI o1 的收费分别为 15 美元/百万和 60 美元/百万，价格差距接近 30 倍。

纯强化学习就能实现强大的推理能力

除了性能方面的出色，R1 的开发过程也具有多处重要创新，首先是纯强化学习训练策略的突破。

传统观点认为，必须先通过大量标注数据进行 SFT，才能让模型具备基础能力，之后才考虑使用 RL 进行能力提升。然而 DeepSeek 这项研究发现，大模型可以完全依靠强化学习获得强大的推理能力，无需任何监督式微调。

研究团队首先开发了实验性的 R1-Zero 版本。他们选择直接在 DeepSeek-V3-base 模型上应用强化学习，完全抛开了传统的监督式微调环节。这个大胆的尝试产生了惊人的效果：在完全没有人工标注数据的情况下，模型展现出了持续的自我进化能力。

以 AIME 2024 数学测试为例，模型的 pass@1 准确率从最初的 15.6% 开始，随着训练的深入不断提升。

每一轮强化学习都让模型变得更加智能，最终达到了 71.0% 的准确率，使用多数投票（majority voting）机制后更是提升至 86.7%，已经接近 o1-0912 的水平。

在这个过程中，研究人员观察到了一个有趣的现象：模型不仅在数字上有进步，更在行为模式上发生了质的飞跃。

它开始表现出类似人类的思维特征，会主动反思和验证自己的推理步骤。当发现当前的解题思路可能存在问题时，模型会停下来，重新审视之前的推理过程，然后尝试寻找新的解决方案。

这种行为完全是自发产生的，而不是通过人工设计实现的，研究人员将这一行为称之为模型的“顿悟时刻”（aha moment）。这表明模型可能已经具备了某种程度的“元认知”能力，能够对自身的思维过程进行监控和调整。

支撑这些突破的核心是团队开发的 GRPO（Group Relative Policy Optimization）算法框架。传统方法通常需要维护一个与主模型规模相当的 Critic 网络来估计状态值，这不仅增加了计算开销，还容易导致训练不稳定。而 GRPO 则另辟蹊径，移除了规模庞大的 Critic 网络，通过群组相对优势估计来优化策略网络。

当处理一个推理问题时，算法首先从当前策略 πθold 中采样多个输出 {o1, o2, ..., oG}。这些输出共同构成一个参考组，然后通过最大化以下目标来优化策略模型，其表达如下：

其中 Ai 表示输出 oi 的优势值，通过归一化组内奖励计算得到：

至于其奖励机制则包含三个互补的组件：评估输出正确性的准确性奖励、确保推理过程结构化的格式奖励，以及处理语言一致性的奖励信号。这三种奖励通过合理的权重组合，共同指导模型向着期望的方向演进。

例如，在数学问题中，准确性奖励来自答案的验证结果，而格式奖励则确保模型提供清晰的解题步骤。

训练模板则为整个学习过程提供了结构化的框架。它采用“思考-回答”的双阶段设计，要求模型首先在

标签中展示完整的推理过程，然后才能在

标签中给出最终答案。

这种设计不仅使模型的思维过程变得可追踪，还为奖励计算提供了明确的评估基准。无论是处理数学推理还是开放性问答，这个模板都展现出了良好的适应性。

这三个组成部分紧密配合，共同构建了一个有效的学习系统。通过 GRPO 框架的梯度估计，由奖励机制提供的清晰学习信号，以及训练模板确保的结构化输出，模型能够持续提升其推理能力，最终达到接近人类专家的水平。

冷启动下的强化学习

尽管 R1-Zero 在技术上取得了突破性进展，但它还存在一些问题，例如，DeepSeek-R1-Zero 在可读性差和语言混合方面存在局限。为了进一步提升模型性能，研究团队继续探索了 DeepSeek-R1，开发出一个完整的四阶段训练流程。

首先是冷启动阶段。团队收集了数千个高质量样本用于初步微调，这些样本来源广泛：一部分通过 few-shot 提示获取，包含详细的解题思路；另一部分来自 R1-Zero 的优质输出，经过人工筛选和标注；还有一部分是专门设计的复杂推理案例。这个阶段的关键是确保数据质量而不是数据量，为后续的强化学习奠定良好基础。

第二阶段是面向推理的强化学习。这个阶段继承了 R1-Zero 的训练框架，但做了重要改进。首先是引入了语言一致性奖励，这个设计源于一个实际问题：在多语言环境下，模型容易在推理过程中混用不同语言。通过计算目标语言单词的比例作为奖励信号，有效地解决了这个问题。

同时，团队对推理密集型任务进行了特别优化。在数学问题中，他们设计了基于规则的验证机制；在编程任务中，则使用自动化测试来评估代码质量。这些针对性的优化显著提升了模型在专业领域的表现。

第三阶段是拒绝采样与监督微调。这个阶段的创新之处在于使用已训练的 RL 模型来生成新的训练数据。团队采用了一个重要的筛选标准：只保留那些不仅答案正确，而且推理过程清晰的样本。这确保了数据的高质量，同时也保持了模型的推理能力。

在这个阶段，训练范围也扩展到了更广泛的领域，包括写作、问答、角色扮演等。这种扩展不是简单的任务堆积，而是经过精心设计的能力构建过程。团队发现，通用领域的训练能够反过来促进模型的推理能力，形成正向循环。

最后一个阶段是全场景强化学习。这个阶段的特点是将不同类型的奖励机制有机结合：对于数学、编程等结构化任务，使用基于规则的明确奖励；对于开放式问答、创意写作等主观任务，则采用基于模型的评估奖励。这种灵活的奖励机制使模型能够在保持推理能力的同时，提升通用任务的表现。

在整个训练过程中，团队还发现了一个重要现象：大模型通过强化学习获得的推理能力具有强大的可迁移性。他们使用 R1 生成的 80 万条训练数据对不同规模的模型进行知识蒸馏，结果令人意外。

最小的 Qwen-1.5B 模型在 AIME 上也达到了 28.9% 的准确率，这个成绩已经超过了一些大得多的基础模型。中等规模的 Qwen-7B 达到了 55.5% 的准确率，这意味着一个仅有 70 亿参数的模型就能解决相当复杂的数学问题。

而 Qwen-32B 在 AIME 上更是达到了 72.6% 的准确率，在 MATH-500 上达到了 94.3%，这些成绩都接近于原始的 R1 模型。这一发现具有重要的实践意义：它证明了我们可以通过知识蒸馏的方式，将大模型的高级能力有效地转移到更小的模型中，这为 AI 技术的实际应用提供了一条可行的路径。

目前，DeepSeek 已将模型完整开源，包括 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 的六个蒸馏模型（参数规模分别为 1.5B、7B、8B、14B、32B 和 70B）。这些模型均采用 MIT 许可（MIT License）发布在 Hugging Face 平台上（地址：https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb），可以免费商用、允许任意修改和衍生开发、支持进行二次蒸馏训练。

参考资料：

1.https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

2.https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/

3.https://x.com/DrJimFan/status/1881353126210687089

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.