网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源推理大模型R1:纯强化学习实现接近OpenAI o1水平

0
分享至

自此前发布了 DeepSeek-V3 和 R1-Preview-Lite 引发全网关注之后,DeepSeek 又发布了一项重磅成果。

1 月 20 日,DeepSeek 发布了全新的开源推理大模型 DeepSeek-R1,在数学、编程和推理等多个任务上达到了与 OpenAI o1 相当的表现水平,同时将应用程序编程接口(API,Application Programming Interface)调用成本降低了 90-95%。

更重要的是,这一模型的实验性版本 DeepSeek-R1-Zero 证明了仅通过强化学习(RL,Reinforcement Learning),无监督式微调(SFT,Supervised Fine-Tun-ing),大模型也可以有强大的推理能力。

英伟达高级研究科学家 Jim Fan 评价道:“我们正生活在一个特殊的时代:一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究,为所有人赋能。这看似不合常理,但最富戏剧性的往往最可能发生。DeepSeek-R1 不仅开源了大量模型,还公开了所有训练细节。

他们可能是首个展示出强化学习飞轮效应,并实现持续增长的开源项目。影响力的展现不一定要靠‘内部实现了 ASI’或‘草莓计划’这样神秘的名号,有时候直接公开原始算法和学习曲线同样可以产生深远影响。”

用 1/30 的价格比肩 OpenAI o1

性能评估结果显示,通过纯强化学习方法训练得到的 DeepSeek-R1-Zero 以及在此基础上改进的 DeepSeek-R1,在 2024 年 AIME(美国数学邀请赛)测试中分别取得了 71.0% 和 79.8% 的成绩,与 OpenAI o1 的 79.2% 水平相当。

在 MATH-500 基准测试中,DeepSeek-R1 更是以 97.3% 的成绩略微超越了 o1 的 96.4%。在编程领域,该模型在 Codeforces 平台上获得了 2029 的评分,超过了 96.3% 的人类程序员,与 o1-1217 的 2061 评分仅有小幅差距。

在通用知识评测方面,DeepSeek-R1 同样表现出色。在 MMLU(大规模多任务语言理解)测试中达到 90.8% 的准确率,虽然略低于 o1 的 91.8%,但显著优于其他开源模型。

在 MMLU-Pro 上取得 84.0% 的准确率,在 GPQA Diamond 测试中达到 71.5% 的通过率。在创意写作和问答任务上,模型在 AlpacaEval 2.0 中获得了 87.6% 的控长胜率,在 ArenaHard 评测中达到 92.3% 的胜率。

在 API 定价方面,DeepSeek 展现出极强的性价比优势。其 API 服务对输入 token 收取 0.55 美元/百万,输出 token 收取 2.19 美元/百万,而 OpenAI o1 的收费分别为 15 美元/百万和 60 美元/百万,价格差距接近 30 倍。

纯强化学习就能实现强大的推理能力

除了性能方面的出色,R1 的开发过程也具有多处重要创新,首先是纯强化学习训练策略的突破。

传统观点认为,必须先通过大量标注数据进行 SFT,才能让模型具备基础能力,之后才考虑使用 RL 进行能力提升。然而 DeepSeek 这项研究发现,大模型可以完全依靠强化学习获得强大的推理能力,无需任何监督式微调。

研究团队首先开发了实验性的 R1-Zero 版本。他们选择直接在 DeepSeek-V3-base 模型上应用强化学习,完全抛开了传统的监督式微调环节。这个大胆的尝试产生了惊人的效果:在完全没有人工标注数据的情况下,模型展现出了持续的自我进化能力。

以 AIME 2024 数学测试为例,模型的 pass@1 准确率从最初的 15.6% 开始,随着训练的深入不断提升。

每一轮强化学习都让模型变得更加智能,最终达到了 71.0% 的准确率,使用多数投票(majority voting)机制后更是提升至 86.7%,已经接近 o1-0912 的水平。

在这个过程中,研究人员观察到了一个有趣的现象:模型不仅在数字上有进步,更在行为模式上发生了质的飞跃。

它开始表现出类似人类的思维特征,会主动反思和验证自己的推理步骤。当发现当前的解题思路可能存在问题时,模型会停下来,重新审视之前的推理过程,然后尝试寻找新的解决方案。

这种行为完全是自发产生的,而不是通过人工设计实现的,研究人员将这一行为称之为模型的“顿悟时刻”(aha moment)。这表明模型可能已经具备了某种程度的“元认知”能力,能够对自身的思维过程进行监控和调整。

支撑这些突破的核心是团队开发的 GRPO(Group Relative Policy Optimization)算法框架。传统方法通常需要维护一个与主模型规模相当的 Critic 网络来估计状态值,这不仅增加了计算开销,还容易导致训练不稳定。而 GRPO 则另辟蹊径,移除了规模庞大的 Critic 网络,通过群组相对优势估计来优化策略网络。

当处理一个推理问题时,算法首先从当前策略 πθold 中采样多个输出 {o1, o2, ..., oG}。这些输出共同构成一个参考组,然后通过最大化以下目标来优化策略模型,其表达如下:

其中 Ai 表示输出 oi 的优势值,通过归一化组内奖励计算得到:

至于其奖励机制则包含三个互补的组件:评估输出正确性的准确性奖励、确保推理过程结构化的格式奖励,以及处理语言一致性的奖励信号。这三种奖励通过合理的权重组合,共同指导模型向着期望的方向演进。

例如,在数学问题中,准确性奖励来自答案的验证结果,而格式奖励则确保模型提供清晰的解题步骤。

训练模板则为整个学习过程提供了结构化的框架。它采用“思考-回答”的双阶段设计,要求模型首先在

标签中展示完整的推理过程,然后才能在

标签中给出最终答案。

这种设计不仅使模型的思维过程变得可追踪,还为奖励计算提供了明确的评估基准。无论是处理数学推理还是开放性问答,这个模板都展现出了良好的适应性。

这三个组成部分紧密配合,共同构建了一个有效的学习系统。通过 GRPO 框架的梯度估计,由奖励机制提供的清晰学习信号,以及训练模板确保的结构化输出,模型能够持续提升其推理能力,最终达到接近人类专家的水平。

冷启动下的强化学习

尽管 R1-Zero 在技术上取得了突破性进展,但它还存在一些问题,例如,DeepSeek-R1-Zero 在可读性差和语言混合方面存在局限。为了进一步提升模型性能,研究团队继续探索了 DeepSeek-R1,开发出一个完整的四阶段训练流程。

首先是冷启动阶段。团队收集了数千个高质量样本用于初步微调,这些样本来源广泛:一部分通过 few-shot 提示获取,包含详细的解题思路;另一部分来自 R1-Zero 的优质输出,经过人工筛选和标注;还有一部分是专门设计的复杂推理案例。这个阶段的关键是确保数据质量而不是数据量,为后续的强化学习奠定良好基础。

第二阶段是面向推理的强化学习。这个阶段继承了 R1-Zero 的训练框架,但做了重要改进。首先是引入了语言一致性奖励,这个设计源于一个实际问题:在多语言环境下,模型容易在推理过程中混用不同语言。通过计算目标语言单词的比例作为奖励信号,有效地解决了这个问题。

同时,团队对推理密集型任务进行了特别优化。在数学问题中,他们设计了基于规则的验证机制;在编程任务中,则使用自动化测试来评估代码质量。这些针对性的优化显著提升了模型在专业领域的表现。

第三阶段是拒绝采样与监督微调。这个阶段的创新之处在于使用已训练的 RL 模型来生成新的训练数据。团队采用了一个重要的筛选标准:只保留那些不仅答案正确,而且推理过程清晰的样本。这确保了数据的高质量,同时也保持了模型的推理能力。

在这个阶段,训练范围也扩展到了更广泛的领域,包括写作、问答、角色扮演等。这种扩展不是简单的任务堆积,而是经过精心设计的能力构建过程。团队发现,通用领域的训练能够反过来促进模型的推理能力,形成正向循环。

最后一个阶段是全场景强化学习。这个阶段的特点是将不同类型的奖励机制有机结合:对于数学、编程等结构化任务,使用基于规则的明确奖励;对于开放式问答、创意写作等主观任务,则采用基于模型的评估奖励。这种灵活的奖励机制使模型能够在保持推理能力的同时,提升通用任务的表现。

在整个训练过程中,团队还发现了一个重要现象:大模型通过强化学习获得的推理能力具有强大的可迁移性。他们使用 R1 生成的 80 万条训练数据对不同规模的模型进行知识蒸馏,结果令人意外。

最小的 Qwen-1.5B 模型在 AIME 上也达到了 28.9% 的准确率,这个成绩已经超过了一些大得多的基础模型。中等规模的 Qwen-7B 达到了 55.5% 的准确率,这意味着一个仅有 70 亿参数的模型就能解决相当复杂的数学问题。

而 Qwen-32B 在 AIME 上更是达到了 72.6% 的准确率,在 MATH-500 上达到了 94.3%,这些成绩都接近于原始的 R1 模型。这一发现具有重要的实践意义:它证明了我们可以通过知识蒸馏的方式,将大模型的高级能力有效地转移到更小的模型中,这为 AI 技术的实际应用提供了一条可行的路径。

目前,DeepSeek 已将模型完整开源,包括 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 的六个蒸馏模型(参数规模分别为 1.5B、7B、8B、14B、32B 和 70B)。这些模型均采用 MIT 许可(MIT License)发布在 Hugging Face 平台上(地址:https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb),可以免费商用、允许任意修改和衍生开发、支持进行二次蒸馏训练。

参考资料:

1.https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

2.https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/

3.https://x.com/DrJimFan/status/1881353126210687089

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
房价上涨的最强信号!

房价上涨的最强信号!

米宅
2026-03-24 07:26:02
国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底

国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底

小小科普员
2026-03-25 19:25:13
20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

20年后再看《亮剑》:军事上漏洞百出,政治上莫名其妙

明月清风阁
2026-03-25 14:50:09
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
中国移动正式发布通知:全国将统一执行,4月30日起

中国移动正式发布通知:全国将统一执行,4月30日起

林子说事
2026-03-27 00:39:14
朗斯反对无效!法甲确认争冠战延期为大巴黎欧冠让路,2队仅差1分

朗斯反对无效!法甲确认争冠战延期为大巴黎欧冠让路,2队仅差1分

夏侯看英超
2026-03-27 01:37:53
中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

南宗历史
2026-03-25 16:04:15
银行内部提醒:今明两年慎存定期,这3个原因很现实

银行内部提醒:今明两年慎存定期,这3个原因很现实

小陆搞笑日常
2026-03-26 17:44:10
中央定调养老金调整方向!工龄增加设为一年3元,可行吗?

中央定调养老金调整方向!工龄增加设为一年3元,可行吗?

王五说说看
2026-03-24 07:06:10
FIFA系列赛新规:比赛需决出胜负 打平将互射点球

FIFA系列赛新规:比赛需决出胜负 打平将互射点球

体坛周报
2026-03-26 15:53:18
上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

错过美好
2026-03-24 23:41:07
打压其他球员!除非加入杜锋经纪公司,徐昕是最好的例子

打压其他球员!除非加入杜锋经纪公司,徐昕是最好的例子

篮球大陆
2026-03-26 14:26:19
A股:两个信息落地,明天,周五或会这样走了!

A股:两个信息落地,明天,周五或会这样走了!

明心
2026-03-26 16:35:30
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
外媒:以军对18个月大婴儿施酷刑,逼其父招供

外媒:以军对18个月大婴儿施酷刑,逼其父招供

观察者网
2026-03-24 13:44:04
“根本不敢上路”!深圳男子买全新百万豪车,修了15次还是坏的!很多车主受害

“根本不敢上路”!深圳男子买全新百万豪车,修了15次还是坏的!很多车主受害

南方都市报
2026-03-26 09:26:45
太可恨!飞机一落地上海,女孩立马报案!更多年轻受害人浮出水面……

太可恨!飞机一落地上海,女孩立马报案!更多年轻受害人浮出水面……

环球网资讯
2026-03-26 21:48:04
国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

零度眼看球
2026-03-26 07:23:48
欧盟威胁越南:若中方参与了…

欧盟威胁越南:若中方参与了…

观察者网
2026-03-25 15:19:16
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
2026-03-27 01:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514798关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
房产
数码
手机
时尚

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

400万人爱过的女孩,被黄谣网暴180天后

无障碍浏览 进入关怀版