网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋

0
分享至

机器之心报道

机器之心编辑部

太令人意外!

却又实至名归!

最新一期的 Nature 封面,竟然是 DeepSeek-R1 的研究。



也就是今年 1 月份 DeepSeek 在 arxiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。这篇Nature论文通讯作者正是梁文锋。



论文链接:https://www.nature.com/articles/s41586-025-09422-z

在封面的推荐介绍中,Nature 写到:

如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种『推理』与人类处理更复杂问题的方式类似,但这对人工智能有极大挑战,需要人工干预来添加标签和注释。在本周的期刊中,DeepSeek 的研究人员揭示了他们如何能够在极少的人工输入下训练一个模型,并使其进行推理。
DeepSeek-R1 模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。结果,它学会了推理——逐步解决问题并揭示这些步骤——更有可能得出正确答案。这使得 DeepSeek-R1 能够自我验证和自我反思,在给出新问题的答案之前检查其性能,从而提高其在编程和研究生水平科学问题上的表现。

此外,在这周期刊中,Nature 还盛赞 DeepSeek-R1 的这种开放模式。



值得注意的是,R1 被认为是首个通过权威学术期刊同行评审的大语言模型。

Hugging Face 的机器学习工程师、同时也是该论文审稿人之一的 Lewis Tunstall 对此表示:「这是一个备受欢迎的先例。如果缺乏这种公开分享大部分研发过程的行业规范,我们将很难评估这些系统的潜在风险。」

为回应评审意见,DeepSeek 团队不仅在论文中避免了对模型的拟人化描述,还补充了关于训练数据类型和安全性的技术细节。俄亥俄州立大学 AI 研究员 Huan Sun 评论道:「经历严格的同行评审,无疑能有效验证模型的可靠性与实用价值。其他公司也应效仿此举。」

显而易见,当前 AI 行业充斥着发布会上的惊艳演示和不断刷新的排行榜分数。

但正如文中所指,基准测试是可被「操控」的。将模型的设计、方法论和局限性交由独立的外部专家审视,能够有效挤出其中的水分。

同行评审充当了一个公正的「守门人」,它要求 AI 公司从「王婆卖瓜」式的自我宣传,转向用扎实的证据和可复现的流程来支持其声明。

因此,DeepSeek-R1 论文本身固然有其科学价值,但作为首个接受并通过主流期刊同行评审的 LLM,其「程序价值」可能更为深远。

可以预见的是,将 LLM 纳入独立的同行评审体系,是从「技术竞赛」迈向「科学纪律」的关键一步,对于遏制行业乱象、建立公众信任至关重要。

接下来,就让我们回顾下这篇重磅研究。但也建议大家细看下 Nature 上发表的论文,有更多补充细节



DeepSeek-R1的多阶段pipeline

以往的研究主要依赖大量的监督数据来提升模型性能。DeepSeek 的开发团队则开辟了一种全新的思路:即使不用监督微调(SFT)作为冷启动,通过大规模强化学习也能显著提升模型的推理能力。如果再加上少量的冷启动数据,效果会更好。

为了做到这一点,他们开发了 DeepSeek-R1-Zero。具体来说,DeepSeek-R1-Zero 主要有以下三点独特的设计:

首先是采用了群组相对策略优化(GRPO)来降低训练成本。GRPO 不需要使用与策略模型同样大小的评估模型,而是直接从群组分数中估算基线。

其次是奖励设计。如何设计奖励,决定着 RL 优化的方向。DeepSeek 给出的解法是采用准确度和格式两种互补的奖励机制。

第三点是训练模版,在 GRPO 和奖励设计的基础上,开发团队设计了如表 1 所示的简单模板来引导基础模型。这个模板要求 DeepSeek-R1-Zero 先给出推理过程,再提供最终答案。这种设计仅规范了基本结构,不对内容施加任何限制或偏见,比如不强制要求使用反思性推理或特定解题方法。这种最小干预的设计能够清晰地观察模型在 RL 的进步过程。



在训练过程中,DeepSeek-R1-Zero 展现出了显著的自我进化能力。它学会了生成数百到数千个推理 token,能够更深入地探索和完善思维过程。

随着训练的深入,模型也发展出了一些高级行为,比如反思能力和探索不同解题方法的能力。这些都不是预先设定的,而是模型在强化学习环境中自然产生的。

特别值得一提的是,开发团队观察到了一个有趣的「Aha Moment」。在训练的中期阶段,DeepSeek-R1-Zero 学会了通过重新评估初始方法来更合理地分配思考时间。这可能就是强化学习的魅力:只要提供正确的奖励机制,模型就能自主发展出高级的解题策略。

不过 DeepSeek-R1-Zero 仍然存在一些局限性,如回答的可读性差、语言混杂等问题。

利用冷启动进行强化学习

与 DeepSeek-R1-Zero 不同,为了防止基础模型在 RL 训练早期出现不稳定的冷启动阶段,开发团队针对 R1 构建并收集了少量的长 CoT 数据,以作为初始 RL actor 对模型进行微调。为了收集此类数据,开发团队探索了几种方法:以长 CoT 的少样本提示为例、直接提示模型通过反思和验证生成详细答案、以可读格式收集 DeepSeek-R1-Zero 输出、以及通过人工注释者的后处理来细化结果。

DeepSeek 收集了数千个冷启动数据,以微调 DeepSeek-V3-Base 作为 RL 的起点。与 DeepSeek-R1-Zero 相比,冷启动数据的优势包括:

  • 可读性:DeepSeek-R1-Zero 的一个主要限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏 markdown 格式来为用户突出显示答案。相比之下,在为 R1 创建冷启动数据时,开发团队设计了一个可读模式,在每个响应末尾包含一个摘要,并过滤掉不友好的响应。
  • 潜力:通过精心设计具有人类先验知识的冷启动数据模式,开发团队观察到相较于 DeepSeek-R1-Zero 更好的性能。开发团队相信迭代训练是推理模型的更好方法。

推理导向的强化学习

在利用冷启动数据上对 DeepSeek-V3-Base 进行微调后,开发团队采用与 DeepSeek-R1-Zero 相同的大规模强化学习训练流程。此阶段侧重于增强模型的推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中。

为了缓解语言混合的问题,开发团队在 RL 训练中引入了语言一致性奖励,其计算方式为 CoT 中目标语言单词的比例。虽然消融实验表明这种对齐会导致模型性能略有下降,但这种奖励符合人类偏好,更具可读性。

最后,开发团队将推理任务的准确率和语言一致性的奖励直接相加,形成最终奖励。然后对微调后的模型进行强化学习(RL)训练,直到它在推理任务上实现收敛。

拒绝采样和监督微调

当面向推理导向的强化学习收敛时,开发团队利用生成的检查点为后续轮次收集 SFT(监督微调)数据。此阶段结合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。

开发团队通过从上述强化学习训练的检查点执行拒绝采样来整理推理提示并生成推理轨迹。此阶段通过合并其他数据扩展数据集,其中一些数据使用生成奖励模型,将基本事实和模型预测输入 DeepSeek-V3 进行判断。

此外,开发团队过滤掉了混合语言、长段落和代码块的思路链。对于每个提示,他们会抽取多个答案,并仅保留正确的答案。最终,开发团队收集了约 60 万个推理相关的训练样本。

用于所有场景的强化学习

为了进一步使模型与人类偏好保持一致,这里还要实施第二阶段强化学习,旨在提高模型的有用性和无害性,同时完善其推理能力。

具体来说,研究人员使用奖励信号和各种提示分布的组合来训练模型。对于推理数据,遵循 DeepSeek-R1-Zero 中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程;对于一般数据,则采用奖励模型来捕捉复杂而微妙的场景中的人类偏好。

最终,奖励信号和多样化数据分布的整合使我们能够训练出一个在推理方面表现出色的模型,同时优先考虑有用性和无害性。

蒸馏:让小模型具备推理能力

为了使更高效的小模型具备 DeepSeek-R1 那样的推理能力,开发团队还直接使用 DeepSeek-R1 整理的 80 万个样本对 Qwen 和 Llama 等开源模型进行了微调。研究结果表明,这种简单的蒸馏方法显著增强了小模型的推理能力。

得益于以上多项技术的创新,开发团队的大量基准测试表明,DeepSeek-R1 实现了比肩业内 SOTA 推理大模型的硬实力,具体可以参考以下结果:





更多技术细节请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
13天10个涨停板!股民:不服不行!

13天10个涨停板!股民:不服不行!

数据挖掘分析
2026-02-11 15:16:44
A股:今天,2月11日,行情很反常,释放了两个信号!

A股:今天,2月11日,行情很反常,释放了两个信号!

明心
2026-02-11 11:49:19
赚流量也要有个限度!网红晒老婆产子过程,露胸、带货引人不适

赚流量也要有个限度!网红晒老婆产子过程,露胸、带货引人不适

削桐作琴
2026-02-10 19:06:38
笑不活了!手贱是种怎样的体验?网友:就多手一下,差点原地送走

笑不活了!手贱是种怎样的体验?网友:就多手一下,差点原地送走

夜深爱杂谈
2026-02-10 22:55:51
苏翊鸣妈妈全身名牌 优雅贵气

苏翊鸣妈妈全身名牌 优雅贵气

东方不败然多多
2026-02-11 13:00:16
揭秘中国十大食品造假!这些你天天吃的东西很多都是“科技狠活”

揭秘中国十大食品造假!这些你天天吃的东西很多都是“科技狠活”

房产衫哥
2026-02-10 18:08:06
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
这就是回家要脱裤子才能上床的原因!网友:看完天都塌了!

这就是回家要脱裤子才能上床的原因!网友:看完天都塌了!

夜深爱杂谈
2026-02-07 19:05:55
民进党发言人承认不敢宣布台独的原因:大陆有《反国家分裂法》

民进党发言人承认不敢宣布台独的原因:大陆有《反国家分裂法》

总在茶余后
2026-02-11 10:42:43
杨幂换座越扒越有!辛芷蕾倪妮聊天,嘴型疑似谈座位,表情太精彩

杨幂换座越扒越有!辛芷蕾倪妮聊天,嘴型疑似谈座位,表情太精彩

萌神木木
2026-02-10 18:08:28
一路走好!离春节仅剩1周,5位名人接连去世,最小20岁令人唏嘘

一路走好!离春节仅剩1周,5位名人接连去世,最小20岁令人唏嘘

青梅侃史啊
2026-02-10 17:09:08
10 万箱 1499 茅台空降山姆,新中产争相抢购,原因没那么简单!

10 万箱 1499 茅台空降山姆,新中产争相抢购,原因没那么简单!

阿莱美食汇
2026-02-09 21:43:58
93年毛远新出狱,看到长相出众的女儿很欣慰,得知残疾又泣不成声

93年毛远新出狱,看到长相出众的女儿很欣慰,得知残疾又泣不成声

雍亲王府
2026-02-08 18:15:07
突发!托卡耶夫重磅宣布,哈萨克斯坦换政体,彻底放弃超级总统制

突发!托卡耶夫重磅宣布,哈萨克斯坦换政体,彻底放弃超级总统制

爱意随风起呀
2026-02-11 07:08:21
下流!因孙颖莎挺胸动作,有龌龊球迷就讨论起了孙颖莎的身体发育

下流!因孙颖莎挺胸动作,有龌龊球迷就讨论起了孙颖莎的身体发育

凤幻洋
2026-02-11 14:00:11
东莞松山湖管委会原二级调研员方德佳被“双开”

东莞松山湖管委会原二级调研员方德佳被“双开”

南方都市报
2026-02-11 10:22:47
加密货币大溃败,币圈老人易理华一周亏光7亿美金

加密货币大溃败,币圈老人易理华一周亏光7亿美金

新浪财经
2026-02-10 14:16:08
别再用现金行贿受贿了!大数据一查就现形,全程 “裸奔” 藏不住

别再用现金行贿受贿了!大数据一查就现形,全程 “裸奔” 藏不住

复转这些年
2026-02-09 23:45:54
大爆冷!倒数第1擒东部第二送哈登神助攻 布伦森轰40+5+8成背景板

大爆冷!倒数第1擒东部第二送哈登神助攻 布伦森轰40+5+8成背景板

锅子篮球
2026-02-11 12:29:36
《黑神话:钟馗》播片脸模找到了!称自己非常幸运

《黑神话:钟馗》播片脸模找到了!称自己非常幸运

3DM游戏
2026-02-11 11:07:23
2026-02-11 15:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12287文章数 142565关注度
往期回顾 全部

科技要闻

痛失两位华裔大佬!马斯克为何留不住人心

头条要闻

韩国选手被美选手撞倒喊冤 韩国队员曾多次撞中国队员

头条要闻

韩国选手被美选手撞倒喊冤 韩国队员曾多次撞中国队员

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

汪峰吃惊!章子怡年前6天高调官宣喜讯

财经要闻

习酒节前价格雪崩控量稳价变空谈

汽车要闻

新势力车企,盈利的号角已经吹响

态度原创

健康
教育
旅游
家居
军事航空

转头就晕的耳石症,能开车上班吗?

教育要闻

女儿研究生毕业才知道,千万不要过分“炫耀”子女,福气会变味

旅游要闻

“诗画大理,如梦洱源”,茈碧湖镇的清晨果然美如仙境

家居要闻

简雅闲居 静享时光柔

军事要闻

特朗普:若美伊谈判失败 或再派一支航母打击群

无障碍浏览 进入关怀版