网易首页 > 网易号 > 正文 申请入驻

梁文锋发表Nature封面论文:揭开DeepSeek-R1背后的科学原理——强化学习激励大模型推理能力

0
分享至

撰文丨王聪

编辑丨王多鱼

排版丨水成文

让 AI 模型像人类一样进行推理是一个长期且艰巨的挑战。大语言模型(LLM)已显示出一些推理能力,但其训练过程需要大量计算资源。通过人工提示引导可改进这类模型,促使其生成中间推理步骤,从而大为强化其在复杂任务中的表现。但这种方法会导致计算成本过高,且解决复杂问题能力仍然不足。

2025 年 1 月 20 日,一家来自中国杭州的初创公司深度求索(DeepSeek)发布了一款推理模型——DeepSeek-R1,该模型推理能力强大,而对算力的需求很低,因此使用成本大幅降低,在全世界科技界迅速引发关注。

2025 年 9 月 17 日,DeepSeek 研究团队在国际顶尖学术期刊Nature上发表了题为:DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning 的研究论文,梁文锋为论文通讯作者,该论文还被选为本期封面论文

该论文揭示了DeepSeek-R1 所采用的大规模推理模型训练方法,表明了大语言模型(LLM)的推理能力可通过纯强化学习(pure reinforcement learning)来提升,从而减少增强性能所需的人类输入工作量。这种方式训练出的大模型在数学、编程竞赛和 STEM 领域研究生水平问题等任务上,比传统训练的 LLM 表现更好。此外,这种大模型所展现的新兴推理模式能够被系统地用于指导和提升小模型的推理能力。

值得一提的是,论文补充文件中首次披露了DeepSeek-R1 的训练成本——仅仅 29.4 万美元,即使加上为打造DeepSeek-R1 所基于的基础模型所花费的 600 万美元,总金额也远低于同类模型动辄数千万美元的花费。

大语言模型(LLM)已经在多种推理任务上展现出了令人印象深刻的能力,但它们的成功通常严重依赖大量人类标注的推理示例。这不仅成本高昂,模型的能力也受限于人类提供的范例,无法探索更优越的、非人类式的推理路径。

而 DeepSeek 的研究团队通过纯强化学习(pure reinforcement learning)方法——模型在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,模型通过解决问题获得奖励,从而强化学习效果、激发出模型的推理能力,过程中无需任何人类标注的推理轨迹。

人类标注:成本与天花板并存

推理能力是人类智能的基石,使我们能够进行数学解题、逻辑推导和编程等复杂认知任务。近年来,AI 领域的研究表明,当大语言模型达到一定规模时,便会涌现出推理等高级能力。

思维链(CoT)提示是一种有效的增强方法,通过提供少量示例或简单提示(例如“让我们一步步思考”),引导模型生成中间推理步骤,从而显著提升其在复杂任务上的表现。模型也可以通过在后训练阶段学习高质量、多步推理轨迹来获得进一步增益。

但这些方法存在明显局限——依赖人类标注的推理轨迹,难以扩展且会引入认知偏差;模型被限制在模仿人类思维过程的框架内,性能天花板受限于人类提供的范例。

纯强化学习:让模型自主探索推理路径

为了应对这些问题,DeepSeek 团队旨在探索通过强化学习框架,让大语言模型以自我演进的方式发展推理能力,最小化对人类标注的依赖。

具体而言,该研究基于 DeepSeek-V3 Base 模型,采用组相对策略优化(GRPO) 作为强化学习框架。奖励信号仅基于最终预测与标准答案的正确性,对推理过程本身没有任何约束。

值得注意的是,该研究绕过了强化学习训练之前传统的监督微调(SFT)阶段。这是因为研究人员认为,人类定义的推理模式可能会限制模型探索,而受限的强化学习训练能更好地激励大模型推理能力的涌现。

通过这一过程,DeepSeek-R1-Zero模型自然发展出了多样且复杂的推理行为。例如,该模型倾向于生成更长的响应,融入验证、反思和替代方法的探索。

模型训练中的“顿悟时刻”

在研究过程中,研究人员观察到了一个有趣的现象:DeepSeek-R1-Zero 模型在训练过程中经历了一个“顿悟时刻”。在训练过程中的某个时刻,模型在反思中突然开始频繁使用“wait”这个词。这一时刻标志着模型推理过程的显著变化——表明了模型正在发展出类似人类的反思和自我监控能力。

卓越的性能表现

DeepSeek-R1-Zero 在美国数学邀请赛(AIME)2024 基准测试上表现出色,平均 pass@1 分数从最初的 15.6% 大幅跃升至 77.9%。通过使用自一致性解码,模型的性能可以进一步提升,达到 86.7% 的准确率,这一表现大大超过了所有人类参赛者的平均水平。

除了数学竞赛,DeepSeek-R1-Zero 在编程竞赛以及研究生水平的生物、物理和化学问题中也取得了显著表现。

从 Zero 到 R1:多阶段训练提升综合能力

尽管 DeepSeek-R1-Zero 展现出强大的推理能力,但也面临一些挑战,例如可读性差和语言混合问题(在同一响应中混合使用英文和中文)。

此外,DeepSeek-R1-Zero 基于规则的强化学习训练阶段专注于推理任务,而在写作和开放域问答等更广泛领域表现有限。

为了解决这些挑战,研究人员开发了DeepSeek-R1,该模型通过多阶段学习框架训练而成,整合了拒绝采样、强化学习和监督微调。

这一训练流程使 DeepSeek-R1 能够继承 DeepSeek-R1-Zero 的推理能力,同时通过进一步的非推理数据使模型行为与人类偏好对齐。

伦理与安全考量

随着 DeepSeek-R1 推理能力的提升,研究团队也深入认识到其潜在的伦理风险。例如,DeepSeek-R1 可能受到越狱攻击,导致生成危险内容,而增强的推理能力使模型能够提供更具操作可行性和可执行性的计划。

此外,开源的模型也容易受到进一步微调,从而损害内在的安全保护措施。研究表明,DeepSeek-R1 模型的固有安全水平与其他最先进模型相比处于中等水平(与 GPT-4o 相当),当与风险控制系统结合时,模型的安全水平可提升至卓越标准。

未来展望与挑战

DeepSeek-R1 在推理基准测试中取得了前沿成果,但仍面临一些能力限制:

1、结构化输出和工具使用:目前的结构化输出能力不及现有模型,且无法使用搜索引擎和计算器等工具来改进输出性能;

2、标记效率:虽然能够根据问题复杂度动态分配计算资源,但在响应简单问题时仍存在“过度思考”现象;

3、语言混合:当前主要针对中文和英文优化,处理其他语言查询时可能出现语言混合问题;

4、提示工程:对提示词敏感,少样本提示会持续降低其性能;

5、软件工程任务:由于评估时间长,大规模强化学习尚未广泛应用于软件工程任务。

纯强化学习方法本身也存在固有挑战,特别是奖励黑客问题——模型可能会找到捷径来“黑客”奖励模型,而不是真正提高解决问题的能力。

结语

DeepSeek-R1 系列模型的研究表明,预训练检查点本身就具有解决复杂推理任务的巨大潜力。解锁这种潜力的关键不在于大规模人类标注,而在于提供困难的推理问题、可靠的验证器以及足够的强化学习计算资源。

高级推理行为,例如自我验证和反思,似乎在强化学习过程中有机地涌现出来。这一研究为未来开发更自主、自适应的大语言模型铺平了道路,有望在多种需要复杂推理的领域实现突破。

随着 DeepSeek-R1 等纯强化学习方法的发展,未来有望解决任何可以被验证器有效评估的任务,无论这些任务对人类来说多么复杂,配备这种先进强化学习技术的机器有望通过这些领域超越人类能力。

论文链接

https://www.nature.com/articles/s41586-025-09422-z

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
埃尔多安说海湾国家通往公海的通行权不应受限

埃尔多安说海湾国家通往公海的通行权不应受限

新华社
2026-04-17 23:48:01
曝孙杨强势逼妻子道歉,妻子崩溃大哭,朱丹吐槽,孙丞潇被吓傻

曝孙杨强势逼妻子道歉,妻子崩溃大哭,朱丹吐槽,孙丞潇被吓傻

王觪晓
2026-04-17 15:01:17
西蒙尼:我现在没心思想阿森纳,这场失利让我很难受

西蒙尼:我现在没心思想阿森纳,这场失利让我很难受

懂球帝
2026-04-19 08:09:39
贵州36岁刘伟去世,长得帅气在银行上班,嘴唇明显发紫,妈妈哭晕

贵州36岁刘伟去世,长得帅气在银行上班,嘴唇明显发紫,妈妈哭晕

社会日日鲜
2026-04-18 13:15:41
哈里梅根本周操作:一场精准的情绪收割

哈里梅根本周操作:一场精准的情绪收割

晚风也遗憾
2026-04-17 08:53:45
遭狂嘘!21岁弃将反戈曼联献灾难表现 3射0正 2次业余失误看笑了

遭狂嘘!21岁弃将反戈曼联献灾难表现 3射0正 2次业余失误看笑了

我爱英超
2026-04-19 06:22:03
学生的瓜能有多炸裂,网友的分享一个比一个逆天!

学生的瓜能有多炸裂,网友的分享一个比一个逆天!

黯泉
2026-04-18 13:31:58
难过啊!80后男人的葬礼上,出殡草草了事,家人连一声痛哭都没有

难过啊!80后男人的葬礼上,出殡草草了事,家人连一声痛哭都没有

火山詩话
2026-04-18 16:26:38
越南迎来公务员下岗潮,数十万人铁饭碗不保,越南要做什么?

越南迎来公务员下岗潮,数十万人铁饭碗不保,越南要做什么?

琴琴有氧运动
2026-04-17 23:36:42
比尔盖茨唯一重仓的A股科技股,净利润11年暴增300倍,PE20倍出头

比尔盖茨唯一重仓的A股科技股,净利润11年暴增300倍,PE20倍出头

长风价值掘金
2026-04-18 22:11:49
搭载40名中国游客大巴在俄罗斯翻车,或因司机打盹儿致车辆失控

搭载40名中国游客大巴在俄罗斯翻车,或因司机打盹儿致车辆失控

红星新闻
2026-04-18 19:08:29
演员杨蓉晒烫伤后疤痕恢复照,称“带疤的脸很酷”

演员杨蓉晒烫伤后疤痕恢复照,称“带疤的脸很酷”

韩小娱
2026-04-18 16:13:04
200名中企工人海外务工被欠薪,向普京求援,俄方:已解约不担责

200名中企工人海外务工被欠薪,向普京求援,俄方:已解约不担责

杰丝聊古今
2026-04-18 15:44:36
不会干,你就别干了!中国勒令马士基停运,巴拿马的反应很有意思

不会干,你就别干了!中国勒令马士基停运,巴拿马的反应很有意思

青桅
2026-04-19 05:09:38
此地无银?索马里议员奥马尔将资产从3000万变成9.5万美元

此地无银?索马里议员奥马尔将资产从3000万变成9.5万美元

大洛杉矶LA
2026-04-19 03:34:13
交警提醒:2026新交规落地,2分彻底取消,这4类行为直接扣满12分

交警提醒:2026新交规落地,2分彻底取消,这4类行为直接扣满12分

复转这些年
2026-04-18 12:59:02
男子偷走妈祖庙里的黄金耳环,给自家供奉的妈祖戴上:“想到我家妈祖没有耳环”!

男子偷走妈祖庙里的黄金耳环,给自家供奉的妈祖戴上:“想到我家妈祖没有耳环”!

落纸生花创意手工
2026-04-02 12:07:08
蔡磊妻子段睿半夜悲痛发文:明知没有机会了,偏要赌他会等我回来

蔡磊妻子段睿半夜悲痛发文:明知没有机会了,偏要赌他会等我回来

乐天闲聊
2026-04-19 07:05:22
广东惨遭18分逆转疑似放水!专家暗示打假球:杜锋为季后赛挑对手

广东惨遭18分逆转疑似放水!专家暗示打假球:杜锋为季后赛挑对手

篮球快餐车
2026-04-19 06:11:53
光通信风口转向:别盯光模块,MLCC才是下一个核心主线

光通信风口转向:别盯光模块,MLCC才是下一个核心主线

普陀动物世界
2026-04-18 20:12:11
2026-04-19 09:00:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
9227文章数 145055关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

女子与情人在车上发生关系后被杀 还被灌农药伪造殉情

头条要闻

女子与情人在车上发生关系后被杀 还被灌农药伪造殉情

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

刘德华回应潘宏彬去世,拒谈丧礼细节

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

本地
教育
时尚
游戏
军事航空

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

教育要闻

中考数学真题,别想太简单了

选对发型,真的能少走很多变美弯路

让老粥批直呼“计划有变”的岁兽代理人,到底是什么东西?

军事要闻

解放军护卫舰与外舰缠斗20小时 细节披露

无障碍浏览 进入关怀版