网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek-R1登上Nature封面:朝着AI透明化迈出的可喜一步

0
分享至

开源人工智能(AI)的价值正获得更广泛的认可。

刚刚,DeepSeek-R1 论文以封面文章的形式登上了权威科学期刊Nature,DeepSeek 创始人兼 CEO 梁文峰为该论文的通讯作者。

论文链接:

https://www.nature.com/articles/s41586-025-09422-z

研究团队假设,人类定义的推理模式可能会限制模型的探索,而无限制的强化学习(RL)训练可以更好地激励大语言模型(LLM)中新推理能力的涌现

他们通过实验证明,LLM 的推理能力可以通过纯 RL 来提升,从而减少增强性能所需的人类输入工作量,且在数学、编程竞赛和 STEM 领域研究生水平问题等任务上,比经传统方法训练的 LLM 表现更好。

DeepSeek-R1 推出后,得到了全球开发者的广泛好评,截至发文前,其在 GitHub 上的 star 数已经达到了 91.1k。

在一篇同期发表的观点与评论文章中,卡内基梅隆大学助理教授Daphne Ippolito和他的博士生张益铭(现为 Anthropic 的 LLM 安全和对齐研究员)评价道:

“DeepSeek-R1 已从一个强大但不透明的解决方案寻找者,发展成一个能够进行类人对话的系统。这一历程反映了(人类)对 AI 系统的需求,这些系统不仅要准确地解决问题,还要成为人类可以理解、信任并能进行有意义协作的工具。”

文章链接:

https://www.nature.com/articles/d41586-025-02703-7

此外,

Nature
也在 Editorial 文章中肯定了这项工作,“DeepSeek-R1 是第一个在经过同行评审后发表的主流 LLM,这是朝着透明化迈出的可喜一步”。

文章链接:

https://www.nature.com/articles/d41586-025-02979-9

他们一针见血地指出,经同行评审的论文发表有助于澄清 LLM 的工作原理,并帮助评估它们是否“货真价实”(whether they do what they purport to do)。


DeepSeek-R1 背后的科学

人类定义的推理模式可能会限制模型的探索,而无限制的 RL 训练可以更好地激励 LLM 中新推理能力的涌现。

让机器像人类一样进行通用推理,一直是 AI 领域的核心难题。

尽管思维链(CoT)等方法能够有效提升 LLM 的推理表现,但严重依赖人工标注,不仅扩展性差,还可能因人类的认知偏差而限制模型自身的潜能,使其无法探索更优的、非人类的推理路径

DeepSeek-R1 的重要意义在于,它证明了通过纯粹的 RL 即可激发 LLM 的推理能力,而无需依赖人工标注的推理过程(数据)。

不同于基于提示的方法和监督学习等早期方法,研究团队提出了一种新范式——在 RL 框架中,以最小化对人工标注的依赖,探索 LLM 通过自我演化来发展推理能力的潜力。

基于提示的方法 vs. 监督学习 vs. RL 正如 Ippolito 等人所比喻的,RL 算法的工作方式类似于人类玩家学习玩电子游戏的过程:玩家在游戏世界中操作角色,通过不断试错发现哪些行为会带来奖励——例如“收集金币”可以增加分数,而“撞到敌人”则会让分数归零。 相比之下,基于提示的方法更像是让他们通过阅读说明书来学会玩游戏,而监督学习则像让他们观察其他玩家玩游戏数百次,试图通过模仿掌握游戏技巧。

他们发现,当 LLM 通过 RL 的试错过程被训练以产生正确答案时,它会自然而然地学会输出其推理过程。

考虑到数学和编程问题通常有可验证的答案,他们通过创建一个评分系统来帮助 DeepSeek-R1 在训练过程中进行改进——回答正确得高分,反之得低分

在具体实现上,他们提出了一个名为“群体相对策略优化”(GRPO)的 RL 算法,并基于基础模型 DeepSeek-V3 Base 训练了 DeepSeek-R1-Zero、DeepSeek-R1 等模型。

图|RL 框架

从 DeepSeek-V3 Base 开始,通过涉及拒绝采样RL监督微调(SFT)的多阶段 pipeline,研究团队先后训练了 DeepSeek-R1-Zero、DeepSeek-R1 Dev1、DeepSeek-R1 Dev2、DeepSeek-R1 Dev3 和最终的 DeepSeek-R1。

图|DeepSeek-R1 的多阶段 pipeline

据论文描述,DeepSeek-R1-Zero自然演化出了多样且复杂的推理行为。在解决推理问题时,模型倾向于生成更长的响应,其中包含验证、反思和替代方案的探索。这表明,模型通过 RL 能够成功地学会更优的推理策略

然而,DeepSeek-R1-Zero依然存在一些局限,比如“输出可读性差”和“语言混用”等。而且,由于其基于规则的 RL 训练阶段仅聚焦于推理任务,在写作和开放域问答等更广泛场景中的表现较差。

为此,研究团队通过随后的多个训练阶段进一步强化了 DeepSeek-R1 系列模型的综合能力。具体而言:

  • DeepSeek-R1 Dev1:相较于 DeepSeek-R1-Zero,指令遵循能力提升;

  • DeepSeek-R1 Dev2:在代码、数学和 STEM 等领域,高级推理能力进一步增强;

  • DeepSeek-R1 Dev3:引入大规模非推理语料和代码工程数据,推理与通用语言生成能力得到提升;

  • DeepSeek-R1:推理能力强,且行为与人类偏好对齐。

最后,他们在 MMLU、MMLU-Pro、C-Eval、GPQA Diamond、SimpleQA、SWE-bench Verified、LiveCodeBench 和 AIME 2024 等 21 个主流 benchmark 上分别对 DeepSeek-R1 等模型进行了评估。

如下表,DeepSeek-R1 几乎在所有 benchmark 上均取得了更好的成绩。这些结果验证了这一 RL 框架的有效性。

图|DeepSeek-R1 每个训练阶段的评测结果

此外,研究团队还表示,这一 RL 框架有助于形成一些高级的、涌现的推理模式,如自我反思验证动态策略适应。而且,这些涌现出的推理模式还可以被系统地用于指导和增强小型模型的推理能力。

启示:亟需遏制 AI 行业的过度炒作

考虑到这项技术已无处不在,未经证实的言论对社会而言是切实的风险。

除了 DeepSeek-R1 的在科学层面的研究意义,

Nature
在 Editorial 文章中着重探讨 了一个业内讨论不够多的问题 :

绝大多数被广泛使用并正在迅速颠覆人类获取知识方式的 LLM,都尚未经过独立同行评审,这是一个值得注意的「缺失」。

他们称,DeepSeek-R1 论文的发表“是朝着透明化迈出的可喜一步。”

据介绍,DeepSeek-R1 的原创性、方法论和鲁棒性,已接受八位人类专家的评审。论文将与评审报告及作者回复一同发表。“在一个常常充斥未经验证主张和炒作的行业中,这无疑是迈向透明性与可重复性的重要一步。”


Nature
方面认为,与在预印本 arXiv 发表论文不同,参与同行评审的外部专家不再是单向接收信息,而是在一个由独立第三方监督和管理的协作过程中提问并请求更多信息。“虽然这不总能带来重大改变,但可以增加研究的信任度。对于 AI 开发者而言,这意味着他们的工作得到了‘权威背书’,从而在不同社区中更具公信力。”

同时,同行评审还起到了制衡作用,避免 AI 开发者通过挑选最有利于自己模型的基准测试而“自我打分”。这是因为,基准测试是可以被操控的。例如,如果训练数据中包含测试题目和答案,模型就可能提前学会正确回答,从而导致其能力被高估。

此外,同行评审还可以促成论文的其他重要修改,其中之一是确保作者对模型的安全性有所回应。AI 的安全性意味着要避免意料之外的有害后果,包括缓解输出中的固有偏见,以及增加防护措施以避免 AI 被用于网络攻击。

一些人认为开源模型比专有模型更不安全,因为一旦用户下载,它们就脱离了开发者的控制。不过,开源模型也让更广泛的社区能够理解并修复缺陷

例如,DeepSeek-R1 的审稿人指出,论文缺少关于安全性测试的信息——并未评估基于 R1 构建一个不安全模型的难易程度。作为回应,研究团队在论文中添加了重要细节,包括一个专门的章节,介绍了他们如何评估模型的安全性并将其与竞争模型进行比较。

鉴于 DeepSeek-R1 是一个开放权重模型,任何研究人员和公众都可以不受限制地自由下载、使用、测试和在其基础上进行开发,因此其安全问题不容忽视。

在 Editorial 文章的最后,

Nature
呼吁道,希望更多的 AI 公司将其模型提交给出版物评审。“评审并不意味着让外界接触公司的秘密,而是要准备好用证据支持你的言论,并确保相关主张得到验证和澄清。”

如今,伴随着国内外 AI 行业的白热化竞争,一些模型厂商在投入巨大资金的同时,忽视了数据偏见、模型安全等问题,甚至存在主动刷榜、夸大模型能力的行为,“对社会而言是切实的风险”(a real risk for society)。

或许正如

Nature
所言,依赖独立研究者的同行评审,是缓解 AI 行业炒作的一种方式。

对此,你怎么看?

作者:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张本智和回击中国网友:我是自愿加入日本籍的,凭啥让我滚出四川?哭诉:那是我老家

张本智和回击中国网友:我是自愿加入日本籍的,凭啥让我滚出四川?哭诉:那是我老家

乒乓网国球汇
2026-03-27 00:03:40
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
全国高速明天大调整!车主集体欢呼:早该这么干了

全国高速明天大调整!车主集体欢呼:早该这么干了

沙雕小琳琳
2026-03-26 02:05:39
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

往史过眼云烟
2026-03-25 14:51:15
一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

安安说
2026-03-26 13:00:12
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

小童历史
2026-03-25 18:20:29
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
万科创始人妻子解除边控

万科创始人妻子解除边控

地产微资讯
2026-03-26 20:23:02
岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

红星新闻
2026-03-26 18:34:31
医保大变革!4月1日执行,取消备案、全家共济、药店可报销

医保大变革!4月1日执行,取消备案、全家共济、药店可报销

复转这些年
2026-03-26 09:27:58
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
突发,雷军辞职董事长!

突发,雷军辞职董事长!

品牌头版
2026-03-26 14:46:17
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
斯柯达退出中国?大众中国回应:销售持续至年中,客户将持续获得全面售后支持

斯柯达退出中国?大众中国回应:销售持续至年中,客户将持续获得全面售后支持

澎湃新闻
2026-03-26 17:02:26
心源性猝死人数逐渐增多,医生建议:少吃鸡肉,多喝7样增强免疫

心源性猝死人数逐渐增多,医生建议:少吃鸡肉,多喝7样增强免疫

垚垚分享健康
2026-03-26 16:09:56
商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

界面新闻
2026-03-26 16:08:24
张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

未曾青梅
2026-03-26 22:48:49
首个因中东战争宣布进入紧急状态的国家,为何是菲律宾?

首个因中东战争宣布进入紧急状态的国家,为何是菲律宾?

上观新闻
2026-03-26 19:36:04
2026-03-27 03:04:51
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
教育
数码
时尚
旅游

家居要闻

傍海而居 静观蝴蝶海

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

400万人爱过的女孩,被黄谣网暴180天后

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

无障碍浏览 进入关怀版