网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek-R1登上Nature封面:朝着AI透明化迈出的可喜一步

0
分享至


开源人工智能(AI)的价值正获得更广泛的认可。

刚刚,DeepSeek-R1 论文以封面文章的形式登上了权威科学期刊Nature,DeepSeek 创始人兼 CEO 梁文峰为该论文的通讯作者。


论文链接:

https://www.nature.com/articles/s41586-025-09422-z

研究团队假设,人类定义的推理模式可能会限制模型的探索,而无限制的强化学习(RL)训练可以更好地激励大语言模型(LLM)中新推理能力的涌现

他们通过实验证明,LLM 的推理能力可以通过纯 RL 来提升,从而减少增强性能所需的人类输入工作量,且在数学、编程竞赛和 STEM 领域研究生水平问题等任务上,比经传统方法训练的 LLM 表现更好。

DeepSeek-R1 推出后,得到了全球开发者的广泛好评,截至发文前,其在 GitHub 上的 star 数已经达到了 91.1k。

在一篇同期发表的观点与评论文章中,卡内基梅隆大学助理教授Daphne Ippolito和他的博士生张益铭(现为 Anthropic 的 LLM 安全和对齐研究员)评价道:

“DeepSeek-R1 已从一个强大但不透明的解决方案寻找者,发展成一个能够进行类人对话的系统。这一历程反映了(人类)对 AI 系统的需求,这些系统不仅要准确地解决问题,还要成为人类可以理解、信任并能进行有意义协作的工具。”


文章链接:

https://www.nature.com/articles/d41586-025-02703-7

此外,

Nature
也在 Editorial 文章中肯定了这项工作,“DeepSeek-R1 是第一个在经过同行评审后发表的主流 LLM,这是朝着透明化迈出的可喜一步”。


文章链接:

https://www.nature.com/articles/d41586-025-02979-9

他们一针见血地指出,经同行评审的论文发表有助于澄清 LLM 的工作原理,并帮助评估它们是否“货真价实”(whether they do what they purport to do)。



DeepSeek-R1 背后的科学

人类定义的推理模式可能会限制模型的探索,而无限制的 RL 训练可以更好地激励 LLM 中新推理能力的涌现。

让机器像人类一样进行通用推理,一直是 AI 领域的核心难题。

尽管思维链(CoT)等方法能够有效提升 LLM 的推理表现,但严重依赖人工标注,不仅扩展性差,还可能因人类的认知偏差而限制模型自身的潜能,使其无法探索更优的、非人类的推理路径

DeepSeek-R1 的重要意义在于,它证明了通过纯粹的 RL 即可激发 LLM 的推理能力,而无需依赖人工标注的推理过程(数据)。

不同于基于提示的方法和监督学习等早期方法,研究团队提出了一种新范式——在 RL 框架中,以最小化对人工标注的依赖,探索 LLM 通过自我演化来发展推理能力的潜力。

基于提示的方法 vs. 监督学习 vs. RL 正如 Ippolito 等人所比喻的,RL 算法的工作方式类似于人类玩家学习玩电子游戏的过程:玩家在游戏世界中操作角色,通过不断试错发现哪些行为会带来奖励——例如“收集金币”可以增加分数,而“撞到敌人”则会让分数归零。 相比之下,基于提示的方法更像是让他们通过阅读说明书来学会玩游戏,而监督学习则像让他们观察其他玩家玩游戏数百次,试图通过模仿掌握游戏技巧。

他们发现,当 LLM 通过 RL 的试错过程被训练以产生正确答案时,它会自然而然地学会输出其推理过程。

考虑到数学和编程问题通常有可验证的答案,他们通过创建一个评分系统来帮助 DeepSeek-R1 在训练过程中进行改进——回答正确得高分,反之得低分

在具体实现上,他们提出了一个名为“群体相对策略优化”(GRPO)的 RL 算法,并基于基础模型 DeepSeek-V3 Base 训练了 DeepSeek-R1-Zero、DeepSeek-R1 等模型。


图|RL 框架

从 DeepSeek-V3 Base 开始,通过涉及拒绝采样RL监督微调(SFT)的多阶段 pipeline,研究团队先后训练了 DeepSeek-R1-Zero、DeepSeek-R1 Dev1、DeepSeek-R1 Dev2、DeepSeek-R1 Dev3 和最终的 DeepSeek-R1。


图|DeepSeek-R1 的多阶段 pipeline

据论文描述,DeepSeek-R1-Zero自然演化出了多样且复杂的推理行为。在解决推理问题时,模型倾向于生成更长的响应,其中包含验证、反思和替代方案的探索。这表明,模型通过 RL 能够成功地学会更优的推理策略

然而,DeepSeek-R1-Zero依然存在一些局限,比如“输出可读性差”和“语言混用”等。而且,由于其基于规则的 RL 训练阶段仅聚焦于推理任务,在写作和开放域问答等更广泛场景中的表现较差。

为此,研究团队通过随后的多个训练阶段进一步强化了 DeepSeek-R1 系列模型的综合能力。具体而言:

  • DeepSeek-R1 Dev1:相较于 DeepSeek-R1-Zero,指令遵循能力提升;

  • DeepSeek-R1 Dev2:在代码、数学和 STEM 等领域,高级推理能力进一步增强;

  • DeepSeek-R1 Dev3:引入大规模非推理语料和代码工程数据,推理与通用语言生成能力得到提升;

  • DeepSeek-R1:推理能力强,且行为与人类偏好对齐。

最后,他们在 MMLU、MMLU-Pro、C-Eval、GPQA Diamond、SimpleQA、SWE-bench Verified、LiveCodeBench 和 AIME 2024 等 21 个主流 benchmark 上分别对 DeepSeek-R1 等模型进行了评估。

如下表,DeepSeek-R1 几乎在所有 benchmark 上均取得了更好的成绩。这些结果验证了这一 RL 框架的有效性。


图|DeepSeek-R1 每个训练阶段的评测结果

此外,研究团队还表示,这一 RL 框架有助于形成一些高级的、涌现的推理模式,如自我反思验证动态策略适应。而且,这些涌现出的推理模式还可以被系统地用于指导和增强小型模型的推理能力。

启示:亟需遏制 AI 行业的过度炒作

考虑到这项技术已无处不在,未经证实的言论对社会而言是切实的风险。

除了 DeepSeek-R1 的在科学层面的研究意义,

Nature
在 Editorial 文章中着重探讨 了一个业内讨论不够多的问题 :

绝大多数被广泛使用并正在迅速颠覆人类获取知识方式的 LLM,都尚未经过独立同行评审,这是一个值得注意的「缺失」。

他们称,DeepSeek-R1 论文的发表“是朝着透明化迈出的可喜一步。”

据介绍,DeepSeek-R1 的原创性、方法论和鲁棒性,已接受八位人类专家的评审。论文将与评审报告及作者回复一同发表。“在一个常常充斥未经验证主张和炒作的行业中,这无疑是迈向透明性与可重复性的重要一步。”


Nature
方面认为,与在预印本 arXiv 发表论文不同,参与同行评审的外部专家不再是单向接收信息,而是在一个由独立第三方监督和管理的协作过程中提问并请求更多信息。“虽然这不总能带来重大改变,但可以增加研究的信任度。对于 AI 开发者而言,这意味着他们的工作得到了‘权威背书’,从而在不同社区中更具公信力。”

同时,同行评审还起到了制衡作用,避免 AI 开发者通过挑选最有利于自己模型的基准测试而“自我打分”。这是因为,基准测试是可以被操控的。例如,如果训练数据中包含测试题目和答案,模型就可能提前学会正确回答,从而导致其能力被高估。

此外,同行评审还可以促成论文的其他重要修改,其中之一是确保作者对模型的安全性有所回应。AI 的安全性意味着要避免意料之外的有害后果,包括缓解输出中的固有偏见,以及增加防护措施以避免 AI 被用于网络攻击。

一些人认为开源模型比专有模型更不安全,因为一旦用户下载,它们就脱离了开发者的控制。不过,开源模型也让更广泛的社区能够理解并修复缺陷

例如,DeepSeek-R1 的审稿人指出,论文缺少关于安全性测试的信息——并未评估基于 R1 构建一个不安全模型的难易程度。作为回应,研究团队在论文中添加了重要细节,包括一个专门的章节,介绍了他们如何评估模型的安全性并将其与竞争模型进行比较。

鉴于 DeepSeek-R1 是一个开放权重模型,任何研究人员和公众都可以不受限制地自由下载、使用、测试和在其基础上进行开发,因此其安全问题不容忽视。

在 Editorial 文章的最后,

Nature
呼吁道,希望更多的 AI 公司将其模型提交给出版物评审。“评审并不意味着让外界接触公司的秘密,而是要准备好用证据支持你的言论,并确保相关主张得到验证和澄清。”

如今,伴随着国内外 AI 行业的白热化竞争,一些模型厂商在投入巨大资金的同时,忽视了数据偏见、模型安全等问题,甚至存在主动刷榜、夸大模型能力的行为,“对社会而言是切实的风险”(a real risk for society)。

或许正如

Nature
所言,依赖独立研究者的同行评审,是缓解 AI 行业炒作的一种方式。

对此,你怎么看?

作者:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为何保险卖不动了?保险卖不动的原因是当年的骗局到现在已被证实

为何保险卖不动了?保险卖不动的原因是当年的骗局到现在已被证实

来科点谱
2026-02-24 07:11:24
深圳一女子春节返程遇“高铁超载”被迫下车,12306:因“买短乘长”人数太多导致超载

深圳一女子春节返程遇“高铁超载”被迫下车,12306:因“买短乘长”人数太多导致超载

上游新闻
2026-02-24 14:25:37
22岁谷爱凌:我有个想法,但我不敢说,要做个动作成女子历史第1

22岁谷爱凌:我有个想法,但我不敢说,要做个动作成女子历史第1

风过乡
2026-02-24 10:45:07
“体坛败类”马俊仁,强迫队员集体切阑尾,亲自为女队员打禁药

“体坛败类”马俊仁,强迫队员集体切阑尾,亲自为女队员打禁药

米果说识
2026-02-22 11:29:00
穷人唯一的武器,正在被 AI 缴械

穷人唯一的武器,正在被 AI 缴械

风向观察
2026-02-24 17:25:51
全美5600多架次航班取消, 多州进入紧急状态

全美5600多架次航班取消, 多州进入紧急状态

每日经济新闻
2026-02-24 12:16:37
汪小菲官宣三胎生子!晒马筱梅和小宝贝合影,爷爷抱着他爱不释手

汪小菲官宣三胎生子!晒马筱梅和小宝贝合影,爷爷抱着他爱不释手

TVB的四小花
2026-02-24 16:45:39
当地人也被宰,蓬莱酒楼屡教不改连夜被摘牌,老板透露身份还挣扎

当地人也被宰,蓬莱酒楼屡教不改连夜被摘牌,老板透露身份还挣扎

社会日日鲜
2026-02-24 09:27:23
突发!巴拿马政府强行进入并接管港口,李嘉诚旗下长和回应:相关行动不合法,构成严重风险,将研究所有可行途径!公司股价跳水

突发!巴拿马政府强行进入并接管港口,李嘉诚旗下长和回应:相关行动不合法,构成严重风险,将研究所有可行途径!公司股价跳水

每日经济新闻
2026-02-24 13:09:07
夫妻春节不回家送外卖1个月赚4万,骑手站长:青岛春节补贴最高8200元,月入2万日均需跑约70单

夫妻春节不回家送外卖1个月赚4万,骑手站长:青岛春节补贴最高8200元,月入2万日均需跑约70单

大风新闻
2026-02-24 15:44:14
被「中国钓王」邓刚认证的钓鱼神车,吉利银河翼真L380到底是什么来路?

被「中国钓王」邓刚认证的钓鱼神车,吉利银河翼真L380到底是什么来路?

AutoBusiness
2025-09-05 11:47:55
中央三部门重磅定调:公务员不允许弹性延迟退休!

中央三部门重磅定调:公务员不允许弹性延迟退休!

浅深说
2026-02-24 13:12:00
俄乌牺牲士兵们的平凡愿望,如今只能在AI里实现了

俄乌牺牲士兵们的平凡愿望,如今只能在AI里实现了

网易新闻出品
2026-02-24 10:00:05
葡萄330元/斤,草莓360元/斤!网友高速上看到水果广告牌惊呆了,种植企业回应

葡萄330元/斤,草莓360元/斤!网友高速上看到水果广告牌惊呆了,种植企业回应

极目新闻
2026-02-24 12:58:13
新加坡大满贯最新战报:八强已出四,头号种子爆冷,世界冠军惨败

新加坡大满贯最新战报:八强已出四,头号种子爆冷,世界冠军惨败

吴朑爱游泳
2026-02-24 15:03:55
恭喜汪小菲又当爸爸!产房照曝光儿子好帅气,马筱梅抱孩子很温柔

恭喜汪小菲又当爸爸!产房照曝光儿子好帅气,马筱梅抱孩子很温柔

娱乐圈圈圆
2026-02-24 15:30:08
重罚快船?曝联盟可能宣布小卡现合同无效 湖人勇士将疯狂追求他

重罚快船?曝联盟可能宣布小卡现合同无效 湖人勇士将疯狂追求他

罗说NBA
2026-02-24 08:36:13
贝加尔湖事故中溺亡的7名国人,很大可能连赔偿都拿不到

贝加尔湖事故中溺亡的7名国人,很大可能连赔偿都拿不到

清书先生
2026-02-24 16:38:37
价格降60%!一年两针长效降脂针纳入医保,血脂管理迎来分层养护

价格降60%!一年两针长效降脂针纳入医保,血脂管理迎来分层养护

科海识贝sci
2026-02-24 14:33:30
10万亿!世界铜王正威集团的坑比恒大的还深

10万亿!世界铜王正威集团的坑比恒大的还深

新浪财经
2026-02-24 17:14:00
2026-02-24 19:36:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

特朗普称3月31日访华并赞叹中国仪仗队 外交部回应

头条要闻

特朗普称3月31日访华并赞叹中国仪仗队 外交部回应

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

本地
亲子
家居
艺术
教育

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

你5岁会做饭了吗?看看5岁小孩哥如何准备一家人的晚餐

家居要闻

本真栖居 爱暖伴流年

艺术要闻

2025年第八届全国青年美展 | 油画作品选刊

教育要闻

哈尔滨公办初中中考入段率PK,哪些初中表现亮眼?113中一枝独秀

无障碍浏览 进入关怀版