网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek-R1登上Nature封面:朝着AI透明化迈出的可喜一步

0
分享至


开源人工智能(AI)的价值正获得更广泛的认可。

刚刚,DeepSeek-R1 论文以封面文章的形式登上了权威科学期刊Nature,DeepSeek 创始人兼 CEO 梁文峰为该论文的通讯作者。


论文链接:

https://www.nature.com/articles/s41586-025-09422-z

研究团队假设,人类定义的推理模式可能会限制模型的探索,而无限制的强化学习(RL)训练可以更好地激励大语言模型(LLM)中新推理能力的涌现

他们通过实验证明,LLM 的推理能力可以通过纯 RL 来提升,从而减少增强性能所需的人类输入工作量,且在数学、编程竞赛和 STEM 领域研究生水平问题等任务上,比经传统方法训练的 LLM 表现更好。

DeepSeek-R1 推出后,得到了全球开发者的广泛好评,截至发文前,其在 GitHub 上的 star 数已经达到了 91.1k。

在一篇同期发表的观点与评论文章中,卡内基梅隆大学助理教授Daphne Ippolito和他的博士生张益铭(现为 Anthropic 的 LLM 安全和对齐研究员)评价道:

“DeepSeek-R1 已从一个强大但不透明的解决方案寻找者,发展成一个能够进行类人对话的系统。这一历程反映了(人类)对 AI 系统的需求,这些系统不仅要准确地解决问题,还要成为人类可以理解、信任并能进行有意义协作的工具。”


文章链接:

https://www.nature.com/articles/d41586-025-02703-7

此外,

Nature
也在 Editorial 文章中肯定了这项工作,“DeepSeek-R1 是第一个在经过同行评审后发表的主流 LLM,这是朝着透明化迈出的可喜一步”。


文章链接:

https://www.nature.com/articles/d41586-025-02979-9

他们一针见血地指出,经同行评审的论文发表有助于澄清 LLM 的工作原理,并帮助评估它们是否“货真价实”(whether they do what they purport to do)。



DeepSeek-R1 背后的科学

人类定义的推理模式可能会限制模型的探索,而无限制的 RL 训练可以更好地激励 LLM 中新推理能力的涌现。

让机器像人类一样进行通用推理,一直是 AI 领域的核心难题。

尽管思维链(CoT)等方法能够有效提升 LLM 的推理表现,但严重依赖人工标注,不仅扩展性差,还可能因人类的认知偏差而限制模型自身的潜能,使其无法探索更优的、非人类的推理路径

DeepSeek-R1 的重要意义在于,它证明了通过纯粹的 RL 即可激发 LLM 的推理能力,而无需依赖人工标注的推理过程(数据)。

不同于基于提示的方法和监督学习等早期方法,研究团队提出了一种新范式——在 RL 框架中,以最小化对人工标注的依赖,探索 LLM 通过自我演化来发展推理能力的潜力。

基于提示的方法 vs. 监督学习 vs. RL 正如 Ippolito 等人所比喻的,RL 算法的工作方式类似于人类玩家学习玩电子游戏的过程:玩家在游戏世界中操作角色,通过不断试错发现哪些行为会带来奖励——例如“收集金币”可以增加分数,而“撞到敌人”则会让分数归零。 相比之下,基于提示的方法更像是让他们通过阅读说明书来学会玩游戏,而监督学习则像让他们观察其他玩家玩游戏数百次,试图通过模仿掌握游戏技巧。

他们发现,当 LLM 通过 RL 的试错过程被训练以产生正确答案时,它会自然而然地学会输出其推理过程。

考虑到数学和编程问题通常有可验证的答案,他们通过创建一个评分系统来帮助 DeepSeek-R1 在训练过程中进行改进——回答正确得高分,反之得低分

在具体实现上,他们提出了一个名为“群体相对策略优化”(GRPO)的 RL 算法,并基于基础模型 DeepSeek-V3 Base 训练了 DeepSeek-R1-Zero、DeepSeek-R1 等模型。


图|RL 框架

从 DeepSeek-V3 Base 开始,通过涉及拒绝采样RL监督微调(SFT)的多阶段 pipeline,研究团队先后训练了 DeepSeek-R1-Zero、DeepSeek-R1 Dev1、DeepSeek-R1 Dev2、DeepSeek-R1 Dev3 和最终的 DeepSeek-R1。


图|DeepSeek-R1 的多阶段 pipeline

据论文描述,DeepSeek-R1-Zero自然演化出了多样且复杂的推理行为。在解决推理问题时,模型倾向于生成更长的响应,其中包含验证、反思和替代方案的探索。这表明,模型通过 RL 能够成功地学会更优的推理策略

然而,DeepSeek-R1-Zero依然存在一些局限,比如“输出可读性差”和“语言混用”等。而且,由于其基于规则的 RL 训练阶段仅聚焦于推理任务,在写作和开放域问答等更广泛场景中的表现较差。

为此,研究团队通过随后的多个训练阶段进一步强化了 DeepSeek-R1 系列模型的综合能力。具体而言:

  • DeepSeek-R1 Dev1:相较于 DeepSeek-R1-Zero,指令遵循能力提升;

  • DeepSeek-R1 Dev2:在代码、数学和 STEM 等领域,高级推理能力进一步增强;

  • DeepSeek-R1 Dev3:引入大规模非推理语料和代码工程数据,推理与通用语言生成能力得到提升;

  • DeepSeek-R1:推理能力强,且行为与人类偏好对齐。

最后,他们在 MMLU、MMLU-Pro、C-Eval、GPQA Diamond、SimpleQA、SWE-bench Verified、LiveCodeBench 和 AIME 2024 等 21 个主流 benchmark 上分别对 DeepSeek-R1 等模型进行了评估。

如下表,DeepSeek-R1 几乎在所有 benchmark 上均取得了更好的成绩。这些结果验证了这一 RL 框架的有效性。


图|DeepSeek-R1 每个训练阶段的评测结果

此外,研究团队还表示,这一 RL 框架有助于形成一些高级的、涌现的推理模式,如自我反思验证动态策略适应。而且,这些涌现出的推理模式还可以被系统地用于指导和增强小型模型的推理能力。

启示:亟需遏制 AI 行业的过度炒作

考虑到这项技术已无处不在,未经证实的言论对社会而言是切实的风险。

除了 DeepSeek-R1 的在科学层面的研究意义,

Nature
在 Editorial 文章中着重探讨 了一个业内讨论不够多的问题 :

绝大多数被广泛使用并正在迅速颠覆人类获取知识方式的 LLM,都尚未经过独立同行评审,这是一个值得注意的「缺失」。

他们称,DeepSeek-R1 论文的发表“是朝着透明化迈出的可喜一步。”

据介绍,DeepSeek-R1 的原创性、方法论和鲁棒性,已接受八位人类专家的评审。论文将与评审报告及作者回复一同发表。“在一个常常充斥未经验证主张和炒作的行业中,这无疑是迈向透明性与可重复性的重要一步。”


Nature
方面认为,与在预印本 arXiv 发表论文不同,参与同行评审的外部专家不再是单向接收信息,而是在一个由独立第三方监督和管理的协作过程中提问并请求更多信息。“虽然这不总能带来重大改变,但可以增加研究的信任度。对于 AI 开发者而言,这意味着他们的工作得到了‘权威背书’,从而在不同社区中更具公信力。”

同时,同行评审还起到了制衡作用,避免 AI 开发者通过挑选最有利于自己模型的基准测试而“自我打分”。这是因为,基准测试是可以被操控的。例如,如果训练数据中包含测试题目和答案,模型就可能提前学会正确回答,从而导致其能力被高估。

此外,同行评审还可以促成论文的其他重要修改,其中之一是确保作者对模型的安全性有所回应。AI 的安全性意味着要避免意料之外的有害后果,包括缓解输出中的固有偏见,以及增加防护措施以避免 AI 被用于网络攻击。

一些人认为开源模型比专有模型更不安全,因为一旦用户下载,它们就脱离了开发者的控制。不过,开源模型也让更广泛的社区能够理解并修复缺陷

例如,DeepSeek-R1 的审稿人指出,论文缺少关于安全性测试的信息——并未评估基于 R1 构建一个不安全模型的难易程度。作为回应,研究团队在论文中添加了重要细节,包括一个专门的章节,介绍了他们如何评估模型的安全性并将其与竞争模型进行比较。

鉴于 DeepSeek-R1 是一个开放权重模型,任何研究人员和公众都可以不受限制地自由下载、使用、测试和在其基础上进行开发,因此其安全问题不容忽视。

在 Editorial 文章的最后,

Nature
呼吁道,希望更多的 AI 公司将其模型提交给出版物评审。“评审并不意味着让外界接触公司的秘密,而是要准备好用证据支持你的言论,并确保相关主张得到验证和澄清。”

如今,伴随着国内外 AI 行业的白热化竞争,一些模型厂商在投入巨大资金的同时,忽视了数据偏见、模型安全等问题,甚至存在主动刷榜、夸大模型能力的行为,“对社会而言是切实的风险”(a real risk for society)。

或许正如

Nature
所言,依赖独立研究者的同行评审,是缓解 AI 行业炒作的一种方式。

对此,你怎么看?

作者:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梅毒去世的人越来越多?医生再次强调:宁可看电影,也别做这4事

梅毒去世的人越来越多?医生再次强调:宁可看电影,也别做这4事

泠泠说史
2025-11-12 15:30:50
大破防!这一次,41岁的白百何把过气女明星的惨,体现得淋漓尽致

大破防!这一次,41岁的白百何把过气女明星的惨,体现得淋漓尽致

未曾青梅
2025-11-05 23:26:19
方寸之间展湾区气象!十五运会开幕式门票“出圈”了 | 全运来了

方寸之间展湾区气象!十五运会开幕式门票“出圈”了 | 全运来了

国际在线
2025-11-12 14:58:12
孩子若福薄命苦,多半是家中留了这3样“旧物”吸走福气

孩子若福薄命苦,多半是家中留了这3样“旧物”吸走福气

古怪奇谈录
2025-11-06 14:19:04
拿600万顶薪,全场0分0板0助,连续梦游2场,辽蜜:比高铁还铁

拿600万顶薪,全场0分0板0助,连续梦游2场,辽蜜:比高铁还铁

南海浪花
2025-11-12 18:33:05
“被三耳光打晕的武术传人”赵鸿刚不过是一个“穿着西服的阿Q”

“被三耳光打晕的武术传人”赵鸿刚不过是一个“穿着西服的阿Q”

壹家言
2025-11-11 15:39:27
为什么床头不能放卫生纸?很多人不知道原因,看完赶紧收起来!

为什么床头不能放卫生纸?很多人不知道原因,看完赶紧收起来!

生活不过如此呀
2025-11-12 16:17:00
1976年她的墓葬出土,证明不是神话人物,而是真实存在的

1976年她的墓葬出土,证明不是神话人物,而是真实存在的

老呶侃史
2025-11-10 16:25:57
赵露思正式解约!新公司为她赔付上亿违约金,哽咽哭诉“太难了”

赵露思正式解约!新公司为她赔付上亿违约金,哽咽哭诉“太难了”

优趣纪史记
2025-11-12 16:31:17
火爆!扬州“山姆”今天开业

火爆!扬州“山姆”今天开业

扬帆手机频道
2025-11-12 19:08:50
由于美国两党达成协议,马斯克资产一天内暴增690亿

由于美国两党达成协议,马斯克资产一天内暴增690亿

随波荡漾的漂流瓶
2025-11-12 17:40:08
影视飓风Tim在杭州相亲角遭遇“滑铁卢”,阿姨惋惜“这么年轻就离异了

影视飓风Tim在杭州相亲角遭遇“滑铁卢”,阿姨惋惜“这么年轻就离异了

极目新闻
2025-11-12 19:27:16
重庆“文强”之子的现状

重庆“文强”之子的现状

年代回忆
2025-05-13 20:05:32
重庆南川通报孝子河污染情况:已确定污染源,将制定整治方案

重庆南川通报孝子河污染情况:已确定污染源,将制定整治方案

澎湃新闻
2025-11-12 15:26:28
男子故意欠网贷64万不还,5家催收公司上门后均摆手:这账没法收

男子故意欠网贷64万不还,5家催收公司上门后均摆手:这账没法收

罪案洞察者
2025-11-03 14:00:25
《阿凡达3》片长195分钟创系列之最!将于12月19日中国内地上映

《阿凡达3》片长195分钟创系列之最!将于12月19日中国内地上映

随州派
2025-11-12 14:41:16
段永平罕见发声:A股只买茅台!比银行靠谱,国际化一定能成

段永平罕见发声:A股只买茅台!比银行靠谱,国际化一定能成

财经资本观察
2025-11-12 14:14:15
她曾是上海知名主持,公开指责同事破坏自己家庭,如今已成女老板

她曾是上海知名主持,公开指责同事破坏自己家庭,如今已成女老板

涵豆说娱
2025-11-12 15:17:10
中国已无退路了!美军为中美选好了主战场,决心要跟中国打场大战

中国已无退路了!美军为中美选好了主战场,决心要跟中国打场大战

诺诺谈史
2025-11-12 12:00:26
我在泰国租了个妻子看似各取所需,其背后隐藏着不可告人的真相

我在泰国租了个妻子看似各取所需,其背后隐藏着不可告人的真相

小鱼滑
2024-04-24 00:04:25
2025-11-12 20:52:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1416文章数 5081关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

旅游
家居
游戏
本地
公开课

旅游要闻

环两山引领区广州片区吃喝玩乐游购全攻略宝藏电子地图发布

家居要闻

情感之所 生活教会设计

《辐射:新维加斯》饭制MOD即将发布 开拓新区域

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版