DeepSeek论文登《自然》封面，披露R1训练费200万，不依赖对手内容|deepseek|数学|推理|范例

DeepSeek论文登《自然》封面，披露R1训练费200万，不依赖对手内容

2025-09-18 08:23:54　来源: 网易科技报道

北京举报

分享至

核心提示

01 由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文，登上了《自然》杂志封面。论文声明，该模型的成功并不依赖于使用其竞争对手的输出内容进行训练。
02 R1是首个经历同行评议的主流大语言模型，被认为是“值得欢迎的先例”。作为开放权重模型，它在Hugging Face上下载量已达1090万次，并被研究人员认为“引发了一场革命”。
03 论文还首次披露，其增量训练成本仅29.4万美元，且主要在英伟达H800芯片上进行训练。

9月18日消息，由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文，登上了《自然》（Nature）杂志封面。

论文研究人员表示，DeepSeek强大的AI模型R1之所以能成功，并不依赖于使用其竞争对手的输出内容进行训练。今年一月，R1的发布曾引发美国股市暴跌。这一声明出自今天发表于《自然》（Nature）杂志的一篇经同行评议的R1模型论文的附带文件中。

R1旨在出色地完成数学和编程等“推理”任务，是美国科技公司所开发工具的一个更廉价的竞争对手。作为一个“开放权重”（open weight）模型，任何人都可以下载它，并且它也是迄今为止在AI社区平台Hugging Face上最受欢迎的此类模型，下载量已达1090万次。

这篇论文是对今年一月所发布的一份预印本的更新，该预印本描述了DeepSeek如何增强一个标准的大语言模型（Large Language Model, LLM）以处理推理任务。其补充材料首次披露了R1的增量训练成本仅相当于29.4万美元。这笔费用是在该公司（总部位于杭州）为构建R1所基于的基础大语言模型而花费的约600万美元之外的，但总金额仍远低于竞争对手模型据信高达数千万美元的成本。DeepSeek表示，R1主要是在英伟达的H800芯片上进行训练的，而根据美国的出口管制规定，该芯片自2023年起已被禁止向中国销售。

严格的同行评审

R1被认为是首个经历同行评议过程的主流大语言模型。“这是一个非常值得欢迎的先例，”Hugging Face的机器学习工程师刘易斯·坦斯托尔（Lewis Tunstall）说，他也是这篇《自然》论文的审稿人之一。“如果我们没有这种公开分享大部分流程的规范，就很难评估这些系统是否存在风险。”

为回应同行评议的意见，DeepSeek团队减少了其描述中的拟人化用语，并补充了技术细节的说明，包括模型训练所用的数据类型及其安全性。“经历一个严格的同行评议过程，无疑有助于验证模型的有效性和实用性，”位于哥伦布市的俄亥俄州立大学AI研究员孙欢（Huan Sun）说。“其他公司也应该这样做。”

DeepSeek的主要创新在于，它使用了一种自动化的“试错法”，即纯粹的强化学习（pure reinforcement learning），来创建R1。这个过程是通过奖励模型得出正确答案的方式进行，而不是教它遵循人类挑选的推理范例。该公司表示，其模型正是通过这种方式学会了自身的类推理策略，例如如何在不遵循人类预设策略的情况下验证其解题过程。为提高效率，该模型还使用了被称为“组相对策略优化”（group relative policy optimization）的技术，即利用估算值为自身的尝试打分，而不是另外采用一个独立的算法来做这件事。

孙欢表示，该模型在AI研究人员中“相当有影响力”。“2025年迄今为止，几乎所有在大语言模型中进行强化学习的研究，都可能或多或少地受到了R1的启发。”

关于训练方式的争议

今年一月的媒体报道曾暗示，OpenAI研究人员认为，DeepSeek利用了OpenAI模型的输出来训练R1，这种方法可以在使用较少资源的情况下加速模型能力的提升。

DeepSeek并未在其论文中公布其训练数据。但是，在与审稿人的交流中，该公司的研究人员声明，R1并非通过复制OpenAI模型生成的推理范例来学习的。不过他们承认，与大多数其他大语言模型一样，R1的基础模型是在海量网络数据上训练的，因此它会吸收互联网上已有的任何AI生成内容。

孙欢认为，这一反驳“与我们在任何出版物中能看到的说法一样有说服力”。坦斯托尔补充说，尽管他无法百分之百确定R1没有在OpenAI的范例上进行训练，但其他实验室的复现尝试表明，DeepSeek的这套推理方法可能已经足够好，无需这样做。“我认为现在的证据相当清楚，仅使用纯粹的强化学习就能获得非常高的性能，”他说。

孙欢说，对于研究人员而言，R1仍然非常有竞争力。在一项旨在完成分析和可视化数据等科学任务的挑战，即ScienceAgentBench基准测试中，孙欢及其同事发现，尽管R1的准确率并非第一，但从平衡能力与成本的角度来看，它是表现最好的模型之一。

坦斯托尔说，其他研究人员现在正尝试应用创建R1所用的方法，来提高现有大语言模型的类推理能力，并将其扩展到数学和编程以外的领域。他补充说，从这个意义上讲，R1“引发了一场革命”。（易句）

（本文由AI翻译，网易编辑负责校对）