网易首页 > 网易科技 > 网易科技 > 正文

DeepSeek论文登《自然》封面,披露R1训练费200万,不依赖对手内容

0
分享至
核心提示
  • 01 由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了《自然》杂志封面。论文声明,该模型的成功并不依赖于使用其竞争对手的输出内容进行训练。
  • 02 R1是首个经历同行评议的主流大语言模型,被认为是“值得欢迎的先例”。作为开放权重模型,它在Hugging Face上下载量已达1090万次,并被研究人员认为“引发了一场革命”。
  • 03 论文还首次披露,其增量训练成本仅29.4万美元,且主要在英伟达H800芯片上进行训练。

9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了《自然》(Nature)杂志封面。


论文研究人员表示,DeepSeek强大的AI模型R1之所以能成功,并不依赖于使用其竞争对手的输出内容进行训练。今年一月,R1的发布曾引发美国股市暴跌。这一声明出自今天发表于《自然》(Nature)杂志的一篇经同行评议的R1模型论文的附带文件中。

R1旨在出色地完成数学和编程等“推理”任务,是美国科技公司所开发工具的一个更廉价的竞争对手。作为一个“开放权重”(open weight)模型,任何人都可以下载它,并且它也是迄今为止在AI社区平台Hugging Face上最受欢迎的此类模型,下载量已达1090万次。

这篇论文是对今年一月所发布的一份预印本的更新,该预印本描述了DeepSeek如何增强一个标准的大语言模型(Large Language Model, LLM)以处理推理任务。其补充材料首次披露了R1的增量训练成本仅相当于29.4万美元。这笔费用是在该公司(总部位于杭州)为构建R1所基于的基础大语言模型而花费的约600万美元之外的,但总金额仍远低于竞争对手模型据信高达数千万美元的成本。DeepSeek表示,R1主要是在英伟达的H800芯片上进行训练的,而根据美国的出口管制规定,该芯片自2023年起已被禁止向中国销售。

严格的同行评审

R1被认为是首个经历同行评议过程的主流大语言模型。“这是一个非常值得欢迎的先例,”Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)说,他也是这篇《自然》论文的审稿人之一。“如果我们没有这种公开分享大部分流程的规范,就很难评估这些系统是否存在风险。”

为回应同行评议的意见,DeepSeek团队减少了其描述中的拟人化用语,并补充了技术细节的说明,包括模型训练所用的数据类型及其安全性。“经历一个严格的同行评议过程,无疑有助于验证模型的有效性和实用性,”位于哥伦布市的俄亥俄州立大学AI研究员孙欢(Huan Sun)说。“其他公司也应该这样做。”

DeepSeek的主要创新在于,它使用了一种自动化的“试错法”,即纯粹的强化学习(pure reinforcement learning),来创建R1。这个过程是通过奖励模型得出正确答案的方式进行,而不是教它遵循人类挑选的推理范例。该公司表示,其模型正是通过这种方式学会了自身的类推理策略,例如如何在不遵循人类预设策略的情况下验证其解题过程。为提高效率,该模型还使用了被称为“组相对策略优化”(group relative policy optimization)的技术,即利用估算值为自身的尝试打分,而不是另外采用一个独立的算法来做这件事。

孙欢表示,该模型在AI研究人员中“相当有影响力”。“2025年迄今为止,几乎所有在大语言模型中进行强化学习的研究,都可能或多或少地受到了R1的启发。

关于训练方式的争议

今年一月的媒体报道曾暗示,OpenAI研究人员认为,DeepSeek利用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力的提升。

DeepSeek并未在其论文中公布其训练数据。但是,在与审稿人的交流中,该公司的研究人员声明,R1并非通过复制OpenAI模型生成的推理范例来学习的。不过他们承认,与大多数其他大语言模型一样,R1的基础模型是在海量网络数据上训练的,因此它会吸收互联网上已有的任何AI生成内容。

孙欢认为,这一反驳“与我们在任何出版物中能看到的说法一样有说服力”。坦斯托尔补充说,尽管他无法百分之百确定R1没有在OpenAI的范例上进行训练,但其他实验室的复现尝试表明,DeepSeek的这套推理方法可能已经足够好,无需这样做。“我认为现在的证据相当清楚,仅使用纯粹的强化学习就能获得非常高的性能,”他说。

孙欢说,对于研究人员而言,R1仍然非常有竞争力。在一项旨在完成分析和可视化数据等科学任务的挑战,即ScienceAgentBench基准测试中,孙欢及其同事发现,尽管R1的准确率并非第一,但从平衡能力与成本的角度来看,它是表现最好的模型之一。

坦斯托尔说,其他研究人员现在正尝试应用创建R1所用的方法,来提高现有大语言模型的类推理能力,并将其扩展到数学和编程以外的领域。他补充说,从这个意义上讲,R1“引发了一场革命”。(易句)

(本文由AI翻译,网易编辑负责校对)

延伸阅读
相关推荐
热点推荐
朝鲜开九大,金正恩为什么戴上了前代像章?

朝鲜开九大,金正恩为什么戴上了前代像章?

IN朝鲜
2026-02-22 16:06:41
开心!朱芳雨杜锋给球员发红包,奎因、萨林杰乐开了花

开心!朱芳雨杜锋给球员发红包,奎因、萨林杰乐开了花

体育哲人
2026-02-21 19:57:49
一场2-2,上演补时绝平,德甲第2掉链子,被拜仁甩开,争冠难了

一场2-2,上演补时绝平,德甲第2掉链子,被拜仁甩开,争冠难了

足球狗说
2026-02-22 03:37:25
“中国人滚出蒙古!”为何外蒙古对中国人充满敌意

“中国人滚出蒙古!”为何外蒙古对中国人充满敌意

南权先生
2025-09-16 10:02:18
他是原副总理,1975年被永远开除党籍,1979年当选为副主席

他是原副总理,1975年被永远开除党籍,1979年当选为副主席

老范谈史
2026-02-13 08:38:33
13岁“敦煌少女”惊艳全网!妈妈回应:一毛钱没花,坚决不炒作

13岁“敦煌少女”惊艳全网!妈妈回应:一毛钱没花,坚决不炒作

观察鉴娱
2026-02-15 19:57:21
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
汤唯大学时期的照片,难怪当年李安梁朝伟会选她当女主角!

汤唯大学时期的照片,难怪当年李安梁朝伟会选她当女主角!

南方城市网
2026-01-06 12:08:30
没人发拜年微信了,这是一个危险的信号

没人发拜年微信了,这是一个危险的信号

茉莉聊聊天
2026-02-18 10:48:40
北京一教师被罚6728万!

北京一教师被罚6728万!

感觉会火
2026-02-22 12:07:21
曲婉婷疑似已经回国,注册的抖音账号ip显示在江苏

曲婉婷疑似已经回国,注册的抖音账号ip显示在江苏

映射生活的身影
2026-02-22 11:57:19
美伊大战在即,美军却忽然撤出中东基地,美军怂了还是在玩花样?

美伊大战在即,美军却忽然撤出中东基地,美军怂了还是在玩花样?

击你的心灵深处
2026-02-22 17:47:09
特朗普态度大转弯!美媒直言:想赢中国,只剩下一条路可走

特朗普态度大转弯!美媒直言:想赢中国,只剩下一条路可走

不畏山海a
2026-02-22 18:18:27
活了30多年:才知道滚筒洗衣机的6个正确用法,难怪衣服洗不干净

活了30多年:才知道滚筒洗衣机的6个正确用法,难怪衣服洗不干净

装修秀
2026-02-17 10:45:03
“见过最廉价的兜底”,家长让儿子在购物车里吃烤鸡,被全网嘲笑

“见过最廉价的兜底”,家长让儿子在购物车里吃烤鸡,被全网嘲笑

妍妍教育日记
2026-02-13 16:34:42
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

墨印斋
2026-01-31 16:37:48
关键装备到位, 伊朗又中招! 美以谈判拖延时间: 现在美军准备好了

关键装备到位, 伊朗又中招! 美以谈判拖延时间: 现在美军准备好了

星辰大海路上的种花家
2026-02-22 16:48:01
解密《惊蛰无声》最大的意难平:睡了女特务为什么必须死

解密《惊蛰无声》最大的意难平:睡了女特务为什么必须死

人格志
2026-02-20 20:12:58
第1变第3!中国队战术失败葬送金牌,冬奥会奖牌榜更新:日本第10

第1变第3!中国队战术失败葬送金牌,冬奥会奖牌榜更新:日本第10

侃球熊弟
2026-02-21 19:38:36
长沙“互啃”后续:没实锤,婚离了!中年人的体面,真输不起!

长沙“互啃”后续:没实锤,婚离了!中年人的体面,真输不起!

王楔晓
2026-01-08 11:31:21
2026-02-22 19:59:00

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

中国第五金 谷爱凌U型场地技巧决赛夺金李方慧摘银

头条要闻

中国第五金 谷爱凌U型场地技巧决赛夺金李方慧摘银

体育要闻

自由式滑雪U型池 谷爱凌成功卫冕

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

房产
家居
本地
数码
公开课

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

家居要闻

本真栖居 爱暖伴流年

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

数码要闻

小米17系列全球发布会定档2月28日:多款生态新品同步登场

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×