网易首页 > 网易科技 > 网易科技 > 正文

DeepSeek论文登《自然》封面,披露R1训练费200万,不依赖对手内容

0
分享至
核心提示
  • 01 由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了《自然》杂志封面。论文声明,该模型的成功并不依赖于使用其竞争对手的输出内容进行训练。
  • 02 R1是首个经历同行评议的主流大语言模型,被认为是“值得欢迎的先例”。作为开放权重模型,它在Hugging Face上下载量已达1090万次,并被研究人员认为“引发了一场革命”。
  • 03 论文还首次披露,其增量训练成本仅29.4万美元,且主要在英伟达H800芯片上进行训练。

9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了《自然》(Nature)杂志封面。


论文研究人员表示,DeepSeek强大的AI模型R1之所以能成功,并不依赖于使用其竞争对手的输出内容进行训练。今年一月,R1的发布曾引发美国股市暴跌。这一声明出自今天发表于《自然》(Nature)杂志的一篇经同行评议的R1模型论文的附带文件中。

R1旨在出色地完成数学和编程等“推理”任务,是美国科技公司所开发工具的一个更廉价的竞争对手。作为一个“开放权重”(open weight)模型,任何人都可以下载它,并且它也是迄今为止在AI社区平台Hugging Face上最受欢迎的此类模型,下载量已达1090万次。

这篇论文是对今年一月所发布的一份预印本的更新,该预印本描述了DeepSeek如何增强一个标准的大语言模型(Large Language Model, LLM)以处理推理任务。其补充材料首次披露了R1的增量训练成本仅相当于29.4万美元。这笔费用是在该公司(总部位于杭州)为构建R1所基于的基础大语言模型而花费的约600万美元之外的,但总金额仍远低于竞争对手模型据信高达数千万美元的成本。DeepSeek表示,R1主要是在英伟达的H800芯片上进行训练的,而根据美国的出口管制规定,该芯片自2023年起已被禁止向中国销售。

严格的同行评审

R1被认为是首个经历同行评议过程的主流大语言模型。“这是一个非常值得欢迎的先例,”Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)说,他也是这篇《自然》论文的审稿人之一。“如果我们没有这种公开分享大部分流程的规范,就很难评估这些系统是否存在风险。”

为回应同行评议的意见,DeepSeek团队减少了其描述中的拟人化用语,并补充了技术细节的说明,包括模型训练所用的数据类型及其安全性。“经历一个严格的同行评议过程,无疑有助于验证模型的有效性和实用性,”位于哥伦布市的俄亥俄州立大学AI研究员孙欢(Huan Sun)说。“其他公司也应该这样做。”

DeepSeek的主要创新在于,它使用了一种自动化的“试错法”,即纯粹的强化学习(pure reinforcement learning),来创建R1。这个过程是通过奖励模型得出正确答案的方式进行,而不是教它遵循人类挑选的推理范例。该公司表示,其模型正是通过这种方式学会了自身的类推理策略,例如如何在不遵循人类预设策略的情况下验证其解题过程。为提高效率,该模型还使用了被称为“组相对策略优化”(group relative policy optimization)的技术,即利用估算值为自身的尝试打分,而不是另外采用一个独立的算法来做这件事。

孙欢表示,该模型在AI研究人员中“相当有影响力”。“2025年迄今为止,几乎所有在大语言模型中进行强化学习的研究,都可能或多或少地受到了R1的启发。

关于训练方式的争议

今年一月的媒体报道曾暗示,OpenAI研究人员认为,DeepSeek利用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力的提升。

DeepSeek并未在其论文中公布其训练数据。但是,在与审稿人的交流中,该公司的研究人员声明,R1并非通过复制OpenAI模型生成的推理范例来学习的。不过他们承认,与大多数其他大语言模型一样,R1的基础模型是在海量网络数据上训练的,因此它会吸收互联网上已有的任何AI生成内容。

孙欢认为,这一反驳“与我们在任何出版物中能看到的说法一样有说服力”。坦斯托尔补充说,尽管他无法百分之百确定R1没有在OpenAI的范例上进行训练,但其他实验室的复现尝试表明,DeepSeek的这套推理方法可能已经足够好,无需这样做。“我认为现在的证据相当清楚,仅使用纯粹的强化学习就能获得非常高的性能,”他说。

孙欢说,对于研究人员而言,R1仍然非常有竞争力。在一项旨在完成分析和可视化数据等科学任务的挑战,即ScienceAgentBench基准测试中,孙欢及其同事发现,尽管R1的准确率并非第一,但从平衡能力与成本的角度来看,它是表现最好的模型之一。

坦斯托尔说,其他研究人员现在正尝试应用创建R1所用的方法,来提高现有大语言模型的类推理能力,并将其扩展到数学和编程以外的领域。他补充说,从这个意义上讲,R1“引发了一场革命”。(易句)

(本文由AI翻译,网易编辑负责校对)

延伸阅读
相关推荐
热点推荐
看上去像“公务员”,其实连编制都没有的6个职业

看上去像“公务员”,其实连编制都没有的6个职业

细说职场
2026-04-12 17:02:40
正式离开,告别德甲首季,扣除掉上缴乒协,樊振东薪水还剩多少?

正式离开,告别德甲首季,扣除掉上缴乒协,樊振东薪水还剩多少?

林子说事
2026-04-18 15:43:32
陈丽华生前与赵本山聚餐与演员们喝酒时的一幕,喝酒非常的豪爽。

陈丽华生前与赵本山聚餐与演员们喝酒时的一幕,喝酒非常的豪爽。

小椰的奶奶
2026-04-18 13:09:00
Lululemon“避孕门”曝光!3亿中产天塌了!

Lululemon“避孕门”曝光!3亿中产天塌了!

广告案例精选
2026-04-16 08:28:23
首轮打北京+次轮打上海!广东惨遭重大打击,杜锋迎来最难季后赛

首轮打北京+次轮打上海!广东惨遭重大打击,杜锋迎来最难季后赛

绯雨儿
2026-04-18 13:47:58
被逮捕的四位央视主持人,个个都沦为了阶下囚,最严重者出卖国家

被逮捕的四位央视主持人,个个都沦为了阶下囚,最严重者出卖国家

阅微札记
2026-04-18 16:46:59
许家印被捕细节公开保交楼会议设伏抓捕反抗激烈被摘皮带戴手铐

许家印被捕细节公开保交楼会议设伏抓捕反抗激烈被摘皮带戴手铐

深度报
2026-04-18 23:28:19
交警查车为何不逐辆检查?只要牢记这4点,交警基本懒得管你

交警查车为何不逐辆检查?只要牢记这4点,交警基本懒得管你

复转这些年
2026-04-18 12:03:56
雷军一镜到底的测试,把整个评测行业的“遮羞布”撕了

雷军一镜到底的测试,把整个评测行业的“遮羞布”撕了

新浪财经
2026-04-19 00:39:24
人民币大涨7%!存款“躺赚”,2026年存钱的人偷着乐

人民币大涨7%!存款“躺赚”,2026年存钱的人偷着乐

生活新鲜市
2026-04-18 20:28:54
不卑微!一新生坦诚告知室友家穷,聚餐不必叫自己,宿舍卫生全包

不卑微!一新生坦诚告知室友家穷,聚餐不必叫自己,宿舍卫生全包

火山詩话
2026-04-17 09:22:03
打不得!日本战舰擅自闯入了台湾海峡,我军为什么不直接击沉它?

打不得!日本战舰擅自闯入了台湾海峡,我军为什么不直接击沉它?

萧佉影视解说
2026-04-17 22:27:35
莫氏鸡煲被投诉!

莫氏鸡煲被投诉!

东莞好生活
2026-04-18 19:08:16
1987年邓力群坚持左倾,落选中央委员,邓小平:承认选举,不变动

1987年邓力群坚持左倾,落选中央委员,邓小平:承认选举,不变动

帝哥说史
2026-04-13 06:30:03
扒了几天,终于挖出86版西游记,风婆婆,竟是15岁初中生演的!

扒了几天,终于挖出86版西游记,风婆婆,竟是15岁初中生演的!

可乐谈情感
2026-04-18 20:39:00
郑丽文称台湾是国家,反对两岸统一?喊话大陆:美国让我过去

郑丽文称台湾是国家,反对两岸统一?喊话大陆:美国让我过去

阿器谈史
2026-01-26 20:48:30
东风 - 31 泄密大案:总工程师被美色策反,国之重器险遭灭顶之灾

东风 - 31 泄密大案:总工程师被美色策反,国之重器险遭灭顶之灾

干史人
2026-04-18 13:44:12
天助尤文:1-2大冷门,意甲第5遭意甲第11掀翻,无缘升至第4

天助尤文:1-2大冷门,意甲第5遭意甲第11掀翻,无缘升至第4

侧身凌空斩
2026-04-18 04:16:14
别让手机“出卖”你!国安部反复警示:这3个定位设置,立刻关掉

别让手机“出卖”你!国安部反复警示:这3个定位设置,立刻关掉

Thurman在昆明
2026-04-17 10:22:21
2026年竟有人为初代PS等六款上世纪主机开发平台游戏

2026年竟有人为初代PS等六款上世纪主机开发平台游戏

3DM游戏
2026-04-17 10:55:28
2026-04-19 01:48:49

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

伊朗革命卫队向油轮开火 伊朗最高领袖发声

头条要闻

伊朗革命卫队向油轮开火 伊朗最高领袖发声

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

刘德华回应潘宏彬去世,拒谈丧礼细节

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

教育
亲子
家居
本地
公开课

教育要闻

毕业容易但申请难的几所英国大学!

亲子要闻

退烧药怎么用?90%家长都搞错了

家居要闻

法式线条 时光静淌

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×