网易首页 > 网易科技 > 网易科技 > 正文

DeepSeek论文登《自然》封面,披露R1训练费200万,不依赖对手内容

0
分享至
核心提示
  • 01 由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了《自然》杂志封面。论文声明,该模型的成功并不依赖于使用其竞争对手的输出内容进行训练。
  • 02 R1是首个经历同行评议的主流大语言模型,被认为是“值得欢迎的先例”。作为开放权重模型,它在Hugging Face上下载量已达1090万次,并被研究人员认为“引发了一场革命”。
  • 03 论文还首次披露,其增量训练成本仅29.4万美元,且主要在英伟达H800芯片上进行训练。

9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了《自然》(Nature)杂志封面。


论文研究人员表示,DeepSeek强大的AI模型R1之所以能成功,并不依赖于使用其竞争对手的输出内容进行训练。今年一月,R1的发布曾引发美国股市暴跌。这一声明出自今天发表于《自然》(Nature)杂志的一篇经同行评议的R1模型论文的附带文件中。

R1旨在出色地完成数学和编程等“推理”任务,是美国科技公司所开发工具的一个更廉价的竞争对手。作为一个“开放权重”(open weight)模型,任何人都可以下载它,并且它也是迄今为止在AI社区平台Hugging Face上最受欢迎的此类模型,下载量已达1090万次。

这篇论文是对今年一月所发布的一份预印本的更新,该预印本描述了DeepSeek如何增强一个标准的大语言模型(Large Language Model, LLM)以处理推理任务。其补充材料首次披露了R1的增量训练成本仅相当于29.4万美元。这笔费用是在该公司(总部位于杭州)为构建R1所基于的基础大语言模型而花费的约600万美元之外的,但总金额仍远低于竞争对手模型据信高达数千万美元的成本。DeepSeek表示,R1主要是在英伟达的H800芯片上进行训练的,而根据美国的出口管制规定,该芯片自2023年起已被禁止向中国销售。

严格的同行评审

R1被认为是首个经历同行评议过程的主流大语言模型。“这是一个非常值得欢迎的先例,”Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)说,他也是这篇《自然》论文的审稿人之一。“如果我们没有这种公开分享大部分流程的规范,就很难评估这些系统是否存在风险。”

为回应同行评议的意见,DeepSeek团队减少了其描述中的拟人化用语,并补充了技术细节的说明,包括模型训练所用的数据类型及其安全性。“经历一个严格的同行评议过程,无疑有助于验证模型的有效性和实用性,”位于哥伦布市的俄亥俄州立大学AI研究员孙欢(Huan Sun)说。“其他公司也应该这样做。”

DeepSeek的主要创新在于,它使用了一种自动化的“试错法”,即纯粹的强化学习(pure reinforcement learning),来创建R1。这个过程是通过奖励模型得出正确答案的方式进行,而不是教它遵循人类挑选的推理范例。该公司表示,其模型正是通过这种方式学会了自身的类推理策略,例如如何在不遵循人类预设策略的情况下验证其解题过程。为提高效率,该模型还使用了被称为“组相对策略优化”(group relative policy optimization)的技术,即利用估算值为自身的尝试打分,而不是另外采用一个独立的算法来做这件事。

孙欢表示,该模型在AI研究人员中“相当有影响力”。“2025年迄今为止,几乎所有在大语言模型中进行强化学习的研究,都可能或多或少地受到了R1的启发。

关于训练方式的争议

今年一月的媒体报道曾暗示,OpenAI研究人员认为,DeepSeek利用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力的提升。

DeepSeek并未在其论文中公布其训练数据。但是,在与审稿人的交流中,该公司的研究人员声明,R1并非通过复制OpenAI模型生成的推理范例来学习的。不过他们承认,与大多数其他大语言模型一样,R1的基础模型是在海量网络数据上训练的,因此它会吸收互联网上已有的任何AI生成内容。

孙欢认为,这一反驳“与我们在任何出版物中能看到的说法一样有说服力”。坦斯托尔补充说,尽管他无法百分之百确定R1没有在OpenAI的范例上进行训练,但其他实验室的复现尝试表明,DeepSeek的这套推理方法可能已经足够好,无需这样做。“我认为现在的证据相当清楚,仅使用纯粹的强化学习就能获得非常高的性能,”他说。

孙欢说,对于研究人员而言,R1仍然非常有竞争力。在一项旨在完成分析和可视化数据等科学任务的挑战,即ScienceAgentBench基准测试中,孙欢及其同事发现,尽管R1的准确率并非第一,但从平衡能力与成本的角度来看,它是表现最好的模型之一。

坦斯托尔说,其他研究人员现在正尝试应用创建R1所用的方法,来提高现有大语言模型的类推理能力,并将其扩展到数学和编程以外的领域。他补充说,从这个意义上讲,R1“引发了一场革命”。(易句)

(本文由AI翻译,网易编辑负责校对)

延伸阅读
相关推荐
热点推荐
干脆不装了,公然开始硬抢了

干脆不装了,公然开始硬抢了

胖胖说他不胖
2025-11-18 15:08:33
防止规模性返乡滞乡?未来最难的一批人是他们

防止规模性返乡滞乡?未来最难的一批人是他们

财话连篇
2025-11-17 18:41:50
“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

极目新闻
2025-11-18 14:06:30
雷军急坏了,小米汽车卖不动了,销量下滑22%

雷军急坏了,小米汽车卖不动了,销量下滑22%

吃瓜盟主
2025-11-18 14:29:35
台湾退役少校怒怼日本:这次千万别投降

台湾退役少校怒怼日本:这次千万别投降

扬子晚报
2025-11-18 12:25:32
女神刘亦菲字迹

女神刘亦菲字迹

微微热评
2025-11-18 15:34:34
高市早苗开始认错,若中方发起反制,将对日本经济带来怎样的危机

高市早苗开始认错,若中方发起反制,将对日本经济带来怎样的危机

北向财经
2025-11-18 09:19:32
退费、取消!中国旅行社冻结寒假赴日团,全日空、资生堂、伊势丹等股价大跌

退费、取消!中国旅行社冻结寒假赴日团,全日空、资生堂、伊势丹等股价大跌

爱看头条
2025-11-17 14:24:36
印度往美国倒卖中国稀土是怎么被发现的?情节堪称神奇!

印度往美国倒卖中国稀土是怎么被发现的?情节堪称神奇!

深度报
2025-11-17 23:07:05
日本拟恢复“大佐”等旧日军军阶用语,外交部:绝不允许日本军国主义复活

日本拟恢复“大佐”等旧日军军阶用语,外交部:绝不允许日本军国主义复活

澎湃新闻
2025-11-18 15:30:28
已确认!是知名演员周润发

已确认!是知名演员周润发

大象新闻
2025-11-18 13:14:07
孟加拉国前总理哈西娜被判死刑,中方回应

孟加拉国前总理哈西娜被判死刑,中方回应

政知新媒体
2025-11-18 16:44:49
约基奇空砍36+18+13掘金不敌公牛结束7连胜,吉迪21+14+6

约基奇空砍36+18+13掘金不敌公牛结束7连胜,吉迪21+14+6

湖人崛起
2025-11-18 12:26:07
重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

云鹏叙事
2025-11-16 15:18:51
哈登28+6+5丢绝杀迎28000分里程碑 快船遭76人逆转马克西39+6

哈登28+6+5丢绝杀迎28000分里程碑 快船遭76人逆转马克西39+6

醉卧浮生
2025-11-18 10:37:32
长荣货轮入天津港被拒?帮美运坦克入台!损失惨重苦不堪言

长荣货轮入天津港被拒?帮美运坦克入台!损失惨重苦不堪言

云舟史策
2025-11-18 07:30:28
日本国内紧急备战,媒体曲解国防部发言,网民叫嚣“出兵中国”

日本国内紧急备战,媒体曲解国防部发言,网民叫嚣“出兵中国”

诗意世界
2025-11-17 15:30:03
合肥市委副书记、合肥理工学院党委书记路军被查

合肥市委副书记、合肥理工学院党委书记路军被查

澎湃新闻
2025-11-18 15:44:27
珠海警方通报:林某(男,48岁)已被迅速控制,曾有多次精神类疾病就诊史

珠海警方通报:林某(男,48岁)已被迅速控制,曾有多次精神类疾病就诊史

鲁中晨报
2025-11-18 16:09:10
破防了!狗咬人事件追踪:李律师发近20条作品,为申某良无罪辩护

破防了!狗咬人事件追踪:李律师发近20条作品,为申某良无罪辩护

火山诗话
2025-11-17 12:50:06
2025-11-18 17:35:00

科技要闻

OPPO Reno15系列深评:实况封神+颜值暴击

头条要闻

燃气公司未告知让用户承担燃气表电池费 遭业主起诉

头条要闻

燃气公司未告知让用户承担燃气表电池费 遭业主起诉

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

本地
房产
家居
游戏
公开课

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

家居要闻

彰显奢华 意式经典风格

深海迷航+无人深空?开放世界多人捡垃圾《永恒天空》免费大更

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×