网易首页 > 网易号 > 正文 申请入驻

DeepSeek登上《Nature》封面,梁文锋打破质疑,给国人长脸了

0
分享至



创造历史!DeepSeek-R1论文登上《Nature》封面

就在昨晚,DeepSeek团队再次创造了历史!

由梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《Nature(自然)》的封面。



图源:Nature

有人可能会问:DeepSeek登上《Nature》封面究竟意味着什么?

如果说在《Nature》上发表论文是所有科研人员的梦想,那么让自己的研究成果登上封面,就相当于赢得了科学界的“奥斯卡最佳影片”。

这本创刊于1869年的期刊,是全球科学界公认的“圣杯”,代表着最前沿、最重磅、最可能改变世界的发现。而封面,则是优中选优,只留给当期最耀眼的那颗星星。

这一次,这颗星星来自中国。封面标题言简意赅——“Self-help: Reinforcement learning teaches large models to self-improve”(自我提升:强化学习教大模型自我完善)。

这是中国大模型研究成果第一次获此殊荣,标志着国际顶尖科学界对中国AI基础研究的最高认可。



图源:Nature

值得注意的是,DeepSeek的创始人兼CEO梁文锋,是这篇论文的唯一通讯作者。

而在这份长长的作者名单中,还有一位特别的成员——来自上海的高中生涂津豪。他曾在腾讯混元、DeepSeek实习,是开源项目Thinking-Claude的作者,也是2024阿里全球数赛AI挑战赛的冠军。



图源:知乎

那么,为什么年初就发布的DeepSeek-R1模型时隔大半年才正式登上《Nature》呢?

这中间的漫长时间,恰恰是这篇论文价值连城的关键所在——DeepSeek-R1经历了长达半年的、由八位外部独立专家参与的严苛同行评审过程。

这个过程的意义,远超论文本身。据《Nature》官方审稿人的描述,当今的AI行业,充斥着“令人印象深刻的发布会演示”、“不断刷新的排行榜分数”以及各种“未经证实的宣传和炒作”。

谁家的模型更强?往往是王婆卖瓜,自卖自夸。

而DeepSeek选择了一条最艰难也最光荣的路:将自己的模型设计、方法论和局限性,毫无保留地交给全世界最顶尖的独立专家进行审视和“挑刺”。

正是这一勇敢的举动,创造了两个历史性的“第一”:全球第一个经过同行评审的主流大语言模型以及第一个登上《Nature》封面的中国大模型



图源:X

在此之前,几乎所有主流大模型都未经过独立的学术评审。《Nature》期刊自己也评论道,这个空白“终于被DeepSeek打破了”。

并且,DeepSeek团队还史无前例地做到了把“低价+透明”写进了顶刊。

此次论文的补充材料中,首次公开了R1模型仅用29.4万美元(约合人民币209万元)的训练成本——使用H800芯片从V3-base版本训练至R1,成本仅为行业平均水平的1/10。

相比之下,诸如ChatGPT、谷歌Gemini等竞争对手动辄需要数千万甚至上亿美元的投入,DeepSeek的成本控制堪称奇迹。



更多细节披露:纯强化学习“让模型自己长推理”

与1月份未经评审的初版相比,发表在《Nature》上的新版论文包含了大量的补充材料,其中不仅披露了海量技术细节,还正面回应了模型发布之初的核心争议。

先说这篇论文最大的亮点,就是证明了仅通过纯强化学习(Pure Reinforcement Learning, RL),就能显著激发大模型的推理能力,而无需大量人工标注的“标准答案”。



图源:Nature

这个概念听起来很专业,但可以用一个简单的比喻来理解。

传统的训练方法,比如监督微调(SFT),就像是给学生一本习题册,上面既有题目也有详细的解题步骤和答案。学生要做的,是学习并模仿这些“标准解法”。

而DeepSeek的纯强化学习方法则完全不同。

它更像是把学生关在一个只有题目和草稿纸的房间里,不提供任何解题范例。学生可以自由地用任何方法尝试解题,最后只需要把答案提交。

系统只会告诉他“答对了”或“答错了”。如果答对了,就给予“奖励”;答错了,就给予“惩罚”

在这种模式下,模型为了获得更多奖励,必须自己去“悟”,去探索什么样的思考路径、什么样的解题策略,才能最终导向正确的答案。

它不再是模仿人类,而是在创造属于自己的、可能更高效的推理方法。

为了提升效率,团队还采用了名为“群体相对策略优化”(GRPO)的算法,省去了一个庞大的“裁判”模型,从而大幅降低了训练成本。

最令人惊奇的是,通过这种“粗放”的训练,模型(特指其前身DeepSeek-R1-Zero)竟然自发地涌现出了多种类似人类的、复杂且高级的推理行为,而这些都是研究人员从未明确教过它的。

例如模型在给出最终答案前,学会了自己检查一遍解题过程,就像我们做完数学题要验算一样。

研究人员甚至观察到了模型的“顿悟时刻”(Aha moment),在它的“内心独白”(推理过程)中,会突然出现“等等”(wait)这样的词,然后停下来重新评估自己最初的思路,修正错误。



图源:Nature

此外,该研究还发现DeepSeek具有长思维链(Long CoT)自适应计算的能力。

一方面,面对复杂难题,模型会不惜花费成百上千个“词元”(token)来进行深度思考和推理,展现出惊人的专注和严谨;

另一方面,模型还自己学会了“偷懒”,对简单问题用较少的步骤快速解决,对复杂问题则投入更多的计算资源进行深度思考,实现了计算力的智能分配。

这些自发涌现的能力,最终转化为了实打实的性能提升。



图源:Nature

今年1月模型刚发布时,曾有媒体报道称OpenAI的研究人员认为DeepSeek涉嫌使用“蒸馏”技术——即用OpenAI模型生成的数据来训练自己的模型,从而用更低的成本“抄近道”。

这次的《Nature》论文,就是DeepSeek对此事最正式、最权威的回应。

在与审稿人的沟通中,团队明确指出,R1模型的核心推理能力,是通过其独创的纯强化学习过程独立训练出来的,并没有学习或复制任何由OpenAI模型生成的推理范例

当然,团队也坦诚地承认,其基础模型是在海量的互联网数据上训练的,其中自然不可避免地吸收到一些其他AI生成的内容

俄亥俄州立大学AI研究员Huan Sun表示,这个解释“与我们在任何出版物中看到的一样令人信服”。



为什么说这是行业里程碑事件?

《Nature》审稿人Lewis Tunstall强调,将主流大模型提交同行评审是“一个值得欢迎的先例”,因为这为评估和管理AI风险提供了开放的基础。

作为全球最顶级的科学权威机构,Nature正在借助DeepSeek的案例,向OpenAI、Google、Anthropic等巨头发出呼吁:请把你们的模型也拿到阳光下,接受科学共同体的检验。

DeepSeek的行为,正在倒逼整个行业提升透明度和可信度。

并且,DeepSeek的贡献远不止于一篇论文。

他们选择了“开放权重”(Open-weight)的模式,将模型的核心参数公之于众,任何人都可以下载、研究和改进他们的工作。

这一举动引爆了全球开发者社区,DeepSeek-R1迅速成为AI社区平台Hugging Face上同类模型中下载量最高的模型,累计下载超过1090万次。

此外,团队还贴心地发布了多个“蒸馏”后的小尺寸模型,让那些没有海量计算资源的研究者和开发者也能用上先进的推理能力。

这种开放精神,与一些巨头公司“闭源”的路线形成了鲜明对比。



梁文锋的野心彻底暴露

尽管取得了辉煌的成就,但客观来看,DeepSeek的征途才刚刚开始。

在长达64页的同行评审报告中,8位审稿人共提出上百条具体意见,其中提到了DeepSeek数据细节仍不够透明奖励机制尚待优化以及安全与伦理审查尚属起步阶段等问题。

例如有审稿人要求DeepSeek在论文中附上SFT和RL数据的链接,而不仅仅是提供数据样本。

不过,梁文锋的野心显然不局限于此。

据彭博社消息,DeepSeek正在秘密研发一款具备自我进化能力的Agent。这款产品无需复杂指令,能自主学习并执行多步骤任务,还可从历史操作中迭代优化。

该项目由梁文锋亲自带队,计划在今年第四季度发布,目标直指“无需人类干预的通用智能体”。

从《Nature》封面到自我进化Agent,一条清晰的路径已经浮现。

如果说《Nature》上的这篇论文证明了模型可以在虚拟的数学世界里“自我进化”出推理能力,那么这款Agent的目标,可能就会让模型在更广阔的数字世界里,通过与环境的真实交互,“自我进化”出解决实际问题的行动能力。

梁文锋和他的团队,真实目的应该是创造出能够自主学习、不断成长的AI新物种,从而彻底改变人机协作的范式。

这场好戏,才刚刚拉开序幕。

作者 | 刘峰

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
要不了多久,中国最值钱的不是房子车子,而是这四样!

要不了多久,中国最值钱的不是房子车子,而是这四样!

科学发掘
2025-11-08 14:38:55
13场0球神锋坠落!莫拉塔失控撞人后主动求换下,职业生涯走到头

13场0球神锋坠落!莫拉塔失控撞人后主动求换下,职业生涯走到头

体坛老球迷
2025-11-09 11:33:19
福建舰设计师团队:以80后年轻人为主!

福建舰设计师团队:以80后年轻人为主!

政知新媒体
2025-11-09 11:25:34
28.85万,史上续航最强的ModelY上线了!

28.85万,史上续航最强的ModelY上线了!

格隆汇
2025-11-08 10:49:04
燃爆!台积电发巨额奖金!黄仁勋:我需要更多晶圆!魏哲家:3纳米扩产50%、盈利年年新高!员工:双11买爆!

燃爆!台积电发巨额奖金!黄仁勋:我需要更多晶圆!魏哲家:3纳米扩产50%、盈利年年新高!员工:双11买爆!

芯榜
2025-11-09 08:22:41
101冠伟业达成!德约赢了:2-1逆转夺冠,刷爆4大纪录,不老传奇

101冠伟业达成!德约赢了:2-1逆转夺冠,刷爆4大纪录,不老传奇

大秦壁虎白话体育
2025-11-09 03:20:48
2025年11月6日红军城战况:俄军“兔耳朵”突出部崩解

2025年11月6日红军城战况:俄军“兔耳朵”突出部崩解

高博新视野
2025-11-08 17:51:06
“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

趣文说娱
2025-11-08 17:14:30
E句话| 《繁花》剧组又回应了?

E句话| 《繁花》剧组又回应了?

仙女事件簿
2025-11-08 23:44:13
纪念“中国最后一位大学校长”刘道玉先生

纪念“中国最后一位大学校长”刘道玉先生

难得君
2025-11-08 08:57:11
打?奉陪到底,联合国爆发激战,中方开始算账,第一个收拾美国

打?奉陪到底,联合国爆发激战,中方开始算账,第一个收拾美国

南宫一二
2025-11-09 10:17:42
演员张凯丽回应红毯穿黑丝:我今年才63,正是闯的年纪

演员张凯丽回应红毯穿黑丝:我今年才63,正是闯的年纪

红星新闻
2025-11-06 16:57:17
为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

混沌录
2025-11-02 17:13:10
3家A股公司火了,获超百家机构 调研

3家A股公司火了,获超百家机构 调研

每日经济新闻
2025-11-09 08:52:21
导演张律回应争议:投资不是白百何拉来的,获奖消息提前通知她

导演张律回应争议:投资不是白百何拉来的,获奖消息提前通知她

好贤观史记
2025-11-08 22:18:40
谁注意,广东1人被换下后,陈海涛冲着他微笑:打四川双塔靠你了

谁注意,广东1人被换下后,陈海涛冲着他微笑:打四川双塔靠你了

南海浪花
2025-11-09 07:06:02
雷军这回栽了,小米法务被这个女人拿捏,太打脸

雷军这回栽了,小米法务被这个女人拿捏,太打脸

公子麦少
2025-11-07 14:39:17
表姑贷了700万给表哥全款买房,担保人填我名字,我冷笑撕掉协议

表姑贷了700万给表哥全款买房,担保人填我名字,我冷笑撕掉协议

小秋情感说
2025-11-03 14:45:57
“大鱼”游走了,泽连斯基在巴甫洛夫格勒的地堡里,见证了红军城的陷落!

“大鱼”游走了,泽连斯基在巴甫洛夫格勒的地堡里,见证了红军城的陷落!

胜研集
2025-11-06 10:42:31
别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

喜欢历史的阿繁
2025-11-08 15:09:21
2025-11-09 12:51:00
科技头版Pro incentive-icons
科技头版Pro
一起见证改变世界的力量
471文章数 163关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

网友称小米一个电器领域就能把格力"干掉" 王自如回应

头条要闻

网友称小米一个电器领域就能把格力"干掉" 王自如回应

体育要闻

梅西1v4单挑 29分钟双响!年度44球20助

娱乐要闻

《繁花》剧组又回应了?

财经要闻

10月CPI同比上涨0.2% CPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

时尚
游戏
本地
亲子
军事航空

五十多岁的女性秋季别瞎打扮,这3个技巧实用还时髦,快收藏

鸟巢王者荣耀KPL规模震惊老外!观众数破吉尼斯纪录

本地新闻

这届干饭人,已经把博物馆吃成了食堂

亲子要闻

真是欠收拾啊

军事要闻

福建舰常驻地为三亚军港

无障碍浏览 进入关怀版