网易首页 > 网易号 > 正文 申请入驻

刚刚,梁文锋发Nature了!

0
分享至


智东西
作者 陈骏达
编辑 李水青

昨晚,DeepSeek再度开创历史!

智东西9月18日报道,9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自然(Nature)》的封面。

DeepSeek-R1论文首次公开了仅靠强化学习,就能激发大模型推理能力的重要研究成果,启发全球AI研究者;这一模型还成为全球最受欢迎的开源推理模型,Hugging Face下载量超1090万次。此番获得《自然》的认证,可谓是实至名归。

与此同时,DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。《自然》在社论中高度评价道:几乎所有主流的大模型都还没有经过独立同行评审,这一空白“终于被DeepSeek打破”。

《自然》认为,在AI行业中,未经证实的说法和炒作已经“司空见惯”,而DeepSeek所做的一切,都是“迈向透明度和可重复性的可喜一步”。


▲《自然》杂志封面标题:自助——强化学习教会大模型自我改进

发表在《自然》杂志的新版DeepSeek-R1论文,与今年1月未经同行评审的初版有较大差异,披露了更多模型训练的细节,并正面回应了模型发布之初的蒸馏质疑。


▲发表在《自然》杂志的DeepSeek-R1论文

在长达64页的同行评审文件中,DeepSeek介绍,DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的数据全部来自互联网,虽然可能包含GPT-4生成的结果,但绝非有意而为之,更没有专门的蒸馏环节。

DeepSeek也在补充材料中提供了训练过程中减轻数据污染的详细流程,以证明模型并未在训练数据中有意包含基准测试,从而提升模型表现。

此外,DeepSeek对DeepSeek-R1的安全性进行了全面评估,证明其安全性领先同期发布的前沿模型。

《自然》杂志认为,随着AI技术日渐普及,大模型厂商们无法验证的宣传可能对社会带来真实风险。依靠独立研究人员进行的同行评审,是抑制AI行业过度炒作的一种有效方式。

论文链接:

https://www.nature.com/articles/s41586-025-09422-z#code-availability

同行评审报告:

https://www.nature.com/articles/s41586-025-09422-z#MOESM2

补充材料:

https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf

一、新版论文披露多个重要信息,R1安全性获全面评估

在了解新版论文的变化前,我们有必要先回顾下DeepSeek-R1论文的核心内容。

DeepSeek-R1的研究出发点,是当时困扰AI业内的一个重大问题。众所周知,推理能提升大语言模型的能力,但让模型在后训练阶段通过数据学习思维链轨迹,严重依赖人工标注,限制了可扩展性。

DeepSeek尝试通过强化学习,让模型自我演化发展出推理能力。在DeepSeek-V3 Base的基础上,DeepSeek使用GRPO作为强化学习框架,仅使用最终预测结果与真实答案的正确性作为奖励信号,未对推理过程施加限制,最终构建出DeepSeek-R1-Zero。

DeepSeek-R1-Zero通过强化学习成功掌握了改进的推理策略,倾向于生成更长的回答,每个回答中包含验证、反思和探索备选方案。


▲DeepSeek-R1-Zero答题正确率随着推理长度提升,模型训练中总体回答长度也不断提升

DeepSeek在DeepSeek-R1-Zero的基础上,采用多阶段训练结合RL、拒绝采样和监督微调,开发出DeepSeek-R1,使模型既具备强推理能力,又能更好贴合人类偏好。此外,团队还蒸馏出小型模型并公开发布,为研究社区提供了可用资源,推动思维链推理模型的发展与应用。

除了上述主要科研成果外,在最新版的论文和其他材料中,DeepSeek新增了不少补充信息,让外界更深入地了解到模型训练和运作的细节。

基准测试数据污染是一个极为敏感的问题——如果厂商在训练时有意或无意包含了基准测试和相关答案,就很有可能导致模型在相关测试上的得分异常偏高,影响基准测试评分的公正性。

DeepSeek透露,为了防止基准测试数据污染,其已对DeepSeek-R1的预训练和后训练数据都实施了全面的去污染措施。以数学领域为例,仅在预训练数据中,DeepSeek的去污染流程就识别并删除了约六百万条潜在文本。

在后训练阶段,数学相关的数据均来自2023年之前的竞赛,并采用与预训练相同的过滤策略,确保训练数据与评测数据完全不重叠。这些措施保证了模型评测结果能够真实反映其解决问题的能力,而非对测试数据的记忆。

不过,DeepSeek也承认这种去污染方法无法完全防止对测试集的改写,因此在2024年之前发布的部分基准测试仍可能存在污染问题。

DeepSeek还为DeepSeek-R1新增了一份全面的安全报告。报告提到,DeepSeek-R1在服务部署中引入了外部风险控制系统,不仅可以基于关键词匹配识别不安全对话,还使用DeepSeek-V3直接进行风险审查,判断是否应拒绝响应。DeepSeek建议开发者在使用DeepSeek-R1时,部署类似的风险控制系统。

在公开安全基准测试和内部安全研究中,DeepSeek-R1在大多数基准上超过了Claude-3.7-Sonnet、GPT-4o等前沿模型。开源部署版本的安全性虽不及具备外部风险控制系统的版本,但仍拥有中等水平的安全保障。


DeepSeek-R1发布之初,曾有传闻称该模型使用了OpenAI的模型进行蒸馏,这也出现在审稿人的提问中。

对此,DeepSeek做出了正面回应,称DeepSeek-V3-Base的预训练数据全部来源于网络,反映自然数据分布,“可能包含由先进模型(如GPT-4)生成的内容”,但DeepSeek-V3-Base并没有引入在合成数据集上进行大规模监督蒸馏的“冷却”阶段。

DeepSeek-V3-Base的数据截止时间为2024年7月,当时尚未发布任何公开的先进推理模型,这进一步降低了从现有推理模型中无意蒸馏的可能性。

更重要的是,DeepSeek-R1论文的核心贡献,也就是R1-Zero,不涉及从先进模型进行蒸馏。其强化学习(RL)组件是独立训练的,不依赖于GPT-4或其他类似能力模型的输出或指导。

二、R1论文开创大模型科研新范式,《自然》盛赞其填补空白

在社论中,《自然》详细地分析了DeepSeek-R1经历完整同行评审流程,并登上期刊的价值。

大模型正在迅速改变人类获取知识的方式,然而,目前最主流的大模型都没有在研究期刊中经历过独立的同行评审,这是一个严重的空白。

同行评审出版物有助于阐明大模型的工作原理,也有助于业内评估大模型的表现是否与厂商宣传的一致。

DeepSeek改变了这一现状。DeepSeek在今年2月14日将DeepSeek-R1论文提交至《自然》,而直到7月17日才被接收,9月17日正式发布。

在这一过程中,有8位外部专家参与了同行评审,对这项工作的原创性、方法和鲁棒性进行了评估。在最终发布的版本中,审稿报告与作者回复都被一并披露。

智东西也深入研读了DeepSeek-R1论文的审稿意见与作者回复。这份文件长达64页,接近论文本身篇幅的3倍。


▲DeepSeek同行评审材料封面

8位审稿人共提出上百条具体意见,既包括对单词单复数等细节的修改,也涵盖对论文中将AI“拟人化”的警示,以及对数据污染和模型安全性问题的关注。

例如,在下方修改意见中,审稿人敏锐地捕捉到了“将DeepSeek-R1-Zero开源”这一表述的模糊性,并提醒DeepSeek,“开源”这一概念的界定仍存争议,在使用相关表述时需要格外注意。

这位审稿人还要求DeepSeek在论文中附上SFT和RL数据的链接,而不仅仅是提供数据样本。


▲一位审稿人的部分修改意见

DeepSeek认真回应了审稿人提出的每一个问题,前文提到的多个章节与补充信息,正是在审稿人的建议下新增的。

虽然DeepSeek也曾在今年1月发布DeepSeek-R1的技术报告,但《自然》认为,此类技术文档与实际情况之间的差距可能很大。

相比之下,在同行评审中,外部专家并不是被动接收信息,而是能够在独立第三方(编辑)的主持和管理下,通过协作提出问题,并要求论文作者补充信息。

同行评审能够提升论文的清晰度,并确保作者对其主张作出合理的论证。这一流程并不一定会对文章内容带来重大修改,但却能增强研究的可信度。对AI开发者而言,这意味着他们的工作会更为扎实,并更具说服力。

结语:DeepSeek开源模式或成行业典范

作为国产开源 AI 模型走向世界的代表,DeepSeek-R1在全球开源社区拥有极高的口碑。而在本次登上《自然》杂志封面后,DeepSeek又补充了这一模型的更多信息,为开源社区提供了科研参考、模型复现思路以及应用支持。

《自然》杂志呼吁更多的AI公司将其模型提交给同行进行评审,确保其声明经过验证和澄清。在这一背景下,DeepSeek的开源模式不仅展示了国产AI的技术实力,也有望成为全球AI行业在科研透明度方面的参考典范。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西贝老板这么笨,是如何成为亿万富豪的?说白了就是胆大、运气好

西贝老板这么笨,是如何成为亿万富豪的?说白了就是胆大、运气好

水晶的视界
2025-09-18 20:55:18
别再说没实战,中国高科技战力一战封神,俾路支难题被解决

别再说没实战,中国高科技战力一战封神,俾路支难题被解决

华山穹剑
2025-09-16 21:40:22
美国不靠谱,那就靠向中国!中东57国齐聚开会,沙特王储一锤定音

美国不靠谱,那就靠向中国!中东57国齐聚开会,沙特王储一锤定音

现代小青青慕慕
2025-09-17 14:58:18
“嘎子”被拘最新,名导发文怒怼,央媒发文怒批,被抓早有征兆

“嘎子”被拘最新,名导发文怒怼,央媒发文怒批,被抓早有征兆

以茶带书
2025-09-18 18:13:16
男子给小35岁情人转1340万,66岁妻子起诉返还:自己曾省下工资支持他东山再起,第三者生活奢侈配备多名佣人

男子给小35岁情人转1340万,66岁妻子起诉返还:自己曾省下工资支持他东山再起,第三者生活奢侈配备多名佣人

极目新闻
2025-09-18 21:25:37
两地紧急通知:今天停课!

两地紧急通知:今天停课!

FM93浙江交通之声
2025-09-19 00:20:49
詹姆斯:我净资产才没有12亿 我卡上就几千块&身上行头都是送的

詹姆斯:我净资产才没有12亿 我卡上就几千块&身上行头都是送的

直播吧
2025-09-19 09:32:03
人间清醒任正非:不要再用中国的思维方式去理解世界格局!

人间清醒任正非:不要再用中国的思维方式去理解世界格局!

尚曦读史
2025-09-17 03:55:07
重理工黑人留学生住女寝楼后续:校最高层介入,爆料女生公开道歉

重理工黑人留学生住女寝楼后续:校最高层介入,爆料女生公开道歉

奇思妙想草叶君
2025-09-16 21:36:54
波兰找借口不让中欧班列过境通行?中国劝也不听

波兰找借口不让中欧班列过境通行?中国劝也不听

梁讯
2025-09-18 17:16:23
罢战之后:罗永浩的IP,东渡了日本

罢战之后:罗永浩的IP,东渡了日本

木蹊说
2025-09-18 18:39:26
清华、北大“清真食堂”摘牌,体现从“差异管理”向“融合促进”的转变,意义重大,利在千秋!

清华、北大“清真食堂”摘牌,体现从“差异管理”向“融合促进”的转变,意义重大,利在千秋!

西域都护
2025-09-16 11:44:22
完了!《731》首波口碑出炉,五星好评屈指可数,一星满屏皆是

完了!《731》首波口碑出炉,五星好评屈指可数,一星满屏皆是

电影票房预告片
2025-09-18 14:06:06
欧冠:曼城2-0十人那不勒斯!哈兰德破门+50球历史最快,多库建功

欧冠:曼城2-0十人那不勒斯!哈兰德破门+50球历史最快,多库建功

侃球熊弟
2025-09-19 04:10:13
“太草率,太不负责!”沪上小区加梯工程,遭“最奇葩操作”!居民们炸锅→

“太草率,太不负责!”沪上小区加梯工程,遭“最奇葩操作”!居民们炸锅→

新民晚报
2025-09-18 18:21:12
男子8001元捡漏网拍劳力士手表,商家认为亏本拒绝发货,诉至法院获赔7万元

男子8001元捡漏网拍劳力士手表,商家认为亏本拒绝发货,诉至法院获赔7万元

大风新闻
2025-09-18 22:31:20
起底西贝供应商:同款冷冻西兰花和海鲈鱼还卖给了谁?

起底西贝供应商:同款冷冻西兰花和海鲈鱼还卖给了谁?

界面新闻
2025-09-18 20:58:56
湖底惊现39年前失踪的运钞车,钞箱毫发无损,撬开后却傻眼了

湖底惊现39年前失踪的运钞车,钞箱毫发无损,撬开后却傻眼了

青青会讲故事
2025-09-17 11:32:38
突发!特朗普刚宣布:美军发起新一轮打击,多人死亡

突发!特朗普刚宣布:美军发起新一轮打击,多人死亡

大国之翼
2025-09-19 06:35:04
iPhone 17系列发售首日,记者在上海实探“最大旗舰店”:有人凌晨2点从常州坐车来排队取货

iPhone 17系列发售首日,记者在上海实探“最大旗舰店”:有人凌晨2点从常州坐车来排队取货

极目新闻
2025-09-19 09:12:05
2025-09-19 10:19:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10487文章数 116856关注度
往期回顾 全部

科技要闻

黄仁勋亲口确认:正评估英特尔代工

头条要闻

加沙停火草案被美国一票否决 中国大使发出"灵魂三问"

头条要闻

加沙停火草案被美国一票否决 中国大使发出"灵魂三问"

体育要闻

30队今夏花钱排名:雷霆超8亿 勇士零花费

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

青海一"矿霸"非法填埋万吨危废

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

艺术
亲子
房产
本地
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

中国大规模队列研究发文柳叶刀子刊:双亲BMI均会影响孩子出生结局

房产要闻

好猛!海南楼市,一批王炸楼盘杀出!

本地新闻

云游中国|谁懂!在天下第一关拍到史诗感大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版