网易首页 > 网易号 > 正文 申请入驻

DeepSeek首次回应“蒸馏OpenAI”质疑

0
分享至

9月18日,DeepSeek再次引发轰动。由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1研究论文,登上了国际权威期刊《Nature》的封面。

今年1月,DeepSeek曾在arxiv公布了初版预印本论文,相较而言,此次发布在《Nature》的版本补充了更多模型细节,减少了描述中的拟人化说明。在补充材料中,DeepSeek提到了R1模型的训练成本仅29.4万美元,以及回应了模型发布之初关于蒸馏OpenAI的质疑。

今年1月,有报道提到,OpenAI研究人员认为,DeepSeek可能使用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力提升。

在论文的补充资料部分,DeepSeek回应了关于DeepSeek-V3-Base训练数据来源的问题。“DeepSeek-V3-Base的训练数据仅来自普通网页和电子书,不包含任何合成数据。在预训练冷却阶段,我们没有故意加入OpenAI生成的合成数据,此阶段使用的所有数据都是通过网页抓取的。”DeepSeek表示。

不过,DeepSeek也说明,已观察到一些网页包含大量OpenAI模型生成的答案,这可能导致基础模型间接受益于其他强大模型的知识。此外,预训练数据集包含大量数学和编程相关内容,表明DeepSeek-V3-Base已经接触到大量有推理痕迹的数据。这种广泛的接触使模型能够生成较为合理的解决方案,强化学习可以从中识别并优化输出质量。DeepSeek表示,已在预训练中针对数据污染进行了处理。

哥伦布市俄亥俄州立大学的AI研究员Huan Sun表示,这一反驳"与我们在任何出版物中看到的内容同样具有说服力"。Hugging Face的机器学习工程师、同时也是论文审稿人之一的Lewis Tunstall补充说,尽管他不能100%确定R1未基于OpenAI示例进行训练,但其他实验室的复制尝试表明,DeepSeek的推理方案可能足够优秀而无须这样做。"我认为现有证据已相当明确地表明,仅使用纯强化学习即可获得极高性能。"他表示。

DeepSeek也在补充资料部分提到DeepSeek-R1的训练成本。在DeepSeek-R1的研究过程中,团队使用 A100 GPU 完成了较小规模模型(30B参数)的实验,随后团队将训练扩展至 660B参数的R1-Zero和R1模型。

具体而言,DeepSeek-R1-Zero训练使用了64×8张H800GPU,耗时约198小时。DeepSeek-R1训练同样使用了64×8张H800 GPU,耗时约4天(约80小时)。此外,构建SFT数据集消耗了约5000小时的GPU运算。

DeepSeek表示,假设H800的租赁价格为每小时2美元,DeepSeek-R1-Zero训练成本20.2万美元,SFT数据集创建花费1万美元,DeepSeek-R1训练成本8.2万美元,这三项的总成本为29.4万美元。折合成人民币,这些成本约200万元。

R1基于DeepSeek-V3模型训练,不过,即便加上训练V3模型所花费的约600 万美元训练成本,总金额仍远低于竞争对手的模型所花费的数千万美元。

DeepSeek-R1已经成为了全球最受欢迎的开源推理模型,Hugging Face下载量超1090万次。到目前为止,DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。

Lewis Tunstall表示,“这是一个非常受欢迎的先例,如果没有公开分享这一流程大部分内容的规范,就很难评估这些系统是否存在风险。”当前 AI 行业不乏刷榜的传闻,基准测试可被操控,而经过独立的同行评审显然也能打消疑虑。

具体到此次发布论文内容,其题目是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,主要公开了仅靠强化学习,就能激发大模型推理能力的重要研究成果。

以往的研究主要依赖大量监督数据来提升模型性能。DeepSeek的开发团队则开辟了一种全新的思路,即使不用监督微调(SFT)作为冷启动,通过大规模强化学习也能显著提升模型的推理能力。如果再加上少量的冷启动数据,效果会更好。

在强化学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。因此模型学会了推理,逐步解决问题并揭示这些步骤,从而更有可能得出正确答案。这使得 DeepSeek-R1 能够自我验证和自我反思,在给出新问题的答案之前检查其性能,从而提高其在编程和研究生水平科学问题上的表现。

DeepSeek在模型训练中,采用了群组相对策略优化(GRPO)来降低训练成本,设计奖励机制决定着强化学习优化的方向,同时团队设计了简单模板来引导基础模型,要求模型先给出推理过程,再提供最终答案。

为了使更高效的小模型具备 DeepSeek-R1 那样的推理能力,开发团队还直接使用 DeepSeek-R1 整理的 80 万个样本对 Qwen 和 Llama 等开源模型进行了微调。研究结果表明,这种简单的蒸馏方法显著增强了小模型的推理能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
教练内讧的背后,是泰山队教练组存在三股势力,韩鹏已被架空

教练内讧的背后,是泰山队教练组存在三股势力,韩鹏已被架空

姜大叔侃球
2026-03-30 11:10:10
冷知识:千万不要买太大的蓝莓!!!

冷知识:千万不要买太大的蓝莓!!!

果壳
2026-03-30 16:12:50
马塞洛16岁儿子出彩:穿裆+补射 35分钟戴帽!皇马U19狂胜

马塞洛16岁儿子出彩:穿裆+补射 35分钟戴帽!皇马U19狂胜

叶青足球世界
2026-03-30 19:11:57
一天被毁21台梅卡瓦!美媒:以军遭遇40年来最大损失,濒临崩溃!

一天被毁21台梅卡瓦!美媒:以军遭遇40年来最大损失,濒临崩溃!

军机Talk
2026-03-29 14:03:41
贾跃亭宣布法拉第未来月底将超额完成机器人首月20台交付目标

贾跃亭宣布法拉第未来月底将超额完成机器人首月20台交付目标

IT之家
2026-03-30 17:30:27
450亿颗芯片悬空!荷兰突然宣布光刻机决定,欧媒:一切都结束了

450亿颗芯片悬空!荷兰突然宣布光刻机决定,欧媒:一切都结束了

安珈使者啊
2026-03-29 14:37:11
中央转移支付再超10万亿!四川、河南、湖南、湖北、河北,分得最多

中央转移支付再超10万亿!四川、河南、湖南、湖北、河北,分得最多

城市财经
2026-03-30 11:47:41
“希望大家不要再骂我了!”全红婵哽咽落泪:饿到不行,体重还是减不下来

“希望大家不要再骂我了!”全红婵哽咽落泪:饿到不行,体重还是减不下来

海峡网
2026-03-30 17:13:37
危险信号!特朗普,彻底被架空了!

危险信号!特朗普,彻底被架空了!

大嘴说天下
2026-03-30 18:13:30
CBA常规赛打完!这些水货外援都要全部走人,一个不留

CBA常规赛打完!这些水货外援都要全部走人,一个不留

男足的小球童
2026-03-30 18:53:57
7年败光数亿,55岁王中磊落魄,被迫拍短视频还债,儿子在美潇洒

7年败光数亿,55岁王中磊落魄,被迫拍短视频还债,儿子在美潇洒

以茶带书
2026-03-30 18:03:47
特朗普赚翻了,美媒:越来越多证据显示,特朗普利用伊朗战争敛财

特朗普赚翻了,美媒:越来越多证据显示,特朗普利用伊朗战争敛财

爱吃醋的猫咪
2026-03-30 20:27:35
我嫁给不能生育的迪拜富商,不到3个月我竟孕吐不止,医生:恭喜

我嫁给不能生育的迪拜富商,不到3个月我竟孕吐不止,医生:恭喜

千秋文化
2026-03-25 21:42:08
她41岁嫁庾澄庆,两年生一儿一女,比伊能静幸运的点在于婆婆老了

她41岁嫁庾澄庆,两年生一儿一女,比伊能静幸运的点在于婆婆老了

以茶带书
2026-03-29 20:58:52
泡泡玛特两日大跌超30%开启回购 段永平改口:收回不投资泡泡玛特的说法

泡泡玛特两日大跌超30%开启回购 段永平改口:收回不投资泡泡玛特的说法

快科技
2026-03-30 16:34:32
吴庆文任江苏镇江市委书记

吴庆文任江苏镇江市委书记

界面新闻
2026-03-30 11:24:16
27分5篮板,山东男篮外援捡到宝 助队小胜天津 陶汉林+郭凯齐爆发

27分5篮板,山东男篮外援捡到宝 助队小胜天津 陶汉林+郭凯齐爆发

替补席看球
2026-03-30 21:44:15
麦迪:约基奇不会在乎拿了20+20+20,赛后他只关心自己的马

麦迪:约基奇不会在乎拿了20+20+20,赛后他只关心自己的马

懂球帝
2026-03-30 21:30:09
伊能静回应逛迪士尼拒绝合影:一家三口难得在一起,我很珍惜

伊能静回应逛迪士尼拒绝合影:一家三口难得在一起,我很珍惜

大嘴天天说
2026-03-30 21:27:25
特朗普宣布访华新日期,不到48小时,中方不留情面,连出两条公告

特朗普宣布访华新日期,不到48小时,中方不留情面,连出两条公告

老范谈史
2026-03-30 20:58:50
2026-03-30 22:36:49
中国能源网 incentive-icons
中国能源网
《中国能源报》社有限公司官网官方账号,专注能源行业报道的垂直媒体,是能源专业产经传媒平台。
77362文章数 1222关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

开发商承诺有学校3年后交房没建 业主起诉被当地驳回

头条要闻

开发商承诺有学校3年后交房没建 业主起诉被当地驳回

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

家居
数码
教育
艺术
公开课

家居要闻

东方法式美学 现代简约

数码要闻

4499元起!vivo Pad6 Pro正式发布 搭载行业首款4K屏

教育要闻

妈妈不要怕,有我在,你的儿子女儿会平安快乐长大!

艺术要闻

600 年前的「产亡孤魂」,藏着中国女性最痛的记忆

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版