网易首页 > 网易号 > 正文 申请入驻

DeepSeek首次回应“蒸馏OpenAI”质疑

0
分享至

9月18日,DeepSeek再次引发轰动。由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1研究论文,登上了国际权威期刊《Nature》的封面。


今年1月,DeepSeek曾在arxiv公布了初版预印本论文,相较而言,此次发布在《Nature》的版本补充了更多模型细节,减少了描述中的拟人化说明。在补充材料中,DeepSeek提到了R1模型的训练成本仅29.4万美元,以及回应了模型发布之初关于蒸馏OpenAI的质疑。

今年1月,有报道提到,OpenAI研究人员认为,DeepSeek可能使用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力提升。

在论文的补充资料部分,DeepSeek回应了关于DeepSeek-V3-Base训练数据来源的问题。“DeepSeek-V3-Base的训练数据仅来自普通网页和电子书,不包含任何合成数据。在预训练冷却阶段,我们没有故意加入OpenAI生成的合成数据,此阶段使用的所有数据都是通过网页抓取的。”DeepSeek表示。



不过,DeepSeek也说明,已观察到一些网页包含大量OpenAI模型生成的答案,这可能导致基础模型间接受益于其他强大模型的知识。此外,预训练数据集包含大量数学和编程相关内容,表明DeepSeek-V3-Base已经接触到大量有推理痕迹的数据。这种广泛的接触使模型能够生成较为合理的解决方案,强化学习可以从中识别并优化输出质量。DeepSeek表示,已在预训练中针对数据污染进行了处理。

哥伦布市俄亥俄州立大学的AI研究员Huan Sun表示,这一反驳"与我们在任何出版物中看到的内容同样具有说服力"。Hugging Face的机器学习工程师、同时也是论文审稿人之一的Lewis Tunstall补充说,尽管他不能100%确定R1未基于OpenAI示例进行训练,但其他实验室的复制尝试表明,DeepSeek的推理方案可能足够优秀而无须这样做。"我认为现有证据已相当明确地表明,仅使用纯强化学习即可获得极高性能。"他表示。

DeepSeek也在补充资料部分提到DeepSeek-R1的训练成本。在DeepSeek-R1的研究过程中,团队使用 A100 GPU 完成了较小规模模型(30B参数)的实验,随后团队将训练扩展至 660B参数的R1-Zero和R1模型。


具体而言,DeepSeek-R1-Zero训练使用了64×8张H800GPU,耗时约198小时。DeepSeek-R1训练同样使用了64×8张H800 GPU,耗时约4天(约80小时)。此外,构建SFT数据集消耗了约5000小时的GPU运算。

DeepSeek表示,假设H800的租赁价格为每小时2美元,DeepSeek-R1-Zero训练成本20.2万美元,SFT数据集创建花费1万美元,DeepSeek-R1训练成本8.2万美元,这三项的总成本为29.4万美元。折合成人民币,这些成本约200万元。

R1基于DeepSeek-V3模型训练,不过,即便加上训练V3模型所花费的约600 万美元训练成本,总金额仍远低于竞争对手的模型所花费的数千万美元。

DeepSeek-R1已经成为了全球最受欢迎的开源推理模型,Hugging Face下载量超1090万次。到目前为止,DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。

Lewis Tunstall表示,“这是一个非常受欢迎的先例,如果没有公开分享这一流程大部分内容的规范,就很难评估这些系统是否存在风险。”当前 AI 行业不乏刷榜的传闻,基准测试可被操控,而经过独立的同行评审显然也能打消疑虑。

具体到此次发布论文内容,其题目是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,主要公开了仅靠强化学习,就能激发大模型推理能力的重要研究成果。


以往的研究主要依赖大量监督数据来提升模型性能。DeepSeek的开发团队则开辟了一种全新的思路,即使不用监督微调(SFT)作为冷启动,通过大规模强化学习也能显著提升模型的推理能力。如果再加上少量的冷启动数据,效果会更好。

在强化学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。因此模型学会了推理,逐步解决问题并揭示这些步骤,从而更有可能得出正确答案。这使得 DeepSeek-R1 能够自我验证和自我反思,在给出新问题的答案之前检查其性能,从而提高其在编程和研究生水平科学问题上的表现。

DeepSeek在模型训练中,采用了群组相对策略优化(GRPO)来降低训练成本,设计奖励机制决定着强化学习优化的方向,同时团队设计了简单模板来引导基础模型,要求模型先给出推理过程,再提供最终答案。

为了使更高效的小模型具备 DeepSeek-R1 那样的推理能力,开发团队还直接使用 DeepSeek-R1 整理的 80 万个样本对 Qwen 和 Llama 等开源模型进行了微调。研究结果表明,这种简单的蒸馏方法显著增强了小模型的推理能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
费德勒:考虑和纳达尔举行“费纳”巡回表演赛,最近一直在打球!

费德勒:考虑和纳达尔举行“费纳”巡回表演赛,最近一直在打球!

网球之家
2025-09-19 10:47:21
远超欧美!中国造出全球首台相控阵CT,成像清晰度堪比解剖

远超欧美!中国造出全球首台相控阵CT,成像清晰度堪比解剖

策略述
2025-09-12 15:46:15
汪峰也没想到,官宣恋情才1年,森林北竟走上了和章子怡一样的路

汪峰也没想到,官宣恋情才1年,森林北竟走上了和章子怡一样的路

小娱乐悠悠
2025-09-19 10:04:20
iPhone17系列正式发售,苹果三里屯零售店清晨大排长龙,员工在门口倒数迎接顾客,iPhoneAir未在零售店展出

iPhone17系列正式发售,苹果三里屯零售店清晨大排长龙,员工在门口倒数迎接顾客,iPhoneAir未在零售店展出

鲁中晨报
2025-09-19 09:48:03
奉劝奔五奔六的70后,在外面混得再不好,也不要回老家发展

奉劝奔五奔六的70后,在外面混得再不好,也不要回老家发展

小马达情感故事
2025-09-18 18:45:03
恒大“最大债主”,遭遇致命一击

恒大“最大债主”,遭遇致命一击

快刀财经
2025-09-18 22:44:05
清朝灭亡后,李莲英姐姐才敢说出实情:慈禧其实不是病死的!

清朝灭亡后,李莲英姐姐才敢说出实情:慈禧其实不是病死的!

蜉蝣说
2025-09-16 11:23:23
计谋得逞!哈里王子已回加州,梅根兴奋晒图炫耀战绩,她又赢了

计谋得逞!哈里王子已回加州,梅根兴奋晒图炫耀战绩,她又赢了

老吴教育课堂
2025-09-19 09:34:14
俄媒:法国、乌克兰等14国反对俄罗斯解禁,希腊等7国支持解禁

俄媒:法国、乌克兰等14国反对俄罗斯解禁,希腊等7国支持解禁

直播吧
2025-09-18 13:00:03
偷情发生关系时,女性为何主动要男人说一些“下流话”?

偷情发生关系时,女性为何主动要男人说一些“下流话”?

文雅笔墨
2025-09-17 01:04:38
恭喜大连英博!恭喜辽宁铁人!恭喜辽篮,辽宁3队一数据名列前茅

恭喜大连英博!恭喜辽宁铁人!恭喜辽篮,辽宁3队一数据名列前茅

璞玉话体坛
2025-09-19 09:33:58
高速能跑140km/小时?网传新政引热议

高速能跑140km/小时?网传新政引热议

大象新闻
2025-09-16 12:47:03
糖尿病到最后都是咋去世的?医生叹息:去世前,一般都有2个症状

糖尿病到最后都是咋去世的?医生叹息:去世前,一般都有2个症状

宝哥精彩赛事
2025-09-10 16:48:27
65岁大爷退休金被人冒领半年,老头没找麻烦直接贷款,对方急眼了

65岁大爷退休金被人冒领半年,老头没找麻烦直接贷款,对方急眼了

涛哥讲堂
2025-09-08 10:36:08
新中国第一代高级干部名单大全,收藏!

新中国第一代高级干部名单大全,收藏!

霹雳炮
2025-09-13 22:02:41
重庆南岸迎龙商贸城:商户憧憬梦碎了!现状与破局建议来了

重庆南岸迎龙商贸城:商户憧憬梦碎了!现状与破局建议来了

特特农村生活
2025-09-19 08:30:31
曾率海港问鼎中超!59岁名帅宣布竞聘国足主帅:我履历+能力符合

曾率海港问鼎中超!59岁名帅宣布竞聘国足主帅:我履历+能力符合

我爱英超
2025-09-18 21:59:40
19岁美女在沈阳被判死刑,行刑前突然大喊:我有冤屈我要验身

19岁美女在沈阳被判死刑,行刑前突然大喊:我有冤屈我要验身

罪案洞察者
2025-02-24 14:03:18
“新疆棉”事件5年后,那个丑态百出的“反华妖女”,如今怎样了

“新疆棉”事件5年后,那个丑态百出的“反华妖女”,如今怎样了

博览历史
2025-09-10 20:25:07
美军慌了!中国JY-27雷达开机探测:委内瑞拉锁定1架F-35隐身战机

美军慌了!中国JY-27雷达开机探测:委内瑞拉锁定1架F-35隐身战机

荣亭小吏
2025-09-18 16:16:56
2025-09-19 11:36:49
中国能源网 incentive-icons
中国能源网
《中国能源报》社有限公司官网官方账号,专注能源行业报道的垂直媒体,是能源专业产经传媒平台。
42431文章数 609关注度
往期回顾 全部

科技要闻

黄仁勋亲口确认:正评估英特尔代工

头条要闻

加沙停火草案被美国一票否决 中国大使发出"灵魂三问"

头条要闻

加沙停火草案被美国一票否决 中国大使发出"灵魂三问"

体育要闻

30队今夏花钱排名:雷霆超8亿 勇士零花费

娱乐要闻

关晓彤生日 仅闫妮和化妆师撑场祝福?

财经要闻

青海一"矿霸"非法填埋万吨危废

汽车要闻

理想i6不搞虚的,9月26日上市/第二天开始交付

态度原创

时尚
手机
房产
公开课
军事航空

秋冬穿对红黄橙,温暖又高级

手机要闻

意外吗?在4-5K区间vivo超越小米成新王

房产要闻

好猛!海南楼市,一批王炸楼盘杀出!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

卫星图像显示以军坦克集结加沙城周围

无障碍浏览 进入关怀版