网易首页 > 网易号 > 正文 申请入驻

“训练成本才这么点?美国同行陷入自我怀疑”

0
分享至

来源:市场资讯

(来源:观察者网)

【文/观察者网 王一】DeepSeek今年年初以高性价比、高性能、开源驱动等特点惊艳了世界。其团队近日在英国《自然》杂志发表论文首次披露,DeepSeek-R1模型的训练成本仅为29.4万美元,构建基础大语言模型也只花费了约600万美元,这一成本已远远低于美国同行透露的数字,而那还只是美国公司公布出来的大概成本。

英国路透社9月18日指出,DeepSeek的成本远低于美国竞争对手此前透露的数字,这一信息可能会再次引发外界围绕中国在全球人工智能(AI)领域地位的讨论。印度新闻网站“Devdiscourse”19日也称,DeepSeek首次提供成本数据,引发了美国公司对自己战略的质疑。

美国有线电视新闻网(CNN)、美国彭博社等美媒19日都对DeepSeek的29.4万美元训练成本感到惊讶。美国消费者新闻与商业频道(CNBC)评价说,考虑到OpenAI花了多少钱,DeepSeek的成本简直“惊人(astonishing)”,他们的模型已经推翻了只有拥有最先进、最快芯片的国家才能在AI竞赛中占据主导地位这一假设,现在他们甚至用数字对此进行了量化。

17日,《自然》杂志刊登了由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文。与今年1月发布DeepSeek-R1时的初版论文相比,最新的论文披露了更多模型训练的细节,也标志着该模型成为全球首个经过同行评审的主流大语言模型。

最新的论文披露,DeepSeek-R1模型使用了512块英伟达H800芯片,训练成本仅为29.4万美元。

路透社称,今年1月的早期论文并未包含相关信息。大型语言模型的训练成本通常是指,用高性能芯片集群处理海量文本和代码所产生的巨额费用。OpenAI首席执行官萨姆·奥尔特曼2023年曾透露,基础模型训练成本“远超”1亿美元,但他的公司从未公布过具体的数据。

当期《自然》杂志封面

该论文还对之前美国官员的一些毫无根据的质疑做出了回应。为打压中国AI发展,美国政府2022年就禁止英伟达向中国出口具备先进性能的H100和A100芯片。DeepSeek的AI大模型公布后,美国官员不相信中企可以用被“阉割”过的、英伟达专为中国市场设计的H800芯片训练出如此高性能的AI模型。

于是,今年6月,美国官员污称,DeepSeek在美国出口管制后违规获取了“大量” H100芯片并将其用于大模型训练。英伟达当时回应称,DeepSeek所使用的是合法采购的H800芯片,而非H100芯片。

在《自然》论文的补充材料中,DeepSeek首次承认其确实拥有A100芯片,称曾在研发前期使用这些芯片“为较小模型的实验做准备”,但在这之后,R1模型在512块H800芯片集群上进行了总计80个小时的训练。

DeepSeek还在论文中首次间接回应了今年1月来自白宫高级顾问和部分美国AI业内人士的指控——他们声称DeepSeek通过“蒸馏”技术“违规复制”OpenAI产品功能,并宣称已经发现“证据”。但此后,这些所谓的“证据”从未被公开。

蒸馏的理论核心是,让一个庞大且复杂的预训练AI模型充当“教师”,来训练一个较小的“学生模型”,后者从“教师模型”学习知识,以获得类似性能,但计算成本更低。不少专家表示,蒸馏在AI业内是一种常见的做法,但若涉及直接复制闭源专有模型的输出结构或参数,可能构成侵权。

DeepSeek一直为蒸馏技术辩护,认为该方法不仅能提升模型性能,还能显著降低训练和运行成本,从而扩大AI技术的普及范围。今年1月,该公司就提过,他们使用了美国科技公司Meta的开源AI模型Llama来构建其模型的部分精简版本。

在9月17日的论文中,DeepSeek表示,其V3模型的训练数据来源于网络爬取,其中包含“大量由OpenAI模型生成的回答,这可能会导致基础模型间接从其他强大模型中获得知识”。不过,DeepSeek强调这并非刻意为之,而是无意中的结果。

参与审阅该论文的Hugging Face机器学习工程师路易斯·汤斯顿(Lewis Tunstall)认为DeepSeek的解释有道理,其他实验室后来用类似的方法成功复制了R1模型的效果,这表明其他AI模型不需要所谓来自OpenAI的秘密数据就可以获得极高的推理能力。

科技咨询网站“Tech Space 2.0”也分析称,DeepSeek的数据策略是使用最大量的免费数据进行预训练,并巧妙使用自己生成的数据进行微调,只在计算上花钱,这种节俭的策略是其他公司目前正在深入研究的模板。

该网站指出,DeepSeek-R1在同类产品中脱颖而出,是因为他以极低的成本实现了最先进的成果。OpenAI的GPT-4和谷歌的AI模型“双子座(Gemini)”在某些方面仍然处于领先地位且享有强大的企业支持,但R1以一种此前从未见过的方式实现了“高端AI的民主化”——开放、复制成本相对低廉、高度注重效率。Meta的Llama2和法国科技初创企业米斯特拉尔AI公司(Mistral AI)的模型都秉承开放理念,但R1通过实现顶级性能将这一理念推向了新的高度。

“Tech Space 2.0”总结道:“这些比较强调了一个关键点:AI竞争不再仅仅关乎谁拥有最多的图形处理器(GPU),现在还关乎谁能用更少的资源实现更多的目标。从这个角度来看,DeepSeek已经改变了游戏规则。”

本文系观察者网独家稿件,未经授权,不得转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
清朝一个穷书生,帮屠户写春联,被王爷看到,十年后成了一品大员

清朝一个穷书生,帮屠户写春联,被王爷看到,十年后成了一品大员

千秋文化
2026-01-01 20:05:27
新加坡惊现“纸片摩天楼”!37层、150米高,薄得像一把刀,竟是贝聿铭神作

新加坡惊现“纸片摩天楼”!37层、150米高,薄得像一把刀,竟是贝聿铭神作

最黑科技
2026-03-22 23:14:02
研究发现:女性更容易拥有性满足!但原因不是你想的那样

研究发现:女性更容易拥有性满足!但原因不是你想的那样

第十一诊室
2026-04-07 00:05:18
“这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

“这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

妍妍教育日记
2026-03-21 10:05:03
我给侄子转了3万块后忘记挂电话,听到侄子骂我抠门,我正要发火,却意外听到侄女说了更大的秘密

我给侄子转了3万块后忘记挂电话,听到侄子骂我抠门,我正要发火,却意外听到侄女说了更大的秘密

黎兜兜
2026-04-05 21:20:16
长沙女子地铁遭猥亵,过程不堪入目,警方6小时破案,她破防了!

长沙女子地铁遭猥亵,过程不堪入目,警方6小时破案,她破防了!

奇思妙想草叶君
2026-04-06 22:56:41
西方军事专家:只有吉尔吉斯斯坦知道,中国早就是最强超级大国了

西方军事专家:只有吉尔吉斯斯坦知道,中国早就是最强超级大国了

混沌录
2026-04-05 16:33:12
日本一整形外科医生9年内趁麻醉对21名女患者及护士等实施性侵或猥亵,受害者包括4名未成年人,被判处有期徒刑25年

日本一整形外科医生9年内趁麻醉对21名女患者及护士等实施性侵或猥亵,受害者包括4名未成年人,被判处有期徒刑25年

现代快报
2026-04-05 20:15:03
一个人可以绝望到什么程度 看网友讲述 感同身受到泪流满面。

一个人可以绝望到什么程度 看网友讲述 感同身受到泪流满面。

侃神评故事
2026-03-14 15:15:06
非常罕见,特斯拉突然推出全新配置!

非常罕见,特斯拉突然推出全新配置!

XCiOS俱乐部
2026-04-05 20:27:23
长期被冤枉的 6 个好东西!以为有害,其实大可以放心吃

长期被冤枉的 6 个好东西!以为有害,其实大可以放心吃

果壳
2026-04-06 20:09:19
特朗普消失?连续三天未露面引全球猜测,病危还是兵变?真相成谜

特朗普消失?连续三天未露面引全球猜测,病危还是兵变?真相成谜

策略述
2026-04-06 18:12:08
62岁放射科专家刘进才逝世,系湖南省最早从事磁共振诊断学专家

62岁放射科专家刘进才逝世,系湖南省最早从事磁共振诊断学专家

澎湃新闻
2026-04-06 16:32:29
赵心童7进决赛全夺冠,狂赚1371万奖金!世锦赛今日开打,附赛程

赵心童7进决赛全夺冠,狂赚1371万奖金!世锦赛今日开打,附赛程

球场没跑道
2026-04-06 07:03:27
罗永浩硬刚全网!退货率翻3倍,硬气表态引争议:这是轴还是刚?

罗永浩硬刚全网!退货率翻3倍,硬气表态引争议:这是轴还是刚?

行者聊官
2026-04-06 21:49:36
申裕斌铜牌书写韩乒历史!领奖台可爱到发光 韩媒:收获巨大自信

申裕斌铜牌书写韩乒历史!领奖台可爱到发光 韩媒:收获巨大自信

颜小白的篮球梦
2026-04-06 08:39:45
共关停门店34家拘留36人!东莞交警集中开展电动自行车非法改装门店溯源行动

共关停门店34家拘留36人!东莞交警集中开展电动自行车非法改装门店溯源行动

新快报新闻
2026-04-06 20:54:16
谢贤前女友CoCo大曝张柏芝三胎生父内幕,无底线爆料,账号被封!

谢贤前女友CoCo大曝张柏芝三胎生父内幕,无底线爆料,账号被封!

寻墨阁
2026-03-06 13:57:52
给人养了7年闲人,广汽终于要关闭洛杉矶的研发中心

给人养了7年闲人,广汽终于要关闭洛杉矶的研发中心

与车同乐
2025-12-04 10:05:02
全红婵也没想到,拆伙不到1年,陈芋汐已和她走上完全不同的道路

全红婵也没想到,拆伙不到1年,陈芋汐已和她走上完全不同的道路

一娱三分地
2026-03-02 14:45:22
2026-04-07 00:52:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2765099文章数 6462关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

外媒:美国副总统万斯和伊朗外长等人彻夜交流

头条要闻

外媒:美国副总统万斯和伊朗外长等人彻夜交流

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

家居
数码
健康
艺术
公开课

家居要闻

温馨多元 爱的具象化

数码要闻

玄派玄机16 2026笔记本上架:锐龙AI Max+ 395,128GB + 2TB

干细胞抗衰4大误区,90%的人都中招

艺术要闻

张雪机车logo陷抄袭争议?商标还被人抢先注册了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版