网易首页 > 网易号 > 正文 申请入驻

“训练成本才这么点?美国同行陷入自我怀疑”

0
分享至

来源:市场资讯

(来源:观察者网)

【文/观察者网 王一】DeepSeek今年年初以高性价比、高性能、开源驱动等特点惊艳了世界。其团队近日在英国《自然》杂志发表论文首次披露,DeepSeek-R1模型的训练成本仅为29.4万美元,构建基础大语言模型也只花费了约600万美元,这一成本已远远低于美国同行透露的数字,而那还只是美国公司公布出来的大概成本。

英国路透社9月18日指出,DeepSeek的成本远低于美国竞争对手此前透露的数字,这一信息可能会再次引发外界围绕中国在全球人工智能(AI)领域地位的讨论。印度新闻网站“Devdiscourse”19日也称,DeepSeek首次提供成本数据,引发了美国公司对自己战略的质疑。

美国有线电视新闻网(CNN)、美国彭博社等美媒19日都对DeepSeek的29.4万美元训练成本感到惊讶。美国消费者新闻与商业频道(CNBC)评价说,考虑到OpenAI花了多少钱,DeepSeek的成本简直“惊人(astonishing)”,他们的模型已经推翻了只有拥有最先进、最快芯片的国家才能在AI竞赛中占据主导地位这一假设,现在他们甚至用数字对此进行了量化。

17日,《自然》杂志刊登了由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文。与今年1月发布DeepSeek-R1时的初版论文相比,最新的论文披露了更多模型训练的细节,也标志着该模型成为全球首个经过同行评审的主流大语言模型。

最新的论文披露,DeepSeek-R1模型使用了512块英伟达H800芯片,训练成本仅为29.4万美元。

路透社称,今年1月的早期论文并未包含相关信息。大型语言模型的训练成本通常是指,用高性能芯片集群处理海量文本和代码所产生的巨额费用。OpenAI首席执行官萨姆·奥尔特曼2023年曾透露,基础模型训练成本“远超”1亿美元,但他的公司从未公布过具体的数据。


当期《自然》杂志封面

该论文还对之前美国官员的一些毫无根据的质疑做出了回应。为打压中国AI发展,美国政府2022年就禁止英伟达向中国出口具备先进性能的H100和A100芯片。DeepSeek的AI大模型公布后,美国官员不相信中企可以用被“阉割”过的、英伟达专为中国市场设计的H800芯片训练出如此高性能的AI模型。

于是,今年6月,美国官员污称,DeepSeek在美国出口管制后违规获取了“大量” H100芯片并将其用于大模型训练。英伟达当时回应称,DeepSeek所使用的是合法采购的H800芯片,而非H100芯片。

在《自然》论文的补充材料中,DeepSeek首次承认其确实拥有A100芯片,称曾在研发前期使用这些芯片“为较小模型的实验做准备”,但在这之后,R1模型在512块H800芯片集群上进行了总计80个小时的训练。

DeepSeek还在论文中首次间接回应了今年1月来自白宫高级顾问和部分美国AI业内人士的指控——他们声称DeepSeek通过“蒸馏”技术“违规复制”OpenAI产品功能,并宣称已经发现“证据”。但此后,这些所谓的“证据”从未被公开。

蒸馏的理论核心是,让一个庞大且复杂的预训练AI模型充当“教师”,来训练一个较小的“学生模型”,后者从“教师模型”学习知识,以获得类似性能,但计算成本更低。不少专家表示,蒸馏在AI业内是一种常见的做法,但若涉及直接复制闭源专有模型的输出结构或参数,可能构成侵权。

DeepSeek一直为蒸馏技术辩护,认为该方法不仅能提升模型性能,还能显著降低训练和运行成本,从而扩大AI技术的普及范围。今年1月,该公司就提过,他们使用了美国科技公司Meta的开源AI模型Llama来构建其模型的部分精简版本。

在9月17日的论文中,DeepSeek表示,其V3模型的训练数据来源于网络爬取,其中包含“大量由OpenAI模型生成的回答,这可能会导致基础模型间接从其他强大模型中获得知识”。不过,DeepSeek强调这并非刻意为之,而是无意中的结果。

参与审阅该论文的Hugging Face机器学习工程师路易斯·汤斯顿(Lewis Tunstall)认为DeepSeek的解释有道理,其他实验室后来用类似的方法成功复制了R1模型的效果,这表明其他AI模型不需要所谓来自OpenAI的秘密数据就可以获得极高的推理能力。

科技咨询网站“Tech Space 2.0”也分析称,DeepSeek的数据策略是使用最大量的免费数据进行预训练,并巧妙使用自己生成的数据进行微调,只在计算上花钱,这种节俭的策略是其他公司目前正在深入研究的模板。

该网站指出,DeepSeek-R1在同类产品中脱颖而出,是因为他以极低的成本实现了最先进的成果。OpenAI的GPT-4和谷歌的AI模型“双子座(Gemini)”在某些方面仍然处于领先地位且享有强大的企业支持,但R1以一种此前从未见过的方式实现了“高端AI的民主化”——开放、复制成本相对低廉、高度注重效率。Meta的Llama2和法国科技初创企业米斯特拉尔AI公司(Mistral AI)的模型都秉承开放理念,但R1通过实现顶级性能将这一理念推向了新的高度。

“Tech Space 2.0”总结道:“这些比较强调了一个关键点:AI竞争不再仅仅关乎谁拥有最多的图形处理器(GPU),现在还关乎谁能用更少的资源实现更多的目标。从这个角度来看,DeepSeek已经改变了游戏规则。”

本文系观察者网独家稿件,未经授权,不得转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
柯建铭战胜赖清德,“姜还是老的辣”?!

柯建铭战胜赖清德,“姜还是老的辣”?!

爱意随风起呀
2025-09-20 01:45:21
就在刚刚!美国突然宣布!

就在刚刚!美国突然宣布!

安安说
2025-09-19 14:17:02
谁说“屁股大”的女生就不能穿牛仔裤?搭配一字肩T恤,活力满满

谁说“屁股大”的女生就不能穿牛仔裤?搭配一字肩T恤,活力满满

小乔古装汉服
2025-09-19 12:09:01
苹果客服回应iPhone17系列新机凹陷:边框材质为铝金属,相较于钛金属偏轻软,碰一下可能会出现凹陷

苹果客服回应iPhone17系列新机凹陷:边框材质为铝金属,相较于钛金属偏轻软,碰一下可能会出现凹陷

台州交通广播
2025-09-19 14:46:21
弟弟6岁走失,20年后姐姐求职,看到老板戴父亲遗物当场痛哭

弟弟6岁走失,20年后姐姐求职,看到老板戴父亲遗物当场痛哭

兰姐说故事
2025-08-29 17:40:03
湖底惊现39年前失踪的运钞车,钞箱毫发无损,撬开后却傻眼了

湖底惊现39年前失踪的运钞车,钞箱毫发无损,撬开后却傻眼了

青青会讲故事
2025-09-17 11:32:38
美联储降息后,真正凶险的考验来了!中国必须稳住!

美联储降息后,真正凶险的考验来了!中国必须稳住!

李荣茂
2025-09-19 19:03:50
学医后你见过最恐怖的事是啥?网友:此生再也没有半点欢愉了

学医后你见过最恐怖的事是啥?网友:此生再也没有半点欢愉了

带你感受人间冷暖
2025-09-18 16:27:41
终于来了!NBA锋卫“王炸”加盟广东队,保送杜锋躺进总决赛!

终于来了!NBA锋卫“王炸”加盟广东队,保送杜锋躺进总决赛!

绯雨儿
2025-09-19 14:09:45
伟人派他回河北老家抗战,四个月拉七万大军,为何建国后仅授少将

伟人派他回河北老家抗战,四个月拉七万大军,为何建国后仅授少将

小港哎历史
2025-09-19 07:30:13
通过这12个细节,网友们对人口问题有个基本的预估了

通过这12个细节,网友们对人口问题有个基本的预估了

清晖有墨
2025-09-17 16:59:17
翟欣欣一审获刑12年:4段婚姻敛财3000万,再也不能用美貌骗婚了

翟欣欣一审获刑12年:4段婚姻敛财3000万,再也不能用美貌骗婚了

汉史趣闻
2025-09-19 14:32:28
翟欣欣涉敲诈勒索案一审宣判

翟欣欣涉敲诈勒索案一审宣判

界面新闻
2025-09-19 10:30:40
中国的“第一仗”,可能要在黄岩岛打响了!

中国的“第一仗”,可能要在黄岩岛打响了!

荆楚寰宇文枢
2025-09-19 19:18:52
董军发统一强音,不到24小时,美媒放出消息,特朗普叫停对台军援

董军发统一强音,不到24小时,美媒放出消息,特朗普叫停对台军援

大白话瞰世界
2025-09-19 15:07:21
一夜之间,成千上万的小餐饮老板,仿佛约好了一样,集体“醒”了

一夜之间,成千上万的小餐饮老板,仿佛约好了一样,集体“醒”了

阿伧说事
2025-09-15 15:25:30
闹剧频发!这次西贝真要倒闭了!一条狗!给了西贝最后一枪!

闹剧频发!这次西贝真要倒闭了!一条狗!给了西贝最后一枪!

时尚的弄潮
2025-09-20 02:27:30
女子200米:杰斐逊-伍登21秒68夺冠,成为本届世锦赛双金王

女子200米:杰斐逊-伍登21秒68夺冠,成为本届世锦赛双金王

懂球帝
2025-09-19 22:06:26
这个特殊北非国家,访华时间定了,释放全球南方新信号…

这个特殊北非国家,访华时间定了,释放全球南方新信号…

新财迷
2025-09-19 23:36:30
谁能认出这是全红婵?长相+身材都变了,网友:不可能回到过去了

谁能认出这是全红婵?长相+身材都变了,网友:不可能回到过去了

念洲
2025-09-17 06:56:45
2025-09-20 05:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
841009文章数 3485关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

亲子
数码
艺术
公开课
军事航空

亲子要闻

每年一次性发放!育儿补贴新规出台

数码要闻

750万小米空调升级10年免费包修:为用户节省15亿元

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

卫星图像显示以军坦克集结加沙城周围

无障碍浏览 进入关怀版