网易首页 > 网易号 > 正文 申请入驻

外媒拆解DeepSeek制胜秘籍!OpenAI CEO终于认错:我们站在了历史错误的一边

0
分享至


智东西
作者 程茜
编辑 漠影

大年初四,当之无愧的春节顶流DeepSeek仍在持续刷屏霸榜,热度不减。

前脚,DeepSeek面临的巨头企业官宣加入vs多国政府下场质疑的冰火两重天局势尚未平静(DeepSeek在美两重天:五大巨头接入,政府诚惶诚恐);后脚,OpenAI被逼急,凌晨亮出全新推理模型o3-mini,并在ChatGPT首次向所有用户免费提供推理模型,不过o3-mini的API定价还是高于DeepSeek模型(重磅!OpenAI推o3-mini新模型,被DeepSeek逼急?定价仍打不过)。

o3-mini发布后,OpenAI CEO萨姆·阿尔特曼(Sam Altman)在Reddit上提到,要学习DeepSeek将推理模型的思考过程公开;OpenAI的闭源策略使他们站到了历史错误的一边,将重新思考OpenAI的开源策略;并坦言他们的领先优势已经不如之前大了。

继美国两大云巨头后,华为云今日宣布与硅基流动联合推出并上线基于华为云昇腾云服务的DeepSeek R1/V3推理服务。

o3-mini的发布并没有分散DeepSeek的讨论度。昨天,半导体研究和咨询公司SemiAnalysis的一项新报告揭秘了DeepSeek成功的关键因素及推测:

DeepSeek拥有至少大约5万块Hopper架构的GPU,且GPU投资已超过5亿美元

600万美元成本只包含其预训练运行的GPU成本,不包括硬件本身的研发和总体拥有成本(TCO)等重要部分;

为了吸纳人才给有前途的候选人提供超过130万美元(折合约942万人民币)的年薪;

关键创新多头潜注意力(MLA)将每个查询KV量减少93.3%,显著降低了推理价格。

DeepSeek的成功在硅谷掀起波澜,今日上午,英伟达创始人兼CEO黄仁勋被紧急召进美国白宫,与美国总统Donald Trump(唐纳德·特朗普)讨论了DeepSeek以及收紧AI芯片出口。

知情人士透露,特朗普认为这家中国公司的出现意味着“美国公司不必花费大量资金来构建低成本AI替代品”。此外,其会议上还提到,政府将在今年春天进一步限制AI芯片出口,以确保美国及其盟友继续拥有先进的计算能力。

昨晚,国内AI产品分析平台AI产品榜发布的数据显示,上线18天的DeepSeek日活已经达到1500万,ChatGPT过1500万花了244天,DeepSeek增速是ChatGPT的13倍

截止当前DeepSeek依然霸榜,位列苹果应用商店157个国家/地区的第一名。

这场关于DeepSeek的争吵仍然没有停下。Meta首席科学家杨立昆发文锐评,他认为硅谷圈子中的“常见病”是:错位的优越感。病症的高级阶段是,认为自己的小圈子已经垄断了好的想法,病症末期是,假设来自其他地方的创新都是通过作弊获得的。

一、OpenAI回应定价、针对开源策略认错、剧透GPT-5、坦言领先优势变小

阿尔特曼和OpenAI首席研究官Mark Chen、OpenAI首席产品官Kevin Weil等现身Reddit,在回复用户问题时多次提到DeepSeek,并且剧透了OpenAI的新研究进展。

OpenAI首次回应了o3-Mini价格没有竞争力,OpenAI API研究主管Michelle Pokrass称,o3-Mini相比于美国托管版本的DeepSeek具有竞争力。

他称赞DeepSeek是一个非常好的模型,并且称“我们将保持比往年更少的领先优势”。

看到开源的DeepSeek发布,阿尔特曼对OpenAI的闭源策略进行了反思。他透露,OpenAI正在讨论(发布一些模型权重等)。他说:“我个人认为我们在这里站在了历史错误的一边,需要找出不同的开源策略,但并非OpenAI的每个人都同意这种观点,这也不是我们目前的首要任务。”

DeepSeek的R1模型可以向用户显示模型中间的思考过程,阿尔特曼称OpenAI将效仿DeepSeek的做法:“是的,我们很快会展示一个更有用、更详细的版本。感谢R1让我们有所更新。”OpenAI可能更多地揭示其所谓的推理模型的“思考过程”。

OpenAI首席产品官Kevin Weil还剧透了OpenAI的新进展。

4o的图像生成功能可能要几个月后推出。

高级语音更新即将推出,GPT-5的发布还没有时间表。

OpenAI计划将文件附加功能添加到推理模型中。

完整的o3模型将在几周、不到几个月的时间内完整亮相。

二、DeepSeek的制胜秘籍:手握6万块GPU,千万年薪招人半导体研究和咨询公司SemiAnalysis的一项新报告揭秘了DeepSeek成功的关键因素及推测。其研究显示,DeepSeek不是外界所传的“副业”,其GPU投资已经超过5亿美元DeepSeek拥有至少大约5万块Hopper架构的GPU,其中可能大约有1万块H800、1万块H100、3万块H20、1万块A100。这些GPU在幻方量化和DeepSeek之间共享,用于交易、推理、训练和研究。

报告分析表明,DeepSeek的总服务器资本支出约为16亿美元(折合约116亿人民币),运营此类集群的成本高达9.44亿美元(折合约68亿人民币)DeepSeek的价格和效率在本周引起了业界的狂热讨论:DeepSeek用不到600万美元的成本,干翻了硅谷巨头们花费数十亿美金训练的AI模型。但SemiAnalysis的报告提到,这个说法存在错误,这类似于将产品物料清单的特定部分并将其归因为全部成本,预训练成本在总成本中只占很小的一部分。600万美元只包含其预训练运行的GPU成本,只是模型总成本的一部分,不包括硬件本身的研发和总体拥有成本(TCO)等重要部分。作为参考,Claude 3.5 Sonnet的训练成本为数千万美元,但这并不是Anthropic所需的总成本,他们还需要资金进行实验、提出新架构、收集和清理数据、支付员工工资等。其报告还提到,DeepSeek在寻找人才方面也投入了大量资金。目前,该公司的员工人数在150人左右,且公司岗位并没有被预先定义,会根据招聘人员灵活定义。DeepSeek选择在国内寻找人才,并且不考虑其此前的资历,非常注重能力和好奇心。这家公司会定期在北京大学和浙江大学等顶尖大学举办招聘活动,其许多员工都毕业于浙江大学。报告提到,该公司此前还为有前途的候选人提供超过130万美元(折合约942万人民币)的年薪,这一薪资水平远高于国内大型科技公司以及大模型创企。在第三方招聘软件BOSS直聘中,DeepSeek公开的在招职位有37个,核心系统研发工程师、深度学习研究员薪资水平最高为50-80K、60-90K,除实习生其他岗位均为14薪。
大多数情况下,DeepSeek不依赖外部方或提供商,运行自己的数据中心,不依赖外部方或提供商。这为实验开辟了更多领域,使他们能够跨堆栈进行创新。三、推理成本下降,多token预测、多头潜注意力两大创新

推理成本骤降是AI进步的一个显著特征。

一个明显的例子就是,笔记本电脑上运行的小模型目前已经与GPT-3性能相当,而后者需要一台超级计算机进行训练和多个GPU进行推理。换句话说,算法改进允许使用较少的计算量来训练和推理具有相同能力的模型,而且这种模式正一遍又一遍上演。

到目前为止,在这种模式下AI实验室的策略是花费更多钱来获得更多智能。据估计,算法的进步是每年提升4倍,这意味着每过一年实现相同能力所需的计算量就会减少到1/4。Anthropic的首席执行官达里奥·阿莫迪(Dario Amodei)认为,算法的进步甚至更快,可以产生10倍的改进。就GPT-3质量的推理定价而言,成本下降到1/1200。该报告还调查了GPT-4的成本,在曲线早期也有类似的成本下降趋势。虽然随着时间的推移成本差异减少,但在这种情况下,我们看到算法改进和优化使成本降低到1/10,能力提高了。

需要明确的是,DeepSeek率先达到了这个级别的成本和能力,并且其独特之处还在于发布了开放权重,SemiAnalysis认为其成本甚至会继续降低到1/5。DeepSeek是如何如此迅速地赶上来的?答案是,推理具有更快的迭代速度和更低成本唾手可得的成果,且与以前的范式相比,计算量更小。但以前的范式依赖于预训练,因价格昂贵难以实现稳健的收益。新范式侧重于通过合成数据生成和现有模型后训练中的强化学习进行推理能力,从而以更低的价格获得更快的收益。较低的进入门槛与简单的优化相结合,意味着DeepSeek能够比平时更快地复制o1方法。未来,随着研发人员弄清楚如何在这一新模式中实现更大规模的发展/应用等,预计不同模型之间能力匹配的时间差距将会拉大。DeepSeek的爆火在于其破解了架构创新的密码并解锁了领先实验室尚未能够实现的创新,其中包括Training (Pre and Post) 模型预训练和后训练以及多头潜在注意力(MLA)1、Training(Pre and Post)模型预训练和后训练
DeepSeek V3以前所未有的规模利用了多标记预测(MTP),其添加的注意力模块可以预测接下来的几个Token,而不是单个Token。这提高了模型在训练期间的性能,并且可以在推理期间丢弃。这一方法以较低的计算能力提高了性能。还有一些额外的考虑因素,例如在训练中采用FP8精度。此外,该模型也是混合专家模型,由许多其他专注于不同事物的较小专家模型组成。MoE模型面临的一个难题是如何确定哪个Token属于哪个子模型。DeepSeek基于门控网络(Gating Network),以不降低模型性能的平衡方式将Token路由到正确的子模型,这提升了训练效率并降低了推理成本。尽管业界有人担心混合专家模型使得效率提高可能会减少该领域的相关投资,但Dario指出,功能更强大的模型经济效益非常可观,以至于任何节省的成本都会迅速重新投资于构建更大的模型。MoE的效率提高不会减少整体投资,而是会加速AI扩展工作。R1的强大能力得益于基础模型V3,强化学习提供了两大能力,一是Formatting(确保它提供连贯输出)二是有用性和无害性(确保模型有用)。推理能力是在合成数据集上对模型进行微调期间出现的。不过R1论文中没有提到计算,这是因为提到使用了多少计算会表明他们的GPU比他们的叙述所暗示的要多。这种规模的强化学习需要大量的计算,尤其是生成合成数据。R1论文中还提到,能使用推理模型的输出对其进行微调,将非推理的较小模型转换为推理模型。数据集管理总共包含800k个样本,现在任何人都可以使用R1的思维链输出来制作自己的数据集,并在这些输出的帮助下制作推理模型。未来,我们可能会看到更多较小的模型展示推理能力,从而使得小型模型的性能提高。2、Multi-head Latent Attention(MLA)多头潜在注意力
另外一项关键创新是MLA,负责显著降低DeepSeek的推理价格。其原因是MLA将每个查询所需的KV Cache(键-值缓存)数量减少了约93.3%。KV Cache是Transformer中的一种内存机制,它存储代表对话上下文的数据,从而减少不必要的计算。KV Cache会随着对话上下文的增长而增长,并产生相当大的内存限制,大幅减少每个查询所需的 KV Cache 数量会减少每个查询所需的硬件数量,从而降低成本。报告认为,DeepSeek是在以成本价提供推理服务来获取市场份额,实际上并没有盈利。结语:DeepSeek发布,中美AI竞争格局大洗牌

DeepSeek的发布对整个行业产生了全方位、深层次的影响。从OpenAI新发布的o3-mini也可以看出,中美之间的AI竞争格局正在改变,中国企业在开源领域的积极作为,让美国不得不重新审视其限制开源的策略。

从产业竞争格局来看,DeepSeek的横空出世重塑了全球AI产业的竞争版图,这或许也将促使各国重新审视AI发展战略,加强在AI领域的投入和合作,共同推动AI技术的进步。

春节期间DeepSeek掀起的这场AI风暴仍在中美乃至全球科技、政金界产生持续影响,并不断发酵,已经成为改变AI科技产业趋势的风向标事件,智东西将持续跟进相关进展和报道,敬请关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
豆包智能体官宣7月15日下线,已保存的智能体也无法调用

豆包智能体官宣7月15日下线,已保存的智能体也无法调用

PChome电脑之家
2026-07-05 18:34:19
房地产扛不住,股市就被安排来当新蓄水池了?老股民都懂的真

房地产扛不住,股市就被安排来当新蓄水池了?老股民都懂的真

爱看剧的阿峰
2026-07-05 15:26:12
2026年最强反腐来了!中纪委:害群之马将清除到底!

2026年最强反腐来了!中纪委:害群之马将清除到底!

细说职场
2026-07-04 22:03:20
妻子在洗澡时,好兄弟给她发来消息:他走了吗?我回复:赶紧来吧

妻子在洗澡时,好兄弟给她发来消息:他走了吗?我回复:赶紧来吧

千秋文化
2026-07-02 19:55:15
撕破脸了!郭德纲曝儿子猛料仅24小时,杨议怒骂,郭汾阳成赢家

撕破脸了!郭德纲曝儿子猛料仅24小时,杨议怒骂,郭汾阳成赢家

书慧我心
2026-07-04 13:55:59
法国能源巨头感叹:中国两周,法国两年

法国能源巨头感叹:中国两周,法国两年

观察者网
2026-07-05 14:26:05
1931年,周恩来带人处决叛徒顾顺章家人,放过仨小孩,却酿成祸患

1931年,周恩来带人处决叛徒顾顺章家人,放过仨小孩,却酿成祸患

阿胡
2024-07-31 11:50:32
用虚拟货币非法换汇超2亿!揭秘跨境“对敲”换汇黑产

用虚拟货币非法换汇超2亿!揭秘跨境“对敲”换汇黑产

环球网资讯
2026-07-05 09:18:45
“这也配叫中产?”女孩晒旅行照引热议,原来大家的差距这么大!

“这也配叫中产?”女孩晒旅行照引热议,原来大家的差距这么大!

林林先生
2026-07-04 09:35:05
姆巴佩:他们以为我们会穿礼服来踢球,但我们也懂丑陋的踢法

姆巴佩:他们以为我们会穿礼服来踢球,但我们也懂丑陋的踢法

懂球帝
2026-07-05 07:42:08
国家修的路,凭啥不让走?甘肃景区设卡拦车,官方回应:可自驾!

国家修的路,凭啥不让走?甘肃景区设卡拦车,官方回应:可自驾!

观史搜寻着
2026-07-03 11:43:57
哈兰德赛前理发!挪威主帅:拥有顶级射手哈兰德,能战胜巴西!

哈兰德赛前理发!挪威主帅:拥有顶级射手哈兰德,能战胜巴西!

海浪星体育
2026-07-05 11:22:47
张召忠为何消失了?

张召忠为何消失了?

新浪财经
2026-07-04 00:53:09
巴西vs挪威伤停名单与预测首发:拉菲尼亚伤缺、卡塞米罗存疑

巴西vs挪威伤停名单与预测首发:拉菲尼亚伤缺、卡塞米罗存疑

懂球帝
2026-07-05 12:20:08
俄罗斯宣布:芬兰已成核打击目标!

俄罗斯宣布:芬兰已成核打击目标!

看看新闻Knews
2026-07-03 13:09:37
“戏混子”又来霍霍央视剧?长得一般演技一般,难怪观众不买账

“戏混子”又来霍霍央视剧?长得一般演技一般,难怪观众不买账

街上的行人很刺眼
2026-07-05 18:39:48
49岁舒淇终于认了!为了要个孩子,她和冯德伦竟然折腾整整九年

49岁舒淇终于认了!为了要个孩子,她和冯德伦竟然折腾整整九年

一口娱乐
2026-07-05 18:21:21
罗晋离婚传闻终结,近况曝光,难堪处境似辛柏青

罗晋离婚传闻终结,近况曝光,难堪处境似辛柏青

书慧我心
2026-07-04 10:26:59
阿根廷5大前锋世界杯0球!梅西缺帮手,迪马利亚的含金量还在提升

阿根廷5大前锋世界杯0球!梅西缺帮手,迪马利亚的含金量还在提升

小火箭爱体育
2026-07-05 11:22:51
普京这步棋走得太精了,派梅德韦杰夫去伊朗,美国才反应过来晚了

普京这步棋走得太精了,派梅德韦杰夫去伊朗,美国才反应过来晚了

奇思妙想生活家
2026-07-04 13:04:56
2026-07-05 19:32:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12176文章数 117120关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

《我不是药神》原型抗癌24年 曾吃药"一年吃掉一套房"

头条要闻

《我不是药神》原型抗癌24年 曾吃药"一年吃掉一套房"

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
艺术
亲子
游戏
房产

家居要闻

传奇筑 日常诗

艺术要闻

看看“馆阁体”鼻祖写的书法,比赵孟頫的字还美,狠狠打脸喷子恶评!

亲子要闻

三岁被喂到70斤,有些家长为了搞流量,真敢把亲生骨肉当猪养

Faker宣战全体玩家!抢你们饭碗但没人敢不服

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

无障碍浏览 进入关怀版