网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek 突然公布成本利润率高达545%!做 AI Infra 的该慌了?!

0
分享至

整理 | 褚杏娟

DeepSeek 开源周还未结束!今天中午,DeepSeek 官方继续发布,这次披露大规模部署成本和收益,又一次颠覆了很多人认知。

V3/R1 架构由大量小 Expert 组成,这与其它主流模型差别非常大,导致其它主流模型结构开发的系统不再有效,要达到最好的效率就必须按照 DeepSeek 报告描述的方法。而 DeepSeek 开源周的五连发已经把主要模块开源出来了,降低了社区复现的难度。

根据 DeepSeek 披露,按照 R1 token 定价,该公司一天的总收入为 562,027 美元,成本利润率 545%。有网友评价,“如果利润率达不到 DeepSeek 的水平,就说明自家的 Infra 团队菜。”

实际上就在前两天,DeepSeek 宣布即日起在北京时间每日 00:30 至 08:30 的夜间空闲时段,大幅下调 API 调用价格,其中 DeepSeek-V3 降至原价的 50%,DeepSeek-R1 降幅最高达 75%。DeepSeek 多次说过自家的 API 不赔本。梁文锋在去年的采访中也表示,“我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”

下面是 DeepSeek 官方详解文章。

DeepSeek-V3 / R1 推理系统的优化目标是:更大的吞吐,更低的延迟。

为了实现这两个目标,我们的方案是使用大规模跨节点专家并行(Expert Parallelism / EP)。首先 EP 使得 batch size 大大增加,从而提高 GPU 矩阵乘法的效率,提高吞吐。其次 EP 使得专家分散在不同的 GPU 上,每个 GPU 只需要计算很少的专家(因此更少的访存需求),从而降低延迟。

但 EP 同时也增加了系统的复杂性。复杂性主要体现在两个方面:

  1. EP 引入跨节点的传输。为了优化吞吐,需要设计合适的计算流程使得传输和计算可以同步进行。

  2. EP 涉及多个节点,因此天然需要 Data Parallelism(DP),不同的 DP 之间需要进行负载均衡。

因此,本文的主要内容是如何使用 EP 增大 batch size,如何隐藏传输的耗时,如何进行负载均衡。

大规模跨节点专家并行(Expert Parallelism / EP)

由于 DeepSeek-V3 / R1 的专家数量众多,并且每层 256 个专家中仅激活其中 8 个。模型的高度稀疏性决定了我们必须采用很大的 overall batch size,才能给每个专家提供足够的 expert batch size,从而实现更大的吞吐、更低的延时。需要大规模跨节点专家并行(Expert Parallelism / EP)。

我们采用多机多卡间的专家并行策略来达到以下目的:

  • Prefill:路由专家 EP32、MLA 和共享专家 DP32,一个部署单元是 4 节点,32 个冗余路由专家,每张卡 9 个路由专家和 1 个共享专家

  • Decode:路由专家 EP144、MLA 和共享专家 DP144,一个部署单元是 18 节点,32 个冗余路由专家,每张卡 2 个路由专家和 1 个共享专家

计算通信重叠

多机多卡的专家并行会引入比较大的通信开销,所以我们使用了双 batch 重叠来掩盖通信开销,提高整体吞吐。

对于 prefill 阶段,两个 batch 的计算和通信交错进行,一个 batch 在进行计算的时候可以去掩盖另一个 batch 的通信开销;

Prefill 阶段的双 batch 重叠

对于 decode 阶段,不同阶段的执行时间有所差别,所以我们把 attention 部分拆成了两个 stage,共计 5 个 stage 的流水线来实现计算和通信的重叠。

Decode 阶段的双 batch 重叠

关于更多双 batch 重叠的细节,可以参考我们的 profiling 数据的 GitHub 仓库:https://github.com/deepseek-ai/profile-data。

尽可能地负载均衡

由于采用了很大规模的并行(包括数据并行和专家并行),如果某个 GPU 的计算或通信负载过重,将成为性能瓶颈,拖慢整个系统;同时其他 GPU 因为等待而空转,造成整体利用率下降。因此我们需要尽可能地为每个 GPU 分配均衡的计算负载、通信负载。

  1. Prefill Load Balancer

    核心问题:不同数据并行(DP)实例上的请求个数、长度不同,导致 core-attention 计算量、dispatch 发送量也不同

    优化目标:各 GPU 的计算量尽量相同(core-attention 计算负载均衡)、输入的 token 数量也尽量相同(dispatch 发送量负载均衡),避免部分 GPU 处理时间过长

  2. Decode Load Balancer

    核心问题:不同数据并行(DP)实例上的请求数量、长度不同,导致 core-attention 计算量(与 KVCache 占用量相关)、dispatch 发送量不同

    优化目标:各 GPU 的 KVCache 占用量尽量相同(core-attention 计算负载均衡)、请求数量尽量相同(dispatch 发送量负载均衡)

  3. Expert-Parallel Load Balancer

    核心问题:对于给定 MoE 模型,存在一些天然的高负载专家(expert),导致不同 GPU 的专家计算负载不均衡

    优化目标:每个 GPU 上的专家计算量均衡(即最小化所有 GPU 的 dispatch 接收量的最大值)

参考架构图

线上系统的实际统计数据

DeepSeek V3 和 R1 的所有服务均使用 H800 GPU,使用和训练一致的精度,即矩阵计算和 dispatch 传输采用和训练一致的 FP8 格式,core-attention 计算和 combine 传输采用和训练一致的 BF16,最大程度保证了服务效果。

另外,由于白天的服务负荷高,晚上的服务负荷低,因此我们实现了一套机制,在白天负荷高的时候,用所有节点部署推理服务。晚上负荷低的时候,减少推理节点,以用来做研究和训练。在最近的 24 小时里(北京时间 2025/02/27 12:00 至 2025/02/28 12:00),DeepSeek V3 和 R1 推理服务占用节点总和,峰值占用为 278 个节点,平均占用 226.75 个节点(每个节点为 8 个 H800 GPU)。假定 GPU 租赁成本为 2 美金 / 小时,总成本为 $87,072/ 天。

在 24 小时统计时段内,DeepSeek V3 和 R1:

  • 输入 token 总数为 608B,其中 342B tokens(56.3%)命中 KVCache 硬盘缓存。

  • 输出 token 总数为 168B。平均输出速率为 20~22 tps,平均每输出一个 token 的 KVCache 长度是 4989。

  • 平均每台 H800 的吞吐量为:对于 prefill 任务,输入吞吐约 73.7k tokens/s(含缓存命中);对于 decode 任务,输出吞吐约 14.8k tokens/s。

以上统计包括了网页、APP 和 API 的所有负载。如果所有 tokens 全部按照 DeepSeek R1 的定价 [1] 计算,理论上一天的总收入为 $562,027,成本利润率 545%。

当然我们实际上没有这么多收入,因为 V3 的定价更低,同时收费服务只占了一部分,另外夜间还会有折扣。

参考:

[1] DeepSeek R1 的定价:$0.14 / 百万输入 tokens (缓存命中),$0.55 / 百万输入 tokens (缓存未命中),$2.19 / 百万输出 tokens。

https://zhuanlan.zhihu.com/p/27181462601

https://github.com/deepseek-ai/open-infra-index/tree/main/202502OpenSourceWeek

今年年初,扎克伯格宣布 Meta 计划用 AI 取代中级软件工程师,与此同时,Salesforce 也表示今年将暂停招聘软件工程师。种种迹象似乎都在进一步印证一个趋势——AI 正在加速取代部分软件工程岗位。在技术圈,人们一方面因 AI 带来的生产力飞跃而兴奋不已,另一方面,也难免弥漫着一丝焦虑。

3 月 3 日晚 20:00 直播,一起围绕“当下 AI 如何影响工程师的就业”、“工程师核心竞争力的再定义”等话题,探讨工程师如何应对这场变革。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
治标不治本?宗馥莉一招釜底抽薪,彻底粉碎宗庆后的“遗产梦”

治标不治本?宗馥莉一招釜底抽薪,彻底粉碎宗庆后的“遗产梦”

火之文
2025-08-06 11:59:14
乌克兰方面确认已消灭制造布查大屠杀的所有俄军士兵

乌克兰方面确认已消灭制造布查大屠杀的所有俄军士兵

环球热点快评
2025-08-30 16:26:27
内塔尼亚胡不装了,放话要报复中国,中方的回应,给美以提了个醒

内塔尼亚胡不装了,放话要报复中国,中方的回应,给美以提了个醒

影孖看世界
2025-09-18 13:21:16
情侣躲到桥底约会,全程被路人围观,他们以为没有人

情侣躲到桥底约会,全程被路人围观,他们以为没有人

唐小糖说情感
2025-08-25 09:13:05
江西48.8万彩礼后续:男子转头退婚提豪车,女子破防:要告你强奸

江西48.8万彩礼后续:男子转头退婚提豪车,女子破防:要告你强奸

鋭娱之乐
2025-09-09 22:24:54
黑龙江省副省长王岚已任黑龙江省委常委、宣传部部长

黑龙江省副省长王岚已任黑龙江省委常委、宣传部部长

澎湃新闻
2025-09-18 15:18:29
更新iOS 26系统后发热掉电快,苹果首次主动解释:通常几天内会恢复稳定

更新iOS 26系统后发热掉电快,苹果首次主动解释:通常几天内会恢复稳定

红星资本局
2025-09-16 11:36:05
我在边防站岗8年,退伍时无人送别,哨所长偷偷塞给我绝密文件

我在边防站岗8年,退伍时无人送别,哨所长偷偷塞给我绝密文件

荔枝人物记
2025-09-18 15:33:08
波兰关闭与白俄罗斯的边境大门,中欧班列被迫中断,后果有多严重

波兰关闭与白俄罗斯的边境大门,中欧班列被迫中断,后果有多严重

梦在深巷aqa
2025-09-18 01:14:52
再次驳回!官方:上诉委员会驳回皇马上诉,赫伊森将缺战西班牙人

再次驳回!官方:上诉委员会驳回皇马上诉,赫伊森将缺战西班牙人

直播吧
2025-09-19 00:52:03
郭碧婷带女儿买鱼,打扮土气,坐长椅上休息,保姆站身前给挡阳光

郭碧婷带女儿买鱼,打扮土气,坐长椅上休息,保姆站身前给挡阳光

柒佰娱
2025-09-18 11:05:40
Lisa又来内娱试水!团队打擦边球赚钱,线上四人代言地广被除名

Lisa又来内娱试水!团队打擦边球赚钱,线上四人代言地广被除名

柠檬有娱乐
2025-09-18 13:34:27
糖尿病到最后都是咋去世的?医生叹息:去世前,一般都有3个症状

糖尿病到最后都是咋去世的?医生叹息:去世前,一般都有3个症状

健身狂人
2025-09-09 17:43:28
“汽油用量”开始暴跌,数据出来很多人惊了,未来油价会大降吗?

“汽油用量”开始暴跌,数据出来很多人惊了,未来油价会大降吗?

四象八卦
2025-09-16 04:58:16
国民党主席选举辩论20日登场,网红“馆长”将担任提问人引发关注

国民党主席选举辩论20日登场,网红“馆长”将担任提问人引发关注

海峡导报社
2025-09-18 18:12:08
上海大叔在日本打黑工15年,称一天工资顶中国十个月,如今怎样

上海大叔在日本打黑工15年,称一天工资顶中国十个月,如今怎样

博览历史
2025-09-18 11:15:52
美国大学研究发现:不吃南瓜和红薯的人,血糖一下就降了?可信吗

美国大学研究发现:不吃南瓜和红薯的人,血糖一下就降了?可信吗

王二哥老搞笑
2025-09-15 12:59:30
离婚6年后,文章马伊琍高调认爱,给内娱上了一课,终是姚笛输了

离婚6年后,文章马伊琍高调认爱,给内娱上了一课,终是姚笛输了

聚合大娱
2025-09-14 12:05:12
一名女主持人直播时口误,称范戴克为“处女”后迅速改正

一名女主持人直播时口误,称范戴克为“处女”后迅速改正

懂球帝
2025-09-18 20:19:37
内塔尼亚胡涉嫌贪腐和欺诈出庭受审,遭民众闯入抗议其加沙政策

内塔尼亚胡涉嫌贪腐和欺诈出庭受审,遭民众闯入抗议其加沙政策

鲁中晨报
2025-09-18 15:19:03
2025-09-19 03:40:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1046文章数 95关注度
往期回顾 全部

科技要闻

英伟达50亿美元投资英特尔,但代工免谈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

旅游
艺术
教育
时尚
游戏

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

教育要闻

一套可以上岸的热点专题笔记就长这样!!!新传人冲啊!!!

秋冬穿对红黄橙,温暖又高级

魔兽怀旧服:HRS下周正式开放,玩家用脚投票,时光徽章暴跌!

无障碍浏览 进入关怀版