网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepSeek全面开源V3/R1推理系统!成本利润率高达545%

0
分享至

新智元报道

编辑:KingHZ 好困

【新智元导读】DeepSeek公开推理系统架构,成本利润率可达545%!明天还有更大惊喜吗?

就在刚刚,当 大家以为开源周已经结束的时候,真「Open AI」DeepSeek带来了压轴大戏——DeepSeek-V3/R1推理系统,全面揭秘!

吞吐量和延迟优化:

  • 跨节点高效并行(EP)驱动的批处理扩展

  • 计算与通信并行处理

  • 智能负载均衡

在线服务性能数据:

  • 每个H800节点每秒处理73,700/14,800输入/输出token

  • 成本利润率高达545%

DeepSeek表示,希望本周分享的技术见解能为开源社区带来价值,共同推进通用人工智能的发展目标。

看到这里,网友都惊了!

所以,基本免费的DeepSeek成本利润率高达545%,而堪称世界最贵的OpenAI却在亏损?

系统设计原则

简单来说,DeepSeek-V3/R1推理服务的优化目标是:提高吞吐量和降低延迟。

为了实现这两个目标,团队采用了跨节点专家并行(Expert Parallelism,EP)技术。

首先,EP显著扩大了批处理规模,提高了GPU矩阵计算效率,从而提升吞吐量。

其次,EP将专家模块分布在不同GPU上,每个GPU仅处理少量专家模块(减少内存访问需求),从而降低延迟。

然而,EP也增加了系统复杂度,主要体现在两个方面:

  1. EP引入了跨节点通信。为了优化吞吐量,需要设计合理的计算工作流,使通信过程与计算过程能够并行进行。

  2. EP涉及多个节点,因此必然需要数据并行(Data Parallelism,DP),并要求在不同DP实例之间进行负载均衡。

为此,DeepSeek通过以下方式应对这些挑战:

  • 利用EP技术扩展批处理规模

  • 将通信延迟与计算过程重叠处理

  • 实现有效的负载均衡

大规模跨节点专家并行(EP)

DeepSeek-V3/R1中包含大量专家模块:每层256个专家中仅激活8个,所以模型的高稀疏性特点要求采用极大的整体批处理规模。

这样才能确保每个专家模块获得足够的批处理量,从而实现更高的吞吐量和更低的延迟。因此,大规模跨节点EP技术成为必不可少的选择。

DeepSeek采用了预填充-解码解耦架构(prefill-decode disaggregation architecture),在预填充和解码阶段分别采用不同程度的并行策略:

  1. 预填充阶段「路由专家EP32,MLA/共享专家DP32」:每个部署单元跨越4个节点,配置32个冗余路由专家,每个GPU负责处理9个路由专家和1个共享专家。

  2. 解码阶段「路由专家EP144,MLA/共享专家DP144」:每个部署单元跨越18个节点,配置32个冗余路由专家,每个GPU管理2个路由专家和1个共享专家。

计算-通信重叠处理

大规模跨节点EP技术引入了显著的通信开销。

为了缓解这一问题,采用dual-batch重叠策略,将同一批请求分割为两个microbatch,以隐藏通信成本并提高整体吞吐量。

在预填充阶段,两个microbatch交替执行,一个microbatch的通信开销被另一个microbatch的计算过程所掩盖。

在解码阶段,各执行阶段的时长存在不平衡现象。

为此,需要将注意力层细分为两个步骤,并采用五阶段流水线(5-stage pipeline)技术,实现计算与通信的无缝重叠。

实现最优负载均衡

大规模并行(包括数据并行DP和专家并行EP)带来了一个关键挑战:如果单个GPU在计算或通信方面过载,它将成为整个系统的性能瓶颈,导致系统速度下降,同时造成其他GPU资源闲置。

为了最大限度地提高资源利用率,DeepSeek的目标是在所有GPU上实现计算和通信负载的平衡。

1. 预填充阶段负载平衡器

  • 关键问题:不同数据并行实例之间的请求数量和序列长度差异导致核心注意力计算和分发发送负载不平衡。

  • 优化目标:

    • 平衡各GPU之间的核心注意力计算(核心注意力计算负载均衡);

    • 均衡每个GPU处理的输入token数量(分发发送负载均衡),避免特定GPU出现处理延迟。

2. 解码阶段负载平衡器

  • 关键问题:数据并行实例之间请求数量和序列长度不均导致核心注意力计算(与KV缓存使用相关)和分发发送负载的差异。

  • 优化目标:

    • 平衡各GPU之间的KV缓存(KVCache)使用(核心注意力计算负载均衡);

    • 均衡每个GPU的请求处理数量(分发发送负载均衡)。

3. 专家并行负载平衡器

  • 关键问题:在混合专家模型(Mixture of Experts,MoE)中,存在天然的高负载专家,导致不同GPU上的专家计算工作负载不平衡。

  • 优化目标:

    • 平衡每个GPU上的专家计算工作量(即最小化所有GPU中的最大分发接收负载)。

DeepSeek在线推理系统图示

DeepSeek在线服务统计数据

所有DeepSeek-V3/R1推理服务均在H800 GPU上运行,精度与训练保持一致。

具体而言,矩阵乘法和分发传输采用与训练一致的FP8格式,而核心MLA计算和组合传输使用BF16格式,确保最佳的服务性能。

此外,由于白天服务负载高而夜间负载低,团队采取了一种创新的机制:

在白天高峰时段,所有节点都部署推理服务; 在夜间低负载时段,减少推理节点并将资源分配给研究和训练。

在过去24小时内(02月27日中午12:00至02月28日中午12:00),V3和R1推理服务的合计峰值节点占用达到278个,平均占用226.75个节点(每个节点包含8个H800 GPU)。

假设租赁一个H800 GPU的成本为每小时2美元,每日总成本为87,072美元。

在24小时统计期内,V3和R1:

  • 总输入token:6080亿,其中3420亿token(56.3%)命中磁盘上的KV缓存。

  • 总输出token:1680亿。平均输出速度为每秒20-22个token,每个输出token的平均KV缓存长度为4,989个token。

  • 每个H800节点在预填充阶段提供平均约7.37万token/秒的输入吞吐量(包括缓存命中),或在解码阶段提供约1.48万token/秒的输出吞吐量。

上述统计数据包括来自网页、APP和API的所有用户请求。

如果所有token都按照下列DeepSeek-R1的定价计费,每日总收入将达到562,027美元,利润率为545%。

R1定价:输入token(缓存命中)每百万0.14美元,输入token(缓存未命中)每百万0.55美元,输出token每百万2.19美元。

然而,实际收入大幅低于此数字,原因如下:

  • DeepSeek-V3的定价显著低于R1

  • 只有部分服务实现了商业化(网页和APP访问仍然免费)

  • 在非高峰时段自动应用夜间折扣

参考资料:

https://x.com/deepseek_ai/status/1895688300574462431

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
农用无人机载客!大疆:吊销“驾照”

农用无人机载客!大疆:吊销“驾照”

热点科技
2026-03-26 11:30:59
A股:大盘精准跌到3889.08点,不出意外的话,接下来行情这么走!

A股:大盘精准跌到3889.08点,不出意外的话,接下来行情这么走!

夜深爱杂谈
2026-03-26 20:11:02
女演员千万别整容!看看28岁田曦薇和33岁迪丽热巴,瞬间就明白了

女演员千万别整容!看看28岁田曦薇和33岁迪丽热巴,瞬间就明白了

小猫追剧
2026-03-26 20:46:20
张雪峰去世媒体人发文:我问过了,他还在,网友:最后一课很沉重

张雪峰去世媒体人发文:我问过了,他还在,网友:最后一课很沉重

蜜桔娱乐
2026-03-25 10:20:48
原来他们是夫妻,《冬去春来》他又火了,不高不帅却娶了漂亮老婆

原来他们是夫妻,《冬去春来》他又火了,不高不帅却娶了漂亮老婆

趣味八卦
2026-03-25 17:34:15
8条公交调线方案征求意见 拟合并101路、109路,撤销118路

8条公交调线方案征求意见 拟合并101路、109路,撤销118路

首都之窗
2026-03-26 18:01:08
上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上观新闻
2026-03-24 13:32:07
73岁港姐为李小龙哥哥扫墓,墓前铺满白花,离婚逾30年仍每年拜祭

73岁港姐为李小龙哥哥扫墓,墓前铺满白花,离婚逾30年仍每年拜祭

八斗小先生
2026-03-26 15:02:47
46岁上海男子辞职后到开封清明上河园自发扮乞丐“赚钱”:很解压很放松,开封会让人有截断反应

46岁上海男子辞职后到开封清明上河园自发扮乞丐“赚钱”:很解压很放松,开封会让人有截断反应

大风新闻
2026-03-26 18:30:03
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
江苏省盐城市政协原副主席潘道津接受审查调查

江苏省盐城市政协原副主席潘道津接受审查调查

界面新闻
2026-03-26 19:12:28
局地大到暴雨 南方将迎今年首场大范围强对流天气

局地大到暴雨 南方将迎今年首场大范围强对流天气

财联社
2026-03-26 18:35:03
以媒称伊朗革命卫队海军司令遇袭身亡:其为伊“海上不对称战争”的核心操盘者

以媒称伊朗革命卫队海军司令遇袭身亡:其为伊“海上不对称战争”的核心操盘者

红星新闻
2026-03-26 19:27:16
真的太孤独了!山东47岁母亲称已怀胎8月,两女远嫁却极力反对…

真的太孤独了!山东47岁母亲称已怀胎8月,两女远嫁却极力反对…

火山詩话
2026-03-25 13:41:56
别信什么“瘦了就好”,看看蒋欣,瘦了20多斤,代价是脸垮了

别信什么“瘦了就好”,看看蒋欣,瘦了20多斤,代价是脸垮了

西楼知趣杂谈
2026-03-18 11:48:25
巨亏36.8亿!中国光刻机突围,没想到最先顶不住的竟是日本?

巨亏36.8亿!中国光刻机突围,没想到最先顶不住的竟是日本?

百科密码
2026-03-26 14:50:58
公职人员下班后这5种行为,将严肃处理,千万别踩红线!

公职人员下班后这5种行为,将严肃处理,千万别踩红线!

细说职场
2026-03-26 11:13:03
2026中国大学综合实力排名200强:前十稳定,郑大冲进前20

2026中国大学综合实力排名200强:前十稳定,郑大冲进前20

马蹄烫嘴说美食
2026-03-26 13:46:58
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

福建平子
2026-03-26 09:00:29
炸了!樊振东获德甲天价年薪,1个决定改写世界乒乓格局

炸了!樊振东获德甲天价年薪,1个决定改写世界乒乓格局

乒乓助手
2026-03-24 00:05:50
2026-03-26 22:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
旅游
房产
数码
公开课

转头就晕的耳石症,能开车上班吗?

旅游要闻

别再人挤人,泰州的这条老街,传承1200年!

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

数码要闻

iQOO Z11x发布:LCD党的护眼神机 1499元起

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版