网易首页 > 网易号 > 正文 申请入驻

从infra的视角聊聊DeepSeek-V3

0
分享至

作者:Lin Zhang(港科大 CS博士)

首先,训练超大号的MoE模型,仅使用两千张H800加两个月的时间,就能达到如此好的效果,这点实在是太强了。只能说实践出先知,从DeepSeek过往的技术报告来看,明显可以感觉到团队的算法能力和系统能力都在持续升级。

模型结构

遵循system-algorithm co-design原则,DeepSeek-V3继续沿用V2中的MLA和MoE结构,其中前者是为了降低kv cache/token开销,后者是为了降低flops/param开销。

1)MLA技术我之前就有介绍[1],简单来说就是通过类似LoRA的方式对kv进行降维压缩,同时将升维操作转移到Q和O上,避免反复解压缩。遗憾的是,MLA并没有收获太多关注。一个可能的原因是,它跟MQA相比似乎没有表现出什么优势[2],反而增加了系统复杂度。

2)MoE结构,不同于Mixtral中大专家的设计(将稠密模型中的MLP结构复制8份),DeepSeek-V3采用大量“小专家”的设计,能够显著提升模型的稀疏程度(总参数量除以激活参数量)。相比V2的236B总参数(21B激活参数),V3更加激进地引入256个专家,总参数量达到惊人的671B,而激活参数量仅仅增加到37B。

根据技术报告里的数据,得益于更加稀疏的MoE设计,以及系统上的一系列优化,训练V3每trillion数据的GPU小时数仅仅为180K(而V2对应的GPU小时数为172.8K),可谓是将V2技术报告标题中的Economical(性价比)贯彻到底。

3)除了继承V2的模型设计,V3中使用先前发布的auxiliary-loss-free策略[3]来缓解专家之间的负载不均衡(学术探索的技术能够如此迅速地上线到自家大模型,可见DeepSeek对于创新的重视程度)。另外,V3引入了multi-token prediction(MTP),不仅可以在训练时提供更多监督信息,还可以在推理时结合投机采样加速模型解码。从论文汇报的效果来看,MTP会是一个不错的训练技巧。

训练优化

对于训练而言,最引人注目的自然是FP8的使用。DeepSeek-V3据我所知,是第一个(至少在开源社区内)成功使用FP8混合精度训练得到的大号MoE模型。

众所周知,FP8伴随着数值溢出的风险,而MoE的训练又非常不稳定,这导致实际大模型训练中BF16仍旧是主流选择。现有FP8方案[4]的训练困难主要来自两个方面,一个是粗粒度的per-tensor E4M3量化会因为个别异常值增加量化误差,另一个则是反向过程中使用的E5M2格式会带来较大的舍入误差。

为了解决以上问题,DeepSeek-V3在训练过程中统一使用E4M3格式,并通过细粒度的per-tile(1x128)和per-group(128x128)量化来降低误差。这种设计更加接近micro-scaling格式[5],然而,当前硬件架构并不支持这种格式的运算,这给FP8矩阵乘法的实现带来了挑战(需要通过partial sum的方式来实现)。

尽管DeepSeek-V3展示了per-tile和per-group量化对于模型收敛的重要性,论文中并没有给出对应的FP8矩阵乘法的算子效率。另外,论文中缺乏per-token加per-channel量化的讨论,不清楚这种实现上更加友好的量化方法对于训练稳定性的影响会有多大。

当然,FP8的好处还体现在节省显存上(尤其是激活值)。此外,DeepSeek-V3使用BF16来保存优化器状态,以及对部分操作进行选择性重计算(例如RMSNorm, MLA Up-Proj, SwiGLU)。显存的优化有助于设计更好的并行策略,例如可以减少甚至消除张量并行的使用。

并行策略上,DeepSeek-V3使用64路的专家并行,16路的流水线并行,以及数据并行(ZeRO1)。其中,专家并行会引入all2all通信,由于每个token会激活8个专家,这导致跨节点的all2all通信开销成为主要的系统瓶颈。

为了降低通信开销,在算法层面,DeepSeek-V3使用分组路由的方式,限制每个token只会激活4个节点上的专家,从而减半跨节点的通信流量。在系统层面,将节点间通信和节点内通信进行流水,最大化使用网络带宽和NVLink带宽。

通过以上优化,DeepSeek-V3可以将通信计算比例控制在大约1:1,这为后面的通信隐藏带来了机会。具体来说,我们可以将不同micro-batches里前向和反向的计算通信任务做并发调度,使得计算和通信尽可能相互掩盖。

对于流水线并行,DeepSeek-V3设计了类似于Chimera[6] 中的双向流水来降低bubble,而没有采用更加常见的interleaved 1F1B(尽管interleaved 1F1B中的steady阶段同样可以将前向和反向的计算通信相互进行隐藏)。

推理优化

最后,DeepSeek-V3模型的部署同样十分挑战。

对于MoE模型来说,开源框架大多沿用稠密模型的推理方案,例如Mixtral模型仍旧采用张量并行的方式部署。然而,这种处理方式使得MoE模型相比稠密模型在推理上失去优势。这是因为,MoE节省flops的好处主要体现在计算密集的prefill阶段,而在访存密集的decode阶段,MoE巨大的参数量然而会带来更加昂贵的数据搬移开销。哪怕能解决访存密集的问题,MoE参数消耗如此多昂贵的HBM空间,这可能也不是一个相当划算的决定。

可见,要发挥出MoE架构在推理侧的价值,必须改变并行策略,回到训练时DP+EP的方式。这意味着我们需要使用更大的机器单元来部署MoE模型,并尽可能避免专家层的冗余存储,从而降低每个设备上的模型参数量,缓解HBM容量和带宽的压力。

在这种部署方案下,负载均衡和all2all通信成为了核心挑战。了解以上背景之后,让我们回到DeepSeek-V3的推理方案。

首先,DeepSeek-V3采取PD分离的方式,分别应对prefill和decode两阶段的挑战。

prefill阶段,attention模块采用4路张量并行+8路数据并行,moe模块采用32路专家并行。这样并行的目的是在满足首token时延的要求下,最大化系统吞吐(和训练任务类似)。

decode阶段,DeepSeek-V3采取320路专家并行(256个小专家+64个热点专家),有效降低解码时延,并缓解负载不均衡的问题。

最后,为了填充all2all通信阶段的设备空闲时间,DeepSeek-V3采用NanoFlow[7]中的双流推理策略,将不同micro-batch中的计算和通信任务并发执行,从而提高设备资源利用率。

参考

  1. 如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2?https://zhihu.com/question/655172528/answer/3504750755

  2. MLA通过增加attention head数量来弥补精度损失,同样的技巧也可以应用到MQA。目前缺少二者的公平对比

  3. Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts, https://arxiv.org/abs/2408.15664

  4. Using FP8 with Transformer Engine, https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html

  5. Microscaling Data Formats for Deep Learning, https://arxiv.org/abs/2310.10537

  6. Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines, https://arxiv.org/abs/2107.06925

  7. NanoFlow: Towards Optimal Large Language Model Serving Throughput, https://arxiv.org/html/2408.12757v1

欢迎大家扫码进群学习交流

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黎巴嫩一国两军:真主党这个“国中之国”,为何彻底绑架黎巴嫩?

黎巴嫩一国两军:真主党这个“国中之国”,为何彻底绑架黎巴嫩?

环球情报员
2026-04-11 21:23:51
小米食堂发布新品“小米”冰激凌:标准、Pro、Max版,售价分别为5.99元、6.99元、8.99元

小米食堂发布新品“小米”冰激凌:标准、Pro、Max版,售价分别为5.99元、6.99元、8.99元

鲁中晨报
2026-04-10 09:32:05
查了查养老个人账户才缴纳了186个月,余额只有186144.78元

查了查养老个人账户才缴纳了186个月,余额只有186144.78元

岁月有情1314
2026-04-10 20:38:14
3大腿神的最强组合!我全都要!

3大腿神的最强组合!我全都要!

贵圈真乱
2026-04-12 10:43:38
广东省烟草局:已查获美宜佳涉案卷烟306万支,立案查处566宗

广东省烟草局:已查获美宜佳涉案卷烟306万支,立案查处566宗

澎湃新闻
2026-04-12 09:31:10
48架F-35压境,美日撕破脸!王毅专机直插平壤,中朝抄了美军后路

48架F-35压境,美日撕破脸!王毅专机直插平壤,中朝抄了美军后路

基斯默默
2026-04-11 11:19:29
数艘美国海军舰船通过霍尔木兹海峡

数艘美国海军舰船通过霍尔木兹海峡

每日经济新闻
2026-04-11 21:23:39
遁入空门?迟重瑞寺庙诵经,送妻后彻底皈依,百亿遗产说扔就扔?

遁入空门?迟重瑞寺庙诵经,送妻后彻底皈依,百亿遗产说扔就扔?

福建睿平
2026-04-12 08:52:29
活久见!网传广东一租客将价值30元沙金项链留屋,房东爽快退押金

活久见!网传广东一租客将价值30元沙金项链留屋,房东爽快退押金

火山詩话
2026-04-12 08:04:26
中共中央批准:张玲任天津市委常委

中共中央批准:张玲任天津市委常委

新京报政事儿
2026-04-11 15:24:04
随着申花1-0战胜海港,泰山1-0,中超最新积分:榜首领先垫底20分

随着申花1-0战胜海港,泰山1-0,中超最新积分:榜首领先垫底20分

球场没跑道
2026-04-11 21:36:16
纪实:曾经红极一时的 10 位成功学大师,如今为何集体凉凉?

纪实:曾经红极一时的 10 位成功学大师,如今为何集体凉凉?

复转这些年
2026-04-04 08:01:50
张靓颖未发行新歌遭幕后工作人员泄露,本人发文连发5问

张靓颖未发行新歌遭幕后工作人员泄露,本人发文连发5问

韩小娱
2026-04-12 06:36:59
人民币大幅升值,全球资本正在加速涌入中国

人民币大幅升值,全球资本正在加速涌入中国

枫冷慕诗
2026-04-11 12:05:06
68岁赵本山现身海南悠闲逛街,打扮很潮流!买好几袋奢侈品好惬意

68岁赵本山现身海南悠闲逛街,打扮很潮流!买好几袋奢侈品好惬意

娱乐团长
2026-04-11 15:28:06
三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

面包夹知识
2026-04-11 17:27:37
台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

冰雅忆史
2026-04-12 07:05:10
两岸统一后:台湾为何不宜“建省”?背后是一段深刻历史教训

两岸统一后:台湾为何不宜“建省”?背后是一段深刻历史教训

三石记
2026-04-11 11:52:20
续航100公里仅跑30公里 充电31秒电量猛涨10% 东莞网约车司机:深蓝SL03虚到不敢接单

续航100公里仅跑30公里 充电31秒电量猛涨10% 东莞网约车司机:深蓝SL03虚到不敢接单

信网
2026-04-11 17:05:04
巴基斯坦被激怒!出动大量中械装备,以色列若胆敢妄动,一律击落

巴基斯坦被激怒!出动大量中械装备,以色列若胆敢妄动,一律击落

小小科普员
2026-04-11 17:28:02
2026-04-12 11:08:49
人工智能研究 incentive-icons
人工智能研究
分享深度学习、CV、NLP
299文章数 134关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

美国副总统万斯:美伊谈判未能达成协议 将返回美国

头条要闻

美国副总统万斯:美伊谈判未能达成协议 将返回美国

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

三轮磋商谈至深夜 美伊谈判三大议题仍待解

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

健康
房产
数码
手机
艺术

干细胞抗衰4大误区,90%的人都中招

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

数码要闻

苹果高端款 Mac mini 与 Mac Studio 多款配置在官网出现缺货状况

手机要闻

华为畅享90 Pro Max一战封神,周销量超iPhone 17全系

艺术要闻

郑丽文缺席丈夫引争议!洪秀柱书法爆红,传统与现代的碰撞!

无障碍浏览 进入关怀版