网易首页 > 网易号 > 正文 申请入驻

完整版|梁文峰最新DeepSeek V3论文!揭秘如何用低性能GPU,训练出比肩OpenAI的大模型?

0
分享至

作者 林易

编辑 重点君

梁文锋亲自参与的DeepSeek最新论文,来了!

刚刚,DeepSeek发布了最新一篇围绕DeepSeek-V3 的技术论文!标题是《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures 》

这篇论文探讨了DeepSeek-V3模型在扩展过程中面临的硬件挑战,并提出了一系列硬件与模型协同设计的解决方案。

大家知道,大语言模型(LLM)的快速扩展暴露了当前硬件架构的一些关键局限性,包括内存容量、计算效率和互连带宽。以DeepSeek-V3 为例,它是在2048 块NVIDIA H800 GPU 集群上进行训练,展示了硬件感知模型协同设计如何高效地应对这些限制,并最终实现了经济高效的大规模训练与推理。

因此,这项新研究并非重复DeepSeek-V3 的详细架构和算法细节,而是从硬件架构和模型设计的双重视角,探讨它们之间在实现经济高效的大规模训练和推理过程中复杂的相互作用。通过探究这种协同作用,研究者旨在提供切实可行的见解,以洞悉如何在不牺牲性能或可访问性的情况下高效扩展大语言模型。

总的来说,DeepSeek-V3通过硬件感知的模型设计(MLA、MoE、FP8)、网络优化(多平面拓扑)和算法创新(MTP),在有限硬件资源下实现了高效的大规模训练与推理。论文进一步呼吁学术界与工业界协同探索下一代硬件架构,以应对AI负载的持续增长。

更难能可贵的是,这次,DeepSeek创始人梁文峰也是这篇论文的署名作者之一。

我们刚阅读了论文,下面给大家划下重点:

|一、核心技术创新

内存优化

多头潜在注意力机制(MLA):通过投影矩阵压缩注意力头的Key-Value(KV)缓存,将每令牌的KV缓存从传统模型的数百KB降低至70.27 KB(如LLaMA-3.1 405B的516 KB→DeepSeek-V3的70 KB),显著减少长上下文推理的内存需求。

低精度模型:采用FP8混合精度训练,相比BF16精度,权重内存占用减少50%,同时通过细粒度量化(如分块128×128)缓解硬件累积精度不足的问题。

MoE架构的成本效益

DeepSeekMoE:通过稀疏激活专家参数(如V3的671B参数中仅激活37B/令牌),实现计算资源的高效利用。训练成本为250 GFLOPS/令牌,远低于同等性能的密集模型(如LLaMA-405B的2448 GFLOPS/令牌)。

本地部署支持:MoE架构允许在消费级GPU服务器(如$10,000配置)上实现近20 TPS的推理速度,适合资源受限场景。

推理速度提升

多令牌预测(MTP):通过轻量级模块并行生成多个候选令牌,验证接受率达80%~90%,推理速度提升1.8倍。

计算-通信重叠:利用双微批次流水线,将注意力计算与专家并行通信重叠,最大化硬件利用率。

网络与硬件协同设计

多平面Fat-Tree网络:采用两层拓扑替代传统三层结构,降低集群网络成本,支持16,384 GPU扩展,同时隔离流量并提高鲁棒性。

低延迟优化:结合InfiniBand GPUDirect Async(IBGDA)绕过CPU代理,端到端延迟降低至微秒级(如跨交换机延迟3.7μs)。

|二、硬件瓶颈与未来建议

低精度计算支持。当前FP8训练的硬件限制包括累积精度不足(FP22寄存器)和细粒度量化的高开销。未来硬件需支持FP32累积精度和硬件级量化加速。

扩展与扩展融合。提出统一网络适配器、专用通信协处理器和动态带宽分配,以解决NVLink与InfiniBand带宽差异(如H800的NVLink带宽400GB/s vs. InfiniBand 50GB/s)导致的通信瓶颈。

网络架构改进。推荐RoCE增强:支持自适应路由(替代ECMP)、虚拟输出队列(VOQ)和硬件级拥塞控制,以降低大规模All-to-All通信的延迟。

内存带宽优化。建议采用3D堆叠DRAM(如SeDRAM)或晶圆级集成(System-on-Wafer),缓解Transformer类模型的内存墙问题。

表1 比较了DeepSeek-V3、Qwen-2.5 72B 和LLaMA-3.1 405B 中每个token 的KV 缓存内存占用情况。通过采用MLA,DeepSeek-V3 显著减少了KV 缓存大小,每个token 仅需70 KB,远低于LLaMA-3.1 405B 的516 KB 和Qwen-2.5 72B 的327 KB。

|三、实验验证与性能

KV缓存压缩:MLA将内存占用降低至传统GQA/MQA的1/7(如LLaMA-3.1的7.28倍→DeepSeek-V3 1x)。

训练效率:在2048 H800 GPU集群中,多平面网络(MPFT)与多轨网络(MRFT)性能持平,模型浮点利用率(MFU)达43.73%。

推理极限:理论最优TPOT为14.76 ms(67 TPS),采用高带宽互联(如GB200 NVL72)可提升至0.82 ms(1200 TPS)。

总之,论文强调了硬件和模型协同设计,在满足日益增长的人工智能工作负载需求方面的关键作用,并为下一代人工智能系统的创新提供了切实可行的蓝图。

最后,大家可以一键传送原论文地址:https://arxiv.org/pdf/2505.09343

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这面相太好了,妥妥旺夫相,膀大腰圆气血足,穿着干净舒服!

这面相太好了,妥妥旺夫相,膀大腰圆气血足,穿着干净舒服!

可乐谈情感
2026-03-29 15:16:24
大跌眼镜!宋宁峰官宣不到24小时,出轨事件越扒越有 曝5大内幕

大跌眼镜!宋宁峰官宣不到24小时,出轨事件越扒越有 曝5大内幕

草莓解说体育
2026-04-01 13:23:04
恩断义绝!金正恩治下的朝鲜,做出重大决定,官宣“头号敌国”

恩断义绝!金正恩治下的朝鲜,做出重大决定,官宣“头号敌国”

张嘴说财经
2026-03-31 19:56:44
音乐人丁太升曾建议单依纯离常石磊远点,如今来看确实一语中的

音乐人丁太升曾建议单依纯离常石磊远点,如今来看确实一语中的

小徐讲八卦
2026-03-31 11:28:01
内塔尼亚胡称伊朗已不构成生存威胁:“过去以色列是‘独自对抗伊朗’,但如今正‘与美国并肩作战’”

内塔尼亚胡称伊朗已不构成生存威胁:“过去以色列是‘独自对抗伊朗’,但如今正‘与美国并肩作战’”

大象新闻
2026-04-01 13:49:02
活久见,公司把员工开除后又起诉了,理由是刻意隐瞒自身价值!

活久见,公司把员工开除后又起诉了,理由是刻意隐瞒自身价值!

黯泉
2026-03-31 17:21:23
张雪吐槽:重庆一个子都没帮过我 爆粗回应20年反转:不会说场面话

张雪吐槽:重庆一个子都没帮过我 爆粗回应20年反转:不会说场面话

风过乡
2026-03-31 22:50:08
何穗携俩保姆带娃逛公园!她跪地擦婴儿车接地气,儿子超像陈伟霆

何穗携俩保姆带娃逛公园!她跪地擦婴儿车接地气,儿子超像陈伟霆

小樾说历史
2026-03-31 12:26:23
胡歌兑现20年前生死诺言!带妻女回云南“省亲”,看哭全网

胡歌兑现20年前生死诺言!带妻女回云南“省亲”,看哭全网

子芫伴你成长
2026-03-31 19:40:42
梅西独造3球!赛后获9分全场最高,38岁仍9次突破13次对抗

梅西独造3球!赛后获9分全场最高,38岁仍9次突破13次对抗

奥拜尔
2026-04-01 09:46:20
离婚才1年多,杨子母亲的态度大变,才知黄圣依的决定有多正确

离婚才1年多,杨子母亲的态度大变,才知黄圣依的决定有多正确

白面书誏
2026-03-31 16:17:28
仅一天!蓝营全员倒向郑丽文,大陆这步棋太关键

仅一天!蓝营全员倒向郑丽文,大陆这步棋太关键

冒泡泡的鱼儿
2026-04-01 03:27:41
垃圾时间狂降正负值!詹姆斯成笑话!东契奇狂轰42+5+12创5项纪录

垃圾时间狂降正负值!詹姆斯成笑话!东契奇狂轰42+5+12创5项纪录

Tracy的篮球博物馆
2026-04-01 13:00:09
美国最大的失误就是一上来就把宋江给干掉了

美国最大的失误就是一上来就把宋江给干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
湖人大胜骑士,詹姆斯又创两项历史第一,东契奇一数据超越科比

湖人大胜骑士,詹姆斯又创两项历史第一,东契奇一数据超越科比

姜大叔侃球
2026-04-01 13:47:42
56岁男篮传奇人物:身居高位,空姐老婆很漂亮,18岁儿子继承天赋

56岁男篮传奇人物:身居高位,空姐老婆很漂亮,18岁儿子继承天赋

阿伧说事
2026-04-01 13:52:07
真敢说!张雪:以前挺喜欢雷军,但小米挖孔机盖没处理好

真敢说!张雪:以前挺喜欢雷军,但小米挖孔机盖没处理好

雷科技
2026-03-31 16:30:44
邻国又变天了,亲华总理一夜下台,新人选出炉,对中国态度不简单

邻国又变天了,亲华总理一夜下台,新人选出炉,对中国态度不简单

安珈使者啊
2026-04-01 10:28:30
沙特300亿砸向中国,中东金主不装了

沙特300亿砸向中国,中东金主不装了

李荣茂
2026-03-31 18:38:58
台湾六大都市国民党选情展望

台湾六大都市国民党选情展望

代伟看世界
2026-04-01 09:02:44
2026-04-01 14:35:00
划重点KeyPoints incentive-icons
划重点KeyPoints
去除噪音,划下重点 追踪全球AI科技,记录中国硬核崛起 沟通?一把把一伞一久耳久久漆
186文章数 18关注度
往期回顾 全部

科技要闻

营收翻倍、巨亏31亿!中国大模型太烧钱了

头条要闻

媒体:全世界都在猜美军要打哪里 美军或有三个目标

头条要闻

媒体:全世界都在猜美军要打哪里 美军或有三个目标

体育要闻

NBA扩军,和篮球无关?

娱乐要闻

宋宁峰人设崩塌!带娃偷情+反向索赔

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

2026年3月小米汽车交付超2万台 新SU7上市即交付

态度原创

本地
亲子
房产
健康
公开课

本地新闻

春日吃花第五期——江西

亲子要闻

筑牢早孕健康管理“第一站”

房产要闻

海口二手房,疯狂成交!贝壳最新数据曝光!

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版