网易首页 > 网易号 > 正文 申请入驻

完整版|梁文峰最新DeepSeek V3论文!揭秘如何用低性能GPU,训练出比肩OpenAI的大模型?

0
分享至

作者 林易

编辑 重点君

梁文锋亲自参与的DeepSeek最新论文,来了!

刚刚,DeepSeek发布了最新一篇围绕DeepSeek-V3 的技术论文!标题是《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures 》

这篇论文探讨了DeepSeek-V3模型在扩展过程中面临的硬件挑战,并提出了一系列硬件与模型协同设计的解决方案。

大家知道,大语言模型(LLM)的快速扩展暴露了当前硬件架构的一些关键局限性,包括内存容量、计算效率和互连带宽。以DeepSeek-V3 为例,它是在2048 块NVIDIA H800 GPU 集群上进行训练,展示了硬件感知模型协同设计如何高效地应对这些限制,并最终实现了经济高效的大规模训练与推理。

因此,这项新研究并非重复DeepSeek-V3 的详细架构和算法细节,而是从硬件架构和模型设计的双重视角,探讨它们之间在实现经济高效的大规模训练和推理过程中复杂的相互作用。通过探究这种协同作用,研究者旨在提供切实可行的见解,以洞悉如何在不牺牲性能或可访问性的情况下高效扩展大语言模型。

总的来说,DeepSeek-V3通过硬件感知的模型设计(MLA、MoE、FP8)、网络优化(多平面拓扑)和算法创新(MTP),在有限硬件资源下实现了高效的大规模训练与推理。论文进一步呼吁学术界与工业界协同探索下一代硬件架构,以应对AI负载的持续增长。

更难能可贵的是,这次,DeepSeek创始人梁文峰也是这篇论文的署名作者之一。

我们刚阅读了论文,下面给大家划下重点:

|一、核心技术创新

内存优化

多头潜在注意力机制(MLA):通过投影矩阵压缩注意力头的Key-Value(KV)缓存,将每令牌的KV缓存从传统模型的数百KB降低至70.27 KB(如LLaMA-3.1 405B的516 KB→DeepSeek-V3的70 KB),显著减少长上下文推理的内存需求。

低精度模型:采用FP8混合精度训练,相比BF16精度,权重内存占用减少50%,同时通过细粒度量化(如分块128×128)缓解硬件累积精度不足的问题。

MoE架构的成本效益

DeepSeekMoE:通过稀疏激活专家参数(如V3的671B参数中仅激活37B/令牌),实现计算资源的高效利用。训练成本为250 GFLOPS/令牌,远低于同等性能的密集模型(如LLaMA-405B的2448 GFLOPS/令牌)。

本地部署支持:MoE架构允许在消费级GPU服务器(如$10,000配置)上实现近20 TPS的推理速度,适合资源受限场景。

推理速度提升

多令牌预测(MTP):通过轻量级模块并行生成多个候选令牌,验证接受率达80%~90%,推理速度提升1.8倍。

计算-通信重叠:利用双微批次流水线,将注意力计算与专家并行通信重叠,最大化硬件利用率。

网络与硬件协同设计

多平面Fat-Tree网络:采用两层拓扑替代传统三层结构,降低集群网络成本,支持16,384 GPU扩展,同时隔离流量并提高鲁棒性。

低延迟优化:结合InfiniBand GPUDirect Async(IBGDA)绕过CPU代理,端到端延迟降低至微秒级(如跨交换机延迟3.7μs)。

|二、硬件瓶颈与未来建议

低精度计算支持。当前FP8训练的硬件限制包括累积精度不足(FP22寄存器)和细粒度量化的高开销。未来硬件需支持FP32累积精度和硬件级量化加速。

扩展与扩展融合。提出统一网络适配器、专用通信协处理器和动态带宽分配,以解决NVLink与InfiniBand带宽差异(如H800的NVLink带宽400GB/s vs. InfiniBand 50GB/s)导致的通信瓶颈。

网络架构改进。推荐RoCE增强:支持自适应路由(替代ECMP)、虚拟输出队列(VOQ)和硬件级拥塞控制,以降低大规模All-to-All通信的延迟。

内存带宽优化。建议采用3D堆叠DRAM(如SeDRAM)或晶圆级集成(System-on-Wafer),缓解Transformer类模型的内存墙问题。

表1 比较了DeepSeek-V3、Qwen-2.5 72B 和LLaMA-3.1 405B 中每个token 的KV 缓存内存占用情况。通过采用MLA,DeepSeek-V3 显著减少了KV 缓存大小,每个token 仅需70 KB,远低于LLaMA-3.1 405B 的516 KB 和Qwen-2.5 72B 的327 KB。

|三、实验验证与性能

KV缓存压缩:MLA将内存占用降低至传统GQA/MQA的1/7(如LLaMA-3.1的7.28倍→DeepSeek-V3 1x)。

训练效率:在2048 H800 GPU集群中,多平面网络(MPFT)与多轨网络(MRFT)性能持平,模型浮点利用率(MFU)达43.73%。

推理极限:理论最优TPOT为14.76 ms(67 TPS),采用高带宽互联(如GB200 NVL72)可提升至0.82 ms(1200 TPS)。

总之,论文强调了硬件和模型协同设计,在满足日益增长的人工智能工作负载需求方面的关键作用,并为下一代人工智能系统的创新提供了切实可行的蓝图。

最后,大家可以一键传送原论文地址:https://arxiv.org/pdf/2505.09343

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有人预测:到了2035年,房价将是现在的2-3倍,这可能吗?

有人预测:到了2035年,房价将是现在的2-3倍,这可能吗?

细说职场
2026-07-05 11:20:26
湖北一大妈跳了20多年广场舞后,拿100多个金镯子去卖,说家里还有金项链没拿,我人好,都是别人送的

湖北一大妈跳了20多年广场舞后,拿100多个金镯子去卖,说家里还有金项链没拿,我人好,都是别人送的

背包旅行
2026-07-04 11:16:30
0-2大爆冷!萨巴伦卡无缘8强,温网女单乱了:前三种子全出局!

0-2大爆冷!萨巴伦卡无缘8强,温网女单乱了:前三种子全出局!

大秦壁虎白话体育
2026-07-06 02:39:38
他55年连师长都不是,为什么毛主席却坚持要授予他开国上将军衔?

他55年连师长都不是,为什么毛主席却坚持要授予他开国上将军衔?

铜臭的历史味
2026-06-28 05:37:03
“李梅烧烤”:烧死近50万人,800万人流离失所,比原子弹还可怕

“李梅烧烤”:烧死近50万人,800万人流离失所,比原子弹还可怕

史之铭
2026-06-12 09:55:26
改天告诉你,赵长江疑似回应“前法拉第首席设计师是谁?”谣言

改天告诉你,赵长江疑似回应“前法拉第首席设计师是谁?”谣言

新浪财经
2026-07-06 03:27:55
笑疯了!女子嫌胸部太大,忍无可忍果断缩胸,评论区太敢说了!

笑疯了!女子嫌胸部太大,忍无可忍果断缩胸,评论区太敢说了!

谭谈社会
2026-06-08 11:58:48
欠了网贷和银行的钱,这辈子也还不起了,最坏的结果无非这三种

欠了网贷和银行的钱,这辈子也还不起了,最坏的结果无非这三种

细说职场
2026-07-05 11:14:06
中国已经成为全球第一个集体拒接电话的国家

中国已经成为全球第一个集体拒接电话的国家

黯泉
2026-06-26 10:44:35
笑死人!客服笑了两个小时才舍得发出,评论区已沦陷

笑死人!客服笑了两个小时才舍得发出,评论区已沦陷

另子维爱读史
2026-06-20 22:40:00
18.99万元,奇瑞新车官宣:7月12日,正式上市

18.99万元,奇瑞新车官宣:7月12日,正式上市

3C毒物
2026-07-06 00:14:23
速递!中国篮协开紧急会议,杜锋或顶替郭士强,赵继伟打封闭上阵

速递!中国篮协开紧急会议,杜锋或顶替郭士强,赵继伟打封闭上阵

多特体育说
2026-07-05 09:04:44
向太曝《主角》幕后:张嘉益拿着本子求张艺谋,王菲被打动

向太曝《主角》幕后:张嘉益拿着本子求张艺谋,王菲被打动

韩小娱
2026-07-05 08:06:51
黑龙江发布暴雨红色预警信号

黑龙江发布暴雨红色预警信号

极目新闻
2026-07-05 19:29:17
WTT美国大满贯战报:国乒3-0提前夺冠,雨果爆冷

WTT美国大满贯战报:国乒3-0提前夺冠,雨果爆冷

赵或是个热血青年
2026-07-05 06:14:39
魏敏芝现状:在美国当导演,全家定居夏威夷,如今40岁胖到不敢认

魏敏芝现状:在美国当导演,全家定居夏威夷,如今40岁胖到不敢认

白面书誏
2026-06-29 21:16:24
突传利空,万亿龙头周末辟谣

突传利空,万亿龙头周末辟谣

新浪财经
2026-07-05 21:20:17
3年开了150家店!丑了整整37年的土大牌,正在血洗中国男人的钱包

3年开了150家店!丑了整整37年的土大牌,正在血洗中国男人的钱包

介知
2026-07-04 12:17:01
我在伊拉克开工厂,娶了4个老婆,虽然年入千万,如今却很焦虑!

我在伊拉克开工厂,娶了4个老婆,虽然年入千万,如今却很焦虑!

千秋文化
2026-04-16 20:12:45
为什么有很多东北人过来买房定居?来过这座山东小城,你就会知道答案

为什么有很多东北人过来买房定居?来过这座山东小城,你就会知道答案

天空以北
2026-07-03 01:45:39
2026-07-06 04:04:49
划重点KeyPoints incentive-icons
划重点KeyPoints
去除噪音,划下重点 追踪全球AI科技,记录中国硬核崛起 沟通?一把把一伞一久耳久久漆
246文章数 18关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

四川深夜连发3次超4级地震 居民外出躲避回屋再遇地震

头条要闻

四川深夜连发3次超4级地震 居民外出躲避回屋再遇地震

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
时尚
教育
公开课
军事航空

本地新闻

国内足球之旅?这座小城给你高分答案

3年赚46亿,杨幂喊出一个安徽富豪

教育要闻

“六大”之后,这所四星高中绝对是最优选择!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京与特朗普通话85分钟 细节公布

无障碍浏览 进入关怀版