聊聊华为的Atlas 950超节点|内存|时延|开源模型|知名企业|atlas

聊聊华为的Atlas 950超节点

2026-05-11 17:27:40　来源: 鲜枣课堂

江苏举报

分享至

前段时间在MWC巴塞展上，华为高调展示了自家最新的智算超节点产品——Atlas 950 SuperPoD，吸引了行业内外的关注。

说到超节点，大家应该都不会陌生。去年，华为昇腾384超节点全网刷屏，让很多人建立了对这个概念的认知。说白了，超节点就是一个拥有很多GPU/NPU算卡的超级智算服务器，是一个高度集成的基础算力集群单元。

那么，华为Atlas 950超节点和昇腾384有哪些不同？性能有怎样的提升？华为频繁发力超节点，意欲何为？

今天这篇文章，小枣君就来做一个深入解读。

█ Atlas 950，到底有多强？

我们先来了解一下Atlas 950 超节点的一些技术细节。

Atlas 950超节点的技术指标非常强大。它基于“灵衢（UnifiedBus，UB）2.0”全光互联协议，采用“单柜64卡”的模块化基本单元。基于UB-Mesh递归直连拓扑网络架构，支持单板内、单板间和机架间的NPU全互联，最大可扩展至8192张昇腾950DT卡。

内存容量方面，Atlas 950超节点也达到1152TB。其FP8算力达到8 EFLOPS，FP4算力达到16 EFLOPS，互联带宽达到16PB/s。

16PB/s意味着什么？今天全球互联网峰值带宽也就不到1.6PB/s。Atlas 950一个产品的总互联带宽，已经是其10倍有余。

刚才我们提到的昇腾384，其实就是Atlas 900 超节点，满配384卡，采用灵衢1.0协议。Atlas 950超节点支持的算卡规模是昇腾384的20多倍，算力等各方面指标都大幅提升。

相比英伟达将在2026年下半年上市的NVL144，Atlas 950超节点的算卡规模是其56.8倍，总算力是其6.7倍，内存容量是其15倍，互联带宽是其62倍。

别说是NVL144，就算是和英伟达计划2027年上市的NVL576相比，Atlas 950超节点在各方面依然是领先的。

基于64个Atlas 950 SuperPoD（超节点）构建的Altas 950 SuperCluster（超级集群），性能更加恐怖，拥有524288张算卡，FP8算力达到524 EFLOPS，FP4算力突破1 ZFLOPS。

█ 死磕超节点，目的是什么？

华为这两年在超节点领域频繁发力，接连推出重量级产品。究其原因，还是因为华为深刻认识到，超节点产品在当下以及未来很长一段时间内，都是发展AI、抢占算力红利的关键要素。

大家都知道，算力是AI的三大核心要素之一。随着AI浪潮的蓬勃发展，大模型参数规模已迈入万亿级时代。在模态方面，大模型正从单模态LLM走向全模态融合统一。未来将会整合视觉、听觉、文本等多感官信息，理解世界。

模型上下文长度，将从K级迈入兆级。训练数据规模也从10TB级升级为100TB级。

从去年开始，AI浪潮也从Generative AI（生成式AI）阶段逐渐进入Agentic AI（代理式AI）阶段。Agentic AI需要更多任务协同，和多轮次推理迭代，传统的计算架构难以满足低时延要求。

所有这一切，都意味着整个社会对AI算力的需求将继续呈现爆炸式增长。

传统的应对方式，一是提升单芯片的算力，二是采用传统连接技术进行服务器堆叠。

从芯片的角度来看，随着芯片半导体制程工艺逐渐进入瓶颈，摩尔定律逐渐失效，单芯片能力提升的空间越来越小。

从互联的角度来看，传统互联技术带宽不足、时延大。搭建规模越大的算力集群，利用率反而越来越低。在稳定性和可靠性方面，也存在极大的不足。

所以，重新设计全新的互联协议，打造一个真正强大的“一体化”算力集群，就成为必然选择。

超节点，就是一种通过高速互联协议连接更多算力芯片的计算系统。

它拥有巨大的互联带宽以及内存容量，能够真正让海量算力芯片形成一个“超级AI计算机”。这个“计算机”可以打破传统架构限制，支持更大规模AI处理器的高效协同，实现更大范围、更高流量的数据传输，从而突破系统性能瓶颈，释放出巨大的协同效能。

█ Altas 950，强在哪里？

说了半天，华为Atlas950超节点为什么能实现前面提到的超强技术指标？它的背后，有哪些关键技术在提供支撑？

从本质来看，华为Atlas950超节点的技术核心，关键在于“一卡一网三特性”。

“一卡”，是指Atlas 950超节点搭载的昇腾950DT（Decode and Training）芯片。

这款芯片是华为专为超大规模AI训练与推理Decode阶段优化的专用NPU芯片。虽然芯片受限于制程工艺，但单卡性能仍表现亮眼，能够支持FP4、FP8等低精度计算格式，可根据任务需求动态切换，兼顾算力性能与能耗控制。

值得一提的是，因为场景需要，950DT配备了更高性能的HiZQ 2.0 HBM，提供了高达144GB的内存容量和4TB/s的内存带宽。

“一网”，是指Atlas 950超节点采用了最新的灵衢2.0互联协议。

相比传统互联协议，灵衢2.0互联协议的通信带宽提升15倍，单跳通信时延从2微秒降至200纳秒，降低10倍。该协议支持长距离高可靠全光无损互联，通过全光Mesh拓扑，柜间带宽实现10倍提升，跨柜卡间往返时延从7微秒降低到3微秒。

灵衢2.0充分发挥了光通信的优势，消除了铜缆互联的距离和带宽限制，构建了“低时延、高带宽、高可靠”的互联传输体系。

值得一提的是，华为的灵衢2.0目前也有转向开放的趋势。

华为在2025年8月开放了灵衢协议的技术规范（600多页），包括开放超节点参考架构、开放超节点基础硬件、开源操作系统灵衢组件等。产业界完全可以基于规范，自研开发相关的产品或组件。

“三特性”，是指超大带宽、超低时延和内存统一编址。

超大带宽和超低时延前面已经提到了，应该不难理解。我们重点说说这个内存统一编址。

前面提到了，Atlas 950超节点拥有1152TB的超大内存。这些内存并非简单的容量叠加，而是采用“内存池化”设计，将所有节点的内存资源整合为统一的共享资源池，实现内存统一编址。

超节点内所有互联设备的内存地址需全局唯一，基于全局内存可实现任意设备间的灵活访问，通过load/store指令级访存，直接读写远端NPU or CPU内存资源。这使得大模型训练中频繁的参数同步操作，无需经过传统的“序列化-网络传输-反序列化”流程，直接通过内存语义通信完成，提升小包数据传输及离散随机访存通信效率，同时可以在超节点域内实现更大的共享内存池。

换言之，基于内存统一编址技术，无需关注数据存储在哪个节点，即可像访问本地内存一样，快速调取跨节点数据，大幅降低数据迁移成本；资源池化技术则可根据任务需求，动态分配内存、存储、算力资源，避免资源闲置，实现算力利用率的最大化。

除了“一卡一网三特性”之外，Atlas 950超节点在工程化方面也有很多亮点。

例如，通过正交架构，Atlas 950实现了零线缆电互联，整机柜预制，部署周期缩短70%。采用液冷接头浮动盲插设计做到零漏液，现场免工具安装，其独创的材料和工艺让光模块液冷可靠性提升一倍。此外，系统的关键部件支持在线热插拔，可以做到故障不中断业务。

在能耗方面，冷板直接贴合芯片进行散热，效率较风冷提升3倍。系统PUE逼近1.1，85%以上电力用于计算，万卡集群年省电可达数千万度。

在运维监控方面，Atlas 950支持全链路故障预警，集群级自愈。训练中断率降低90%，适配大模型长期训练任务。

█ 最后的话

超节点技术，概括来说，就是用“系统化思维+工程化能力”挑战“单卡性能极限”。

华为超节点跳出了单纯堆叠芯片算力的路径依赖，将昇腾950DT、灵衢2.0互联协议与CANN软件栈（2025年底已实现全面开源开放）深度协同，硬件、互联、软件深度融合，构建起端到端自主可控的AI算力底座。

通过自身在通信技术上的优势，弥补在芯片制程上的劣势。用“团队作战”取代“单打独斗”。华为所说的“以非摩尔补摩尔，以数学补物理”，就是这个意思。

Atlas 950的核心竞争力，在于系统级架构创新与全链路技术优化。其背后，是华为在半导体、光通信、AI算法、软件生态等领域的长期技术积累与沉淀。国内做算力芯片的企业越来越多，做超节点产品的也越来越多，但想要全面超越华为，存在相当大的难度。

根据消息透露，Atlas 950超节点将在今年上半年在国内发布，并在第四季度上市。随着整个社会对AI算力需求的不断增加，相信华为超节点产品会斩获更多订单，占据更大的市场份额。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.