前段时间在MWC巴塞展上,华为高调展示了自家最新的智算超节点产品——Atlas 950 SuperPoD,吸引了行业内外的关注。
![]()
说到超节点,大家应该都不会陌生。去年,华为昇腾384超节点全网刷屏,让很多人建立了对这个概念的认知。说白了,超节点就是一个拥有很多GPU/NPU算卡的超级智算服务器,是一个高度集成的基础算力集群单元。
那么,华为Atlas 950超节点和昇腾384有哪些不同?性能有怎样的提升?华为频繁发力超节点,意欲何为?
今天这篇文章,小枣君就来做一个深入解读。
█ Atlas 950,到底有多强?
我们先来了解一下Atlas 950 超节点的一些技术细节。
Atlas 950超节点的技术指标非常强大。它基于“灵衢(UnifiedBus,UB)2.0”全光互联协议,采用“单柜64卡”的模块化基本单元。基于UB-Mesh递归直连拓扑网络架构,支持单板内、单板间和机架间的NPU全互联,最大可扩展至8192张昇腾950DT卡。
内存容量方面,Atlas 950超节点也达到1152TB。其FP8算力达到8 EFLOPS,FP4算力达到16 EFLOPS,互联带宽达到16PB/s。
![]()
16PB/s意味着什么?今天全球互联网峰值带宽也就不到1.6PB/s。Atlas 950一个产品的总互联带宽,已经是其10倍有余。
刚才我们提到的昇腾384,其实就是Atlas 900 超节点,满配384卡,采用灵衢1.0协议。Atlas 950超节点支持的算卡规模是昇腾384的20多倍,算力等各方面指标都大幅提升。
相比英伟达将在2026年下半年上市的NVL144,Atlas 950超节点的算卡规模是其56.8倍,总算力是其6.7倍,内存容量是其15倍,互联带宽是其62倍。
别说是NVL144,就算是和英伟达计划2027年上市的NVL576相比,Atlas 950超节点在各方面依然是领先的。
基于64个Atlas 950 SuperPoD(超节点)构建的Altas 950 SuperCluster(超级集群),性能更加恐怖,拥有524288张算卡,FP8算力达到524 EFLOPS,FP4算力突破1 ZFLOPS。
![]()
█ 死磕超节点,目的是什么?
华为这两年在超节点领域频繁发力,接连推出重量级产品。究其原因,还是因为华为深刻认识到,超节点产品在当下以及未来很长一段时间内,都是发展AI、抢占算力红利的关键要素。
大家都知道,算力是AI的三大核心要素之一。随着AI浪潮的蓬勃发展,大模型参数规模已迈入万亿级时代。在模态方面,大模型正从单模态LLM走向全模态融合统一。未来将会整合视觉、听觉、文本等多感官信息,理解世界。
模型上下文长度,将从K级迈入兆级。训练数据规模也从10TB级升级为100TB级。
从去年开始,AI浪潮也从Generative AI(生成式AI)阶段逐渐进入Agentic AI(代理式AI)阶段。Agentic AI需要更多任务协同,和多轮次推理迭代,传统的计算架构难以满足低时延要求。
所有这一切,都意味着整个社会对AI算力的需求将继续呈现爆炸式增长。
传统的应对方式,一是提升单芯片的算力,二是采用传统连接技术进行服务器堆叠。
从芯片的角度来看,随着芯片半导体制程工艺逐渐进入瓶颈,摩尔定律逐渐失效,单芯片能力提升的空间越来越小。
从互联的角度来看,传统互联技术带宽不足、时延大。搭建规模越大的算力集群,利用率反而越来越低。在稳定性和可靠性方面,也存在极大的不足。
所以,重新设计全新的互联协议,打造一个真正强大的“一体化”算力集群,就成为必然选择。
超节点,就是一种通过高速互联协议连接更多算力芯片的计算系统。
它拥有巨大的互联带宽以及内存容量,能够真正让海量算力芯片形成一个“超级AI计算机”。这个“计算机”可以打破传统架构限制,支持更大规模AI处理器的高效协同,实现更大范围、更高流量的数据传输,从而突破系统性能瓶颈,释放出巨大的协同效能。
█ Altas 950,强在哪里?
说了半天,华为Atlas950超节点为什么能实现前面提到的超强技术指标?它的背后,有哪些关键技术在提供支撑?
从本质来看,华为Atlas950超节点的技术核心,关键在于“一卡一网三特性”。
“一卡”,是指Atlas 950超节点搭载的昇腾950DT(Decode and Training)芯片。
![]()
这款芯片是华为专为超大规模AI训练与推理Decode阶段优化的专用NPU芯片。虽然芯片受限于制程工艺,但单卡性能仍表现亮眼,能够支持FP4、FP8等低精度计算格式,可根据任务需求动态切换,兼顾算力性能与能耗控制。
值得一提的是,因为场景需要,950DT配备了更高性能的HiZQ 2.0 HBM,提供了高达144GB的内存容量和4TB/s的内存带宽。
“一网”,是指Atlas 950超节点采用了最新的灵衢2.0互联协议。
相比传统互联协议,灵衢2.0互联协议的通信带宽提升15倍,单跳通信时延从2微秒降至200纳秒,降低10倍。该协议支持长距离高可靠全光无损互联,通过全光Mesh拓扑,柜间带宽实现10倍提升,跨柜卡间往返时延从7微秒降低到3微秒。
灵衢2.0充分发挥了光通信的优势,消除了铜缆互联的距离和带宽限制,构建了“低时延、高带宽、高可靠”的互联传输体系。
值得一提的是,华为的灵衢2.0目前也有转向开放的趋势。
华为在2025年8月开放了灵衢协议的技术规范(600多页),包括开放超节点参考架构、开放超节点基础硬件、开源操作系统灵衢组件等。产业界完全可以基于规范,自研开发相关的产品或组件。
![]()
“三特性”,是指超大带宽、超低时延和内存统一编址。
超大带宽和超低时延前面已经提到了,应该不难理解。我们重点说说这个内存统一编址。
前面提到了,Atlas 950超节点拥有1152TB的超大内存。这些内存并非简单的容量叠加,而是采用“内存池化”设计,将所有节点的内存资源整合为统一的共享资源池,实现内存统一编址。
超节点内所有互联设备的内存地址需全局唯一,基于全局内存可实现任意设备间的灵活访问,通过load/store指令级访存,直接读写远端NPU or CPU内存资源。这使得大模型训练中频繁的参数同步操作,无需经过传统的“序列化-网络传输-反序列化”流程,直接通过内存语义通信完成,提升小包数据传输及离散随机访存通信效率,同时可以在超节点域内实现更大的共享内存池。
换言之,基于内存统一编址技术,无需关注数据存储在哪个节点,即可像访问本地内存一样,快速调取跨节点数据,大幅降低数据迁移成本;资源池化技术则可根据任务需求,动态分配内存、存储、算力资源,避免资源闲置,实现算力利用率的最大化。
除了“一卡一网三特性”之外,Atlas 950超节点在工程化方面也有很多亮点。
例如,通过正交架构,Atlas 950实现了零线缆电互联,整机柜预制,部署周期缩短70%。采用液冷接头浮动盲插设计做到零漏液,现场免工具安装,其独创的材料和工艺让光模块液冷可靠性提升一倍。此外,系统的关键部件支持在线热插拔,可以做到故障不中断业务。
在能耗方面,冷板直接贴合芯片进行散热,效率较风冷提升3倍。系统PUE逼近1.1,85%以上电力用于计算,万卡集群年省电可达数千万度。
在运维监控方面,Atlas 950支持全链路故障预警,集群级自愈。训练中断率降低90%,适配大模型长期训练任务。
█ 最后的话
超节点技术,概括来说,就是用“系统化思维+工程化能力”挑战“单卡性能极限”。
华为超节点跳出了单纯堆叠芯片算力的路径依赖,将昇腾950DT、灵衢2.0互联协议与CANN软件栈(2025年底已实现全面开源开放)深度协同,硬件、互联、软件深度融合,构建起端到端自主可控的AI算力底座。
通过自身在通信技术上的优势,弥补在芯片制程上的劣势。用“团队作战”取代“单打独斗”。华为所说的“以非摩尔补摩尔,以数学补物理”,就是这个意思。
Atlas 950的核心竞争力,在于系统级架构创新与全链路技术优化。其背后,是华为在半导体、光通信、AI算法、软件生态等领域的长期技术积累与沉淀。国内做算力芯片的企业越来越多,做超节点产品的也越来越多,但想要全面超越华为,存在相当大的难度。
根据消息透露,Atlas 950超节点将在今年上半年在国内发布,并在第四季度上市。随着整个社会对AI算力需求的不断增加,相信华为超节点产品会斩获更多订单,占据更大的市场份额。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.