超节点(SuperPod)这一概念最初由英伟达提出,其本质是通过高速互联技术将多台服务器和数十乃至上百块 GPU紧密集成的高性能计算单元,旨在解决大模型训练对大规模 GPU 集群的需求。
![]()
随着大模型参数从千亿级跃升至万亿级,传统服务器集群架构在跨机通信方面暴露出明显瓶颈,而超节点凭借其高带宽、低时延与易部署等优势,逐渐成为 AI 基础设施的新范式。从技术演进角度看,超节点代表着计算架构从"服务器集群"时代向"集成计算单元"时代的跨越,其核心价值在于为大规模 AI 训练提供了深度优化的专用算力基石。
超节点技术的快速发展正深刻改变着 AI 算力市场的格局。巨大的市场前景吸引了包括中科曙光、华为等系统厂商,阿里云、腾讯云等云服务商,以及沐曦、燧原科技等 AI 芯片厂商的积极参与。在这场技术竞赛中,中国企业正以更系统、更底层的方式参与全球 AI 基础设施发展的叙事与重构。
1、英伟达:GB200NVL72主打高性能与高端市场
超节点概念的首创者,凭借 NVLink 和 NVSwitch 等私有互联技术构建完整垂直生态。2024 年 3 月,英伟达发布的 NVL72 系统将 36 个 GraceCPU 和 72 个BlackwellGPU 集成到一个液冷机柜中,实现 720PFLOPS 的 AI 训练性能。其最新推出的 DGX GB200NVL72 超节点采用 NVLink5.0 技术,单 GPU 支持 18个 NVLink 链接,总带宽达 1800GB/s,是 PCIe5 带宽的 14 倍以上。这种封闭但高性能的设计使英伟达在高端市场占据主导地位,微软、Meta 等科技巨头纷纷采购其超节点产品,尽管单价高达 300 万美元。
Vera Rubin 超级芯片发布,超节点规划更显清晰。在 10 月 29 日举行的 GTC October 2025 大会上,英伟达 CEO 黄仁勋首次公开展示了其下一代 Vera Rubin 超级芯片。Vera Rubin 有两个主要组件:一个称为 Vera 的 CPU 和一个称为 Rubin 的新 GPU 设计,NVLink 数量增加到 144。这一发布标志着英伟达离未来的两个超节点产品更进一步:
![]()
Vera Rubin NVL144 平台,计划在 2026 年下半年发布。可实现 3.6 EFLOPS(FP4 推理)与 1.2 EFLOPS(FP8 训练)的算力,相较 GB300 NVL72 提升约 3.3 倍;系统总显存带宽达 13 TB/s,快速存储容量为 75 TB,分别比上一代提升 60%,并具备双倍 NVLINK 与 CX9 通信能力,最高速率分别为 260 TB/s 与 28.8 TB/s。
![]()
Rubin Ultra NVL576 平台,计划在 2027 年下半年发布。将 NVL 规模从144 扩展至 576,可实现 15 EFLOPS(FP4 推理)与 5 EFLOPS(FP8 训练) 算力,相较 GB300 NVL72 提升 14 倍;其 HBM4 显存带宽达到 4.6 PB/s,快速存储容量达 365 TB,分别为上一代的 8 倍,NVLINK 与CX9 通信能力则提升至 12 倍 与 8 倍,最高速率分别达到 1.5 PB/s 与 115.2 TB/s。
2、华为:高卡数集群+自研互联,强调整体算力与国产化适配
华为选择不同于英伟达的技术路径。2025 年,华为发布了 Atlas900 超节点和昇腾 384 超节点,采用自研的“灵衢”(UB)互联协议。昇腾 384 超节点以 384 张昇腾算力卡组成一个超节点,提供高达 300PFLOPs 的密集 BF16 算力,接近英伟达 GB200NVL72 系统的两倍。华为特别强调"超节点+集群"的战略,通过Atlas900SuperCluster 实现了业界最大规模的高速总线互联。
华为的独特之处在于将超节点技术与中国可获得的芯片制造工艺相结合,提出"用数学补物理、非摩尔补摩尔,用群计算补单芯片"的创新理念。这种思路在单芯片性能受限的情况下,通过系统级优化实现了整体算力的跃升。
华为公布产品路线图,以“超节点和集群”弥补单卡性能不足。
Atlas 950 超节点,预计于 2026 年 Q4 上市。支持 8192 张基于 Ascend 950DT的昇腾卡,是Atlas 900超节点的20多倍。FP8算力达到8 EFLOPS,FP4 算力达到 16 EFLOPS,互联带宽达到 16PB/s。Atlas 950 超节点的规模是英伟达 NVL144 的 56.8 倍,总算力是其 6.7 倍,内存容量是其 15倍,达到 1152TB;互联带宽是其 62 倍,达到 16.3PB/s。
![]()
Atlas 960 超节点,预计于 2027 年 Q4 上市。最大可支持 15488 张 Ascend 960,总算力、内存容量、互联带宽在 Atlas 950 基础上再翻倍,其中 FP8总算力将达到 30 EFLOPS,而 FP4 总算力将达到 60 EFLOPS,内存容量达到 4460TB,互联带宽达到 34PB/s。
![]()
Atlas 950 SuperCluster 50 万卡集群,预计于 2026 年 Q4 上市。由 64个 Atlas 950 超节点互联组成,把 1 万多机柜中的 52 万多片昇腾 950DT组成为一个整体,FP8 总算力可达 524 EFLOPS,相比当前世界上最大的集群 xAI Colossus,规模是其 2.5 倍,算力是其 1.3 倍。
Atlas 960 SuperCluster 100 万卡集群,预计于 2027 年 Q4 上市。集群规模进一步提升到百万卡级,FP8 总算力达到 2 ZFLOPS,FP4 总算力达到 4 ZFLOPS。
3、中科曙光:开放架构+高密扩展,聚焦国产智算生态兼容
中科曙光代表了更加开放的第三种路线。ScaleX640 超节点基于 AI 计算开放架构设计,兼容主流 AI 生态及多品牌国产加速卡。与华为昇腾 384 超节点不同,曙光方案在加速卡选择上不限定特定品牌,上下游生态角色也不局限于特定开发框架。
![]()
这种开放性虽然可能在初期性能优化上面临更大挑战,但长期看更有利于形成繁荣的产业生态。曙光 AI 超集群系统支持十万卡超大规模集群扩展,通过算法-硬件协同优化使大模型训练推理效率达业界主流水平的 1.4 倍,访存带宽超2.3PB/s,卡间互联总带宽超 570TB/s。
![]()
超节点凭借其高带宽、低时延与易部署等优势,逐渐成为 AI 基础设施的新范式。中科曙光于 2025 世界互联网大会乌镇峰会正式发布全球首个单机柜级 640 卡超节点 ScaleX640。产品采用“一拖二”高密架构支撑千卡级计算单元与十万卡级集群扩展,官方数据显示单机柜算力密度提升 20 倍。
转自架构师技术联盟
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.