网易首页 > 网易号 > 正文 申请入驻

华为超节点:用「一台机器」的逻辑,驱动AI万卡集群

0
分享至


机器之心报道

机器之心编辑部

超节点架构重新定义大规模有效算力新范式。

AI 算力正在迎来全新形态,革新的原点来自国内。

在算力需求呈指数级增长的今天,AI 基础设施的规模竞赛似乎陷入了一个怪圈:随着集群规模扩大,传统通过「服务器堆叠和以太网联接」的模式,会因服务器间带宽不足、时延大等问题,导致有效算力利用率反而越低,训练中断也愈发频繁。

在昨天的华为全联接大会 2025 上,华为给出了自己的解法:基于自研的灵衢(UnifiedBus)互联协议,创新了超节点架构。

这并非又一个单纯的硬件升级,而是华为在计算系统架构层的一次深度重构。

要实现超节点架构,最难、也最关键的是突破互联瓶颈。

在传统服务器架构中,我们可以将其理解为一个由无数独立「计算岛屿」(服务器)组成的群岛,岛屿之间依靠传统的网络「航线」(如以太网 / IB 网络)进行数据交换。

在集群规模较小时,这种模式尚能应付;但当成千上万个计算单元需要为同一个庞大的训练任务进行高频、海量的数据同步时,这些「航线」就会迅速拥堵。

其结果是,大量的计算单元不是在计算,而是在「等待」数据。节点间的通信延迟和带宽限制成为了整个集群的木桶短板,导致「1+1<2」的规模效应递减,算力利用率随规模扩大而下降。在万亿模型训练中,约有 40% 的时间,计算在空等通信。

更致命的是,任何一个节点的故障都可能引发连锁反应,导致动辄耗时数周的训练任务中断,造成巨大的资源浪费。可以说,互联架构的能力,直接决定了 AI 集群规模的天花板。

华为希望以超节点创新的形式,改变传统集群「堆叠」模式,解决当前大规模 AI 计算最核心的痛点:通信墙。

互联技术的研发难度极大,正如业界关注的 NVL144 的上市时间已推迟到明年下半年,而华为的独特之处在于,基于灵衢互联,已经成功实现了超大规模的超节点部署,验证了该技术路线的成熟与领先。

从「堆叠」到「融合」,深度互联推动 AI Scaling Up

「超节点」架构的核心思想,在于「融合」。超节点在物理上由多台机器组成,但逻辑和使用上可以看做是单一设备。它通过大带宽、低时延的互联网络,将计算单元、存储单元等组件平等互联,并统一通信协议与内存编址,实现全局资源池化,从根本上解决了传统集群的通信墙问题。

基于这样的架构,能够将通信时延降低到百纳秒级,大幅提升集群利用率,降低通信成本。其最终目标是让有效算力随集群规模实现真正的线性拓展,并大幅提升系统的长效可靠性。

华为董事、ICT BG CEO 杨超斌在昨天的华为全联接大会上表示:「基于灵衢互联协议,华为创新了超节点架构,可将多台物理机器深度互联,实现逻辑层面像一台机器一样学习、思考与推理,重新定义了高效、稳定、可扩展的大规模有效算力新范式。」

华为董事、ICT BG CEO 杨超斌在华为全联接大会上。

覆盖全场景的创新产品组合

随着 AI 基础建设的快速演进,超节点或许会很快成为 AI 基础设施的新常态。

而超节点不仅仅应用于 AI 数据中心,更需要普惠千行万业的 AI 计算需求。为此,基于超节点架构,华为打造出满足大型数据中心、企业级数据中心到小型工作站等全场景算力需求的创新产品。

  • 旗舰标杆:Atlas 950 SuperPoD

本次大会,华为发布 Atlas 950 SuperPoD 和 Atlas 960 SuperPoD 超节点,分别支持 8192 及 15488 张昇腾卡,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先。

这是给顶级玩家(如云服务商、国家级智算中心)准备的「旗舰武器」,其采用的全液冷和零线缆电互联的正交架构设计,结合液冷接头浮动盲插等技术,不仅解决了超高密度下的散热和互联难题,更通过系统性创新解决了跨柜长距离、高可靠部署这一业界难题,更极大地提升了系统的长期运行可靠性和机房部署适应性

其 FP8 算力达到 8E FLOPS,总互联带宽高达 16PB/s,超过今天全球互联网峰值带宽的 10 倍有余。

其创新的「UB-Mesh」递归直连拓扑,最大可支持 8192 卡无收敛全互联,这意味着在理论上,集群内的任意两个 NPU 都能实现最高效的通信,为万亿参数级别模型的训练扫清了障碍。

基于超节点,华为同时发布了全球最强超节点集群 Atlas 950 SuperCluster 和 Atlas 960 SuperCluster,算力规模分别为超过 50 万卡和百万卡,成为了全球最强算力集群之一。

华为副董事长、轮值董事长徐直军在大会演讲中强调,基于中国可获得的芯片制造工艺,华为努力打造「超节点+集群」算力解决方案,可以满足持续增长的算力需求。

  • 企业普惠:Atlas 850

这或许是本次发布中最具市场穿透力的产品。作为业界首个企业级风冷 AI 超节点服务器,它首次将超节点架构带入企业级风冷数据中心,极大地降低了企业部署超节点架构的门槛。

这意味着,大多数企业无需对现有数据中心进行复杂的液冷改造,在大多数单柜供电能力为 20 千瓦以内的标准风冷机房内,也能构建起最大 1024 卡的超节点集群,这对于推动大模型在更广泛行业的「后训练」和多场景推理应用意义重大。

杨超斌发布 Atlas 850 企业级风冷服务器。

  • 基础计算单元:Atlas 350 标卡

基于最新的昇腾 950PR 芯片,这款标卡不仅自身性能大幅提升(如推荐推理场景性能提升 2.5 倍),更关键的是,它通过灵衢端口实现了多卡互联与资源池化。

这意味着,即便是单个服务器内的多张标卡,也能「攒」出一个小型的超节点,让更大参数的模型和更低时延的应用得以在更小的单位上运行。同时,灵活扩展、可拆可合的特性,也让用户能够根据自己的需求,灵活组装。

  • 通用计算场景:TaiShan 950 SuperPoD

这是华为超节点战略的延伸,也是一个值得关注的信号,华为将这一架构首次应用于通用计算领域,推出了业界首款通算超节点。

百纳秒级超低时延和内存池化能力,将直接利好数据库、虚拟化和大数据等对延迟极其敏感的场景,为传统 IT 架构的性能提升开辟了新的想象空间。

值得一提的是,基于 TaiShan 950 超节点打造的 GaussDB 多写架构,无需改造即可平滑替代大型机、小型机上的传统数据库,为传统 IT 架构的性能提升开辟了新的想象空间。

以「开源开放」构建护城河

在发布一系列「肌肉感」十足的硬件产品之余,华为反复强调的是「硬件开放、软件开源」的生态战略。

在 AI 时代,单一厂商的技术再强,也无法包揽所有场景的应用创新。真正的壁垒,在于生态的繁荣度。

硬件开放:华为将 NPU 模组、刀片、主板等基础硬件向伙伴开放,鼓励产业界进行二次开发,共同丰富基于灵衢协议的产品形态,为不同场景提供适配的算力底座。

软件开源:将昇腾 CANN 和操作系统灵衢组件全面开源,代码将陆续合入 openEuler 等开源社区,并确保对 PyTorch、vLLM 等主流框架的优先支持。通过强化开源运作,华为致力于使能广大开发者和合作伙伴,让超节点走向普惠和协同创新,共建繁荣的 AI 生态。

昨天的大会上,华为除了发布全球最强超节点,公布全新昇腾 950 芯片架构之外,还介绍了自研算力体系的落地情况:基于灵衢的 Atlas 900 A3 超节点当前已经累计部署了 300 多套,服务 20 余个客户,行业覆盖互联网、金融、运营商、电力、制造等。新一代超节点已在客户真实场景中兑现了价值。

算力的未来,在于打破边界。「超节点」架构的核心使命,就是构建一个统一、可扩展的算力基石,旨在将一致的、高性能的计算体验,无缝贯穿到每一个数据中心、企业和工作站。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

林子说事
2026-03-26 09:42:20
51岁男子突发心梗猝死!不想得心梗,牢记晚饭4不吃,睡前4不要!

51岁男子突发心梗猝死!不想得心梗,牢记晚饭4不吃,睡前4不要!

健康之光
2026-03-20 17:05:06
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
38.6万元起拍!南京一民国老四合院上架拍卖

38.6万元起拍!南京一民国老四合院上架拍卖

现代快报
2026-03-26 14:34:07
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
尊界MPV实车谍照再曝光!前脸神似S800 气场十足

尊界MPV实车谍照再曝光!前脸神似S800 气场十足

CNMO科技
2026-03-26 10:26:04
伊朗大杀器登场,以色列被打疼,美迎来不眠之夜,特朗普被迫让步

伊朗大杀器登场,以色列被打疼,美迎来不眠之夜,特朗普被迫让步

谛听骨语本尊
2026-03-26 16:37:43
香港马拉松,阿Sa脸馒化成蔡明,黄晓明白又嫩,林志玲被嘲太做作

香港马拉松,阿Sa脸馒化成蔡明,黄晓明白又嫩,林志玲被嘲太做作

老吴教育课堂
2026-03-26 14:11:15
入侵界最大笑话?笋壳鱼入侵中国40年,不但没泛滥还没吃到濒危

入侵界最大笑话?笋壳鱼入侵中国40年,不但没泛滥还没吃到濒危

狸猫之一的动物圈
2026-03-14 10:17:17
中疾控发布提示:我国面临较大疫情输入风险

中疾控发布提示:我国面临较大疫情输入风险

随州派
2026-03-24 11:44:16
北青:国足团队已分析库拉索队特点;张玉宁或将担任场上队长

北青:国足团队已分析库拉索队特点;张玉宁或将担任场上队长

懂球帝
2026-03-26 15:59:40
燃气调价通知

燃气调价通知

孝感汇
2026-03-25 16:38:10
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

念洲
2026-03-26 13:14:49
58岁退休女人坦言:我找老伴,对方不用有房有钱,但有4个要求

58岁退休女人坦言:我找老伴,对方不用有房有钱,但有4个要求

烙任情感
2026-03-26 16:33:31
不能光让特朗普出风头,俄罗斯宣布重磅消息:和中国有大事要谈

不能光让特朗普出风头,俄罗斯宣布重磅消息:和中国有大事要谈

小兰聊历史
2026-03-26 16:25:10
杜子建哭着发声:当年的对抗只是节目效果,我们私下经常喝酒

杜子建哭着发声:当年的对抗只是节目效果,我们私下经常喝酒

一盅情怀
2026-03-26 16:11:04
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
招聘 | 上海市七宝中学招聘

招聘 | 上海市七宝中学招聘

上观新闻
2026-03-25 11:16:04
英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

老范谈史
2026-03-18 23:51:08
2026-03-26 17:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
家居
时尚
旅游
军事航空

转头就晕的耳石症,能开车上班吗?

家居要闻

傍海而居 静观蝴蝶海

皮衣+裙,高级到炸

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版