网易首页 > 网易号 > 正文 申请入驻

揭秘超节点,AI算力需要“统一的语言” | 对话华为灵衢

0
分享至



文|白 鸽

编|王一粟

AI大模型带动的热潮,也在持续地席卷算力行业。

从CPU到GPU,再到NPU,各种AI芯片逐渐成为了市场中的香饽饽。

中国AI芯片也趁此机会开始崛起。从华为、阿里、百度等大厂,到寒武纪、云天励飞、‌壁仞科技‌、摩尔线程等新兴企业,中国AI芯片的单颗能力在不断提升。

但是,哪怕单颗芯片能力再强,算力也不能够满足大模型的需求。

尤其是随着大模型参数的不断翻倍,很多企业可能都会遇见的问题,就是8张卡的服务器根本跑不动,勉强用多台机器拆分任务,结果CPU、AI芯片、存储之间“各说各话”,数据传着传着就“堵车”,算力损耗快到一半。



更要命的在于,不同厂商的设备像说不同方言的人:

A厂的CPU用一套协议,B厂的GPU用另一套,数据从CPU传到GPU,得先“翻译”,一来一回就浪费时间;甚至同一厂商的不同设备,规模扩大后性能也会“打折”,比如10个节点本应发挥10倍算力,实际可能只到1倍,这就是行业常说的“线性度”问题。

单个芯片算力不够用、不同设备沟通有障碍,成了整个行业的“卡脖子”难题。那么,要怎么解决这些问题,才能够支撑大模型的需求?

众所周知,当单独作战打不过之时,团队配合战斗则成为了赢取战争胜利的关键,而中国AI算力突破算力瓶颈的一个关键,就是开始走团队战斗路线。

此前,华为发布了“超节点”架构,配套的技术则是“灵衢”(UnifiedBus)。

简单理解两者的关系,当单颗芯片算力不够用,就需要将多种算力如CPU、GPU、NPU、存力等统一起来干活,超节点架构就是将多种算力部件整合为一个大节点,而互联协议则是让这些部件能顺畅沟通的规则,只有双方相互配合,才能够把整个算力系统的能力提升上去。

其中最核心的就是灵衢技术,其搞出了“算力普通话”,即一套能覆盖所有场景的统一协议,不管是超节点内部的CPU和GPU的沟通,还是超节点之间的集群互联,都不用换“语言”,这就像全国都讲普通话,不用到一个地方学一种方言,沟通效率自然高。

这套“普通话”还打破了两个关键界限:计算机网络,如平时上网的物理层、链路层,以及计算机内部架构,如内存管理、节点控制等。

过去,这俩像两个独立的房间,数据得“开门、进门、再开门”,而灵衢直接拆了两者之间的“墙”,底层用网络逻辑连设备,上层用架构逻辑管资源,数据传输的“路”一下子变通畅了。

同时,灵衢的超节点也不是“把部件堆一起就行”。华为专家强调,灵衢超节点是“超级单一节点”,不是“松散的部件集合”,就像把多间小房子改成一套大平层,所有家具(CPU、GPU、NPU、内存)都连在一条“统一的高速总线”上,不用再绕路,如交换机,过去只是“数据中转站”,现在在灵衢里成了“处理单元”,能直接参与算力协作。

基于这些突破,灵衢要实现四个目标,即让不同算力“组队干活”(提升计算性能)、系统出问题能快速恢复(高可用)、内存带宽等资源“集中共用不浪费”(资源池化)、不同厂商部件“插进去就能用”(组件货架化)。

这些目标的最终目的,都是为了让整个算力系统“更高效、更灵活、更省钱”。

而华为灵衢之所以能够实现“一套通吃”,原因在于,华为从一开始就盯着“整个算力系统”,不是只做单个产品,没有受制于老产品的束缚。

同时,华为灵衢于2019年正式立项,并把华为过去自研IT设备的经验、技术成果,还有搞集群的工程经验全部融入其中,同时还和鲲鹏、昇腾这些华为芯片一起反复测试。

基于这些实践经验,“现在灵衢1.0已经完成产品化,经过了芯片验证、集群交付验证,是工业化级别的可靠系统。”华为集群计算总经理朱照生说。


华为集群计算总经理朱照生

同时,在具体落地客户实践场景中,也会考虑客户原有设备,比如客户已有以太网,灵衢也能直接在上面跑,不用大改基础设施,还能和现有的应用互通。

而为了让更多的厂商参与进来,华为还开放了灵衢的“全套说明书”,即从物理层到事务层的协议规范全公开,甚至找了第三方做“协议验证仪”。

“不管是做CPU的、做GPU的,只要按规范做,就能用灵衢,未来还能通过第三方验证是不是符合标准。”朱照生说到,“说实话,灵衢发布后,已经有很多厂商找过来跟我们交流,这已经超出了我们最初的预期。”毕竟,在其预期中,可能只有2-3家头部厂商会找过来。

业内皆知,过去,不同厂商的协议不互通,客户只能“绑定一家”,选择少还贵。但现在灵衢开放了协议,不管是华为的竞争对手,还是中小厂商,都能基于灵衢做产品。

朱照生说:“我们希望先做企标,再慢慢形成团标、甚至国标,让大家一起把算力基础设施做好。”比如某厂商想做GPU,不用自己再搞一套协议,直接用灵衢,就能和华为的CPU、其他厂商的存储兼容,大大降低了研发成本。

据灵衢系统架构师介绍,在AI大模型训练场景,通过超节点互联降低通信占比,端到端性能收益达到20%+;通算数据库场景,通过三层池化支撑多写多读,TPCC提升20%。结论表明,灵衢技术特别适合高并行、高同步的负载特征场景,能为业务带来显著提升。

另外,当前行业关于超节点是否越大越好也存在着诸多争议。对此,朱照生的回答很坦诚:“现在没人能说清‘甜点区’在哪,因为AI的发展总是超出预期。我们能做的,就是把超节点的规模做大,给行业留足空间。”

因此,灵衢2.0作为核心技术底座,支撑华为发布两款超大规模算力产品,覆盖不同阶段需求:

Atlas 950 SuperCluster(2026年Q4上市):由64个Atlas 950超节点组成,FP8算力达524 EFLOPS,规模与算力超过当前全球最大集群xAI Colossus;

Atlas 960 SuperCluster(2027年Q4上市):百万卡级集群,FP8算力2 ZFLOPS、FP4算力4 ZFLOPS,支持UBoE(灵衢推荐模式)与RoCE协议,适配未来更大规模AI训练、推理需求;

越大的超节点集群,整体算力性能越突出,以Atlas 950 SuperPoD为例,其支持8192张昇腾卡,训练吞吐达4.91M TPS,推理吞吐达19.6MTPS,远超前代产品。

“如果我们不能够准确预判未来负载模型一旦收敛于某一类模型某一个大小,我们就没法在算力基础设施层面给它设个框,如果设定那个框,那个框一定会反过来制约模型发展。”朱照生说。

当前,我们不难发现:算力的竞争,早已不是“单芯片谁更强”,而是“系统谁更高效”。

灵衢的价值,就在于用一套“通用语言”,把分散的算力聚合成一股力量,它或许不会马上改变所有,但至少给行业指了一个方向:未来的计算,不该有“语言壁垒”,不该有“设备孤岛”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

沧海旅行家
2026-03-26 13:46:41
韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

体坛风之子
2026-03-26 07:00:06
泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

TVB的四小花
2026-03-26 12:18:20
日本自卫官持刀闯入中国大使馆,日本网络舆论呼吁政府立即道歉

日本自卫官持刀闯入中国大使馆,日本网络舆论呼吁政府立即道歉

徐静波静说日本
2026-03-25 08:10:07
成都宝妈近一年狂扫5套“老破小”!地铁口+软装实现以租养贷

成都宝妈近一年狂扫5套“老破小”!地铁口+软装实现以租养贷

封面新闻
2026-03-25 21:28:05
日本内阁官房长官就“强闯使馆”事件表态

日本内阁官房长官就“强闯使馆”事件表态

新浪财经
2026-03-25 18:48:42
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
第六险来了!一文读懂“长护险”

第六险来了!一文读懂“长护险”

极目新闻
2026-03-26 07:21:00
连场三双,约基奇成为NBA历史首位背靠背场均15+15+15的球员

连场三双,约基奇成为NBA历史首位背靠背场均15+15+15的球员

懂球帝
2026-03-26 14:02:09
出了一身臭汗,洗澡睡觉……

出了一身臭汗,洗澡睡觉……

乡野小珥
2026-03-26 12:26:29
科学家在月球背面,发现了2200万亿吨金属,它们究竟从何而来?

科学家在月球背面,发现了2200万亿吨金属,它们究竟从何而来?

观察宇宙
2026-03-25 20:24:45
“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

潇湘晨报
2026-03-26 11:49:57
美国最大的失误就是一上来就把宋江给干掉了

美国最大的失误就是一上来就把宋江给干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

懂球帝
2026-03-26 11:13:10
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

小月故事
2026-03-19 17:08:37
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
伊朗最新回应:已被特朗普欺骗了两次,不想再被愚弄!3架F-15战机坠毁,特朗普最新回应:小意外!伊朗致函联合国,“176国传阅”

伊朗最新回应:已被特朗普欺骗了两次,不想再被愚弄!3架F-15战机坠毁,特朗普最新回应:小意外!伊朗致函联合国,“176国传阅”

每日经济新闻
2026-03-25 16:15:05
CIA前局长称相比特朗普更相信伊朗方面的表述

CIA前局长称相比特朗普更相信伊朗方面的表述

极目新闻
2026-03-25 14:10:05
40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

近史博览
2026-03-26 09:52:59
2026-03-26 14:16:49
光锥智能 incentive-icons
光锥智能
来这里,看千行百业的数字化、智能化。
935文章数 139关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
本地
手机
公开课
军事航空

家居要闻

傍海而居 静观蝴蝶海

本地新闻

春日吃花第三站——广东

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版