网易首页 > 网易号 > 正文 申请入驻

徐直军详解华为最强“算力核弹”

0
分享至

(文/观察者网 吕栋 编辑/张广凯)

所有人都没有预料到,华为会突然亮出未来几年的“芯片底牌”。

9月18日上午,在华为全连接大会2025上,华为轮值董事长徐直军一口气公布了多颗芯片,包括用于AI计算的昇腾950系列、昇腾960系列和昇腾970系列,用于通用计算的鲲鹏950处理器和鲲鹏960处理器,以及由这些芯片组成的“全球最强超节点”和“全球最强算力集群”。

要知道,华为上一次公开发布昇腾和鲲鹏芯片,还是2019年。自那以来,在美国多轮制裁下,无论是麒麟,还是昇腾和鲲鹏均遭重击。即便大家都知道最近两年华为芯片已逐步回归,但依然比较神秘,包括麒麟、鲲鹏和昇腾这些芯片将来如何迭代的,外界都不得而知。

“下面我分别介绍快要推出的和已规划的4颗昇腾芯片”、“我们自研了两种HBM”“鲲鹏处理器主要围绕支持超节点,更多核、更高性能等方向持续演进”......因此当徐直军直入主题直接介绍华为“未来的芯片路标”时,在场众人无不感到吃惊,思绪也被拉回几年前。

图源:观察者网

选在这个时间点“秀肌肉”,华为除了要展示“打不死”的韧性,更想在AI时代给中国人工智能的发展托底,给国内产业伙伴吃下更多“定心丸”。“我很确定地告诉大家,昇腾芯片将持续演进,为中国乃至世界的AI算力构筑坚固根基。”徐直军在会上如是说道。

尽管DeepSeek开创的模式可以大幅减少算力成本,但徐直军认为,要走向通用人工智能、走向物理AI,算力将继续是人工智能的关键,更是中国人工智能的关键。

他在会上首先介绍了昇腾950系列芯片。与前一代比,昇腾950系列的进步有几个方面,包括支持FP8/MXFP8/MXFP4等低数值精度数据格式,算力可达到1P和2P,提升训练效率和推理吞吐,并特别支持华为自研的HiF8,在保持FP8的高效的同时,精度非常接近FP16。

不同的地方在于,华为结合推理不同阶段对算力、内存和访存带宽等不同需求,自研了两种低成本HBM(高带宽内存),不同的HBM与昇腾950裸芯片合封,分别构成昇腾950PR:面向Prefill和推荐场景,以及昇腾950DT:面向Decode和训练场景。两颗芯片都将在明年上市。

图源:观察者网

徐直军还公布了规划中的两颗AI芯片。

昇腾960性能规格将比昇腾950翻倍,支持华为自研的HiF4数据格式,能进一步提升推理吞吐,并且比业界FP4方案的推理精度更优,计划在2027年四季度推出;昇腾970的规格还在讨论中,相比昇腾960,昇腾970的FP4算力、FP8算力、互联带宽将全面翻倍,内存访问带宽至少增加1.5倍,计划在2028年四季度推出。

图源:观察者网

我们都知道,虽然国产AI芯片由于制造工艺问题,单卡算力处于落后状态,但AI对算力的庞大需求,让单芯片角色逐步弱化,集群算力成为大势所趋。因此今年3月,华为综合在光通信、网络、供电等多方面的技术,把384颗昇腾芯片通过高速互联总线连在一起,推出了全球最大的超节点,性能指标超过了英伟达NVL72系统,它的优势是让计算和通信高速并行,充分提升算力利用率,已部署超300套。

但华为并没有停下脚步,这次重磅宣布了未来的超节点规划。

首先,是计划2026年四季度上市的Atlas 950超节点,它基于8192颗昇腾950DT芯片打造,满配包括由128个计算柜、32个互联柜,共计160个机柜组成,占地面积1000平方米左右,柜间采用全光互联,总算力大幅度提升,其中FP8算力达到8E FLOPS,FP4算力达到16E FLOPS,互联带宽达到16PB/s,这个数字意味着,Atlas 950一个产品的总互联带宽,已经超过今天全球互联网峰值带宽的10倍。

“Atlas 950超节点,至少在未来多年都将保持是全球最强算力的超节点,并且在各项主要能力上都远超业界主要产品。其中,相比英伟达同样将在明年下半年上市的NVL144,Atlas 950超节点卡的规模是其56.8倍,总算力是其6.7倍,内存容量是其15倍,达到1152TB;互联带宽是其62倍,达到16.3PB/s。即使是与英伟达计划2027年上市的 NVL576相比,Atlas 950超节点在各方面依然是领先的。”徐直军说道。

图源:观察者网

这仍然不够。

面向更长远,华为计划在2027年四季度推出Atlas 960超节点,它基于15488颗昇腾960芯片组成,包括176个计算柜,44个互联柜,共220个机柜,占地面积约2200平方米,其总算力、内存容量、互联带宽在Atlas 950基础上再翻倍。其中,FP8总算力将达到30E FLOPS,而FP4总算力将达到60 EFLOPS;内存容量达到4460TB,互联带宽达到34PB/s。

不光是AI芯片迭代,华为还同时布局通用计算CPU。

徐直军透露,华为将在明年一季度推出鲲鹏950处理器,包括两个版本,分别是96核/192线程和192核/384线程,成为鲲鹏首颗实现机密计算的数据中心处理器。然后在2028年一季度,推出鲲鹏960处理器,高性能版本96核/192线程,高密版本不少于256核/512线程。

紧接着,他宣布了基于鲲鹏950的TaiShan 950超节点,是全球首个通用计算超节点,明年一季度上市,最大支持16节点,32个处理器,最大内存48TB,支持内存、SSD、DPU池化。

图源:观察者网

“当前大型机、小型机替换的核心挑战是数据库分布式改造,而基于TaiShan 950超节点打造的GaussDB多写架构,无需改造,但性能提升2.9倍,最终可平滑替代大型机、小型机上的传统数据库。TaiShan 950加上分布式GaussDB将成为各类大型机、小型机的终结者,彻底取代各种应用场景的大型机和小型机以及Oracle的Exadata数据库服务器。”徐直军表示。

看到超节点的系统性优势后,华为还计划推出TaiShan 950和Atlas 950混合超节点。这样一方面可以通过超大带宽、超低时延互联以及超大内存,构成超大共享内存池,支持PB级推荐系统嵌入表;另一方面,混合超节点的超大AI算力,能够支持超低时延推理和特征检索。

但是这样也会带来巨大的挑战。比如在长距离连接和可靠性方面,当前的电互联技术在高速时联接距离短,而光互联更容易出故障。同时,当前跨柜卡间互联带宽低,和超节点的需求差距达5倍;跨柜的卡间时延大,当前互联技术最好只能做到3微秒左右,和Atlas 950/960设计需求仍然有24%的差距,当时延已经低至2-3个微秒时,0.1微秒的提升挑战都很大。

图源:观察者网

徐直军透露,为了达成Atlas 950/960超节点对互联的技术要求,为了实现万卡超节点还能是一台计算机,华为开创了超节点架构并开创了新型的互联协议,能够支撑万卡级超节点架构。

在技术上,万卡级超节点架构具备6大特征,分别是总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性。这个面向超节点的新型互联协议,被命名为“灵衢”,意味着类似九省通衢,实现大规模算力的联通,英文名称:UB(UnifiedBus)。

徐直军表示,为了更广泛地促进互联技术发展和产业进步,华为决定开放灵衢2.0技术规范,欢迎产业界伙伴基于灵衢研发相关产品和部件,共建灵衢开放生态,“灵衢既为超节点而生,是面向超节点的互联协议,也是构建算力集群产品最优的互联技术。”

他随后宣布了两个大规模计算集群。

首先是Atlas 950 SuperCluster集群,由64个Atlas 950超节点互联组成,把1万多机柜中的52万多片昇腾950DT组成为一个整体,FP8总算力可达524 EFLOPS。相比当前世界上最大的集群 xAI Colossus,规模是其2.5倍,算力是其1.3倍,“是当之无愧的全世界最强算力集群”。与此同时,2027年四季度,华为还计划基于Atlas 960超节点,推出Atlas 960 SuperCluster,集群规模进一步提升到百万卡级,FP8总算力达到2 ZFLOPS,FP4总算力达到4 ZFLOPS。

图源:观察者网

但不可否认的是,AI算力的释放不仅考验硬件性能,也对配套软件和开发工具提出了更高要求。就像英伟达之所以实力强悍,不仅因为它的GPU性能强,也得益于CUDA生态成熟。

华为虽然有自己的昇腾芯片,但也需要CANN来发挥“CUDA”的角色。与CANN配套的是华为自研深度学习框架MindSpore,其作用类似于PyTorch,这些工具共同构成了华为原生的AI软硬件方案,以对标以英伟达为中心的PyTorch+CUDA方案。

坦白来讲,与发展了18年的CUDA生态相比,刚起步六七年的CANN,易用性和生态丰富度仍存在差距,并且任重道远。去年9月有外媒报道,为了让客户适应新生态,华为效仿英伟达最初推广CUDA的策略,向百度、科大讯飞和腾讯派遣了工程团队,帮助他们在CANN环境中重现和优化现有的基于CUDA的训练代码。

面对强大的CUDA生态,坚持开源构建生态或许是华为的最优选择。

徐直军在会上重申了华为的开源策略和路线:一、华为坚持昇腾硬件变现;二、CANN编译器和虚拟指令集接口开放,其它软件全开源,CANN基于Ascend 910B/C的开源开放将于2025年12月31日前完成,未来开源开放与产品上市同步;三、Mind系列应用使能套件及工具链全面开源,并于2025年12月31日前完成;四、openPangu基础大模型全面开源。

图源:观察者网

从徐直军的演讲不难看出,华为未来的计算产业战略是,硬件将基于现有芯片工艺迭代昇腾和鲲鹏,同时以系统补单点,用超节点补足单卡瓶颈;软件上,华为将坚持开放开源,通过开放灵衢2.0技术规范,构建CANN和MindSpore等开源生态,解决美国的算力卡脖子问题。

以下是徐直军演讲全文:

女士们、先生们,各位老朋友、新朋友,大家上午好!

欢迎来参加2025年华为全联接大会,时隔一年,很高兴再次与大家相聚在上海。我想大家都能感受到,过去的一年对所有AI从业者、关注者来讲是记忆深刻的一年,DeepSeek横空出世,让全国人民过了一个快乐的AI年,也让所有大模型训练者开启了不知多少个不眠之夜,调整训练方式,复现DeepSeek结果,当然也给我们带来了巨大冲击。从春节开始,到今年4月30日,经过多团队的协同作战,终于使Ascend 910B/910C的推理能力达成了客户的基本需求。

在进入今天的具体分享之前,请允许我回顾一下去年的HC,我讲到了如下几点:

第一、智能化的可持续,首先是算力的可持续;

第二、中国半导体制造工艺将在相当长时间处于落后状态;

第三、可持续的算力只能基于实际可获得的芯片制造工艺;

第四、人工智能成为主导性算力需求,促使计算系统正在发生结构性变化;

第五、开创计算架构,打造“超节点+集群”算力解决方案持续满足算力需求。

但第五点没有展开讲,本来想讲,但我的团队不同意。今天,我想利用此机会,来把我去年HC没有完成的任务完成,也算是答卷。我今天分享的主题是:“以开创的超节点互联技术,引领AI基础设施新范式”,也是回答去年HC提到的第五点:如何开创计算架构,打造 “超节点+集群”算力解决方案来持续满足算力需求。

在展开今天主题前,回到DeepSeek对产业界、对华为的冲击,DeepSeek开源后,我们的客户对华为的昇腾发展指出了很多问题,也充满了期待,并一直在给我们不断地提建议。为此,经过内部的充分讨论并达成共识,我们于2025年8月5日在北京专门举办了昇腾产业峰会,我代表华为给出了回应,在座的有的参加了,有的可能没有参加。今天,我也利用此机会就主要的决定给大家汇报一下。主要有四点:

一、华为坚持昇腾硬件变现;

二、CANN编译器和虚拟指令集接口开放,其它软件全开源,CANN基于Ascend 910B/C的开源开放将于2025年12月31日前完成,未来开源开放与产品上市同步;

三、Mind系列应用使能套件及工具链全面开源,并于2025年12月31日前完成;

四、openPangu基础大模型全面开源。

接下来回到今天的主题。

尽管DeepSeek开创的模式可以大幅减少算力需求,但要走向AGI、要走向物理AI,我们认为,算力,过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键。

算力的基础是芯片,昇腾芯片是华为AI算力战略的基础。自2018年发布Ascend 310芯片,2019年发布Ascend 910芯片,到2025年,Ascend 910C芯片随着Atlas 900超节点规模部署,为大家所熟悉。在过去几年,客户和伙伴们对昇腾芯片有很多诉求,对昇腾芯片也有很多期待。面向未来,华为的芯片路标是如何规划的?想必是大家普遍关心的话题,可能也是最关心的内容。

因此,今天,我就直入主题来介绍昇腾芯片及其路标。我很确定地告诉大家,昇腾芯片将持续演进,为中国乃至世界的AI算力构筑坚固根基。

未来3年,至2028年,我们在开发和规划了三个系列,分别是Ascend 950系列,包括两颗芯片:Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具体芯片还在规划中。下面我分别介绍快要推出的和已规划的4颗昇腾芯片。

我们正在开发、且即将推出的芯片叫Ascend 950系列。我首先介绍一下Ascend 950系列的芯片架构,Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die。与前一代昇腾芯片相比,Ascend 950 在以下几个方面实现了根本性提升。

第一,新增支持业界标准FP8/MXFP8/MXFP4等低数值精度数据格式,算力分别达到1P和2P,提升训练效率和推理吞吐。并特别支持华为自研的HiF8,在保持FP8的高效的同时,精度非常接近FP16。

第二,大幅度提升了向量算力。这主要通过三个方面实现:其一,提升向量算力占比;其二,采用创新的新同构设计,即支持 SIMD/SIMT 双编程模型,SIMD能够像流水线一样处理“大块”向量,而SIMT便于灵活处理“碎片化”数据;其三,把内存访问颗粒度从512字节减少到128字节,内存访问更精细,从而更好地支持了离散且不连续的内存访问。

第三,互联带宽相比Ascend 910C提升了2.5倍,达到2TB/s。

第四,结合推理不同阶段对于算力、内存、访存带宽及推荐、训练的需求不同,我们自研了两种HBM,分别是:HiBL 1.0和HiZQ 2.0。不同的自研HBM与Ascend 950 Die合封,分别构成芯片Ascend 950PR:面向Prefill和推荐场景,以及Ascend 950DT:面向Decode和训练场景。下面分别介绍。

首先是我们的第一颗芯片,Ascend 950PR,主要面向推理Prefill阶段和推荐业务场景。首先,我们发现,随着Agent的快速发展,输入上下文越来越长,首Token输出阶段占用计算资源越来越多。其次是在电子商务、内容平台、社交媒体等业务应用中,要求推荐算法具有更高的准确度和更低的时延,对计算能力的需求也越来越大。推理Prefill阶段和推荐算法都是计算密集型,对计算并行的能力要求高,但对内存访问带宽的需求相对低。通过分级内存解决方案,推理Prefill阶段和推荐算法对本地内存容量的需求相对也不高。Ascend 950PR 采用了华为自研的低成本HBM,HiBL 1.0,相比高性能、高价格的HBM3e/4e,能够大大降低推理Prefill阶段和推荐业务的投资。

这颗芯片将在2026年一季度推出,首先支持的产品形态是标卡和超节点服务器。

接下来这一颗是Ascend 950DT,相比Ascend 950PR,它更注重推理Decode阶段和训练场景。由于推理Decode阶段和训练对互联带宽和访存带宽要求高,我们开发了HiZQ 2.0,使内存容量达到144GB,内存访问带宽达到4TB/s。同时把互联带宽提升到了2TB/s。其次,支持了FP8/MXFP8/MXFP4/HiF8数据格式。

Ascend 950DT 将在2026年Q4推出。

第三颗是在规划中的芯片Ascend 960。它在算力、内存访问带宽、内存容量、互联端口数等各种规格上相比Ascend 950翻倍,大幅度提升训练、推理等场景的性能;同时还支持华为自研的HiF4数据格式。它是目前业界最优的4bit精度实现,能进一步提升推理吞吐,并且比业界FP4方案的推理精度更优。

Ascend 960将在2027年四季度推出。

最后一颗是在规划中的Ascend 970,这颗芯片的一些规格还在讨论中。总体方向是,在各项指标上大幅度升级,全面升级训练和推理性能。目前的初步考虑是,相比Ascend 960,Ascend 970的FP4算力、FP8算力、互联带宽要全面翻倍,内存访问带宽至少增加1.5倍。Ascend 970计划在2028年四季度推出。大家届时可以期待它的惊人表现。

这是刚才介绍的昇腾芯片的主要具体规格和路标,总体上,我们将以几乎一年一代算力翻倍的速度,同时围绕更易用,更多数据格式、更高带宽等方向持续演进,持续满足AI算力不断增长的需求。可以看到,相比Ascend 910B/910C,从Ascend 950开始的主要变化包括:

引入SIMD/SIMT新同构,提升编程易用性;

支持更加丰富的数据格式,包括FP32 /HF32 /FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等;

支持更大的互联带宽,其中950系列为2TB/s,970系列提升到4TB/s;

支持更大的算力,FP8算力从950系列的1 PFLOPS提升到960的2 PFLOPS、970的4 PFLOPS;FP4算力从950的2 PFLOPS提升到960的4 PFLOPS、970的8 PFLOPS;

内存容量逐渐加倍,而内存访问带宽将翻两番。

有了昇腾芯片为基础,我们就能够打造满足客户需求的算力解决方案。从大型AI算力基础设施建设的技术方向看,超节点已经成为主导性产品形态,并正在成为AI基础设施建设的新常态。超节点事实上就是一台能学习、思考、推理的计算机,物理上由多台机器组成,但逻辑上以一台机器学习、思考、推理。随着算力需求的持续增长,超节点的规模也在持续、快速增大。

今年3月份,华为正式推出了Atlas 900超节点,满配支持384卡。因为是超节点,这384颗Ascend 910C芯片,能够像一台计算机一样工作,最大算力可达300 PFLOPS。到目前为止,Atlas 900依然是全球算力最大的超节点。大家经常听到的CloudMatrix384超节点,是华为云基于Atlas 900超节点构建的云服务实例。Atlas 900超节点自上市以来,已经累计部署超过300套,服务20多个客户,涵盖互联网、电信、制造等多个行业。可以说,Atlas 900于2025年,开启了华为AI超节点的征程。

今天,结合我们已经推出或正在研发中的昇腾芯片,我将为大家带来更多超节点和集群产品。现在进入今天最激动人心的时刻,就是新产品发布环节。

今天我要发布的第一款产品,Atlas 950超节点,基于Ascend 950DT打造。

Atlas 950超节点支持8192张基于Ascend 950DT的昇腾卡,是Atlas 900超节点的20多倍,我们习惯称呼的昇腾卡,每张卡对应一颗Ascend 950DT芯片,8192张昇腾卡等同于8192颗Ascend 950DT芯片。

Atlas 950超节点满配包括由128个计算柜、32个互联柜,共计160个机柜组成,占地面积1000平方米左右,柜间采用全光互联。总算力大幅度提升,其中,FP8算力达到8E FLOPS,FP4算力达到16E FLOPS。互联带宽达到16PB/s,这个数字意味着,Atlas 950一个产品的总互联带宽,已经超过今天全球互联网峰值带宽的10倍有余。

Atlas 950超节点的上市时间是:2026年四季度。

我们很自豪的看到,Atlas 950超节点,至少在未来多年都将保持是全球最强算力的超节点,并且在各项主要能力上都远超业界主要产品。其中,相比英伟达同样将在明年下半年上市的NVL144,Atlas 950超节点卡的规模是其56.8倍,总算力是其6.7倍,内存容量是其15倍,达到1152TB;互联带宽是其62倍,达到16.3PB/s。即使是与英伟达计划2027年上市的 NVL576相比,Atlas 950超节点在各方面依然是领先的。

算力、内存容量、内存访问速度、互联带宽等能力的大幅度增强,为大模型训练性能和推理吞吐带来显著提升。相比华为已经推出的Atlas 900超节点,Atlas 950超节点的训练性能提升17倍,达到4.91M TPS。通过支持FP4数据格式,Atlas 950超节点的推理性能提升达26.5倍,达到19.6M TPS。

8192卡超节点并不是我们的终点,我们还在继续努力。我今天发布的第二款超节点产品,Atlas 960超节点。基于Ascend 960,Atlas 960超节点最大可支持15488卡。Atlas 960超节点 由176个计算柜,44个互联柜,共220个机柜,占地面积约2200平方米。

Atlas 960超节点的上市时间是:2027年四季度。

伴随卡的规模的再次升级,Atlas 960超节点让我们在AI超节点的优势再度增强。基于Ascend 960,其总算力、内存容量、互联带宽在Atlas 950基础上再翻倍。其中,FP8总算力将达到30E FLOPS,而FP4总算力将达到60 EFLOPS;内存容量达到4460TB,互联带宽达到34PB/s。大模型训练和推理的性能相比Atlas 950超节点,将分别提升3倍和4倍以上,达到15.9M TPS 和80.5M TPS。通过Atlas 950和Atlas 960,我们对于为人工智能的长期快速发展提供可持续且充裕算力,充满信心。

超节点已经重新定义AI基础设施的范式,但不仅仅局限于AI。在通用计算领域,我们同样认为,超节点技术能够带来很大的价值。从需求角度考虑,金融核心业务等目前仍然有部分承载在大型机和小型机之上,相比普通服务器集群,它们对服务器的性能和可靠性有更高的诉求,通用计算超节点在这两点上正好切合需求。从技术角度考虑,超节点同样可以为通算领域注入全新活力。

因此,鲲鹏处理器主要围绕支持超节点,更多核、更高性能等方向持续演进。同时,通过自研的双线程灵犀核,使鲲鹏处理器能方便支持更多线程。

2026年Q1,我们将推出Kunpeng 950处理器,包括两个版本,分别是:96核/192线程和192核/384线程;支持通用计算超节点;安全方面新增四层隔离,成为鲲鹏首颗实现机密计算的数据中心处理器。

2028年Q1,鲲鹏处理器将在芯片微架构、先进封装技术等领域持续突破关键技术,将再次推出两个版本,分别是高性能版本,96核/192线程,单核性能提升50%+,主要面向AI host、数据库等场景。以及高密版本,不少于256核/512线程,主要面向虚拟化、容器、大数据、数仓等场景。

接下来是今天我发布的第三款产品:TaiShan 950超节点,基于Kunpeng 950打造,全球首个通用计算超节点,其最大支持16节点,32个处理器,最大内存48TB,同时支持内存、SSD、DPU池化。

这款产品不只是通用计算领域的一次技术升级,除了大幅提升通用计算场景下的业务性能,还能帮助金融系统破解核心难题。当前大型机、小型机替换的核心挑战是数据库分布式改造,而基于TaiShan 950超节点打造的 GaussDB多写架构,无需改造,但性能提升2.9 倍,最终可平滑替代大型机、小型机上的传统数据库。TaiShan 950加上分布式GaussDB将成为各类大型机、小型机的终结者,彻底取代各种应用场景的大型机和小型机以及Oracle的Exadata数据库服务器。

除了核心数据库场景,TaiShan 950超节点在更广泛的场景里,表现也很亮眼:比如虚拟化环境的内存利用率提升20%,在Spark大数据场景,实时数据处理时间缩短30%。

TaiShan 950超节点上市时间是:2026年一季度,敬请期待。

超节点的价值,不仅仅体现在智算和通算传统业务领域。互联网产业广泛应用的推荐系统,正在从传统推荐算法向生成式推荐系统演进。我们可以基于TaiShan 950和Atlas 950打造成混合超节点,为下一代生成式推荐系统打开全新架构方向。

一方面,通过超大带宽、超低时延互联以及超大内存,混合超节点构成超大共享内存池,支持PB级推荐系统嵌入表,从而支撑超高维度用户特征;另一方面,混合超节点的超大AI算力,能够支持超低时延推理和特征检索。因此,混合超节点是面向下一代生成式推荐系统的解决方案的全新选择。

大规模超节点把智算和通算的能力都推向新的高度,同时也对互联技术提出了重大挑战。华为作为联接领域的领导者,当然不惧挑战。在定义和设计Atlas 950、Atlas 960两个超节点的技术规格时,我们遭遇到了互联技术的巨大挑战,主要在两个方面:

第一是如何做到长距离而且高可靠。大规模超节点机柜多,柜间联接距离长,当前电互联和光互联技术都不能满足需求。其中,当前的电互联技术在高速时联接距离短,最多只能支持两柜互联,而当前的光互联技术虽然可以把长距离的多机柜联接在一起,但无法满足可靠性需求。

第二是如何做到大带宽而且低时延。当前跨柜卡间互联带宽低,和超节点的需求差距达5倍;跨柜的卡间时延大,当前互联技术最好只能做到3微秒左右,和Atlas 950/960设计需求仍然有24%的差距,当时延已经低至2~3个微秒时,已经逼近物理极限,哪怕0.1微秒的提升,挑战都很大。

华为基于三十多年构筑的技术能力,通过系统性创新,彻底解决了当前技术存在的问题,超标达成Atlas 950/960超节点的设计需求,使万卡超节点成为可能。

首先,为了解决长距离且高可靠问题,我们在互联协议的物理层、数据链路层、网络层、传输层等每一层都引入了高可靠机制;同时在光路引入了百纳秒级故障检测和保护切换,当出现光模块闪断或故障时,让应用无感;并且,我们重新定义和设计了光器件、光模块和互联芯片。这些创新和设计让光互联的可靠性提升100倍,且互联距离超过200米,实现了电的可靠和光的距离。

其次,为了解决大带宽且低时延问题,我们突破了多端口聚合与高密封装技术,以及平等架构和统一协议,实现了TB级的超大带宽,2.1微秒的超低时延。正是因为一系列系统性、原创性的技术创新,我们才攻克了超节点互联技术,满足了高可靠、全光互联、高带宽、低时延的互联要求,让大规模超节点成为了可能。

为了达成Atlas 950/960超节点对互联的技术要求,为了实现万卡超节点还能是一台计算机,华为开创了超节点架构并开创了新型的互联协议,能够支撑万卡级超节点架构。基于这个互联协议的超节点架构的核心价值主张是:万卡超节点,一台计算机,也就是说,通过该互联协议,把数万规模的计算卡,联接成一个超节点,能够像一台计算机一样工作、学习、思考、推理。

在技术上,我们总结认为,万卡级超节点架构应该具备6大特征,分别是总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性。我们为这个面向超节点的新型互联协议取名“灵衢”,英文名称:UB,UnifiedBus

今天,我们正式发布灵衢、UnifiedBus,一个面向超节点的互联协议。

同时,我宣布,华为将开放灵衢2.0技术规范。为什么从灵衢2.0开始开放?事实上,灵衢的研究是从2019年开始的,因为众所周知的原因,先进工艺不可获得,我们需要从多芯片上突破,希望把更多的计算资源联接在一起。我们取了一个名字叫UnifiedBus,简称UB,中文名字“灵衢”,意味着类似九省通衢,实现大规模算力的联通。基于灵衢 1.0 的Atlas 900超节点自2025年3月开始交付,至今已商用部署300多套,灵衢1.0技术得到充分验证。在灵衢1.0的基础上,我们继续丰富功能,优化性能,提升规模,进一步完善了协议,形成了灵衢2.0,前面发布的Atlas 950超节点就是基于灵衢2.0。

我们认为灵衢2.0具备了开放的条件,为了更广泛地促进互联技术发展和产业进步,今天华为决定开放灵衢2.0技术规范,欢迎产业界伙伴基于灵衢研发相关产品和部件,共建灵衢开放生态。

我在去年HC会上强调过,基于中国可获得的芯片制造工艺,我们努力打造“超节点+集群”算力解决方案,来持续满足算力需求。今天已经介绍了三个超节点产品。灵衢既为超节点而生,是面向超节点的互联协议,也是构建算力集群产品最优的互联技术。

接下来为大家带来两个集群产品:首先是,Atlas 950 SuperCluster 50万卡集群!

Atlas 950 SuperCluster集群由64个Atlas 950超节点互联组成,把1万多机柜中的52万多片昇腾950DT组成为一个整体,FP8总算力可达524 EFLOPS。上市时间与Atlas 950超节点同步,即2026年Q4。

在集群组网上,我们同时支持UBoE与RoCE两种协议,UBoE是把UB协议承载在以太网上,让客户能够利用现有以太交换机。相比传统RoCE,UBoE组网的静态时延更低、可靠性更高,交换机和光模块数量都更节省,所以,我们推荐UBoE。

这就是我们的Atlas 950 SuperCluster集群。相比当前世界上最大的集群 xAI Colossus,规模是其2.5倍,算力是其1.3倍,是当之无愧的全世界最强算力集群!无论是当下主流的千亿稠密、稀疏大模型训练任务,还是未来的万亿、十万亿大模型训练,超节点集群都可以成为性能强悍的算力底座,高效稳定地支持人工智能持续创新。

相应的,在2027年Q4,我们还将基于Atlas 960超节点,同步推出Atlas 960 SuperCluster,集群规模进一步提升到百万卡级,FP8总算力达到2 ZFLOPS!FP4总算力达到4 ZFLOPS。并且,它同样也支持UBoE与RoCE两种协议,在UBoE协议加持下,性能与可靠性同样更优,并且,静态时延和网络无故障时间优势进一步扩大,因此继续推荐UBoE组网。通过Atlas 960 SuperCluster,我们将持续加速客户应用创新,探索智能水平新高。

很高兴今天给大家带来一系列新产品,我们希望和产业界一起,以开创的灵衢超节点互联技术,引领AI基础设施新范式;以基于灵衢的超节点和集群持续满足算力快速增长的需求,推动人工智能持续发展,创造更大的价值,谢谢!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看浙江宣传谈“基本盘”的重要性

看浙江宣传谈“基本盘”的重要性

林中木白
2026-05-13 13:33:25
一季度失业保险基金支出536.6亿元,同比增长15.4%

一季度失业保险基金支出536.6亿元,同比增长15.4%

爆角追踪
2026-05-13 10:25:49
美国总统访华,路费食宿谁掏钱?

美国总统访华,路费食宿谁掏钱?

黄娜老师
2026-05-13 20:31:40
NBA球队老板手撕华裔女猎手:100亿的仙人跳 搞砸了

NBA球队老板手撕华裔女猎手:100亿的仙人跳 搞砸了

慕容律师
2026-05-13 14:15:09
特朗普专机落地!抵达北京开启访华行程

特朗普专机落地!抵达北京开启访华行程

看看新闻Knews
2026-05-13 20:44:02
8年前击败北大硕士,拿下诗词大会冠军的外卖大叔,如今过得怎样

8年前击败北大硕士,拿下诗词大会冠军的外卖大叔,如今过得怎样

从零到一研究所
2026-05-09 16:17:39
深度|中东战火烧痛印度,六天访五国,紧急加上阿联酋,莫迪要外交“救国”?

深度|中东战火烧痛印度,六天访五国,紧急加上阿联酋,莫迪要外交“救国”?

上观新闻
2026-05-13 21:18:21
“莫奈紫”变“摸奶子”,OPPO呼吸都是错的

“莫奈紫”变“摸奶子”,OPPO呼吸都是错的

梳子姐
2026-05-13 19:46:10
为什么去过朝鲜回来就沉默的人,不是隐瞒,是真的说不出

为什么去过朝鲜回来就沉默的人,不是隐瞒,是真的说不出

老特有话说
2026-05-12 15:41:08
豪门狂欢夜:国米2-0加冕双冠 巴黎法甲五连冠 曼城3-0施压阿森纳

豪门狂欢夜:国米2-0加冕双冠 巴黎法甲五连冠 曼城3-0施压阿森纳

狍子歪解体坛
2026-05-14 05:17:47
“摸奶子”惹争议!OPPO的流量反噬来了?莫奈:我背锅?!

“摸奶子”惹争议!OPPO的流量反噬来了?莫奈:我背锅?!

品牌新
2026-05-13 17:03:19
网传华工男生在教室偷拍女生?校方:情况属实,依规给予处分

网传华工男生在教室偷拍女生?校方:情况属实,依规给予处分

南方都市报
2026-05-13 17:36:31
“降噪耳机受害者出现”,冲上热搜

“降噪耳机受害者出现”,冲上热搜

观察者网
2026-05-13 09:31:15
最后时刻,黄仁勋挤上飞向北京的“空军一号”

最后时刻,黄仁勋挤上飞向北京的“空军一号”

中国新闻周刊
2026-05-13 20:56:03
重磅!皇马与穆帅敲定3年执教合同!只待本菲卡赛季结束后,官宣

重磅!皇马与穆帅敲定3年执教合同!只待本菲卡赛季结束后,官宣

福酱的小时光
2026-05-14 06:27:54
陈丽华去世1个月,73岁迟重瑞现状曝光,他果然不是“软柿子”

陈丽华去世1个月,73岁迟重瑞现状曝光,他果然不是“软柿子”

揽星河的笔记
2026-05-13 17:03:14
女子吃霸王餐给差评:正脸曝光,自认为没错,要上媒体跟老板对质

女子吃霸王餐给差评:正脸曝光,自认为没错,要上媒体跟老板对质

阅微札记
2026-05-13 14:31:03
关心:黄仁勋为什么能“压哨登机”

关心:黄仁勋为什么能“压哨登机”

观察者网
2026-05-13 16:22:20
山东首富换人,28亿变1万亿,75岁老人干出全球光模块龙头

山东首富换人,28亿变1万亿,75岁老人干出全球光模块龙头

毒sir财经
2026-05-13 21:35:57
民营:不能永远带着原罪的镣铐前行

民营:不能永远带着原罪的镣铐前行

生命可以承受之轻
2026-05-12 08:50:45
2026-05-14 08:07:00
观察者网 incentive-icons
观察者网
全球视野,中国关怀
141031文章数 1850569关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

中东战火烧痛印度 莫迪六天访五国要外交“救国”

头条要闻

中东战火烧痛印度 莫迪六天访五国要外交“救国”

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

旅游
手机
本地
时尚
公开课

旅游要闻

泰国拟缩短93国游客免签停留期限,从60天减少至30天

手机要闻

iQOO 15T和小米17 Max均已官宣:配置规格都有点不讲武德!

本地新闻

用苏绣的方式,打开江西婺源

专栏 | 进入心流后,不被洪流裹挟

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版