出品 | 网易科技《态度℃》
作者 | 秦朗
2025年9月18日,上海
当徐直军在台上接连公布昇腾、鲲鹏、超节点、集群、灵衢2.0这些关键词时,台下的媒体们已然是面面相觑:习惯了这几年来华为谨慎而有限的技术发布,此时齐刷刷被这密集的信息量和背后彰显的战略决心所震撼。
这一刻,华为六年的蛰伏,终于不再低调隐忍秀出了坚实的肌肉。但,这并不是一场胜利的庆典,而是一次“悲怆”的突围宣言,当徐直军终能畅所欲言、一吐心中块垒时,这场被迫换道后的全力超车也就拉开了序幕。
或许这一次,中国的AI算力之路,能够因此得到彻底地解决。
“超节点+集群”,让中国算力无忧
“算力,过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键。”徐直军以这样的开场拉开了2025华为全连接大会的序幕。
这戳中了当下国内对AI算力爆炸性增长的真实需求:当模型的参数规模从千亿向万亿甚至更高攀升时,无论是训练还是推理都需要消耗巨量的算力。但,在目前先进AI芯片获取受限的情况下,供给端被牢牢套上了“枷锁”,这是中国AI算力亟需解决的困境。
对于这种困境,徐直军承认“单颗芯片确实比英伟达有差距”,但他同时表示,“AI算力不等于芯片性能,单颗芯片性能的短板可以通过‘超节点和集群’方式解决,且实现性能更强。同时,国内的电力基础施优势也解决了算力用电问题。”
徐直军坚定地认为,“只有依靠超节点和集群,才会规避中国的芯片制造工艺受限,能够为中国的AI算力提供源源不断的算力支持和供给。”
他公布的华为超节点算力数据,确实让台下发出了惊呼声。
据其公布的Ascend 950DT的Atlas 950超节点信息显示:Atlas 950支持8192张基于Ascend 950DT的昇腾卡(每张卡对应一颗Ascend 950DT芯片),包括由128个计算柜、32个互联柜,柜间采用全光互联。
重点来了:Atlas 950超节点的FP8算力达到8E FLOPS、FP4算力达到16E FLOPS,而8E FLOPS的FP8算力是英伟达明年下半年上市的NVL144的6.7倍,是2027年上市的 NVL576的1.67倍。
徐直军显然对于Atlas 950超节点显然很自豪,将其称为“全球最强超节点”。
而这依然还远远不是华为的极限,徐直军还宣布将在2027年四季度推出基于Ascend 960的Atlas 960超节点,最大可支持15488卡;按照徐直军公布的Ascend 960的FP8算力达到2 PFLOPS计算,Atlas 960超节点的FP8算力或将达到30E FLOPS,是英伟达2027年下半年推出的NVL576的6.45倍。
由超节点组成的集群,数据更为惊人:华为将在2026年四季度推出Atlas 950 SuperCluster集群,由64个Atlas 950超节点互联组成,把1万多机柜中的52万多片昇腾950DT组成为一个整体,FP8总算力可达524E FLOPS;相比当前世界上最大的集群 xAI Colossus,规模是其2.5倍,算力是其1.3倍。
徐直军毫不掩饰对这一系统能力的信心,他表示:“通过Atlas 950和Atlas 960,我们对于为人工智能的长期快速发展提供可持续且充裕算力,充满信心。”
这样惊人的规模,确实足以让中国再无算力之忧!
系统级架构创新下的换道超车
为了能够做到以“超节点+集群”让中国AI算力无忧,在面对先进制程受限的挑战下,华为并未选择在单芯片性能上与英伟达正面竞争,而是凭借其在通信与系统架构领域数十年的积累,走出了一条迥别于英伟达的创新道路。
“超节点”概念最初在学术界提出时,是为了将多个计算节点通过高速互联整合,以构建单一系统映像(Single System Image, SSI),使分布式系统在逻辑上如同一台计算机般工作。
英伟达在2022年就发布了DGX SuperPOD概念,并不断推出NVL72等产品;预计2026年将推出基于Rubin的NVL144 ,预计FP4算力可以达到3.6E FLOPS,FP8训练算力则为1.2E FLOPs;预计到2027年,将推出基于Rubin的NVL 576,FP8训练算力4.8E FLOPS。
这与华为8192卡的Atlas 950和15488卡的Atlas 960形成巨大反差,背后实是华为在技术受限后依托自身优势走出的“换道超车”路线。
对于信奉摩尔定律的英伟达而言,一直坚信工艺迭代带来的性能提升,所以其研发重心在于如何追求更先进的制程、采用更先进的CoWoS封装、集成更大容量的HBM。体现在超节点上,英伟达是希望通过少数顶级芯片的极致互联来追求绝对的性能优势,形成强大的单体节点。
这种技术路径选择背后有着深刻的商业逻辑:英伟达凭借在GPU领域的绝对领先地位,其高端芯片的单片利润率极高,通过销售顶级计算单元可以获得最大化的商业回报。
所以这也在一定程度上限制了颠覆性创新的空间。这或许与两个因素相关:其一,英伟达在全光网络上的技术底蕴不足,NVL72中依然采用铜缆设计,存在电互联衰减等物理层面的限制;另外,这还可能与英伟达CUDA生态的巨大成功有关,其已经形成了强大的软件护城河,这也导致英伟达所有硬件演进都必须优先保证对CUDA的兼容性和开发者的习惯,而颠覆性的系统架构变革可能回带来生态风险,这是英伟达无法承受的。
反观华为,则是走出一条通过系统架构创新、用非尖端工艺的芯片组合出超越单一尖端芯片性能的超节点道路,这也正是任正非之前所谈到的“用非摩尔补摩尔,用数学补物理,用电力换算力”道路。
对于超节点,徐直军给出了一个清晰简单且异常契合的定义,“超节点事实上就是一台能学习、思考、推理的计算机,物理上由多台机器组成,但逻辑上以一台机器学习、思考、推理。”
这一定义清晰揭示了超节点的核心特征:物理分布、逻辑统一。而要将成千上万张昇腾卡整合为一台可协同工作的“逻辑计算机”,关键在于高效、可靠的联接技术。
联接技术,正是华为的强项。
据徐直军表示,“为了解决长距离且高可靠问题,我们在互联协议的物理层、数据链路层、网络层、传输层等每一层都引入了高可靠机制;同时在光路引入了百纳秒级故障检测和保护切换,当出现光模块闪断或故障时,让应用无感;并且,我们重新定义和设计了光器件、光模块和互联芯片。这些创新和设计让光互联的可靠性提升100倍,且互联距离超过200米,实现了电的可靠和光的距离。其次,为了解决大带宽且低时延问题,我们突破了多端口聚合与高密封装技术,以及平等架构和统一协议,实现了TB级的超大带宽,2.1微秒的超低时延。”
这些系统性、原创性的技术创新,让华为开创了超节点架构并开创了新型的互联协议,让万卡超节点成为了可能。徐直军宣布,新互联协议被命名为灵衢,意味着九省通衢、实现大规模算力的联通,英文名则是UnifiedBus,简称UB。徐直军强调,“基于这个互联协议的超节点架构的核心价值主张是:万卡超节点,一台计算机!”
徐直军还宣布,华为将开放灵衢2.0技术规范。,以便更广泛地促进互联技术发展和产业进步,“欢迎产业界伙伴基于灵衢研发相关产品和部件,共建灵衢开放生态。”
在倒逼之下,华为走出了以自主可控为核心,通过系统级架构创新来破解算力困境的独特发展路径。
生态破局:"谈恋爱"的开放
英伟达的成功,在于其CUDA生态的成功。
来看一个新闻:OpenAI刚宣布与英伟达达成合作,将采用英伟达硬件打造和部署至少10GW的AI数据中心,而英伟达承诺会随着每 GW 的部署逐步向 OpenAI 投资最高1000亿美元。
这新闻被解读为英伟达为维护自身CUDA生态、拉拢全球开发者所为,足见其对于生态的重视程度;同时,也能从另外一个层面看出算力基础的重要性。
面对与英伟达之间庞大的生态差距,华为选择了与英伟达截然不同的生态策略:英伟达通过CUDA生态锁定用户,构建软硬一体的闭环;华为则通过开源吸引开发者,最终促进昇腾硬件销售。
徐直军不仅宣布将开放灵衢2.0技术规范,还要持续推进MindSpore、CANN等软件栈的开源。
对于这一点,他的态度异常坚决,“华为不同于大模型公司,也不同于应用公司……变现靠昇腾硬件,其他的一切都可以开源开放,所以说这也是客户跟我们互动出来的结果。开源开放是促进硬件规模和硬件的普遍使用,大家都用了,我卖得多了,开源开放的钱就挣回来了。”
他进一步表示,“(华为)进步是在和客户不断的交互过程中实现的。我们宣布CANN全面开源开放,这个决策就是在很多客户的促进下形成的。没有客户的促进,我们的研发团队感觉还好得很,而且感觉什么都给客户做好了挺好的。(其实)有的客户甚至比我们的能力还强,只要你把芯片给我,把底层开放给我,我就能把芯片、算力的能力都给你挖掘出来。”
徐直军还强调,华为不会兼容CUDA生态,必须坚持搞CANN生态和MindSpore,这是出于长远考虑,“如果我们投如此多的钱兼容CUDA生态,而且还是CUDA过去的版本,哪天CUDA生态兼容不了了怎么办?”
生态是开发者关注的焦点问题,徐直军表示,“就像谈恋爱,不谈的话,你怎么知道对方的优缺点,合适不合适,你要谈一下,要用一下。在用的过程中有问题解决问题,A能用,为什么B不能用,就是你用不用的问题。”
他坦言,当前华为的生态和整个工具链肯定比英伟达有差距,但他坚信:“生态是用出来的,只要大家心往一处想,都来使用,国内生态一定会发展起来。”
“被逼出来的创新,被逼出来的伟大”
华为在AI算力上的创新之路,始于被迫,但终于引领。
从PD分离的芯片级创新,到超节点的系统级突破,再到开源开放的生态策略,华为在AI算力走上了“换道超车”之路;它不追求在每个单点技术上都与对手正面竞争,而是通过系统级创新和架构优化,实现整体性能的超越。
对于创新,徐直军一番话道出了背后的辛酸,“创新有时是被逼出来的,不是天生想做。我们应对制裁,用非摩尔补摩尔、用数学、补物理,不是什么伟大的事情。历史上海思靠芯片领先别人一代,现在芯片落后一代、两代,未来还不知道落后几代,只有另寻出路。另一条路就在这里,由于芯片工艺受限,逼着我们创新突破。”
不过,“把这条路闯出来,把中国产业链拉动起来,这条路就成了路。”徐直军说,“(这)算不上新范式,是被迫出来的范式,是被逼出来的伟大。谁想做别人做过的事情呢?肯定想去开创未来的事情。”
是的,AI仍将处于高速发展和颠覆性变革的“2G时代”,未来会如何变化无人能确定。
但至少,中国的AI算力征程,已然乍现曙光!