算力过去是、未来也将继续是人工智能的关键,更是中国人工智能的关键。
9月18日,华为全联接大会2025在上海正式拉开帷幕。历经十年积淀,华为全联接大会已成为洞察全球科技趋势的重要窗口。本届大会延续“连接同路人、共享技术突破、探索实践路径”的核心定位,而“计算”无疑成为贯穿全场的绝对主线。
在人工智能全面深化的2025年,一个核心矛盾正愈发凸显,全球AI大模型向AGI迈进的过程中,算力需求以指数级暴涨,但中国半导体制造工艺在短期内仍面临客观限制。
当业界普遍困惑“如何在现有工艺基础上满足持续增长的算力需求”时,华为副董事长、轮值董事长徐直军在开场演讲中即以“以开创的超节点互联技术,引领AI基础设施新范式”破题,用灵衢互联协议打破技术桎梏,发布全球最强算力超节点与集群,并亮出覆盖至2028年的昇腾芯片路标。
AI与华为的算力战略“新起点”
过去一年,AI行业被“DeepSeek现象”深刻重塑。这款大模型的横空出世,不仅让普通民众体验到AI的乐趣,更让全球大模型训练者陷入“不眠之夜”,调整训练方式、复现模型结果成为行业常态,也给华为带来了直接的技术冲击。
直到2025年4月30日,经过多团队协同作战,华为才终于让Ascend910B/910C的推理能力满足客户基本需求,这场“攻坚战”也让业界再次看清,AI的发展,始终绕不开“算力”二字。
在去年的华为全联接大会上,徐直军就曾抛出五个关键判断,如今这些判断已成为行业共识:其一,智能化的可持续,本质是算力的可持续;其二,中国半导体制造工艺将在相当长时间内处于落后状态;其三,可持续的算力必须基于实际可获得的芯片制造工艺;其四,AI主导的算力需求正推动计算系统发生结构性变化;其五,唯有开创计算架构,打造“超节点+集群”方案,才能持续满足算力需求。
2025年,当这些判断被现实反复验证,“算力”的战略意义愈发清晰。徐直军在本次大会上再次强调:“算力过去是、未来也将继续是人工智能的关键,更是中国人工智能的关键。”
可见,在工艺无法一蹴而就的情况下,与其纠结于单芯片性能的“单点突破”,不如转向“架构创新”,通过互联技术将分散的计算资源整合为“超级计算机”,这正是华为超节点战略的新起点。
全栈算力破局:从超节点到芯片路标
面对“如何用架构创新弥补工艺差距”的问题,华为在本次大会上交出了一份“全栈答卷”,从全球最强超节点、百万卡级集群,到覆盖三年的昇腾芯片规划,再到打破互联瓶颈的灵衢协议,每一项发布都直指“算力可持续”的核心目标。
在AI算力领域,传统服务器堆叠模式早已陷入“规模越大、效率越低”的困境,集群规模扩大后,算力利用率下降、训练中断频繁等问题凸显。而华为发布的超节点,它在物理上由多台机器组成,逻辑上却像一台机器一样学习、思考、推理,通过“资源池化、规模扩展、长稳可靠”的特性,实现有效算力随集群规模线性增长。
其中,Atlas950 Super PoD支持8192张昇腾卡,由128个计算柜、32个互联柜组成,占地面积约1000平方米。其FP8算力达8EFLOPS,FP4算力达16EFLOPS,互联带宽更是高达16PB/s——这一数值超过当前全球互联网峰值带宽的10倍。与英伟达计划2026年下半年上市的NVL144相比,Atlas950的卡规模是其56.8倍,总算力是其6.7倍,内存容量是其15倍,即使面对英伟达2027年计划推出的NVL576,仍保持全面领先。
Atlas960 Super PoD支持15488张昇腾卡,由176个计算柜、44个互联柜组成,占地面积约2200平方米。在Atlas950的基础上,其FP8总算力翻倍至30EFLOPS,FP4算力达60EFLOPS,内存容量达4460TB,互联带宽达34PB/s,大模型训练性能和推理性能分别较Atlas950提升3倍和4倍以上。
基于这两款超节点,华为还同步发布了全球最强超节点集群,Atlas950 Super Cluster与Atlas960 Super Cluster,为超大型AI任务提供“充裕且可持续”的算力支撑。
超节点的性能,离不开芯片的支撑。作为华为AI算力战略的核心,昇腾芯片的演进路线直接决定了算力解决方案的上限。本次大会上,华为首次亮出覆盖至2028年的昇腾芯片路标,以“几乎一年一代、算力翻倍”的节奏,展现出持续投入的决心。
其中,Ascend950系列包括面向Prefill和推荐场景的950PR,以及面向Decode和训练场景的950DT。前者采用自研低成本HBM(HiBL1.0),降低推理与推荐业务的投资成本;后者搭载HiZQ2.0HBM,内存容量达144GB,互联带宽提升至2TB/s,并支持FP8/HiF8等多种低精度格式,兼顾精度与效率;Ascend960各项规格较950翻倍,支持自研HiF4格式(业界最优4bit精度方案),进一步提升推理吞吐;Ascend970支持FP4/FP8算力、互联带宽较960翻倍,内存访问带宽至少提升1.5倍,全面升级训练与推理性能。
从2018年的Ascend310,到2019年的Ascend910,再到如今规划至2028年的970,昇腾芯片不仅在算力上持续突破,更在数据格式、编程易用性、互联带宽等维度持续优化,为超节点提供“硬核”支撑。
国产算力的“信心传递”
事实上,超节点的大规模部署,最大的挑战在于互联技术,如何实现“长距离高可靠”与“大带宽低时延”?华为基于三十多年的联接技术积累,开创了面向超节点的互联协议“灵衢(UnifiedBus)”。针对“长距离高可靠”问题,灵衢协议突破传统电互联与光互联的局限,实现多机柜长距离稳定联接;针对“大带宽低时延”问题,灵衢将跨柜卡间互联带宽提升5倍,时延降至2.1微秒以内,满足万卡超节点的设计需求。
大会现场,华为宣布全面开放灵衢2.0技术规范,从协议架构、硬件设计到操作系统组件全面开源。
这种开放背后,是以超节点架构重新定义计算生态的雄心,一方面,通过统一互联标准打破算力孤岛,使不同厂商设备可纳入同一超节点;另一方面,推动计算架构从“服务器堆叠”向“资源池化”演进,实现计算、存储、网络的全局调度。
由此看来,当我们回顾华为超节点战略的演进,会发现这并非一次“突发的技术爆发”,而是一场持续六年的“长期主义”实践,从2019年灵衢协议启动研发,到2025年Atlas900超节点商用落地,再到2028年昇腾970的规划,华为始终在“中国可获得的工艺”框架下,以“架构创新”破解算力难题。
面对半导体工艺的客观限制,华为没有陷入“单芯片性能焦虑”,而是转向“系统级创新”,通过灵衢协议将数万张计算卡联接成“一台超节点计算机”,用“群体力量”弥补“个体差距”。
对于中国AI产业而言,华为的超节点战略不仅是“一套算力解决方案”,更是“一种信心传递”,即使面临外部挑战,中国科技企业依然有能力、有决心构建自主可控的AI基础设施。从“算力可持续”到“产业可持续”,华为用六年坚守,为中国智算未来铺就了一条“自主创新、开放协同”的道路。
采写:党博文
编辑:晓燕
指导:辛文
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.