华为嗷嗷领先，AI算力“一超多强”明朗，英伟达好日子到头？|内存|hbm|知名企业

华为嗷嗷领先，AI算力“一超多强”明朗，英伟达好日子到头？

2025-09-19 09:52:26　来源: 芯事情报局

北京举报

分享至

如果华为9月18号官宣的都能实现，英伟达清库存、中国定制、反垄断调查都不再重要，可以踏实放弃中国市场了。

TT可以坦然“让给你”，因为半导体我们“胜利在望”。

9月18日的华为全连接大会上，昇腾公布未来三年产品路线图，明确2026至2028年将推出包括950PR、950DT、960、970在内的多款高性能芯片。

架构、算力、内存、集群互联跨越式发展，在经历盘古昇腾事件后，华为少见地高调公布AI战略进展。

结合T1级的寒武纪、昆仑芯、平头哥、摩尔线程今年爆单，沐曦、壁仞、天数等公司有望上市，国产AI算力一超多强”局面逐渐明朗。

芯片全面进化：算力狂飙，自研HBM，架构大换血！

1）新架构让CUDA不再是护城河

昇腾950将实现1PFlops FP8算力或2 PFlops FP4算力，若按英伟达稀疏算力标称法，昇腾950算力还将再次翻倍，高达4 PFlops。相较于此前昇腾910C单Die最高0.8PB Int8的算力，其算力密度只能说是稳步提升。

此外，将于2027年Q1上市的昇腾960将实现2PFlops FP8算力，行业推测昇腾960可能采用双Die合封设计，类似当下的昇腾910C或英伟达B200/300。而昇腾970将再次翻倍，达到4 PFlops。

更重要的是架构升级，昇腾NPU从SIMD升级至SIMT/SIMD架构。与此前芯事情报局报道的《盘古昇腾事件后续来了，华为转向GPU硬刚英伟达？》基本一致。

SIMT/SIMD架构的好处在于：

一是算子开发变得更加高效，相较于以往为昇腾910系列自行开发算子的方式，大幅优化，甚至可以以很简单的方式匹配CUDA算子。

二是支持的加速格式也更为丰富，从原先最低支持Int8，扩展至FP8、FP4等多种精度，其中FP4有望成为未来推理任务的主流配置。以OpenAI开源大模型GPT OSS来看，该模型使用4bit量化和FP4推理。

此外，新一代芯片在访存效率和互联带宽方面也实现进一步提升。

互联带宽从昇腾910C的784 GB/s提升至2TB/s，是原来的接近3倍；实现更精细的内存访问粒度（支持512B、128B）；提高向量处理单元的计算资源分配。

2）国产HBM横空出世，内存墙彻底推倒

该方案大概率采用定制Base Die与DRAM TSV封装相结合的方式，也不排除华为完全自研Base Die及封装技术的可能性。HBM本质上是由多层DRAM堆叠于Logic芯片之上构成，如仅追求高速内存性能，也可放宽条件，不严格依赖HBM。类似替代方案还包括可用于移动端的CUBE封装等更灵活的结构。

HBM方面，昇腾950PR采用128GB 1.6TB/s的HBM，950DT则采用144GB 4TB/s的HBM二代。在昇腾960和970上，内存速度还将提升到9.6TB/s和14.4 TB/s。

3）一芯两用！昇腾950为大模型量身定制

PR版本采用950 Die搭配HiBL1.0（内部代号“白鹭”），而DT版本则为950 Die与HiZQ（内部代号“朱雀”）的组合。

两者在内存带宽方面存在差异，DT具备更大带宽，PR则相对较小。

这一区别推测与大模型推理的不同阶段需求相关：Prefill阶段侧重于算力，影响“出首字”速度，而Decode阶段更依赖内存带宽，影响“蹦字”效率。芯片架构的这一变化，是否预示着“PD分离”的设计趋势，值得进一步观察。

4）鲲鹏CPU同步进化，192核“灵犀”打通算力瓶颈

2026年Q4量产鲲鹏950，核心架构从“泰山”升级为“灵犀”，核数大幅提至192核/384线程；2028年Q1推出鲲鹏960，更分高性能版（单核性能+50%+）和高密度版（256核/512线程），全面覆盖AI Host、数据库、云原生等场景。

集群全球最强！SuperPoD性能碾压英伟达现役及在研系统！

1）重新定义“Super”，8192卡单节点只是起步，算力单位直接用“E”

搭载昇腾950芯片的新一代大规模集群SuperPoD正式对外公布，预计将显著提升高性能计算能力。

SuperPoD将于2026年第一季度开始交付，该可以以8192张卡为节点，形成超大规模算力池。这一算力水平远超当前英伟达主流方案，甚至超越其规划中的NVL72/NVL576系统，被业内称为“全球最强AI单节点”。

Atlas 950 SuperPoD（基于Ascend 950）：

•集成 8,192颗NPU

•FP8算力高达 8 EFLOPS（每秒800亿亿次）

•内存容量 1,152 TB

•内存带宽 16.3 PB/s

•训练吞吐量 4.91 million TPS

•推理吞吐量 19.6 million TPS

Atlas 960 SuperPoD（基于Ascend 950DT / 960）：

•规模扩展至 15,488卡（NPU）

•FP8算力达 30 EFLOPS，FP4下更可达 60 EFLOPS

•互联带宽高达 34 PB/s，采用跨柜全光互联架构

据估算，在FP16精度下，一个8192卡集群可提供4EFlops算力，而15488卡集群更可达到7.5EFlops，展现出卓越的线性扩展能力。

该集群采用全光互联技术，运行华为自研的GaussDB数据库，并搭载泰山950服务器作为交换核心，体现出高度集成化的“华为全家桶”式解决方案。

值得关注的是，此前已在CM384集群中得到验证的UB Mesh互联技术，也将直接应用于SuperPoD中，为其高吞吐、低延迟通信提供底层支持。

2）百万卡互联已成现实，AI算力进入“核聚变”时代

50万卡集群预计可提供267 EFLOPS（FP16）算力，相当于64个8192卡集群的集合；而百万卡集群更将实现524 EFLOPS（FP16）算力，由128个基本SuperPoD单元构成。

意味着SuperPoD架构中一个8192卡集群模块，并支持以2的倍数灵活向上叠加，为超大规模AI训练与推理任务奠定坚实基础。

全面开源！华为开放UB-Mesh、AI工具链，共建生态绝杀英伟达！

华为正式开源其UB-Mesh互联技术，灵衢协议将面向企业、合作伙伴及高校开放，共同推动下一代超节点计算基础设施的建设与发展。

当前，单卡与单机柜的性能逐渐面临物理上限，卡间与机柜间互联技术已成为提升算力规模的关键。为突破单卡算力限制，华为推出了昇腾910C，英伟达也发布了B200/B300，均采用合封方式提升单卡性能。在机柜层面，英伟达NVL72通过高密度集成显卡进一步提升单节点性能。而在千卡、万卡乃至十万卡的大规模集群中，互联方案多依赖InfiniBand或以太网架构，各厂商需依托自身技术实现高效组网。

此前有分析比喻称，英伟达的互联技术能够将数千张显卡虚拟化为一个“超级计算卡”，实现整体算力的无缝整合。UB-Mesh则代表了华为基于光互联技术提出的全新路径，旨在替代InfiniBand方案。

光互联相较于传统铜互联，在抗干扰性和传输带宽方面具备明显优势。更重要的是，我国光通信产业链自主程度远高于铜缆相关产业。国内铜矿品位普遍较低，采购价格易受大宗商品市场影响，而光纤材料则无此类担忧。尽管在光电芯片领域仍部分依赖海外企业——值得一提的是，华为在武汉已建设光芯片制造工厂——但在光模块、光纤等环节，国内产业已非常成熟，光纤光模块产能全球占比超过50%。

此前5G技术虽屡受争议，但我国在5G建设过程中培育出了全球综合实力最强的光通信能力。随着UB-Mesh正式开源，各类传统通信企业均可依托自身能力推进实施，参与到新一代计算基础设施的建设中，共享技术发展带来的市场机遇。

此外，华为还开源了全套AI开发工具。CANN编译器与虚拟指令集接口开放，其余软件全开源，2025年底前完成910B/C版本开源，未来实现“产品上市即开源”。Mind系列工具链全面开源，涵盖训练、推理、部署全流程。openPangu基础大模型全面开源，支持企业二次开发与定制。

华为此次路线图不止是芯片迭代，更是一套从芯到集群、从硬件到开源生态的全面进攻策略。在算力竞争步入深水区的当下，华为正以全自研技术栈+深度开源，构建挑战英伟达的底层资本。2026，好戏才刚刚开始。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.