如果华为9月18号官宣的都能实现,英伟达清库存、中国定制、反垄断调查都不再重要,可以踏实放弃中国市场了。
TT可以坦然“让给你”,因为半导体我们“胜利在望”。
9月18日的华为全连接大会上,昇腾公布未来三年产品路线图,明确2026至2028年将推出包括950PR、950DT、960、970在内的多款高性能芯片。
架构、算力、内存、集群互联跨越式发展,在经历盘古昇腾事件后,华为少见地高调公布AI战略进展。
结合T1级的寒武纪、昆仑芯、平头哥、摩尔线程今年爆单,沐曦、壁仞、天数等公司有望上市,国产AI算力一超多强”局面逐渐明朗。
芯片全面进化:算力狂飙,自研HBM,架构大换血!
1)新架构让CUDA不再是护城河
昇腾950将实现1PFlops FP8算力或2 PFlops FP4算力,若按英伟达稀疏算力标称法,昇腾950算力还将再次翻倍,高达4 PFlops。相较于此前昇腾910C单Die最高0.8PB Int8的算力,其算力密度只能说是稳步提升。
此外,将于2027年Q1上市的昇腾960将实现2PFlops FP8算力,行业推测昇腾960可能采用双Die合封设计,类似当下的昇腾910C或英伟达B200/300。而昇腾970将再次翻倍,达到4 PFlops。
![]()
更重要的是架构升级,昇腾NPU从SIMD升级至SIMT/SIMD架构。与此前芯事情报局报道的《盘古昇腾事件后续来了,华为转向GPU硬刚英伟达?》基本一致。
![]()
SIMT/SIMD架构的好处在于:
一是算子开发变得更加高效,相较于以往为昇腾910系列自行开发算子的方式,大幅优化,甚至可以以很简单的方式匹配CUDA算子。
二是支持的加速格式也更为丰富,从原先最低支持Int8,扩展至FP8、FP4等多种精度,其中FP4有望成为未来推理任务的主流配置。以OpenAI开源大模型GPT OSS来看,该模型使用4bit量化和FP4推理。
此外,新一代芯片在访存效率和互联带宽方面也实现进一步提升。
互联带宽从昇腾910C的784 GB/s提升至2TB/s,是原来的接近3倍;实现更精细的内存访问粒度(支持512B、128B);提高向量处理单元的计算资源分配。
2)国产HBM横空出世,内存墙彻底推倒
该方案大概率采用定制Base Die与DRAM TSV封装相结合的方式,也不排除华为完全自研Base Die及封装技术的可能性。HBM本质上是由多层DRAM堆叠于Logic芯片之上构成,如仅追求高速内存性能,也可放宽条件,不严格依赖HBM。类似替代方案还包括可用于移动端的CUBE封装等更灵活的结构。
HBM方面,昇腾950PR采用128GB 1.6TB/s的HBM,950DT则采用144GB 4TB/s的HBM二代。在昇腾960和970上,内存速度还将提升到9.6TB/s和14.4 TB/s。
![]()
3)一芯两用!昇腾950为大模型量身定制
PR版本采用950 Die搭配HiBL1.0(内部代号“白鹭”),而DT版本则为950 Die与HiZQ(内部代号“朱雀”)的组合。
![]()
两者在内存带宽方面存在差异,DT具备更大带宽,PR则相对较小。
这一区别推测与大模型推理的不同阶段需求相关:Prefill阶段侧重于算力,影响“出首字”速度,而Decode阶段更依赖内存带宽,影响“蹦字”效率。芯片架构的这一变化,是否预示着“PD分离”的设计趋势,值得进一步观察。
4)鲲鹏CPU同步进化,192核“灵犀”打通算力瓶颈
2026年Q4量产鲲鹏950,核心架构从“泰山”升级为“灵犀”,核数大幅提至192核/384线程;2028年Q1推出鲲鹏960,更分高性能版(单核性能+50%+)和高密度版(256核/512线程),全面覆盖AI Host、数据库、云原生等场景。
![]()
集群全球最强!SuperPoD性能碾压英伟达现役及在研系统!
1)重新定义“Super”,8192卡单节点只是起步,算力单位直接用“E”
搭载昇腾950芯片的新一代大规模集群SuperPoD正式对外公布,预计将显著提升高性能计算能力。
![]()
![]()
SuperPoD将于2026年第一季度开始交付,该可以以8192张卡为节点,形成超大规模算力池。这一算力水平远超当前英伟达主流方案,甚至超越其规划中的NVL72/NVL576系统,被业内称为“全球最强AI单节点”。
Atlas 950 SuperPoD(基于Ascend 950):
•集成 8,192颗NPU
•FP8算力高达 8 EFLOPS(每秒800亿亿次)
•内存容量 1,152 TB
•内存带宽 16.3 PB/s
•训练吞吐量 4.91 million TPS
•推理吞吐量 19.6 million TPS
Atlas 960 SuperPoD(基于Ascend 950DT / 960):
•规模扩展至 15,488卡(NPU)
•FP8算力达 30 EFLOPS,FP4下更可达 60 EFLOPS
•互联带宽高达 34 PB/s,采用跨柜全光互联架构
![]()
据估算,在FP16精度下,一个8192卡集群可提供4EFlops算力,而15488卡集群更可达到7.5EFlops,展现出卓越的线性扩展能力。
该集群采用全光互联技术,运行华为自研的GaussDB数据库,并搭载泰山950服务器作为交换核心,体现出高度集成化的“华为全家桶”式解决方案。
值得关注的是,此前已在CM384集群中得到验证的UB Mesh互联技术,也将直接应用于SuperPoD中,为其高吞吐、低延迟通信提供底层支持。
2)百万卡互联已成现实,AI算力进入“核聚变”时代
50万卡集群预计可提供267 EFLOPS(FP16)算力,相当于64个8192卡集群的集合;而百万卡集群更将实现524 EFLOPS(FP16)算力,由128个基本SuperPoD单元构成。
意味着SuperPoD架构中一个8192卡集群模块,并支持以2的倍数灵活向上叠加,为超大规模AI训练与推理任务奠定坚实基础。
![]()
![]()
全面开源!华为开放UB-Mesh、AI工具链,共建生态绝杀英伟达!
华为正式开源其UB-Mesh互联技术,灵衢协议将面向企业、合作伙伴及高校开放,共同推动下一代超节点计算基础设施的建设与发展。
![]()
当前,单卡与单机柜的性能逐渐面临物理上限,卡间与机柜间互联技术已成为提升算力规模的关键。为突破单卡算力限制,华为推出了昇腾910C,英伟达也发布了B200/B300,均采用合封方式提升单卡性能。在机柜层面,英伟达NVL72通过高密度集成显卡进一步提升单节点性能。而在千卡、万卡乃至十万卡的大规模集群中,互联方案多依赖InfiniBand或以太网架构,各厂商需依托自身技术实现高效组网。
此前有分析比喻称,英伟达的互联技术能够将数千张显卡虚拟化为一个“超级计算卡”,实现整体算力的无缝整合。UB-Mesh则代表了华为基于光互联技术提出的全新路径,旨在替代InfiniBand方案。
光互联相较于传统铜互联,在抗干扰性和传输带宽方面具备明显优势。更重要的是,我国光通信产业链自主程度远高于铜缆相关产业。国内铜矿品位普遍较低,采购价格易受大宗商品市场影响,而光纤材料则无此类担忧。尽管在光电芯片领域仍部分依赖海外企业——值得一提的是,华为在武汉已建设光芯片制造工厂——但在光模块、光纤等环节,国内产业已非常成熟,光纤光模块产能全球占比超过50%。
此前5G技术虽屡受争议,但我国在5G建设过程中培育出了全球综合实力最强的光通信能力。随着UB-Mesh正式开源,各类传统通信企业均可依托自身能力推进实施,参与到新一代计算基础设施的建设中,共享技术发展带来的市场机遇。
此外,华为还开源了全套AI开发工具。CANN编译器与虚拟指令集接口开放,其余软件全开源,2025年底前完成910B/C版本开源,未来实现“产品上市即开源”。Mind系列工具链全面开源,涵盖训练、推理、部署全流程。openPangu基础大模型全面开源,支持企业二次开发与定制。
华为此次路线图不止是芯片迭代,更是一套从芯到集群、从硬件到开源生态的全面进攻策略。在算力竞争步入深水区的当下,华为正以全自研技术栈+深度开源,构建挑战英伟达的底层资本。2026,好戏才刚刚开始。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.