来源:市场资讯
(来源:电子创新网)
据外媒报道,据两位知情人士透露(作者注:未经产业核实,请慎重对待此消息)华为昇腾950PR在中国客户测试进展顺利,包括字节跳动和阿里巴巴在内的多家科技巨头计划下单。
这一进展对华为而言具有里程碑意义,对中国AI市场也具有重要里程碑意义。据透露,本土互联网大厂此次计划更广泛地使用新款 950PR 芯片,因为该芯片与英伟达 CUDA 软件系统的兼容性更强,响应速度也更快,这让他们更加满意。
据透露,华为计划今年出货约 75 万颗 950PR 芯片,采用传统DDR显存的950PR显卡售价约为每张5万元人民币(约合6900美元),而配备速度更快的HBM显存的高端版本售价约为7万元人民币。如果以昇腾950PR单卡售价7万元(HBM版)计算,此次销售营收合计525亿元!
此前,华为一直坚持使用其自主研发的CANN软件系统,而昇腾950PR将使此前普遍使用英伟达软件系统的中国科技公司开发者能够更轻松地迁移这些模型。
![]()
2025年9月18日,在华为全联接大会上,华为副董事长、轮值董事长徐直军在“以开创的超节点互联技术,引领AI基础设施新范式”主题演讲中披露了华为接下来三年的昇腾芯片规划和演进方向。徐直军披露2026年第一季度将要发布昇腾950PR,2026年年第四季度发布昇腾950DT。2027年第四季度要发布昇腾960、2028年发布昇腾970。
2025年,英伟达一直推动其H200在中国的销售,这里将H200与昇腾950PR做一对比。
一、核心规格对比(关键参数)
指标
华为昇腾 950PR
NVIDIA H200
架构定位
AI推理优化(兼顾训练)
通用AI训练+推理
计算精度优势
FP4 / FP8 强
FP8 / FP16 强
FP8算力
~1 PFLOPS
~2 PFLOPS
FP4算力
~1.5–2 PFLOPS(优势项)
不支持/弱
显存
~112GB HBM(HiBL)
141GB HBM3e
显存带宽
~1.4 TB/s
~4.8 TB/s
互联
自研互联(~2TB/s级)
NVLink(~900GB/s)
功耗
~600W
~650–800W
一句话总结:单卡硬件能力:H200仍明显更强(尤其带宽)低精度推理:昇腾950PR有结构性优势
二、性能本质差异(重点)
1️⃣ 单卡算力:H200仍领先
H200 FP8算力约接近2 PFLOPS
950PR约1 PFLOPS级别
结论:训练、大模型计算 → H200更强
2️⃣ 低精度推理:950PR“弯道超车”
950PR重点押注:
FP4 / 混合精度
KV Cache优化
官方数据:FP4达1.56 PFLOPS
关键变化:LLM推理正在从 FP16 → FP8 → FP4,华为直接“跳两代精度” 结论:推理(尤其大模型在线服务)→ 950PR更有性价比潜力
3️⃣ 内存与带宽:H200碾压
H200:~4.8 TB/s
950PR:~1.4 TB/s
这点极其关键:LLM瓶颈 = memory bound。带宽直接决定token吞吐 结论:大模型训练 / 长上下文推理 → H200优势明显
4️⃣ 多卡集群能力(真正分水岭)
H200:
NVLink成熟
千卡集群效率 >90%(行业事实)
950PR:
新互联(LingQu)
带宽提升,但生态尚未验证
结论:超大模型训练 → NVIDIA仍是唯一解
三、架构思路差异(非常关键)
NVIDIA H200
本质:“通用加速器 + CUDA生态统治”
特点:
强Tensor Core
高带宽HBM
CUDA锁死开发者
华为昇腾950PR,本质:“为AI推理重构的专用芯片”
特点:
极致低精度(FP4)
KV cache友好
更像“AI推理ASIC”
四、生态对比(决定胜负)
NVIDIA
CUDA:400万开发者
框架全适配(PyTorch / TensorFlow)
软件定义算力
结论:生态=护城河
华为昇腾
MindSpore + CANN
正在兼容CUDA生态
关键变化:过去最大短板:软件。现在在补:兼容层
五、价格 &商业现实
950PR:约 $6,000–$10,000
H200:通常 $20,000+(行业区间)
结论:价格差:2–3倍
可以理解为:NVIDIA的产品是 “AI时代的Intel(通用计算)”而华为昇腾:则是 “AI时代的ASIC(场景优化)”。H200 = 天花板性能 + 生态垄断950PR = 成本优势 + 推理重构路径】,所以在推理规模化普及的今天加之大模型训推本土化,昇腾950PR可能更受青睐!
在刚刚结束的华为中国合作伙伴大会2026上,华为重磅发布并展出了搭载全新昇腾950PR(Ascend 950PR)处理器的AI训练推理加速卡Atlas 350。据华为介绍,Atlas 350的单卡算力达到了英伟达H20的2.87倍,是目前国内唯一支持FP4低精度的推理产品;HBM(高带宽内存)容量是H20的1.16倍,达到了112GB,多模态生成速度可以提升60%;内存访问颗粒度从512字节减少到128字节,小算子访存效率提升4倍。
看来,国产算力芯片已经逐步追上来了!那更进一步,如同英伟达链一样,随着国产算力芯片崛起,也一定会带动本土算力产业链各个环节如封测、线缆、电源、光器件走强!
对此,大家怎么看?会有哪些产业链上的企业受益呢?欢迎留言讨论!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.