网易首页 > 网易号 > 正文 申请入驻

华为昇腾950系列NPU架构白皮书

0
分享至

来源:市场资讯

(来源:智能计算芯世界)


“2025~2026 OCP /FMS /ISSCC /ODCC /HotChips全球峰会合集”,“华为昇腾950系列NPU架构白皮书”,”2026中国GPU芯片行业深度剖析“,“2025年中国GPU云市场研究报告”,“2026全球GPU芯片行业深度剖析”,“2026年中国DPU技术市场研究报告”,以及AI/ 芯片/ 半导体/ 大模型等“97个技术专栏”请参考智能计算芯知识。

华为昇腾 950 绝非简单的参数堆砌,而是一次从底层架构到生态逻辑的彻底重构。它不只是一颗NPU,更是华为撕开高端算力垄断、构建自主 AI 底座的 “核心利刃”。今天咱们就扒透这颗 “国产算力核弹” 的架构细节,聊聊它凭什么敢跟国际巨头正面硬刚。

华为昇腾950系列NPU架构白皮书(目录)


一、一芯双构:把“训练 / 推理” 拆成两把利刃

昇腾950 最绝的设计,是一芯双构的差异化策略—— 共用同一套 Ascend 950 核心 Die,却衍生出 950PR 和 950DT 两款芯片,精准拿捏 AI 大模型 “Prefill(预填充)+Decode(解码)” 两大核心场景,拒绝 “一招鲜吃遍天” 的通用化妥协。

1. 昇腾 950PR:推理 Prefill 的 “效率之王”

主打大模型预填充、推荐系统等计算密集型场景,2026 年 3 月已实现规模量产。核心配置拉满:搭载自研 HiBL 1.0 高带宽内存,128GB 容量 + 1.6TB/s 带宽,原生支持FP8/MXFP8 / 自研 HiF8 低精度格式,单芯片 FP8 算力达 1 PFLOPS,专为 “大块数据批量处理” 优化。简单说,用户输入长文本时,950PR 能快速处理海量数据、生成 KV 缓存,快、省、稳,是推理集群的 “流量担当”。

2. 昇腾 950DT:训练 / 解码的 “性能天花板”

瞄准大模型训练、长文本解码,预计2026 年 Q4 量产。配置直接拉满:升级 HiZQ 2.0(朱雀)内存,144GB 超大容量 + 4TB/s 史诗级带宽,比PR 提升 1.5 倍,FP4 算力飙升至 2 PFLOPS,专为 “token 逐一生成” 的带宽瓶颈场景量身定制。跑千亿参数模型训练、长文本对话时,950DT 能喂饱 GPU 的 “数据胃口”,彻底解决 “算力够、带宽拖后腿” 的痛点。

这种“场景化定制”,看似是拆分,实则是极致的精准打击—— 不浪费一分算力、不冗余一丝带宽,把每一颗晶体管都用在刀刃上,这才是国产芯片的突围智慧。

二、架构革命:从达芬奇到“GPU 化” 的硬核跃迁

昇腾950 的架构,是一次脱胎换骨的进化—— 告别前代达芬奇架构的专用化束缚,转向更通用、更开放的类 GPU 设计,同时保留 NPU 的高效能基因,堪称 “GPU 的灵活 + NPU 的高效” 完美融合。

1. SIMD/SIMT 双模式同构:灵活拉满

核心计算单元采用创新SIMD/SIMT 双编程模型,打破传统芯片“单一计算逻辑” 的桎梏。

·SIMD 模式:像流水线,批量处理向量数据,适配推荐系统、CV 等规整任务,效率拉满;

·SIMT 模式:擅长碎片化、并行化数据,完美适配NLP 长文本、大模型解码等不规则场景。简单说,不管是 “整齐划一” 的计算,还是 “杂乱无章” 的任务,950 都能无缝适配,告别场景限制,通用性直接拉满。

2. 内存子系统:精细到 128 字节的极致优化

内存访问颗粒度从前代512 字节骤降至128 字节,堪称“显微镜级” 优化。这意味着芯片处理零散、不连续数据时,浪费的带宽更少,效率更高 —— 大模型解码、推荐系统的碎片化特征,被精准拿捏,带宽利用率飙升 30%+。

3. PD 分离架构:推理效率翻倍

创新性引入PD 分离(Prefill/Decode 分离)架构,把预填充和解码的计算、存储资源彻底解耦。预填充用高算力低带宽,解码用高带宽低算力,资源精准匹配,推理延迟直接降低50%,并发能力翻倍,彻底告别 “一卡难求” 的推理集群困境。

4. 全栈自研 + 生态兼容:打破墙、建桥梁

架构层面实现全栈自研,从指令集、计算单元到互联协议,全部自主可控。同时兼容CUDA 核心 API,模型迁移成本极低 —— 海外大模型拿来就能跑,不用重写代码,生态门槛直接拉低。这种 “自主 + 兼容” 的平衡,既守住安全底线,又降低使用门槛,堪称国产芯片的 “破局之道”。

三、低精度核弹:FP4 原生支持,显存效率封神

昇腾950 最炸裂的技术突破,是原生支持FP4(4 位超低精度),国内唯一、全球领先。

1. 精度碾压,效率封神

FP4 的显存占用仅为 FP16 的 1/4、FP8 的 1/2,单卡144GB 显存,等效 576GB FP16,千亿参数模型单卡就能跑,不用多卡拼接。FP4 算力达 2 PFLOPS,比英伟达 H20 的 0.543 PFLOPS 高 2.87 倍,高并发推理时延降低 70%,堪称 “显存效率天花板”。

2. 全链路低精度:从训练到推理全覆盖

除FP4 外,还支持 FP8/MXFP8 / 自研 HiF8 等多精度格式,训练用FP8、推理用 FP4,全链路适配。低精度不丢精度、不影响效果,却能大幅降低功耗、提升吞吐,完美平衡性能与能耗,这才是AI 芯片的终极追求。

四、灵衢2.0 互联:8192 卡全互联,集群之王

单卡强不够,集群强才是真强。昇腾950 搭配灵衢2.0 互联协议,彻底解决多卡通信瓶颈。

·带宽时延双杀:互联带宽达2TB/s,单跳时延从 2μs 降至 200ns,降低 10 倍;

·全光Mesh 拓扑:柜间带宽提升10 倍,跨柜时延仅 7μ,8192 卡全互联无压力;

·Atlas 950 超节点:支持8192 卡直连,总带宽 16.3PB,是英伟达 NVLink 的 62 倍,万亿参数模型训练轻松拿捏。

这种“集群级” 互联能力,让昇腾 950 不再是单卡 “小打小闹”,而是能支撑国家级 AI 算力底座的 “超级集群”,国产大模型训练再也不用看别人脸色。

五、破局与野心:不止是芯片,是自主算力生态

昇腾950 的意义,从来不止于一颗芯片 —— 它是华为全栈自主算力生态的核心拼图。

·全链路可控:芯片、架构、内存、互联、软件工具链,100% 自研,彻底摆脱断供、锁算力风险;

·性价比碾压:硬件成本仅为H2 的 1/4,性能更强,国产替代性价比拉满;

·生态爆发:适配国产大模型、国产服务器、国产操作系统,构建“芯片 - 服务器 - 模型 - 应用” 全链条自主生态。

从技术面看,昇腾950 不是 “追赶者”,而是定义者—— 重新定义国产 AI 芯片的架构标准、性能上限、生态逻辑。它用硬核技术证明:中国不仅能造芯片,还能造全球顶尖的 AI 芯片。

结语

昇腾950 的架构,是精准、高效、自主、开放的完美结合—— 一芯双构抓场景、双模式架构提灵活、FP4 低精度破瓶颈、灵衢互联强集群。它不只是一颗 NPU,更是国产算力的 “破壁之刃”,撕开垄断,构建自主,让中国 AI 算力不再受制于人。

未来,当千亿参数大模型、万亿级推理需求全面爆发,昇腾950 将成为最坚实的算力底座,支撑中国 AI 产业一路狂飙,这颗国产芯片,值得所有期待。

本号知识合集


温馨提示:AI、芯片、半导体、大模型等“97个技术专栏”,请参考智能计算芯知识。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
创业板指涨逾4% 三市上涨个股近2000只

创业板指涨逾4% 三市上涨个股近2000只

每日经济新闻
2026-06-03 13:10:07
雷达全瞎、通信中断、直升机降不下来,荷兰护卫舰夹着尾巴逃了

雷达全瞎、通信中断、直升机降不下来,荷兰护卫舰夹着尾巴逃了

一簌月光
2026-06-03 03:18:22
胃开始癌变,不是看胃疼不疼!医生:出现5个症状,胃癌或已来临

胃开始癌变,不是看胃疼不疼!医生:出现5个症状,胃癌或已来临

芹姐说生活
2026-06-03 14:16:06
大连蛇岛疯狂“内卷”,20000条毒蛇毒性越来越强,仍有人在守护

大连蛇岛疯狂“内卷”,20000条毒蛇毒性越来越强,仍有人在守护

壹知眠羊
2026-06-03 07:14:14
6月4日,人社部关于2026年调整退休人员基本养老金的通知公布了吗

6月4日,人社部关于2026年调整退休人员基本养老金的通知公布了吗

社保小达人
2026-06-03 09:50:27
通伦也要访华!老挝坐不住了,中老铁路对接泰国,躺赚百年?

通伦也要访华!老挝坐不住了,中老铁路对接泰国,躺赚百年?

让生活充满温暖
2026-06-03 03:01:55
稻城亚丁占省道反转!中央曝猛料,就算景区敛财,游客也全力支持

稻城亚丁占省道反转!中央曝猛料,就算景区敛财,游客也全力支持

米果说识
2026-06-03 12:12:18
教育部:严禁炒作“高考状元”“升学率”,纠治奢华录取通知书

教育部:严禁炒作“高考状元”“升学率”,纠治奢华录取通知书

界面新闻
2026-06-03 14:05:30
珠峰一半在中国,一半在尼泊尔,为何全世界都默认是中国领地?

珠峰一半在中国,一半在尼泊尔,为何全世界都默认是中国领地?

抽象派大师
2026-06-01 02:00:38
6月4日,人社部关于2026年上调退休人员,养老金的通知公布了吗?

6月4日,人社部关于2026年上调退休人员,养老金的通知公布了吗?

社保小达人
2026-06-03 10:15:28
46岁董洁花期太短了,这是董洁为某时尚杂志拍的大片,董洁贴上假胡子,脸上戴着厚重的网纱,脖子上挂着繁复的花朵,这妆造真的太前卫了

46岁董洁花期太短了,这是董洁为某时尚杂志拍的大片,董洁贴上假胡子,脸上戴着厚重的网纱,脖子上挂着繁复的花朵,这妆造真的太前卫了

牛油果生活观
2026-06-02 19:09:43
美媒预测:中国若继续突破量子科技,将在27年引起新一轮科技革命

美媒预测:中国若继续突破量子科技,将在27年引起新一轮科技革命

商业财经风向
2026-06-03 11:41:48
微软为英伟达RTX Spark改写Win11底层:优化CPU调度

微软为英伟达RTX Spark改写Win11底层:优化CPU调度

IT之家
2026-06-03 11:18:36
汪宝百日宴仅1天,马筱梅又抱怨,小杨阿姨下场,没给玥箖留体面

汪宝百日宴仅1天,马筱梅又抱怨,小杨阿姨下场,没给玥箖留体面

吴蒂旅行ing
2026-06-03 11:24:04
中日在香会激烈交锋!小泉信口开河讽刺中国,被韩方问得哑口无言

中日在香会激烈交锋!小泉信口开河讽刺中国,被韩方问得哑口无言

井普独白
2026-06-02 13:38:25
于正晒与晚晚合照引争议,于正回怼:骂她的都是嫉妒她的美貌财力

于正晒与晚晚合照引争议,于正回怼:骂她的都是嫉妒她的美貌财力

露珠聊影视
2026-06-02 17:55:28
美国女子去世75年,癌细胞却活了下来,如今已分裂超过5000万吨!

美国女子去世75年,癌细胞却活了下来,如今已分裂超过5000万吨!

探谜未知世界
2026-06-03 12:58:55
难以置信!网传一家长因孩子跳舞没站C位,怒斥老师“要你好看”

难以置信!网传一家长因孩子跳舞没站C位,怒斥老师“要你好看”

火山詩话
2026-06-03 06:10:09
未来三天,广东炎热伴雷雨

未来三天,广东炎热伴雷雨

广东天气
2026-06-03 14:35:35
055和基洛夫并排的对比图,我才惊觉军舰设计已经隔了一个时代

055和基洛夫并排的对比图,我才惊觉军舰设计已经隔了一个时代

安安说
2026-06-02 12:46:29
2026-06-03 15:32:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3453886文章数 7787关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

女子称凌晨入睡后银行卡多次被转账损失42万 银行回应

头条要闻

女子称凌晨入睡后银行卡多次被转账损失42万 银行回应

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

本地
游戏
旅游
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

越能搬砖,活得越久?MMO 搬砖怎么从"毒瘤"熬成了"香饽饽"

旅游要闻

主持人点点带你打卡北美高端亲子品牌Jolly Bubble 波浪谷全国首店,解锁高质量亲子游玩体验,烟台遛娃首选!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊互袭波及多国 过去一夜中东局势骤然升级

无障碍浏览 进入关怀版