网易首页 > 网易科技 > 网易科技 > 正文

面向Ascend 950,CANN技术架构的变与不变

0
分享至

(原标题:面向Ascend 950,CANN技术架构的变与不变)

当前,人工智能正以前所未有的速度渗透千行百业,推动 AI 算力需求呈指数级增长,算力已成为人工智能产业发展的核心竞争力。

在此背景下,昇腾推出新一代AI芯片Ascend 950PR与Ascend 950DT。两款芯片在继承上一代优秀能力的基础上,围绕计算、通信等关键维度实现多项技术突破,涵盖NDDMA、CV融合、SIMT、UB、CCU等创新特性,大幅提升了大模型训练与推理、推荐、多模态等核心业务场景的性能与竞争力。

本文将从芯片架构、计算与通信规格、关键新特性等维度,对Ascend 950PR和Ascend 950DT进行全面、深入、细致的解析。

一、Ascend 950硬件架构

Ascend 950代际发布了两款芯片。一款是Ascend 950PR,一款是Ascend 950DT。Ascend 950PR中的PR,代表Prefill&Recommendation,此芯片面向的是Prefill和推荐场景,特点是以较低的成本,获得更高的性价比;Ascend 950DT中的DT,代表Decode&Training,此芯片面向的是Decode和训练场景,特点是更高的访存带宽,获取更高的性能。两款芯片是基于Ascend 950 Die,与不同的Memory进行合封构成。

Ascend 950PR&Ascend 950DT与前一代昇腾芯片相比,在以下几个方面进行了提升:

● AICORE子系统,采用华为自研的第三代Davinci架构,在前代架构基础上,针对当前Transformer为核心,同时兼顾推荐、多模态等多种算法趋势,从低精度算力、计算效率、易用性等方面进行了全面的提升。

■ 新增支持业界标准FP8/MXFP8/MXFP4等低数值精度数据格式,并特别支持自研的HiF8,提升训练效率和推理吞吐

■ 增加Cube-Vector融合通路,极大的提升了Cube-Vector融合算子性能

■ 大幅度提升了Vector算力,Cube:Vector算力配比达到8:1

■ 采用创新的SIMD/SIMT新同构设计,提升编程易用性

■ 支持128字节的Sector-Cache,提升离散且不连续的内存访问性能

■ 支持NDDMA高效数据访问,提升内存访问效率

● 存储子系统:950芯片的存储子系统,支持两种类型的Memory,包括高容量、低成本的HiBL 1.0,以及高访存带宽的HiZQ 2.0。采用统一的接口实现不同Memory的对接。

● IO子系统:950芯片支持UB灵衢互联,可以实现超节点系统的超高带宽、超低时延、超大规模组网需求。

■ 整芯片支持18个400Gbps端口,支持超大互联带宽

■ 支持硬化的集合通信加速单元,降低通信对访问带宽的占用,提升通信性能,并降低通信对计算的影响

■ 创新的支持UB&UBOE互联协议;同时兼容PCIE互联

■ 同时支持Load/Store的同步通信语义,和URMA异步消息通信语义

二、核的微架构改进,提升计算性能和开发易用性

在人工智能技术飞速发展的今天,大型语言模型(LLM)、多模态AI等复杂任务对计算硬件的性能需求持续提升。昇腾AI芯片最新发布的第三代DaVinciCore架构,通过硬件能力升级与软件协同优化,在计算性能、开发者体验和能效比方面实现了持续提升。

1、算力效率革命:低精度计算+混合架构,性能提升4倍

传统的AI芯片往往受限于计算精度与数据搬运效率,而第三代DaVinciCore通过全栈数值格式创新和访存效率优化,彻底释放低精度计算的潜力。

● HiF8/FP8/MXFP8/MXFP4:支持MXFP8/4和FP8基础上,全新设计了动态位宽浮点格式HiF8,在保证精度的同时大幅降低存储与带宽需求。以HiF8为例,其采用变长前缀编码+原码阶码优化,动态范围接近FP16(-22∼15),但计算效率提升2~4倍,尤其适合LLM训练与推理。

HiF8阶码分布图(锥形精度图)

● 张量-向量协同计算:单核内Cube核(张量计算)峰值算力与上一代持平,Vector核(向量计算)FP16/FP32性能翻倍,二者通过高速直连通道实现数据无缝流转,彻底解决传统AI芯片在混合计算(如FA)任务中的瓶颈问题。

增加核内CV直连高速通路示意图

● 优化核内buffer size:L0C buffer Size增加到256KB,支持Cube计算256*256 tile块,算力密度比提升20%,提升Mac效率达成90%场景的覆盖面,分布式localbuffer降低多流水并发对local buffer的访问竞争,提升流水并发的效率,两者共同提升算子性能的天花板。

2、访存效率持续优化:提升算子非对齐小Burst场景的泛化性能

● L2 Cache支持128B Sector,访存颗粒度相比上一代的512B->128B,小包场景4x带宽效率;数据访问GM支持多种L2 Control Hint,通过指令控制L2 Cache 的缓存策略,优化Cache使用效率,提升网络E2E的Cache hit率。

non-allocate(L2 hint)典型使能场景示意图

● ND2NZ支持Advance模式,对Stride在不大于256B的场景都支持并包处理。

3、核微架构持续演进:带来多项“黑科技”级编程优化

● SIMD/SIMT混合编程:开发者可自由选择并行模式——规则计算用SIMD双发指令榨干硬件性能,复杂逻辑(如多条件分支)/小包搬运等场景切至SIMT线程级并行,代码可读性与执行效率兼得。

SIMT离散访问示意图

● NDDMA指令:传统数据搬移需硬件地址计算+访存合并,如今只需一行NDDMA指令(transpose,stride,broadcast,slice),硬件自动完成格式转换、对齐、分块,效率提升50%以上。

NDDMA指令能力示意图

● 极简同步机制:BufferID模型取代繁琐的set/wait配对,消除分支逻辑,让多核协作代码更直观、更健壮。

新同步机制代码示例

三、基于灵衢互联,构建大规模超节点集群

Ascend 950提供比前代芯片更高的连算比,搭载先进的灵衢互联技术构建Ascend 950超节点集群,能够大幅降低通信时延、提升算力效率,有效破解大规模 AI 集群的通信瓶颈。

灵衢互联UB(UnifiedBus,简称UB),是面向新一代智算集群打造的新型互联协议,是破解算力瓶颈、共建开放生态的重要布局。灵衢互联以“协议归一、平等协同、全局池化”为核心,打破了传统互联的层级壁垒,让CPU、NPU、存储等异构组件实现无主从直接通信,并大幅降低通信时延、提升带宽利用率。华为已开放灵衢2.0完整技术规范,推动产业协同创新。未来灵衢将持续演进,突破更大规模组网能力,携手产业伙伴构建自主可控、高效可靠的算力底座。

灵衢互联提供分层的协议栈结构,从下到上由物理层、数据链路层、网络层、传输层、事务层、功能层以及UMMU、UBFM(UB Fabric Manager)组成,如下图所示。其中,Entity为功能实体,是全局通信的基本单元;URMA(Unified Remote Memory Access)为统一远程内存访问。

灵衢协议栈

Ascend 950围绕超节点架构持续创新,将多台物理机器深度互联,重新定义了高效、稳定、可扩展的大规模有效算力新范式,并打造全系列超节点产品。

Ascend 950以灵衢互联为基础构建的超节点架构,在面向人工智能计算的多个核心业务场景,如大模型预训练、中心推理、后训练与强化学习、多模态内容等业务领域均可提供领先的系统能力,带来计算业务性能和资源利用率提升。

四、总结

Ascend 950PR和Ascend 950DT芯片在继承前代DaVinci架构核心设计理念的基础上,围绕计算、存储、互联三大维度实现了系统性升级,通过计算效能革新、访存效率深挖与互联架构突破三者的协同优化,面向大模型预训练、中心推理、后训练与强化学习、推荐系统、多模态内容生成等核心AI业务场景,提供了系统的软硬协同能力,为AI产业的算力需求增长提供了强有力的算力底座支撑。

相关推荐
热点推荐
从今年起,需做好“潮水暴涨”前的准备?明年房子或将超出想象

从今年起,需做好“潮水暴涨”前的准备?明年房子或将超出想象

混沌录
2026-04-13 20:00:08
曝NBA至少有5支球队邀请徐昕试训 2米26小巨人离开广东彻底起飞

曝NBA至少有5支球队邀请徐昕试训 2米26小巨人离开广东彻底起飞

狼叔评论
2026-04-14 13:40:03
官宣!中国足球有救了?范志毅成功当选足协副主席,引发外界热议

官宣!中国足球有救了?范志毅成功当选足协副主席,引发外界热议

罗掌柜体育
2026-04-14 11:58:35
印度暗示中国伸出援手,希望11天内尽快给答复,别耽误了他们时间

印度暗示中国伸出援手,希望11天内尽快给答复,别耽误了他们时间

蜉蝣说
2026-04-14 16:15:13
本田或将所有和燃油摩托相关的高端配置以白菜价快速下放

本田或将所有和燃油摩托相关的高端配置以白菜价快速下放

行者啊
2026-04-13 13:32:54
欧冠四强决出两席:大巴黎双杀利物浦,巴萨逆转未果遭马竞淘汰

欧冠四强决出两席:大巴黎双杀利物浦,巴萨逆转未果遭马竞淘汰

全景体育V
2026-04-15 05:24:03
郑丽文明明没有实权,大陆为什么还要公布惠台政策?

郑丽文明明没有实权,大陆为什么还要公布惠台政策?

阿龙聊军事
2026-04-14 09:36:48
不再是120/80,“新血压标准”已公布,别再自己吓自己!

不再是120/80,“新血压标准”已公布,别再自己吓自己!

芹姐说生活
2026-04-14 23:27:03
实探比亚迪深圳坪山工厂:两楼层已被大火烧得焦黑,未着火楼层仍有不少轿车停放

实探比亚迪深圳坪山工厂:两楼层已被大火烧得焦黑,未着火楼层仍有不少轿车停放

第一财经资讯
2026-04-14 16:51:46
唏嘘!巴萨已11年无缘欧冠冠军 3次被马竞狙击 空有近12亿欧豪阵

唏嘘!巴萨已11年无缘欧冠冠军 3次被马竞狙击 空有近12亿欧豪阵

我爱英超
2026-04-15 06:11:54
研究表明:我国男性的早泄率只有2.3%,勃起功能障碍却高达35%!

研究表明:我国男性的早泄率只有2.3%,勃起功能障碍却高达35%!

黯泉
2026-04-14 18:19:30
你身边有没有毁三观的八卦?网友:找他爸,做他小妈

你身边有没有毁三观的八卦?网友:找他爸,做他小妈

解读热点事件
2026-04-15 02:13:26
惊险!上海至重庆航班重着陆,乘客吓到尖叫,最新进展来了

惊险!上海至重庆航班重着陆,乘客吓到尖叫,最新进展来了

西昆仑Bruce
2026-04-14 20:13:34
何润东确认接受邀请!网友:不敢想象有多燃!

何润东确认接受邀请!网友:不敢想象有多燃!

先锋新闻
2026-04-14 07:35:16
伊朗断网1032小时:星链用户面临死刑,军方启用电子战级干扰

伊朗断网1032小时:星链用户面临死刑,军方启用电子战级干扰

野生运营
2026-04-13 08:26:48
担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

东方不败然多多
2026-04-14 12:26:21
足坛惨案!弗林蓬生涯上升期不幸离世,加纳足球圈陷入巨大震动

足坛惨案!弗林蓬生涯上升期不幸离世,加纳足球圈陷入巨大震动

誮惜颜a
2026-04-14 21:12:50
反转!巴西部长强行封杀比亚迪,卢拉深夜震怒:立刻卷铺盖走人!

反转!巴西部长强行封杀比亚迪,卢拉深夜震怒:立刻卷铺盖走人!

共工之锚
2026-04-15 00:31:36
张雪峰对当年把他踢出尖子班的教导主任,记了大半辈子,耿耿于怀

张雪峰对当年把他踢出尖子班的教导主任,记了大半辈子,耿耿于怀

情感艺术家
2026-04-13 11:43:48
故事:辽宁小伙认50岁女教师当干妈,每周去其家中补课酿成悲剧

故事:辽宁小伙认50岁女教师当干妈,每周去其家中补课酿成悲剧

诡谲怪谈
2025-01-22 17:35:57
2026-04-15 06:55:00

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

霍尔木兹海峡恢复部分通航 美军封锁伊朗港口持续

头条要闻

霍尔木兹海峡恢复部分通航 美军封锁伊朗港口持续

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

网曝钟丽缇代孕要了个男孩 备孕近10年

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

时尚
亲子
健康
教育
军事航空

坏事做尽的疯女人,集体翻红了

亲子要闻

盘点人类幼崽的狠人行为

干细胞抗衰4大误区,90%的人都中招

教育要闻

2024届女生就业量较大的前10个本科专业

军事要闻

伊朗要求五个中东国家赔偿战争损失

无障碍浏览 进入关怀版
×