网易首页 > 网易号 > 正文 申请入驻

SemiAnalysis 重磅拆解:Blackwell架构全细节,英伟达从未公开的秘密

0
分享至

英伟达Blackwell GPU代表了近年来最重大的GPU微架构变革之一,但迄今缺乏详尽的官方白皮书。

知名半导体研究机构SemiAnalysis历时数月,对Blackwell架构进行了系统性微基准测试,首次公开了该架构在AI工作负载下的硬件性能上限数据。

测试结果显示,Blackwell在张量核心(Tensor Core)吞吐量、内存子系统带宽及新型2SM MMA指令等关键维度上均接近理论峰值,但性能表现高度依赖指令形状配置,部分场景下存在明显的带宽瓶颈。这一发现对AI基础设施投资者和芯片采购方具有直接参考价值——架构潜力能否充分释放,取决于软件层面的精细调优。

SemiAnalysis已将相关基准测试代码库开源,测试所用B200节点由Nebius和Verda提供。研究团队同时宣布,后续将扩展至TPU Pallas内核、Trainium NKI内核及AMD CDNA4汇编的基准测试。

架构核心变化:TMEM引入与2SM MMA

从Hopper到Blackwell,英伟达对MMA相关指令的PTX抽象层进行了多项重要调整。

最显著的变化是引入了张量内存(TMEM)用于存储MMA累加器。在此前架构中,线程隐式持有MMA运算结果;Blackwell改为由软件在MMA作用域内显式管理TMEM,改变了线程与计算结果之间的所有权关系。

与此同时,tcgen05操作现在由单一线程代表整个CTA(协作线程阵列)发出,而非此前Hopper架构中以warp或warpgroup为单位发出。这一变化在CuTe MMA原子中有直接体现:Blackwell使用ThrID = Layout<_1>,而Hopper使用ThrID = Layout<_128>。

Blackwell还引入了TPC作用域的TMA和MMA,支持两个协同CTA跨SM对执行tcgen05.mma,共享操作数,从而在降低每个CTA共享内存带宽需求的同时,提供更高运算强度的MMA指令。此外,该架构原生支持带微缩放的亚字节数据类型,并引入了集群启动控制(CLC)作为持久化CTA内核中动态工作调度的硬件支持。

芯片物理布局:双Die架构与300周期跨Die延迟

SemiAnalysis通过逆向工程手段,揭示了B200芯片的物理拓扑结构。

研究团队利用PTX %%smid指令,通过启动不同大小的集群来反向推断SM到GPC(图形处理集群)的映射关系。结果显示,B200存在部分TPC独占逻辑GPC的情况,这些TPC从不与其他TPC协同调度。

通过让每个SM遍历填满L2缓存的指针追踪数组并测量各SM间的访问延迟,研究团队构建了SM间距离矩阵。矩阵清晰呈现出两组SM,平均L2访问延迟差距超过300个时钟周期,对应的正是两个Die之间的跨Die访问惩罚。

基于此,研究团队推断B200的Die级TPC分布如下:

  • Die A:各GPC分别包含10、10、10、9个TPC

  • Die B:各GPC分别包含9、9、9、5+3个TPC

这一物理布局差异意味着,即便逻辑配置相同的两块GPU,其物理SM分布也可能不同,构成潜在的性能非确定性来源。


内存子系统:LDGSTS与TMA的性能边界

内存子系统测试聚焦于两类异步拷贝指令:LDGSTS(异步拷贝)和TMA(张量内存加速器)。

LDGSTS方面,测试覆盖了FlashInfer多头注意力(MHA)内核的典型配置。结果显示,LDGSTS内存吞吐量在32 KiB在途字节时饱和,峰值约为6.6 TB/s。16字节加载在相同在途字节数下略优于8字节加载,且消耗更少执行资源。延迟测试显示,LDGSTS基线延迟约为600纳秒,在途字节超过8 KiB后延迟接近翻倍,原因在于大量线程因MIO(内存输入输出)节流而停滞。


TMA方面,峰值吞吐量的达到明显晚于LDGSTS。在低于32字节在途数据时,异步拷贝吞吐量略优于TMA;超过该阈值后TMA追上并可持续扩展至128 KiB。延迟方面,在途数据低于12 KiB时异步拷贝延迟略低,超过后TMA延迟大幅攀升。

TMA多播测试显示,显式TMA多播可完美消除L2流量,实现理想的"1/集群大小"L2字节比。隐式多播(各CTA独立发出TMA加载至相同数据)在有效内存吞吐量上与显式多播相当,但在超过64字节在途数据后,L2缓存流量削减效果开始下降。


张量核心性能:形状依赖性显著,2SM MMA实现完美弱扩展

张量核心测试是本次研究的核心部分,结果揭示了Blackwell MMA性能对指令形状的高度敏感性。

吞吐量方面,对于1SM MMA,M=64的配置最高仅能达到理论峰值的50%,而M=128可接近100%。这证实M=64仅利用了一半数据通路。对于2SM MMA,M=128在N=64时吞吐量为峰值的90%,其余N尺寸均接近100%;M=256则在所有配置下均维持接近100%的峰值吞吐量,因为M=256等效于每SM处理M=128,可充分利用完整数据通路。


AB布局影响同样显著。当两个输入矩阵均存储于共享内存(SS模式)时,M=128在N<128时存在明显的SMEM带宽瓶颈。以FP16为例,硬件每周期可执行8192 MMA FLOP,SMEM带宽为128 B/周期,计算表明M=128 N=64 K=16配置下SMEM需要48个周期,而数学运算仅需32个周期,即指令受SMEM带宽限制。所有数据类型均存在这一规律——双操作数均在SMEM中的MMA指令,在N<128时均受SMEM带宽约束。

2SM MMA实现了完美的弱扩展,相对于1SM MMA在使用两倍计算资源时获得2倍加速。在SS模式的小形状配置下,由于操作数B在两个SM间分片,甚至出现超过2倍的加速。研究结论明确:应始终使用给定SMEM tile尺寸下可用的最大指令形状,以获得最高吞吐量

延迟方面,所有配置下延迟均随N从64增至128线性增长,N=256时出现跳跃。数据类型延迟排序呈现规律性:S8 < BF16 = E4M3 = F4 < MXF8 = MXF4,研究团队认为整数运算功耗效率更高导致S8最快,而微缩放数据类型的缩放因子计算引入了轻微额外开销。


实际在途指令数测试显示,在典型内核使用的1至4条在途MMA指令场景下,4条在途MMA的吞吐量上限约为理论峰值的78%至80%,且1SM MMA比2SM MMA高出约5个百分点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗发布无人机发射视频 “飞天小摩托”直冲美军基地

伊朗发布无人机发射视频 “飞天小摩托”直冲美军基地

新华社
2026-04-07 17:06:41
伊朗民众组成人链保护发电厂和桥梁

伊朗民众组成人链保护发电厂和桥梁

界面新闻
2026-04-07 22:42:24
10年内入狱2次,爆火后“包一晚”40万,如今的她过得怎么样?

10年内入狱2次,爆火后“包一晚”40万,如今的她过得怎么样?

宝哥精彩赛事
2026-04-07 15:43:13
太黑了!315晚会后,最先塌房的不是奶茶,也不是辣条,而是鸡蛋

太黑了!315晚会后,最先塌房的不是奶茶,也不是辣条,而是鸡蛋

小熊侃史
2026-04-07 07:20:08
85岁富商陈丽华去世,和老公互称董事长迟先生,百亿遗产早有安排

85岁富商陈丽华去世,和老公互称董事长迟先生,百亿遗产早有安排

新金牌娱乐观察家
2026-04-07 11:30:32
早有预兆!乔任梁父母首度公开细节,儿子死因复杂,别墅里全是药

早有预兆!乔任梁父母首度公开细节,儿子死因复杂,别墅里全是药

仙味少女心
2026-04-06 23:01:04
突发!美股全线跳水 道指一度跌超400点 苹果、特斯拉跌4%

突发!美股全线跳水 道指一度跌超400点 苹果、特斯拉跌4%

每日经济新闻
2026-04-07 23:17:13
郑丽文站在千百人聚集的宴席聚光灯下,突然指着自己大声宣告

郑丽文站在千百人聚集的宴席聚光灯下,突然指着自己大声宣告

果妈聊娱乐
2026-04-07 08:19:43
郑丽文抵沪,一颗扣子让14亿人看哭了:欢迎回家!

郑丽文抵沪,一颗扣子让14亿人看哭了:欢迎回家!

笔墨V
2026-04-07 17:19:47
“最后期限”将至,特朗普的底牌已被看穿 | 京酿馆

“最后期限”将至,特朗普的底牌已被看穿 | 京酿馆

新京报
2026-04-07 12:09:08
4月7日俄乌最新:4年来的第一次

4月7日俄乌最新:4年来的第一次

西楼饮月
2026-04-07 20:08:23
85岁陈丽华去世,巨额遗产分配公道,迟重瑞已放弃

85岁陈丽华去世,巨额遗产分配公道,迟重瑞已放弃

无处遁形
2026-04-07 21:08:12
10万亿财政转移支付,被谁拿走了?

10万亿财政转移支付,被谁拿走了?

国民经略
2026-04-07 12:10:36
大陆给高规格礼遇,郑丽文接下鲜花,坐高铁到南京前,她喊出12字

大陆给高规格礼遇,郑丽文接下鲜花,坐高铁到南京前,她喊出12字

哄动一时啊
2026-04-07 22:20:56
NASA团队:三峡大坝造成地球自转轴位移,极点位置移动了2公分

NASA团队:三峡大坝造成地球自转轴位移,极点位置移动了2公分

心中的麦田
2026-04-07 19:09:35
人民日报再发声,言辞犀利,网友:董宇辉恐要“社会性死亡”了

人民日报再发声,言辞犀利,网友:董宇辉恐要“社会性死亡”了

阅微札记
2026-04-07 20:02:14
美军新型PrSM导弹首次实战?2月28日击中伊朗体育馆致21名青少年遇难

美军新型PrSM导弹首次实战?2月28日击中伊朗体育馆致21名青少年遇难

网易新闻出品
2026-04-07 16:36:53
因中国工人待遇问题,巴西将比亚迪列入“耻辱名单”

因中国工人待遇问题,巴西将比亚迪列入“耻辱名单”

互联网大观
2026-04-07 15:43:15
美国驻巴林使馆建议在巴美国人就地避难

美国驻巴林使馆建议在巴美国人就地避难

界面新闻
2026-04-07 23:22:45
首个合资车企全面停产燃油车!

首个合资车企全面停产燃油车!

电动知家
2026-04-07 19:58:44
2026-04-08 01:28:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
144184文章数 2653150关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

媒体:美国亲手向伊朗递过去两件"大规模阻断性武器"

头条要闻

媒体:美国亲手向伊朗递过去两件"大规模阻断性武器"

体育要闻

水晶宫双星提名EA FC赛季最佳阵容!

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

教育
旅游
家居
时尚
军事航空

教育要闻

这位学生自制的学具你见过吗?

旅游要闻

以花为媒以赛引流 泰安清明迎客83.64万人次

家居要闻

雅致惬意 感知生活之美

120元和120分钟,哪个更奢侈?

军事要闻

美军营救飞行员出动155架飞机

无障碍浏览 进入关怀版