网易首页 > 网易号 > 正文 申请入驻

算力平台:Nvidia H20 的实用价值

0
分享至

一、引言

站在这个时间点上看,2024年国内通过合规渠道能采购的英伟达的高端显卡只有H20 [1, 2]。Nvidia H20拥有高配的显存、很高的卡间互联带宽和有竞争力的FP8算力,是值得推荐的一款GPU卡(单看96GB的HBM3显存配置,也推荐大家使用H20)。

笔者预测2024年Nvidia H20的销售情况与2023年Nvidia H800的销售情况会比较类似,会从刚开始大家观望到后来大家抢购(再到买不到)。本文就谈谈Nvidia H20的实用价值。

二、H20简介与对比

Nvidia H20是从Nvidia H200裁剪而来的[1, 2, 3],保留了900GB/s的卡间高速互联带宽(NVLink4.0和NVSwitch3.0)[4],并支持PCIe Gen5(128GB/s双向带宽)。PCIe Gen5连接支持400GbE集群网络,有利于组建超大规模GPU集群和保持较高的集群线性加速比。

在算力方面,H20峰值算力只有H200峰值算力的14.96%(~15%),H20峰值算力相对较低(被严重裁剪)。

在L2 Cache配置方面,H20配置了60MB的L2 Cache,比H200有更大的L2 Cache。Nvidia H20拥有96GB的HBM3显存,显存带宽高达4TB/s。虽然Nvidia H20的显存配置相对于H200有所裁剪,但是H20的显存配置相对于国产AI芯片还是有明显优势的。

Nvidia GPU

FP16算力(稠密,TFLOPS)

FP8算力
(稠密,TFLOPS)

L2 Cache
(MB)

显存容量(GB)

显存带宽(TB/s)

卡间互联带宽(GB/s)

PCIe连接

H200

1979

50

141

4.8

900

Gen5

H20

148

296

60

96

4.0

900

Gen5

当前国内大模型厂商的训练算力主要集中在Nvidia A800和H800 [5, 6],以及华为昇腾910B-A2 [7, 8],与现有的算力资源相比,Nvidia H20也有其独特的优势。

例如,相较于Nvidia A800,Nvidia H20在FP8算力、显存配置、卡间互联带宽、PCIe连接等方面都有显著优势;相较于Nvidia H800,Nvidia H20在L2 Cache、显存配置、卡间互联带宽等方面都有显著优势;相较于华为昇腾910B-A2,Nvidia H20在FP8算力、显存配置、卡间互联带宽等方面都有显著优势。

AI加速卡

FP16算力(稠密,TFLOPS)

FP8算力
(稠密,TFLOPS)

L2 Cache
(MB)

显存容量(GB)

显存带宽(TB/s)

卡间互联带宽(GB/s)

PCIe连接

H800

1979

50

80

3.35

400

Gen5

H20

148

296

60

96

4.0

900

Gen5

A800

312

不支持

80

80

2.0

400

Gen4(64 GB/s)

910B-A2

376

不支持

64

64

1.6

56(392 when 1-to-7)

Gen5

三、H20 for 大模型训练

Nvidia H20拥有非常高的卡间互联带宽,并支持PCIe Gen5,在配备400GbE集群网络情况下,H20集群线性加速比接近于1,使得H20卡非常适合用来组建大规模集群。

使用Nvidia H20执行大模型训练任务,基于目前的一些测试结果,对于BF16混合精度训练,在集群规模较小的情况下(例如,512 x H20),Nvidia H20训练吞吐大概可以达到Nvidia A800训练吞吐的62%(即集群规模较小的情况下,H20的性能是A800的性能的~60%)[11, 12];在集群规模较大的情况下(例如,4096 x H20),Nvidia H20训练吞吐大概可以达到Nvidia A800训练吞吐的70%(即集群规模较大的情况下,H20的性能是A800的性能的~70%)。

Huawei 910B-A2(over A800)

Nvidia H20(over A800)

Nvidia A800

较小集群规模(~512卡)

75% ~ 85%

60% ~ 70%

100%

较大集群规模(~4096卡)

60% ~ 70%

65% ~ 75%

90%(线性加速比)

FP8计算

不支持

大于100%

100%

值得说明的是,FP8混合精度训练方法还不成熟,在现阶段只能支持规模较小的LLM模型训练(例如,34B及以下)。未来随着技术的演讲,FP8混合精度训练会成为主流技术。

四、H20 for 大模型推理

Nvidia H20拥有非常好的显存配置以及较好的FP8峰值算力,适合用于LLM推理。使用Nvidia H20执行大模型推理任务,特别是LLM推理任务,Nvidia H20推理性能比Nvidia H800推理性能高出20%(例如,对比显存带宽:4/3.35 ~= 1.19 = 120%)[2, 9, 10]。

随着未来LLM模型参数规模越来越大,需要使用拥有高配显存的AI芯片来进行推理服务,使用Nvidia H20执行超大LLM模型推理任务,是性价比更高的选择[1, 2, 9, 10]。

此外,也可以使用Nvidia H20置换现在推理服务中使用A800和H800卡,这样就可以有更多的A800卡和H800卡用于大模型训练任务。

Huawei 910B-A2(over A800)

Nvidia H20(over A800)

Nvidia A800

推理实例(~单机8卡)

75% ~ 85%

100% ~ 120%

100%

推理实例(~32卡)

70% ~ 80%

100% ~ 125%

100%

综上所述,Nvidia H20核心价值在于:(1)使用H20组建大规模集群用于大模型训练(例如,FP8混合精度训练);(2)H20适合用于超大规模LLM推理(FP8计算);(3)H20价格适中(性价比高)[1, 13, 14]。

五、参考文献

  1. NVIDIA Readying H20 AI GPU for Chinese Market
  2. Nvidia's New China AI Chips Circumvent US Restrictions | H20 Faster Than H100 | Huawei Ascend 910B
  3. NVIDIA H200 Tensor Core GPU
  4. NVLink & NVSwitch for Advanced Multi-GPU Communication
  5. NVIDIA A800 PCIe 80 GB Specs
  6. NVIDIA H800 SXM5 Specs
  7. GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023)
  8. 科大讯回应美国AI芯片管制:华为昇腾910B基本可对标英伟达A100
  9. Compared to the H100, how does the performance of NVIDIA's AI chips specially designed for China, fare?
  10. 为何英伟达H20推理性能超过H100?_腾讯新闻
  11. 英伟达对华“特供”的H20、RTX4090D将受限? - 芯智讯
  12. 英伟达阻击国产 AI 芯片,“中国特供版”H20综合算力比H100降80%
  13. 英伟达H20性能下降80%,价格对标华为,阻击国产AI芯片?中国成英伟达AI芯片最大变数!
  14. 调研菌:NVIDIA H20或将与国产算力同步高增

以上内容转自知乎用户程勇

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
状元不打了!退出全明星!NBA遭遇沉重打击

状元不打了!退出全明星!NBA遭遇沉重打击

篮球教学论坛
2026-02-12 16:00:35
米兰冬奥奖牌榜:21国获牌,挪威居首,东道主第3,我国力压韩国

米兰冬奥奖牌榜:21国获牌,挪威居首,东道主第3,我国力压韩国

湘楚风云
2026-02-12 11:26:15
纳税起征点调整!2026年1月1日起执行

纳税起征点调整!2026年1月1日起执行

祥顺财税俱乐部
2026-02-12 09:13:55
荷兰选手推搡廉子文引争议 名记:四年努力白费换个人就不止甩手了

荷兰选手推搡廉子文引争议 名记:四年努力白费换个人就不止甩手了

劲爆体坛
2026-02-12 08:26:06
93分钟失绝杀,阿森纳1-1痛失好局!4连胜终结,曼城重燃希望

93分钟失绝杀,阿森纳1-1痛失好局!4连胜终结,曼城重燃希望

我的护球最独特
2026-02-13 06:00:09
又一个恶魔医生!诈骗94名患者205万,手术中植入不必要医疗器械

又一个恶魔医生!诈骗94名患者205万,手术中植入不必要医疗器械

风向观察
2026-02-12 21:02:01
长和:巴拿马政府步步进迫,已完全不在公司控制范围内

长和:巴拿马政府步步进迫,已完全不在公司控制范围内

观察者网
2026-02-12 20:47:05
在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

南权先生
2026-02-12 15:39:07
刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

复转这些年
2026-02-12 23:40:15
震惊!4个月走私3834吨稀土,向中国举报的竟是美国企业

震惊!4个月走私3834吨稀土,向中国举报的竟是美国企业

有书
2026-02-12 21:00:08
全球最贵!10岁马来西亚男孩100美元买下域名“AI.com”,33年后卖出7000万美元

全球最贵!10岁马来西亚男孩100美元买下域名“AI.com”,33年后卖出7000万美元

台州交通广播
2026-02-12 00:21:21
扎心!甘肃某设计院员工提离职,领导直言4500块的工资外面找不到

扎心!甘肃某设计院员工提离职,领导直言4500块的工资外面找不到

火山詩话
2026-02-12 18:35:50
人口超亿的广东,很可能要一拆为二了!会怎么拆?

人口超亿的广东,很可能要一拆为二了!会怎么拆?

狐狸先森讲升学规划
2026-02-12 21:06:52
78岁郑少秋丧女两年至今神隐,汪明荃也难联络,曾给许绍雄送花牌

78岁郑少秋丧女两年至今神隐,汪明荃也难联络,曾给许绍雄送花牌

查尔菲的笔记
2026-02-12 19:25:00
没了!再见,杨瀚森,主帅正式摊牌:没那么多时间给年轻人

没了!再见,杨瀚森,主帅正式摊牌:没那么多时间给年轻人

球童无忌
2026-02-12 15:28:35
国防部直接把话挑明了,家里有满18岁男青年必须办的就是兵役登记

国防部直接把话挑明了,家里有满18岁男青年必须办的就是兵役登记

南权先生
2026-02-12 15:38:28
女子返乡打顺风车却打到大货车?7 秒视频获千万次播放,真相背后藏着满满温情

女子返乡打顺风车却打到大货车?7 秒视频获千万次播放,真相背后藏着满满温情

大风新闻
2026-02-12 16:58:12
钟南山:会用证据让全世界服气

钟南山:会用证据让全世界服气

第一财经资讯
2026-02-12 18:13:00
商家称新娘穿脏敬酒服,竟“焊接”吊牌退货!商家:不知道你嫁得好不好,但路一定不好走……

商家称新娘穿脏敬酒服,竟“焊接”吊牌退货!商家:不知道你嫁得好不好,但路一定不好走……

扬子晚报
2026-02-12 07:35:48
59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

琴声飞扬
2026-02-12 11:51:25
2026-02-13 06:52:49
机智的饺子Jon
机智的饺子Jon
高性能科研服务器从业者,关注科技文化生活,业余文字爱好者
162文章数 192关注度
往期回顾 全部

数码要闻

索尼WF-1000XM6无线耳机正式发布 降噪性能再提升25%

头条要闻

钟南山:会用证据让全世界服气

头条要闻

钟南山:会用证据让全世界服气

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

科技要闻

10倍速的一夜:三大模型春节前的暗战

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

游戏
亲子
本地
家居
房产

因不满《守望先锋》女角色太好看,外网想把她改成刻板印象眯眯眼"/> 主站 商城 论坛 自运营 登录 注册 因不满《守望先锋》女角色太好看,外网想把她改成...

亲子要闻

孩子最渴望听到父母说的五句话

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

家居要闻

本真栖居 爱暖伴流年

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

无障碍浏览 进入关怀版