网易首页 > 网易号 > 正文 申请入驻

为何英伟达H20推理性能超过H100?

0
分享至

2023年10月,美商务部更新了针对AI芯片的限制规定,对出口中国的AI算力芯片产品的算力、算力密度、带宽等上限提出了明确要求。受此影响,英伟达(NVIDIA)此前针对中国市场定制的A800、H800,以及此前未受限的众多AI芯片都受到了限制。基于此,NVIDIA随后又为中国市场定制了H20、L20、L2等产品。

从公布的参数来看,H20的FP16、INT8等主要算力参数仅为A100的不足1/2,更是仅为H100的约1/7;L20的主要算力参数相较于L40、L40S分别下降约1/3、2/3。这些最新的针对中国市场定制的产品算力参数被大幅阉割,使得市场大多对其性能表现、性价比(1.2-1.4万美元,略低于Ascend 910的约。1.66万美元)持悲观或怀疑态度。

在此前的《关于英伟达H20砍单传言》一文当中,NVIDIA内部人士虽然承认,然经过阉割后的NVIDIA H20单卡算力仅有H100的20%,相比国产的910b,性能也只有其60%多。但是,其强调,H20仍有两大优势:

1、H20的HBM容量(96GB)与带宽远比910B高(也高于A100/H100的80GB HBM3),带宽是910B两倍。

2、NVIDIA有NVlink架构。H20可以是通过多卡使用、多卡堆叠模式,完全超越910B,甚至突破H100。

同时,该内部人士还表示,H20的中国订单一直稳定,市场部尚未接到大量砍单的现象。

不过,这一与外界看法相悖的说法,依然是没有消除外界的疑虑。那么,H20在被阉割之后,究竟还有多少优势?

近日,广发电子团队基于理论计算,研究了H20、L20等产品在大模型推理端的性能表现。推算结果显示,H20、L20均展现出较优异的推理性能。

以下为主要内容:

1根据推算,H20推理性能超过H100,L20推理性能比肩L40S

H20推理性能优于A100、H100,仅略逊于H200。分别使用单张H20、A100、H100、H200进行推理。参考图1,在3组推理场景下,H20的推理速度均明显优于A100;在前两组推理场景下,H20的推理速度优于H100,第三组推理场景下H20与H100推理速度基本持平。取三组平均值,H20平均推理速度是A100的1.8倍,是H100的1.1倍。

L20推理性能与L40、L40S基本相同。分别使用单张L40S、L40、L20进行推理。参考图3,在前两组推理场景中,L40S、L40、L20的推理速度无明显差异;仅在最后一组场景中,L40S推理速度相较于L40、L20优势较明显。取三组平均值,L20推理速度仅比L40S速度慢约2%。

为什么算力被大幅阉割的H20会有如此优异的推理性能表现?在接下来的两个章节,广发电子分别分析了推理过程中Prefill环节、Decode环节H20的推理性能表现。

2Prefill是算力密集场景,H20受算力制约性能表现较弱

Prefill阶段算力负载体现在对用户所有输入Tokens进行一次并行计算;显存带宽负载主要体现在参数量从HBM向算力芯片的传输。在大多数推理场景下(如输入Tokens较长、或Batch Size较大),Prefill阶段计算耗时高于显存传输的耗时,因此该环节的耗时(也被称为First token latency)通常是由算力芯片的算力能力决定,Prefill阶段属于算力密集场景。

参考表2,由于H20的算力较弱,在Prefill环节H20耗时明显高于其他三款芯片。这也意味着在使用H20进行推理时,用户从完成问题输入、到看到问题第一个文字的输出,中间需要等待较长时间。

3Decode是显存带宽密集场景,H20性能表现优异

在Prefill阶段结束后,大模型开始生成回答,该过程被称为Decode。由于Decode过程中,回答的Tokens必须逐个生成,且每个Token生成过程中,都需要重复一次参数从HBM向算力芯片的传输,且Decode阶段不断扩大的KV Cache也需要在HBM和算力芯片间往复传输,使得Decode阶段通常显存传输耗时明显高于计算耗时;Decode阶段属于显存带宽密集场景,更高的显存带宽对加速Decode至关重要。

参考表3,由于H20具有较高的显存带宽,在Decode阶段H20每生成1个Token所需时间低于A100、H100,这也使得H20在整个推理过程具有较高的推理速度。

4H20在多数推理场景中性能优异、性价比高,但也存在特殊情况

多数应用场景下,站在H20推理使用用户角度,在输入问题后,等待界面出现第一个回答文字的等待时间会较长(相较于使用A100/H100/H200进行推理),但考虑到这一时长也仅为2.8s,对用户使用体验的负面影响是有限的。(备注:实际用户等待时间还包括网络延迟、用户端侧延迟等)

而在回答开始后,使用H20的用户会体验到回答生成速度较快(相较于使用A100/H100进行推理),每秒57个Tokens的生成速度明显高于人类阅读速度。

站在H20持有人角度,持有人更关心一个推理系统Throughput的速度,因为对相同一套推理系统或成本相近的不同推理系统,平均Throughput(Tokens/s)越高,意味着每Token所平摊的系统硬件成本越低。从性价比角度看,假设H20与H100售价相近,在多数情况下,H20也有望成为性价比更高的推理芯片选择。

以上关于H20优异的推理性能的分析,是建立在较常见的推理场景(回答文字大于等于提问文字),在一些特殊推理场景下,例如输入一段长文字并输出长文字核心观点(对应较长的输入和较短的输出),参考表5,站在用户角度,从输入问题到出现答案的耗时会较为漫长(超过20s);站在持有人角度,推理全程H20的推理速度会下降至明显低于A100。

因此,广发电子认为H20的推理性能优异、推理性价比高,适用于大部分推理场景,而非全部场景;H20实际的推理性能及性价比,需要结合实际使用场景、售价等综合评判。

编辑:芯智讯-浪客剑 资料来源:广发电子

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春节前最后一场记者会 外交部给中外记者送福袋

春节前最后一场记者会 外交部给中外记者送福袋

看看新闻Knews
2026-02-13 18:36:33
中戏风波升级!4位主任都落马,牵涉闫学晶易烊千玺等十多位明星

中戏风波升级!4位主任都落马,牵涉闫学晶易烊千玺等十多位明星

古希腊掌管松饼的神
2026-02-13 16:24:17
王鑫被查,曾出演《风筝》《大江大河》《生万物》等经典影视剧

王鑫被查,曾出演《风筝》《大江大河》《生万物》等经典影视剧

中国网
2026-02-13 11:39:54
有手机标称9000mAh实际连感觉7000mAh都没有 华为:我们标称多少就能用多少

有手机标称9000mAh实际连感觉7000mAh都没有 华为:我们标称多少就能用多少

快科技
2026-02-13 12:33:36
又一个恶魔医生!诈骗94名患者205万,手术中植入不必要医疗器械

又一个恶魔医生!诈骗94名患者205万,手术中植入不必要医疗器械

风向观察
2026-02-12 21:02:01
一家三口驾车回家过年,凌晨高速撞上横穿的野猪,野猪被撞后逃离现场,当事人:车损严重,猪毛还卡在车轮

一家三口驾车回家过年,凌晨高速撞上横穿的野猪,野猪被撞后逃离现场,当事人:车损严重,猪毛还卡在车轮

潇湘晨报
2026-02-13 12:31:40
华系第一境启境登场,为何说它是马年最被看好的黑马?

华系第一境启境登场,为何说它是马年最被看好的黑马?

道哥说车
2026-02-13 15:22:41
70岁大爷相亲,要求女方能和他进厂打工:我的目标是4年存下80万

70岁大爷相亲,要求女方能和他进厂打工:我的目标是4年存下80万

烙任情感
2026-02-12 16:12:21
上海大动作!大都市圈规划刚公示!这5个地方身价即将暴涨!

上海大动作!大都市圈规划刚公示!这5个地方身价即将暴涨!

小怪吃美食
2026-02-12 10:31:02
78岁郑少秋丧女两年至今神隐,汪明荃也难联络,曾给许绍雄送花牌

78岁郑少秋丧女两年至今神隐,汪明荃也难联络,曾给许绍雄送花牌

查尔菲的笔记
2026-02-12 19:25:00
败光百亿消失?花大价钱娶车晓的前山西首富李兆会,到底去了哪里

败光百亿消失?花大价钱娶车晓的前山西首富李兆会,到底去了哪里

无心小姐姐
2026-02-04 08:07:58
垃圾不够烧?真相可能打脸了

垃圾不够烧?真相可能打脸了

大道微言
2026-02-10 19:40:32
女子故意扮丑去相亲,男子一眼看中,女子吃惊:他是不是太饿了

女子故意扮丑去相亲,男子一眼看中,女子吃惊:他是不是太饿了

丫头舫
2026-02-10 22:18:05
女子看望父母,礼品被哥哥踹飞,哥哥:拿这点东西,咋好意思来?

女子看望父母,礼品被哥哥踹飞,哥哥:拿这点东西,咋好意思来?

老猫观点
2026-02-13 08:20:38
造73年耻辱纪录!新援建功,阿尔瓦雷斯传射,马竞4-0血洗巴萨

造73年耻辱纪录!新援建功,阿尔瓦雷斯传射,马竞4-0血洗巴萨

钉钉陌上花开
2026-02-13 06:05:03
“见过最廉价的兜底”,家长让儿子在购物车里吃烤鸡,被全网嘲笑

“见过最廉价的兜底”,家长让儿子在购物车里吃烤鸡,被全网嘲笑

妍妍教育日记
2026-02-13 16:34:42
教育部1号文件定调:2026高考革命来袭!刷题时代正式终结

教育部1号文件定调:2026高考革命来袭!刷题时代正式终结

南京择校
2026-02-12 04:52:07
闹大了!上海一家长哭诉,孩子刚上大学提出要把20多万压岁钱拿走

闹大了!上海一家长哭诉,孩子刚上大学提出要把20多万压岁钱拿走

火山詩话
2026-02-13 07:30:50
体操冠军遭体罚索财后跳楼续:聊天记录曝光,要4万退还家属1.7万

体操冠军遭体罚索财后跳楼续:聊天记录曝光,要4万退还家属1.7万

离离言几许
2026-02-12 22:36:10
你在体制内捅过的最大篓子是啥? 网友:人怎么能捅这么大的篓子

你在体制内捅过的最大篓子是啥? 网友:人怎么能捅这么大的篓子

带你感受人间冷暖
2026-02-13 10:06:39
2026-02-13 19:24:49
芯智讯 incentive-icons
芯智讯
聚焦科技万象,报道前沿资讯。
8186文章数 32083关注度
往期回顾 全部

数码要闻

不用多花钱!锐龙7 9800X3D简单设置:性能直逼9850X3D

头条要闻

首次访华前 德国总理默茨在发言中将中欧对比引发关注

头条要闻

首次访华前 德国总理默茨在发言中将中欧对比引发关注

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

家居
数码
手机
教育
公开课

家居要闻

中古雅韵 乐韵伴日常

数码要闻

银昕推出2U Single服务器电源:ATX 3.1金牌,直出线设计

手机要闻

存储涨价干的好事:今年手机厂商崩溃 中低端机型越卖越亏

教育要闻

“贫民窟的太子爷”,家长晒4个女儿1个儿子,细节暴露家教低劣

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版