网易首页 > 网易号 > 正文 申请入驻

推理芯片:英伟达第一,AMD第二

0
分享至

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容编译自IEEE,谢谢。

在 MLCommons 发布的最新一轮机器学习基准测试结果中,基于 Nvidia 全新 Blackwell GPU 架构构建的计算机表现优于其他所有计算机。但 AMD 的最新 Instinct GPU MI325 却与其竞争对手Nvidia H200相媲美。两者的可比结果主要来自对较小规模大型语言模型之一Llama2 70B(700 亿个参数)的测试。然而,为了跟上快速变化的人工智能格局,MLPerf增加了三个新基准测试,以更好地反映机器学习的发展方向。

MLPerf 针对机器学习系统进行基准测试,旨在提供计算机系统之间的同类比较。提交者使用自己的软件和硬件,但底层神经网络必须相同。目前共有 11 个服务器基准测试,今年又增加了 3 个。

MLPerf Inference 联合主席 Miro Hodak 表示,“很难跟上该领域的快速发展”。ChatGPT直到 2022 年底才出现,OpenAI于去年 9 月推出了其首个可以推理任务的大型语言模型 (LLM),LLM 呈指数级增长——GPT3 拥有 1750 亿个参数,而 GPT4 被认为拥有近 2 万亿个参数。由于这些飞速的创新,“我们加快了将新基准引入该领域的步伐,”Hodak 说。

新的基准测试包括两个 LLM。流行且相对紧凑的 Llama2 70B 已经是成熟的 MLPerf 基准测试,但该联盟希望能够模仿人们今天对聊天机器人的期望的响应能力。因此,新的基准测试“Llama2-70B Interactive”收紧了要求。在任何情况下,计算机每秒必须至少产生 25 个令牌,并且开始回答的时间不能超过 450 毫秒。

在 MLCommons 发布的最新一轮机器学习基准测试结果中,基于 Nvidia 全新 Blackwell GPU 架构构建的计算机表现优于其他所有计算机。但 AMD 的最新 Instinct GPU MI325 却与其竞争对手Nvidia H200相媲美。两者的可比结果主要来自对较小规模大型语言模型之一Llama2 70B(700 亿个参数)的测试。然而,为了跟上快速变化的人工智能格局,MLPerf增加了三个新基准测试,以更好地反映机器学习的发展方向。

MLPerf 针对机器学习系统进行基准测试,旨在提供计算机系统之间的同类比较。提交者使用自己的软件和硬件,但底层神经网络必须相同。目前共有 11 个服务器基准测试,今年又增加了 3 个。

MLPerf Inference 联合主席 Miro Hodak 表示,“很难跟上该领域的快速发展”。ChatGPT直到 2022 年底才出现,OpenAI于去年 9 月推出了其首个可以推理任务的大型语言模型 (LLM),LLM 呈指数级增长——GPT3 拥有 1750 亿个参数,而 GPT4 被认为拥有近 2 万亿个参数。由于这些飞速的创新,“我们加快了将新基准引入该领域的步伐,”Hodak 说。

新的基准测试包括两个 LLM。流行且相对紧凑的 Llama2 70B 已经是成熟的 MLPerf 基准测试,但该联盟希望能够模仿人们今天对聊天机器人的期望的响应能力。因此,新的基准测试“Llama2-70B Interactive”收紧了要求。在任何情况下,计算机每秒必须至少产生 25 个令牌,并且开始回答的时间不能超过 450 毫秒。

MLPerf 看到了“代理人工智能” 的兴起——能够推理复杂任务的网络——试图测试一款具备部分所需特征的 LLM。他们选择了 Llama3.1 405B 来完成这项工作。这款 LLM 拥有所谓的宽上下文窗口。这是衡量它可以同时接收多少信息(文档、代码示例等)的标准。对于 Llama3.1 405B,这个数字是 128,000 个 token,是 Llama2 70B 的 30 多倍。

最后一个新基准称为 RGAT,即所谓的图注意力网络。它的作用是对网络中的信息进行分类。例如,用于测试 RGAT 的数据集由科学论文组成,这些论文都与作者、机构和研究领域之间存在关系,共计 2 TB 的数据。RGAT 必须将论文分类为近 3,000 个主题。

Nvidia通过自己的提交以及戴尔、谷歌和超微等 15 家合作伙伴的提交,继续在 MLPerf 基准测试中占据主导地位。其第一代和第二代Hopper架构 GPU(H100 和内存增强型 H200)都表现强劲。Nvidia 加速计算产品总监Dave Salvator表示:“去年,我们的性能又提高了 60%”,Hopper 于 2022 年投入生产。“在性能方面,它仍有一些提升空间。”

但真正占主导地位的是 Nvidia 的Blackwell架构 GPU B200。“唯一比 Hopper 更快的就是 Blackwell,”Salvator 说。B200 的高带宽内存比 H200 多 36%,但更重要的是,它可以使用精度低至 4 位的数字(而不是 Hopper 首创的 8 位)来执行关键的机器学习数学运算。精度较低的计算单元更小,因此更适合 GPU,从而加快 AI 计算速度。

在 Llama3.1 405B 基准测试中,Supermicro 的 8 核 B200 系统每秒传输的令牌数几乎是思科8 核 H200 系统的四倍。在 Llama2 70B 交互版中,同样的 Supermicro 系统的速度是最快的 H200 计算机的三倍。

Nvidia 使用 Blackwell GPU 和Grace CPU 的组合(称为 GB200)来展示其 NVL72 数据链路如何能够将多台服务器集成到一个机架中,从而使它们的性能如同一台巨型 GPU 一样。该公司向记者分享了一个未经证实的结果,一整架基于 GB200 的计算机在 Llama2 70B 上每秒可交付 869,200 个tokens。本轮 MLPerf 中报告的最快系统是 Nvidia B200 服务器,每秒可交付 98,443 个tokens。

在 MLCommons 发布的最新一轮机器学习基准测试结果中,基于 Nvidia 全新 Blackwell GPU 架构构建的计算机表现优于其他所有计算机。但 AMD 的最新 Instinct GPU MI325 却与其竞争对手Nvidia H200相媲美。两者的可比结果主要来自对较小规模大型语言模型之一Llama2 70B(700 亿个参数)的测试。然而,为了跟上快速变化的人工智能格局,MLPerf增加了三个新基准测试,以更好地反映机器学习的发展方向。

MLPerf 针对机器学习系统进行基准测试,旨在提供计算机系统之间的同类比较。提交者使用自己的软件和硬件,但底层神经网络必须相同。目前共有 11 个服务器基准测试,今年又增加了 3 个。

MLPerf Inference 联合主席 Miro Hodak 表示,“很难跟上该领域的快速发展”。ChatGPT直到 2022 年底才出现,OpenAI于去年 9 月推出了其首个可以推理任务的大型语言模型 (LLM),LLM 呈指数级增长——GPT3 拥有 1750 亿个参数,而 GPT4 被认为拥有近 2 万亿个参数。由于这些飞速的创新,“我们加快了将新基准引入该领域的步伐,”Hodak 说。

新的基准测试包括两个 LLM。流行且相对紧凑的 Llama2 70B 已经是成熟的 MLPerf 基准测试,但该联盟希望能够模仿人们今天对聊天机器人的期望的响应能力。因此,新的基准测试“Llama2-70B Interactive”收紧了要求。在任何情况下,计算机每秒必须至少产生 25 个令牌,并且开始回答的时间不能超过 450 毫秒。

MLPerf 看到了“代理人工智能” 的兴起——能够推理复杂任务的网络——试图测试一款具备部分所需特征的 LLM。他们选择了 Llama3.1 405B 来完成这项工作。这款 LLM 拥有所谓的宽上下文窗口。这是衡量它可以同时接收多少信息(文档、代码示例等)的标准。对于 Llama3.1 405B,这个数字是 128,000 个 token,是 Llama2 70B 的 30 多倍。

最后一个新基准称为 RGAT,即所谓的图注意力网络。它的作用是对网络中的信息进行分类。例如,用于测试 RGAT 的数据集由科学论文组成,这些论文都与作者、机构和研究领域之间存在关系,共计 2 TB 的数据。RGAT 必须将论文分类为近 3,000 个主题。

布莱克威尔,本能结果

Nvidia通过自己的提交以及戴尔、谷歌和超微等 15 家合作伙伴的提交,继续在 MLPerf 基准测试中占据主导地位。其第一代和第二代Hopper架构 GPU(H100 和内存增强型 H200)都表现强劲。Nvidia 加速计算产品总监Dave Salvator表示:“去年,我们的性能又提高了 60%”,Hopper 于 2022 年投入生产。“在性能方面,它仍有一些提升空间。”

但真正占主导地位的是 Nvidia 的Blackwell架构 GPU B200。“唯一比 Hopper 更快的就是 Blackwell,”Salvator 说。B200 的高带宽内存比 H200 多 36%,但更重要的是,它可以使用精度低至 4 位的数字(而不是 Hopper 首创的 8 位)来执行关键的机器学习数学运算。精度较低的计算单元更小,因此更适合 GPU,从而加快 AI 计算速度。

在 Llama3.1 405B 基准测试中,Supermicro 的 8 核 B200 系统每秒传输的令牌数几乎是思科8 核 H200 系统的四倍。在 Llama2 70B 交互版中,同样的 Supermicro 系统的速度是最快的 H200 计算机的三倍。

Nvidia 使用 Blackwell GPU 和Grace CPU 的组合(称为 GB200)来展示其 NVL72 数据链路如何能够将多台服务器集成到一个机架中,从而使它们的性能如同一台巨型 GPU 一样。该公司向记者分享了一个未经证实的结果,一整架基于 GB200 的计算机在 Llama2 70B 上每秒可交付 869,200 个令牌。本轮 MLPerf 中报告的最快系统是 Nvidia B200 服务器,每秒可交付 98,443 个令牌。

AMD将其最新的 Instinct GPUMI325X 定位为性能可与 Nvidia 的 H200 相媲美的产品。MI325X 拥有与其前身 MI300 相同的架构,但增加了更多的高带宽内存和内存带宽 — 256 GB 和 6 TB/秒(分别提高了 33% 和 13%)。

添加更多内存是为了处理越来越大的 LLM。“更大的模型能够利用这些 GPU,因为模型可以装入单个 GPU 或单个服务器中,” AMD 数据中心 GPU 营销总监Mahesh Balasubramanian说。“因此,你不必承担从一个 GPU 到另一个 GPU 或从一个服务器到另一个服务器的通信开销。当你消除这些通信时,延迟会大大改善。”AMD 能够通过软件优化利用额外的内存,将 DeepSeek-R1 的推理速度提高八倍。

在 Llama2 70B 测试中,八 GPU MI325X 计算机的速度与同样配置的 H200 系统相比,只相差 3% 到 7%。在图像生成方面,MI325X 系统的速度与 Nvidia H200 计算机相比,只相差 10% 以内。

AMD 本轮另一个值得注意的成绩来自其合作伙伴 Mangoboost,通过在四台计算机上进行计算,它在 Llama2 70B 测试中表现出了近四倍的性能。

英特尔历来在推理竞赛中推出仅使用 CPU 的系统,以表明对于某些工作负载,您实际上并不需要 GPU。 这次看到了来自英特尔 Xeon 6 芯片的首批数据,该芯片以前称为 Granite Rapids,采用英特尔的 3 纳米工艺制造。 在每秒 40,285 个样本的情况下,双 Xeon 6 计算机的最佳图像识别结果约为配备两个 Nvidia H100 的思科计算机性能的三分之一。

与 2024 年 10 月的 Xeon 5 结果相比,新 CPU 在该基准测试中提升了约 80%,在物体检测和医学成像方面的表现更是大幅提升。自 2021 年首次提交 Xeon 结果(Xeon 3)以来,该公司在 Resnet 上的性能提升了 11 倍。

目前,英特尔似乎已经退出了 AI 加速器芯片之争。其 Nvidia H100 的替代品Gaudi 3既未出现在新的 MLPerf 结果中,也未出现在去年 10 月发布的 4.1 版中。Gaudi 3 的发布时间晚于计划,因为其软件尚未准备好。在英特尔愿景 2025 (该公司仅限受邀参加的客户会议)的开幕词中,新任首席执行官陈立武 (Lip-Bu Tan) 似乎为英特尔在 AI 方面的努力表示歉意。他告诉与会者: “我对我们目前的状况不满意。你们也不满意。我清楚地听到了你们的声音。我们正在努力建立一个有竞争力的系统。这不会在一夜之间发生,但我们会为你们实现目标。”

谷歌的TPU v6e 芯片也表现出色,尽管结果仅限于图像生成任务。在 2024 年 10 月的结果中,4-TPU 系统以每秒 5.48 次查询的速度比使用其前身 TPU v5e 的类似计算机提高了 2.5 倍。即便如此,每秒 5.48 次查询的速度与使用 Nvidia H100 的 类似尺寸的联想计算机大致相当。

https://spectrum.ieee.org/ai-inference

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4083期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中小学将改“522学制”?官方最新回应来了,落地时间表明确

中小学将改“522学制”?官方最新回应来了,落地时间表明确

慧眼看世界哈哈
2025-12-19 11:50:03
中方杀鸡儆猴,拿日本反华首恶开刀,不到24小时,联合国爆发激战

中方杀鸡儆猴,拿日本反华首恶开刀,不到24小时,联合国爆发激战

蛙斯基娱乐中
2025-12-22 01:34:32
凯恩收官战压哨破门!78战独造百球,再创德甲神纪录,1年轰60球

凯恩收官战压哨破门!78战独造百球,再创德甲神纪录,1年轰60球

奥拜尔
2025-12-22 02:35:08
放弃中国选西班牙,如今高铁无法交付,这个欧洲小国后悔莫及!

放弃中国选西班牙,如今高铁无法交付,这个欧洲小国后悔莫及!

芳芳历史烩
2025-12-20 23:09:29
扬州市纪委监委通报,陆炜被查

扬州市纪委监委通报,陆炜被查

扬子晚报
2025-12-21 22:04:50
54岁陈松伶减重27斤,皮松脸黑括号纹很深,和老公站一起像两代人

54岁陈松伶减重27斤,皮松脸黑括号纹很深,和老公站一起像两代人

娱圈小愚
2025-12-19 10:03:35
索帅力荐的3人全成巨星,硬塞的3人却一地鸡毛,谁是最大败笔?

索帅力荐的3人全成巨星,硬塞的3人却一地鸡毛,谁是最大败笔?

澜归序
2025-12-18 00:52:47
事实证明!陪马克龙回国的巩俐,可能已经走上了另一条大道

事实证明!陪马克龙回国的巩俐,可能已经走上了另一条大道

梦史
2025-12-13 11:46:11
一年左右跌了300万,在全上海,这是一个非常危险的信号

一年左右跌了300万,在全上海,这是一个非常危险的信号

流苏晚晴
2025-10-30 18:08:51
已婚男星的小三发激情视频给原配!

已婚男星的小三发激情视频给原配!

八卦疯叔
2025-12-20 11:14:49
1984 年,南京博物院院长姚迁,手握一本《文物保护法》在办公室自缢

1984 年,南京博物院院长姚迁,手握一本《文物保护法》在办公室自缢

法律学堂
2025-12-20 00:08:21
性能力与寿命关系被发现!男性40岁后,睾酮越高,死亡风险越低

性能力与寿命关系被发现!男性40岁后,睾酮越高,死亡风险越低

药师说健康
2025-12-05 09:47:10
广东胜青岛!奎因爆发,张文逸奇兵,萨姆纳被高估,徐杰不可或缺

广东胜青岛!奎因爆发,张文逸奇兵,萨姆纳被高估,徐杰不可或缺

邹维体育
2025-12-21 21:17:23
央视怒批,国务院点名封杀!这几位蒙骗老百姓的大网红,彻底凉凉

央视怒批,国务院点名封杀!这几位蒙骗老百姓的大网红,彻底凉凉

大鱼简科
2025-09-02 19:34:00
1月1日起:农村电价一夜大改!每度电多少?多人口家庭将省一笔!

1月1日起:农村电价一夜大改!每度电多少?多人口家庭将省一笔!

陈博世财经
2025-12-21 10:19:58
人口告别世界第一?二孩催生无效之后,国家终于朝着住房出手了!

人口告别世界第一?二孩催生无效之后,国家终于朝着住房出手了!

徐徐道史
2025-12-21 10:49:14
脸僵认不出!反派专业户新剧变脸!曾否认医美,病因和李连杰一样

脸僵认不出!反派专业户新剧变脸!曾否认医美,病因和李连杰一样

黔乡小姊妹
2025-12-20 08:20:18
周琦一家近照,大6岁妻子身材好,儿子也爱篮球,29岁身家过亿

周琦一家近照,大6岁妻子身材好,儿子也爱篮球,29岁身家过亿

篮球看比赛
2025-12-21 13:07:53
燕郊房子腰斩成“打腿斩”,当年首付120万如今全打水漂

燕郊房子腰斩成“打腿斩”,当年首付120万如今全打水漂

青眼财经
2025-12-21 23:38:13
“不要再查了,再查我怕过两天南京博物院库房就要着火了!”

“不要再查了,再查我怕过两天南京博物院库房就要着火了!”

迷世书童H9527
2025-12-18 10:00:25
2025-12-22 03:55:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12511文章数 34731关注度
往期回顾 全部

科技要闻

生态适配已超95% 鸿蒙下一关:十万个应用

头条要闻

洛熙爸爸看1000遍法医视频找女儿 发解剖台画面被禁播

头条要闻

洛熙爸爸看1000遍法医视频找女儿 发解剖台画面被禁播

体育要闻

勇士火箭赢球:王牌之外的答案?

娱乐要闻

星光大赏太尴尬!抢话挡镜头,场地还小

财经要闻

老房子“强制体检”,政府出手了

汽车要闻

-30℃,标致508L&凡尔赛C5 X冰雪"大考"

态度原创

教育
本地
家居
健康
亲子

教育要闻

山东理工制药专业近三年分数线揭秘!稳操胜券

本地新闻

云游安徽|访黄山云海古村,读一城山水风骨

家居要闻

高端私宅 理想隐居圣地

这些新疗法,让化疗不再那么痛苦

亲子要闻

5个月婴儿心脏手术变悲剧:医疗疏忽引发巨大反思!

无障碍浏览 进入关怀版