推理芯片：英伟达第一，AMD第二|内存|amd|gpu|英特尔|知名企业|大语言模型|nvidia

分享至

如果您希望可以时常见面，欢迎标星收藏哦~

来源：内容编译自IEEE，谢谢。

在 MLCommons 发布的最新一轮机器学习基准测试结果中，基于 Nvidia 全新 Blackwell GPU 架构构建的计算机表现优于其他所有计算机。但 AMD 的最新 Instinct GPU MI325 却与其竞争对手Nvidia H200相媲美。两者的可比结果主要来自对较小规模大型语言模型之一Llama2 70B（700 亿个参数）的测试。然而，为了跟上快速变化的人工智能格局，MLPerf增加了三个新基准测试，以更好地反映机器学习的发展方向。

MLPerf 针对机器学习系统进行基准测试，旨在提供计算机系统之间的同类比较。提交者使用自己的软件和硬件，但底层神经网络必须相同。目前共有 11 个服务器基准测试，今年又增加了 3 个。

MLPerf Inference 联合主席 Miro Hodak 表示，“很难跟上该领域的快速发展”。ChatGPT直到 2022 年底才出现，OpenAI于去年 9 月推出了其首个可以推理任务的大型语言模型 (LLM)，LLM 呈指数级增长——GPT3 拥有 1750 亿个参数，而 GPT4 被认为拥有近 2 万亿个参数。由于这些飞速的创新，“我们加快了将新基准引入该领域的步伐，”Hodak 说。

新的基准测试包括两个 LLM。流行且相对紧凑的 Llama2 70B 已经是成熟的 MLPerf 基准测试，但该联盟希望能够模仿人们今天对聊天机器人的期望的响应能力。因此，新的基准测试“Llama2-70B Interactive”收紧了要求。在任何情况下，计算机每秒必须至少产生 25 个令牌，并且开始回答的时间不能超过 450 毫秒。

MLPerf 看到了“代理人工智能” 的兴起——能够推理复杂任务的网络——试图测试一款具备部分所需特征的 LLM。他们选择了 Llama3.1 405B 来完成这项工作。这款 LLM 拥有所谓的宽上下文窗口。这是衡量它可以同时接收多少信息（文档、代码示例等）的标准。对于 Llama3.1 405B，这个数字是 128,000 个 token，是 Llama2 70B 的 30 多倍。

最后一个新基准称为 RGAT，即所谓的图注意力网络。它的作用是对网络中的信息进行分类。例如，用于测试 RGAT 的数据集由科学论文组成，这些论文都与作者、机构和研究领域之间存在关系，共计 2 TB 的数据。RGAT 必须将论文分类为近 3,000 个主题。

Nvidia通过自己的提交以及戴尔、谷歌和超微等 15 家合作伙伴的提交，继续在 MLPerf 基准测试中占据主导地位。其第一代和第二代Hopper架构 GPU（H100 和内存增强型 H200）都表现强劲。Nvidia 加速计算产品总监Dave Salvator表示：“去年，我们的性能又提高了 60%”，Hopper 于 2022 年投入生产。“在性能方面，它仍有一些提升空间。”

但真正占主导地位的是 Nvidia 的Blackwell架构 GPU B200。“唯一比 Hopper 更快的就是 Blackwell，”Salvator 说。B200 的高带宽内存比 H200 多 36%，但更重要的是，它可以使用精度低至 4 位的数字（而不是 Hopper 首创的 8 位）来执行关键的机器学习数学运算。精度较低的计算单元更小，因此更适合 GPU，从而加快 AI 计算速度。

在 Llama3.1 405B 基准测试中，Supermicro 的 8 核 B200 系统每秒传输的令牌数几乎是思科8 核 H200 系统的四倍。在 Llama2 70B 交互版中，同样的 Supermicro 系统的速度是最快的 H200 计算机的三倍。

Nvidia 使用 Blackwell GPU 和Grace CPU 的组合（称为 GB200）来展示其 NVL72 数据链路如何能够将多台服务器集成到一个机架中，从而使它们的性能如同一台巨型 GPU 一样。该公司向记者分享了一个未经证实的结果，一整架基于 GB200 的计算机在 Llama2 70B 上每秒可交付 869,200 个tokens。本轮 MLPerf 中报告的最快系统是 Nvidia B200 服务器，每秒可交付 98,443 个tokens。

布莱克威尔，本能结果

Nvidia 使用 Blackwell GPU 和Grace CPU 的组合（称为 GB200）来展示其 NVL72 数据链路如何能够将多台服务器集成到一个机架中，从而使它们的性能如同一台巨型 GPU 一样。该公司向记者分享了一个未经证实的结果，一整架基于 GB200 的计算机在 Llama2 70B 上每秒可交付 869,200 个令牌。本轮 MLPerf 中报告的最快系统是 Nvidia B200 服务器，每秒可交付 98,443 个令牌。

AMD将其最新的 Instinct GPUMI325X 定位为性能可与 Nvidia 的 H200 相媲美的产品。MI325X 拥有与其前身 MI300 相同的架构，但增加了更多的高带宽内存和内存带宽 — 256 GB 和 6 TB/秒（分别提高了 33% 和 13%）。

添加更多内存是为了处理越来越大的 LLM。“更大的模型能够利用这些 GPU，因为模型可以装入单个 GPU 或单个服务器中，” AMD 数据中心 GPU 营销总监Mahesh Balasubramanian说。“因此，你不必承担从一个 GPU 到另一个 GPU 或从一个服务器到另一个服务器的通信开销。当你消除这些通信时，延迟会大大改善。”AMD 能够通过软件优化利用额外的内存，将 DeepSeek-R1 的推理速度提高八倍。

在 Llama2 70B 测试中，八 GPU MI325X 计算机的速度与同样配置的 H200 系统相比，只相差 3% 到 7%。在图像生成方面，MI325X 系统的速度与 Nvidia H200 计算机相比，只相差 10% 以内。

AMD 本轮另一个值得注意的成绩来自其合作伙伴 Mangoboost，通过在四台计算机上进行计算，它在 Llama2 70B 测试中表现出了近四倍的性能。

英特尔历来在推理竞赛中推出仅使用 CPU 的系统，以表明对于某些工作负载，您实际上并不需要 GPU。这次看到了来自英特尔 Xeon 6 芯片的首批数据，该芯片以前称为 Granite Rapids，采用英特尔的 3 纳米工艺制造。在每秒 40,285 个样本的情况下，双 Xeon 6 计算机的最佳图像识别结果约为配备两个 Nvidia H100 的思科计算机性能的三分之一。

与 2024 年 10 月的 Xeon 5 结果相比，新 CPU 在该基准测试中提升了约 80%，在物体检测和医学成像方面的表现更是大幅提升。自 2021 年首次提交 Xeon 结果（Xeon 3）以来，该公司在 Resnet 上的性能提升了 11 倍。

目前，英特尔似乎已经退出了 AI 加速器芯片之争。其 Nvidia H100 的替代品Gaudi 3既未出现在新的 MLPerf 结果中，也未出现在去年 10 月发布的 4.1 版中。Gaudi 3 的发布时间晚于计划，因为其软件尚未准备好。在英特尔愿景 2025 （该公司仅限受邀参加的客户会议）的开幕词中，新任首席执行官陈立武 (Lip-Bu Tan) 似乎为英特尔在 AI 方面的努力表示歉意。他告诉与会者： “我对我们目前的状况不满意。你们也不满意。我清楚地听到了你们的声音。我们正在努力建立一个有竞争力的系统。这不会在一夜之间发生，但我们会为你们实现目标。”

谷歌的TPU v6e 芯片也表现出色，尽管结果仅限于图像生成任务。在 2024 年 10 月的结果中，4-TPU 系统以每秒 5.48 次查询的速度比使用其前身 TPU v5e 的类似计算机提高了 2.5 倍。即便如此，每秒 5.48 次查询的速度与使用 Nvidia H100 的类似尺寸的联想计算机大致相当。

https://spectrum.ieee.org/ai-inference

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4083期内容，欢迎关注。

『半导体第一垂直媒体』

实时专业原创深度

公众号ID：icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.