Nvidia在MLPerf基准测试中展示Blackwell Ultra性能|gpu|amd|英伟达|新模型|ultra|nvidia

Nvidia在MLPerf基准测试中展示Blackwell Ultra性能

2025-11-17 08:11:27　来源: Ai时代前沿

北京举报

分享至

MLCommons本周发布了最新MLPerf基准测试结果，Nvidia GPU良好的表现一如既往，其中最亮眼的则是最新的Nvidia Blackwell Ultra GPU，结果令人印象深刻。

在MLCommons发布的MLPerf 5.1基准测试的93个项目中，74个系统包含Nvidia Blackwell GPU，而19个系统配备了各种AMD Instinct GPU。Nvidia系统在MLPerf 5.1中包含的七个AI模型中均排名第一，这些模型涵盖了大型语言模型（LLM）、图像生成、推荐系统、计算机视觉和图神经网络。

比Nvidia的胜利更重要的是有机会展示其最新、最强大的设备——Blackwell Ultra GB300 GPU，该GPU于2024年3月推出，两个月前才开始批量出货。

基准测试显示，Blackwell Ultra GB300能够提供大约两倍于Blackwell GB200的FP4性能，是Nvidia于2022年3月推出并于当年晚些时候开始出货的Hopper H100 GPU的四至五倍。

例如，在Llama 3.1 405B预训练基准测试中，配备512个Blackwell Ultra GB300 GPU的系统能够在64.6分钟内完成测试。这大约是配备512个Blackwell GB200 GPU的系统在MLPerf 5.0基准测试中完成任务的速度的两倍，也比同样在MLPerf 1.0上的等效H100系统快4倍。

在涉及Llama 2 70B LoRA模型的微调基准测试中，8 GPU Blackwell Ultra GB300设置将在8.5分钟内完成任务，这比在MLPerf 4.1上运行的8 GPU Hopper H100设置快5倍，比在MLPerf 5.0上运行的Blackwell GB200等效设置快1.6倍。

虽然MLPerf版本每年都在变化，但各个基准保持一致，从而能够进行公平的比较。对于MLPerf 5.1，MLCommons抛弃了两个旧模型，BERT Large and Stable Diffusion，并用Llama 3.1 8B和FLUX.1（用于图像生成）替换了它们。这种演变也反映了与人工智能训练工作负载相比，人工智能推理工作负载的重要性日益增加。

MLCommons MLPerf负责人David Kanter在一篇博客文章中表示：“总的来说，向GenAI基准提交的数据增加以及这些测试中记录的可观的性能改进表明，大家非常关注GenAI场景，在某种程度上以牺牲AI技术的其他潜在应用为代价。”

这些测试还使Nvidia能够展示Blackwell Ultra GB300在使用超低精度4位浮点数据格式的新兴AI工作负载上的性能。6月，Nvidia推出了第二种FP4数据格式NVFP4，以配合Blackwell和Blackwell Ultra现有的MXFP4格式。

在周一的新闻发布会上，Nvidia分享了记录NVPF4格式与MXFP4相比准确度的数据。虽然两者都不如16位浮点格式bfloat16（BF16）准确，但NVPF4显示的损失比MXFP4少，高达8000亿个Token，之后两种格式的损失率都会加速。

Nvidia加速计算主管Dave Salvator表示：“基本的结论是，我们通过自己的经验观察发现，NVFP4实际上比MXFP4提供了更好的准确性，这就是为什么我们不仅倾向于在推理方面，而且在训练方面使用它。”

Salvator还指出，Blackwell Ultra拥有279GB的HBM3内存，可提供15petaflops的NVFP4计算，英伟达配置了一组配备5120个GPU的GB300 NVL72系统，通过800Gbps Quantum-X800 InfiniBand互联连接。它能够在10.0分钟内完成Llama 3.1 405B的预训练工作负载，这比Nvidia之前的系统快2.7倍，Nvidia以前的系统有大约2500个GPU。

Salvator说：“正如你所看到的，当我们从512个GPU增加到5120个GPU时，我们基本上能够实现约85%的缩放效率。”“计算并不是基准测试中的唯一因素。还有其他因素。有内存移动、I/O、网络通信，还有其他因素在起作用。因此，我们实现了85%的扩展效率，同时基本上将GPU数量增加了10倍，这一事实真的令人印象深刻。”

Nvidia在本轮新增的两个基准测试中创造了性能记录，包括Llama 3.1 8B和FLUX.1。Nvidia能够在5.2分钟内用512个Blackwell Ultra GPU组成的系统训练Llama 3.1 8B模型。它能够在由1152个Blackwell CPU组成的系统上以12.5分钟的创纪录时间完成FLUX.1图像生成器基准测试。该公司现有的图神经网络、对象检测和推荐系统测试记录仍然有效。

在人工智能时代，一个训练或微调模型，然后过渡到生产（即推理）模式的速度将决定竞争能力。正如Salvator所指出的那样，Nvidia的设备在人工智能游戏的每个阶段都占据主导地位。

他说：“训练领域的性能提升转化为模型的更快收敛。模型收敛越快，模型部署得越快，组织获得投资回报率的速度就越快，这最终是许多组织的目标，即能够以一种实际上有利可图的方式部署这些东西。”

与 Ai 时代前沿合作，将大门向更多普通用户敞开！无论你是对新技术充满好奇心的爱好者，还是希望提升自己技能的职场人士，这里都有适合你的课程和资源。欢迎扫码加入我们！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.