MLCommons本周发布了最新MLPerf基准测试结果,Nvidia GPU良好的表现一如既往,其中最亮眼的则是最新的Nvidia Blackwell Ultra GPU,结果令人印象深刻。
![]()
在MLCommons发布的MLPerf 5.1基准测试的93个项目中,74个系统包含Nvidia Blackwell GPU,而19个系统配备了各种AMD Instinct GPU。Nvidia系统在MLPerf 5.1中包含的七个AI模型中均排名第一,这些模型涵盖了大型语言模型(LLM)、图像生成、推荐系统、计算机视觉和图神经网络。
比Nvidia的胜利更重要的是有机会展示其最新、最强大的设备——Blackwell Ultra GB300 GPU,该GPU于2024年3月推出,两个月前才开始批量出货。
基准测试显示,Blackwell Ultra GB300能够提供大约两倍于Blackwell GB200的FP4性能,是Nvidia于2022年3月推出并于当年晚些时候开始出货的Hopper H100 GPU的四至五倍。
例如,在Llama 3.1 405B预训练基准测试中,配备512个Blackwell Ultra GB300 GPU的系统能够在64.6分钟内完成测试。这大约是配备512个Blackwell GB200 GPU的系统在MLPerf 5.0基准测试中完成任务的速度的两倍,也比同样在MLPerf 1.0上的等效H100系统快4倍。
![]()
在涉及Llama 2 70B LoRA模型的微调基准测试中,8 GPU Blackwell Ultra GB300设置将在8.5分钟内完成任务,这比在MLPerf 4.1上运行的8 GPU Hopper H100设置快5倍,比在MLPerf 5.0上运行的Blackwell GB200等效设置快1.6倍。
虽然MLPerf版本每年都在变化,但各个基准保持一致,从而能够进行公平的比较。对于MLPerf 5.1,MLCommons抛弃了两个旧模型,BERT Large and Stable Diffusion,并用Llama 3.1 8B和FLUX.1(用于图像生成)替换了它们。这种演变也反映了与人工智能训练工作负载相比,人工智能推理工作负载的重要性日益增加。
MLCommons MLPerf负责人David Kanter在一篇博客文章中表示:“总的来说,向GenAI基准提交的数据增加以及这些测试中记录的可观的性能改进表明,大家非常关注GenAI场景,在某种程度上以牺牲AI技术的其他潜在应用为代价。”
![]()
这些测试还使Nvidia能够展示Blackwell Ultra GB300在使用超低精度4位浮点数据格式的新兴AI工作负载上的性能。6月,Nvidia推出了第二种FP4数据格式NVFP4,以配合Blackwell和Blackwell Ultra现有的MXFP4格式。
在周一的新闻发布会上,Nvidia分享了记录NVPF4格式与MXFP4相比准确度的数据。虽然两者都不如16位浮点格式bfloat16(BF16)准确,但NVPF4显示的损失比MXFP4少,高达8000亿个Token,之后两种格式的损失率都会加速。
Nvidia加速计算主管Dave Salvator表示:“基本的结论是,我们通过自己的经验观察发现,NVFP4实际上比MXFP4提供了更好的准确性,这就是为什么我们不仅倾向于在推理方面,而且在训练方面使用它。”
Salvator还指出,Blackwell Ultra拥有279GB的HBM3内存,可提供15petaflops的NVFP4计算,英伟达配置了一组配备5120个GPU的GB300 NVL72系统,通过800Gbps Quantum-X800 InfiniBand互联连接。它能够在10.0分钟内完成Llama 3.1 405B的预训练工作负载,这比Nvidia之前的系统快2.7倍,Nvidia以前的系统有大约2500个GPU。
![]()
Salvator说:“正如你所看到的,当我们从512个GPU增加到5120个GPU时,我们基本上能够实现约85%的缩放效率。”“计算并不是基准测试中的唯一因素。还有其他因素。有内存移动、I/O、网络通信,还有其他因素在起作用。因此,我们实现了85%的扩展效率,同时基本上将GPU数量增加了10倍,这一事实真的令人印象深刻。”
Nvidia在本轮新增的两个基准测试中创造了性能记录,包括Llama 3.1 8B和FLUX.1。Nvidia能够在5.2分钟内用512个Blackwell Ultra GPU组成的系统训练Llama 3.1 8B模型。它能够在由1152个Blackwell CPU组成的系统上以12.5分钟的创纪录时间完成FLUX.1图像生成器基准测试。该公司现有的图神经网络、对象检测和推荐系统测试记录仍然有效。
![]()
在人工智能时代,一个训练或微调模型,然后过渡到生产(即推理)模式的速度将决定竞争能力。正如Salvator所指出的那样,Nvidia的设备在人工智能游戏的每个阶段都占据主导地位。
他说:“训练领域的性能提升转化为模型的更快收敛。模型收敛越快,模型部署得越快,组织获得投资回报率的速度就越快,这最终是许多组织的目标,即能够以一种实际上有利可图的方式部署这些东西。”
与 Ai 时代前沿合作,将大门向更多普通用户敞开!无论你是对新技术充满好奇心的爱好者,还是希望提升自己技能的职场人士,这里都有适合你的课程和资源。欢迎扫码加入我们!
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.