MLCommons发布了MLPerf Inference(推理) v5.1的新一轮测试结果,该基准套件旨在衡量各种工作负载中AI模型的速度。最新结果突显了人工智能推理的发展速度,以及衡量它的基准。这个周期有创纪录的27个提交者,并引入了三个新的基准:基于DeepSeek-R1的推理基准、基于Whisper Large v3的语音转文本基准和基于Llama 3.1 8B的小型LLM基准。在新闻发布会上,MLCommons MLPerf负责人David Kanter表示,基准套件现已达到90000个结果的里程碑。
英伟达(Nvidia)业绩
Nvidia再次荣登MLPerf推理排行榜榜首,这一次是今年早些时候在GTC上宣布的Blackwell Ultra架构。Blackwell Ultra为NVIDIA GB300 NVL72机架级系统提供动力,该系统在新的推理基准测试中创下了纪录,DeepSeek-R1吞吐量比之前基于Blackwell的GB200 NVL72系统高出45%。Blackwell Ultra系统在离线情况下每GPU每秒可获得5842个令牌,在服务器场景下每GPU可获得2907个令牌,比未经验证的Hopper结果提高了近5倍。Nvidia表示,Blackwell Ultra的性能提升建立在GB200的成功之上,Ultra的NVFP4 AI计算能力是Blackwell的1.5倍,注意力层加速能力是Blackville的2倍,每个GPU的HBM3e内存高达288GB。
Nvidia还在新的Llama 3.1 405B交互式基准测试中展示了强劲的结果,该基准测试比现有的服务器场景具有更严格的延迟限制。为了满足这些要求,Nvidia采用了一种称为分解服务的技术,该技术将不同GPU的上下文和推理生成阶段分开。这种方法得到了该公司Dynamo推理框架的支持,与Blackwell系统上的传统服务相比,每个GPU的吞吐量提高了1.5倍,是基于Hopper的系统吞吐量的5倍以上。
在较小的Llama 3.1 8B和Whisper基准测试中,Nvidia的提交延续了创纪录的吞吐量模式。该公司报告称,在离线模式下,Llama 3.1 8B上的每个GPU每秒超过18000个令牌,Whisper上的每个CPU每秒超过5667个令牌。结果在离线、服务器和交互场景中提交,Nvidia在每个类别中都保持了每GPU的领先地位。
Nvidia正在全力进行推理能力开发,并已经发出了下一步可能发生的信号。该公司昨日宣布,将于2026年底推出一款名为Rubin CPX的新型人工智能推理芯片。Rubin CPX基于接替Blackwell的下一代Rubin架构,将针对视频生成和人工智能辅助软件开发等数据繁重的任务,并将视频解码、编码和推理集成在一个芯片上。Nvidia认为需要大约100万个令牌上下文(例如,处理一小时的视频),并估计在这些系统上投资1亿美元可以产生50亿美元的令牌收入。
AMD的成绩
AMD在v5.1中扩大了其影响力,展示了新的硬件和工作负载。这一轮标志着首次使用AMD Instinct MI355X GPU的提交,该GPU在基准测试发布前几周发布。在Llama 2-70B测试中,MI355X提供了FP4精度的结果,并展示了强大的多节点可扩展性,与在同一基准上在FP8中运行的MI325X相比,每秒的令牌增加了2.7倍。
该公司还强调了模型效率技术。在开放部门,AMD报告了Llama 3.1-405B的结果,使用结构化修剪方法降低了计算要求,同时保持了准确性。该公司从21%深度修剪的模型中获得了82%的吞吐量提升,从33%修剪和微调的模型中提高了90%,突显了AMD在模型变大和资源密集型增长时对平衡性能和效率的关注。
这一轮还标志着AMD首次提交了几个新工作负载,包括Llama 2-70B Interactive、Mixtral-8x7B混合专家模型和Stable Diffusion XL图像生成器。通过将覆盖范围扩展到传统LLM之外,AMD展示了其Instinct GPU在会话AI、MoE架构和生成图像任务方面的广度。
AMD首次报告了结合MI300X和MI325X GPU的多节点集群结果。当在四个节点上扩展时,MI355X的吞吐量比上一代MI300X提高了3.4倍,将集群扩展到八个节点显示了企业用例的一致可扩展性。
HPE的成果
Hewlett-Packard Enterprise通过混合使用ProLiant和HPE Cray系统,扩大了其在MLPerf Inference v5.1中的影响力,在数据中心和边缘场景中,涵盖了推荐、LLM、语音和视觉。
在ProLiant方面,DL380a Gen12表现突出。HPE强调了DLRM推荐工作负载的最高排名,以及Llama 3.1-8B(服务器)在8-GPU PCIe系统中的领先结果。DL385 Gen11也首次亮相MLPerf,HPE在配置了NVIDIA H200 NVL GPU时,引用了新Whisper基准测试中PCIe系统的最佳每GPU性能。
对于SXM平台,HPE Cray XD670(8×H200)记录了六个结果,包括RetinaNet(离线)、Llama 3.1-8B(服务器/离线)、Mixtral-8×7B(服务器/在线)和Whisper(离线)。HPE还在H200上发布了DeepSeek-R1离线结果(开放部门),以及本轮配置覆盖率的几个第一:使用RTX Pro 6000 Blackwell Server Edition提交,在DLRM中展示GH200 NVL2结果,并在RetinaNet上使用ProLiant ML30 Gen11发布边数。
基准推理模型
MLPerf Inference v5.1中最引人注目的补充之一是它的第一个推理语言模型基准,旨在作为这种新兴模型类型的行业标准参考点。该测试是围绕DeepSeek-R1构建的,这是今年早些时候发布的6710亿参数的专家模型。与强调文本输出的传统生成模型不同,推理LLM旨在解决数学、科学、代码生成和其他需要思维链的领域中的多步问题解决。
该基准测试引入了比之前的MLPerf轮次更长的输出长度,反映了推理模型在提供最终答案之前通常如何通过生成扩展推理令牌来“思考”。DeepSeek-R1支持多达20000个令牌的输出,基准数据集平均每个输出3880个令牌,这是迄今为止推理套件中最长的。
为了突出推理的不同方面,MLCommons结合了几个开放数据集:用于数学问题解决的AIME和MATH500,用于研究生级科学和专家知识的GPQA Diamond和MMLU Pro,以及用于代码生成和调试的LiveCodeBench。准确性是通过数学和知识任务的精确匹配以及编程挑战的代码执行来衡量的。
性能指标反映了早期LLM测试的性能指标,包括离线模式和服务器模式下的吞吐量,对第一个令牌的时间和每个令牌的延迟有严格的限制(在第99百分位分别为2秒和80毫秒)。这些阈值旨在平衡大型推理模型的“思维预算”与部署中所需的响应能力。
小型LLM基准测试
MLPerf Inference v5.1还推出了一个围绕Llama 3.1-8B构建的新的小型语言模型基准,取代了旧的60亿参数GPT-J模型,该模型是该套件之前LLM工作负载的入口点。虽然较大的模型占据了关注热点,但较小的LLM对于那些需要低延迟推理和在更广泛的硬件上进行成本效益部署的人来说仍然很重要,比如在科学和研究应用中。
工作组选择Llama 3.1-8B是因为它的广泛采用和可管理的规模。该模型支持高达128000个令牌的上下文长度(远远超过GPT-J的2048个),这使其适用于长输入摘要任务。该基准测试使用CNN DailyMail数据集,该数据集在文本摘要中很受欢迎,平均输入778个令牌,输出73个令牌。准确度是用ROUGE分数来衡量的,需要提交封闭的分区以匹配99%的高精度参考。
性能有两种衡量方式:第一个令牌的时间(TTFT),即系统开始响应的速度,以及每个输出令牌的时间,即它继续生成的速度。在服务器场景中,目标是2秒TTFT和100毫秒TPOT,大约每分钟480个单词。新的交互场景将这一点收紧到0.5秒的TTFT和30毫秒的TPOT,大约每分钟1600个单词,用于聊天机器人、编码助手和创意工具等用途。
该基准还扩展到边缘系统,在边缘系统中,提交内容在离线和单流模式下进行评估。离线测试测量每秒令牌的吞吐量,而单流场景使用每个序列的第90百分位延迟来捕获单个任务的端到端性能。
新的学术和个人提交
MLPerf Inference v5.1还标志着学术机构和个人贡献者的参与,扩大了基准测试社区的范围。
佛罗里达大学(UF)加入了由NVIDIA DGX B200 SuperPOD驱动的HiPerGator超级计算机的结果。UF的测试是在封闭划分规则下运行的,在服务器场景中达到了延迟目标,展示了强大的可扩展性。通过将MLPerf工作流集成到其具有Apptainer容器的SLURM管理的HPC集群中,UF表明,在多用户学术系统的现实约束下,可以实现严格的基准测试。作为第一所提交推理结果的大学,佛罗里达大学为其他公共研究实验室和高等教育机构更多地参与人工智能基准测试开辟一条道路。
另一方面,加州大学圣地亚哥分校的博士生Amitash Nanda成为第一个提交MLPerf推理结果的个人。他的参赛作品在配备M1 Pro芯片的苹果MacBook Pro上运行,使用ONNX Runtime和苹果的CoreML在GPU和神经引擎上执行。该提交超出了边缘级基准的目标精度,表明在消费级、节能的硬件上可以进行高质量的推理。
关于将大学纳入基准组合的价值,新闻发布会上称:“我们有来自学术界的提交者,这非常令人兴奋。在让人工智能更好地为每个人服务的广泛目标下,我们该如何做到这一点?答案是:我们处于研发的前沿,我们真正关注的是如何衡量和改进人工智能的各个方面,特别是围绕数据,数据是人工智能的燃料,可以提高准确性、速度和效率。”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.