网易首页 > 网易号 > 正文 申请入驻

MLPerf Inference v5.1为人工智能设定新基准

0
分享至

MLCommons发布了MLPerf Inference(推理) v5.1的新一轮测试结果,该基准套件旨在衡量各种工作负载中AI模型的速度。最新结果突显了人工智能推理的发展速度,以及衡量它的基准。这个周期有创纪录的27个提交者,并引入了三个新的基准:基于DeepSeek-R1的推理基准、基于Whisper Large v3的语音转文本基准和基于Llama 3.1 8B的小型LLM基准。在新闻发布会上,MLCommons MLPerf负责人David Kanter表示,基准套件现已达到90000个结果的里程碑。

英伟达(Nvidia)业绩

Nvidia再次荣登MLPerf推理排行榜榜首,这一次是今年早些时候在GTC上宣布的Blackwell Ultra架构。Blackwell Ultra为NVIDIA GB300 NVL72机架级系统提供动力,该系统在新的推理基准测试中创下了纪录,DeepSeek-R1吞吐量比之前基于Blackwell的GB200 NVL72系统高出45%。Blackwell Ultra系统在离线情况下每GPU每秒可获得5842个令牌,在服务器场景下每GPU可获得2907个令牌,比未经验证的Hopper结果提高了近5倍。Nvidia表示,Blackwell Ultra的性能提升建立在GB200的成功之上,Ultra的NVFP4 AI计算能力是Blackwell的1.5倍,注意力层加速能力是Blackville的2倍,每个GPU的HBM3e内存高达288GB。

Nvidia还在新的Llama 3.1 405B交互式基准测试中展示了强劲的结果,该基准测试比现有的服务器场景具有更严格的延迟限制。为了满足这些要求,Nvidia采用了一种称为分解服务的技术,该技术将不同GPU的上下文和推理生成阶段分开。这种方法得到了该公司Dynamo推理框架的支持,与Blackwell系统上的传统服务相比,每个GPU的吞吐量提高了1.5倍,是基于Hopper的系统吞吐量的5倍以上。

在较小的Llama 3.1 8B和Whisper基准测试中,Nvidia的提交延续了创纪录的吞吐量模式。该公司报告称,在离线模式下,Llama 3.1 8B上的每个GPU每秒超过18000个令牌,Whisper上的每个CPU每秒超过5667个令牌。结果在离线、服务器和交互场景中提交,Nvidia在每个类别中都保持了每GPU的领先地位。

Nvidia正在全力进行推理能力开发,并已经发出了下一步可能发生的信号。该公司昨日宣布,将于2026年底推出一款名为Rubin CPX的新型人工智能推理芯片。Rubin CPX基于接替Blackwell的下一代Rubin架构,将针对视频生成和人工智能辅助软件开发等数据繁重的任务,并将视频解码、编码和推理集成在一个芯片上。Nvidia认为需要大约100万个令牌上下文(例如,处理一小时的视频),并估计在这些系统上投资1亿美元可以产生50亿美元的令牌收入。

AMD的成绩

AMD在v5.1中扩大了其影响力,展示了新的硬件和工作负载。这一轮标志着首次使用AMD Instinct MI355X GPU的提交,该GPU在基准测试发布前几周发布。在Llama 2-70B测试中,MI355X提供了FP4精度的结果,并展示了强大的多节点可扩展性,与在同一基准上在FP8中运行的MI325X相比,每秒的令牌增加了2.7倍。

该公司还强调了模型效率技术。在开放部门,AMD报告了Llama 3.1-405B的结果,使用结构化修剪方法降低了计算要求,同时保持了准确性。该公司从21%深度修剪的模型中获得了82%的吞吐量提升,从33%修剪和微调的模型中提高了90%,突显了AMD在模型变大和资源密集型增长时对平衡性能和效率的关注。

这一轮还标志着AMD首次提交了几个新工作负载,包括Llama 2-70B Interactive、Mixtral-8x7B混合专家模型和Stable Diffusion XL图像生成器。通过将覆盖范围扩展到传统LLM之外,AMD展示了其Instinct GPU在会话AI、MoE架构和生成图像任务方面的广度。

AMD首次报告了结合MI300X和MI325X GPU的多节点集群结果。当在四个节点上扩展时,MI355X的吞吐量比上一代MI300X提高了3.4倍,将集群扩展到八个节点显示了企业用例的一致可扩展性。

HPE的成果

Hewlett-Packard Enterprise通过混合使用ProLiant和HPE Cray系统,扩大了其在MLPerf Inference v5.1中的影响力,在数据中心和边缘场景中,涵盖了推荐、LLM、语音和视觉。

在ProLiant方面,DL380a Gen12表现突出。HPE强调了DLRM推荐工作负载的最高排名,以及Llama 3.1-8B(服务器)在8-GPU PCIe系统中的领先结果。DL385 Gen11也首次亮相MLPerf,HPE在配置了NVIDIA H200 NVL GPU时,引用了新Whisper基准测试中PCIe系统的最佳每GPU性能。

对于SXM平台,HPE Cray XD670(8×H200)记录了六个结果,包括RetinaNet(离线)、Llama 3.1-8B(服务器/离线)、Mixtral-8×7B(服务器/在线)和Whisper(离线)。HPE还在H200上发布了DeepSeek-R1离线结果(开放部门),以及本轮配置覆盖率的几个第一:使用RTX Pro 6000 Blackwell Server Edition提交,在DLRM中展示GH200 NVL2结果,并在RetinaNet上使用ProLiant ML30 Gen11发布边数。

基准推理模型

MLPerf Inference v5.1中最引人注目的补充之一是它的第一个推理语言模型基准,旨在作为这种新兴模型类型的行业标准参考点。该测试是围绕DeepSeek-R1构建的,这是今年早些时候发布的6710亿参数的专家模型。与强调文本输出的传统生成模型不同,推理LLM旨在解决数学、科学、代码生成和其他需要思维链的领域中的多步问题解决。

该基准测试引入了比之前的MLPerf轮次更长的输出长度,反映了推理模型在提供最终答案之前通常如何通过生成扩展推理令牌来“思考”。DeepSeek-R1支持多达20000个令牌的输出,基准数据集平均每个输出3880个令牌,这是迄今为止推理套件中最长的。

为了突出推理的不同方面,MLCommons结合了几个开放数据集:用于数学问题解决的AIME和MATH500,用于研究生级科学和专家知识的GPQA Diamond和MMLU Pro,以及用于代码生成和调试的LiveCodeBench。准确性是通过数学和知识任务的精确匹配以及编程挑战的代码执行来衡量的。

性能指标反映了早期LLM测试的性能指标,包括离线模式和服务器模式下的吞吐量,对第一个令牌的时间和每个令牌的延迟有严格的限制(在第99百分位分别为2秒和80毫秒)。这些阈值旨在平衡大型推理模型的“思维预算”与部署中所需的响应能力。

小型LLM基准测试

MLPerf Inference v5.1还推出了一个围绕Llama 3.1-8B构建的新的小型语言模型基准,取代了旧的60亿参数GPT-J模型,该模型是该套件之前LLM工作负载的入口点。虽然较大的模型占据了关注热点,但较小的LLM对于那些需要低延迟推理和在更广泛的硬件上进行成本效益部署的人来说仍然很重要,比如在科学和研究应用中。

工作组选择Llama 3.1-8B是因为它的广泛采用和可管理的规模。该模型支持高达128000个令牌的上下文长度(远远超过GPT-J的2048个),这使其适用于长输入摘要任务。该基准测试使用CNN DailyMail数据集,该数据集在文本摘要中很受欢迎,平均输入778个令牌,输出73个令牌。准确度是用ROUGE分数来衡量的,需要提交封闭的分区以匹配99%的高精度参考。

性能有两种衡量方式:第一个令牌的时间(TTFT),即系统开始响应的速度,以及每个输出令牌的时间,即它继续生成的速度。在服务器场景中,目标是2秒TTFT和100毫秒TPOT,大约每分钟480个单词。新的交互场景将这一点收紧到0.5秒的TTFT和30毫秒的TPOT,大约每分钟1600个单词,用于聊天机器人、编码助手和创意工具等用途。

该基准还扩展到边缘系统,在边缘系统中,提交内容在离线和单流模式下进行评估。离线测试测量每秒令牌的吞吐量,而单流场景使用每个序列的第90百分位延迟来捕获单个任务的端到端性能。

新的学术和个人提交

MLPerf Inference v5.1还标志着学术机构和个人贡献者的参与,扩大了基准测试社区的范围。

佛罗里达大学(UF)加入了由NVIDIA DGX B200 SuperPOD驱动的HiPerGator超级计算机的结果。UF的测试是在封闭划分规则下运行的,在服务器场景中达到了延迟目标,展示了强大的可扩展性。通过将MLPerf工作流集成到其具有Apptainer容器的SLURM管理的HPC集群中,UF表明,在多用户学术系统的现实约束下,可以实现严格的基准测试。作为第一所提交推理结果的大学,佛罗里达大学为其他公共研究实验室和高等教育机构更多地参与人工智能基准测试开辟一条道路。

另一方面,加州大学圣地亚哥分校的博士生Amitash Nanda成为第一个提交MLPerf推理结果的个人。他的参赛作品在配备M1 Pro芯片的苹果MacBook Pro上运行,使用ONNX Runtime和苹果的CoreML在GPU和神经引擎上执行。该提交超出了边缘级基准的目标精度,表明在消费级、节能的硬件上可以进行高质量的推理。

关于将大学纳入基准组合的价值,新闻发布会上称:“我们有来自学术界的提交者,这非常令人兴奋。在让人工智能更好地为每个人服务的广泛目标下,我们该如何做到这一点?答案是:我们处于研发的前沿,我们真正关注的是如何衡量和改进人工智能的各个方面,特别是围绕数据,数据是人工智能的燃料,可以提高准确性、速度和效率。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2009年以17万做局,骗走乾隆真迹转卖8700万的专家,结局大快人心

2009年以17万做局,骗走乾隆真迹转卖8700万的专家,结局大快人心

谈史论天地
2026-04-03 14:20:03
A股:刚刚,三大利空重磅落地!周一A股迎关键变盘,两类人要睡不着了

A股:刚刚,三大利空重磅落地!周一A股迎关键变盘,两类人要睡不着了

股市皆大事
2026-04-26 09:35:52
惊天内幕!1984年中美黑鹰交易只交付24架,真相竟是战略失误!

惊天内幕!1984年中美黑鹰交易只交付24架,真相竟是战略失误!

人生录
2026-04-25 15:13:17
麻六记正式登陆日本!新宿首店聘店长,年薪最高可达1400万日元

麻六记正式登陆日本!新宿首店聘店长,年薪最高可达1400万日元

东瀛万事通
2026-04-25 22:42:09
美JDAM-LR测试成功,射程超俄版6倍,成本降90%

美JDAM-LR测试成功,射程超俄版6倍,成本降90%

咸鱼金脑袋
2026-04-25 20:22:31
霍尔木兹战火下,中东客商涌进北京车展抢货:划掉“丰田”们,狂订中国车

霍尔木兹战火下,中东客商涌进北京车展抢货:划掉“丰田”们,狂订中国车

每日经济新闻
2026-04-25 18:33:41
内塔被上百国通缉,中方打破沉默,在安理会出手,明牌清算以色列

内塔被上百国通缉,中方打破沉默,在安理会出手,明牌清算以色列

轩逸阿II
2026-04-26 08:44:53
60岁老人,怕被女儿拔管

60岁老人,怕被女儿拔管

中国新闻周刊
2026-04-25 18:56:24
27+10+92.2%!效率逆天!最可怕的是,他连球队老三都算不上

27+10+92.2%!效率逆天!最可怕的是,他连球队老三都算不上

阿浪的篮球故事
2026-04-25 16:01:55
现代级魔改,估计俄罗斯娘家也看傻眼了吧

现代级魔改,估计俄罗斯娘家也看傻眼了吧

三叔的装备空间
2026-04-24 23:53:16
没得谈了?伊朗列出美方罪状,巴铁大将致电特朗普,送出一句忠告

没得谈了?伊朗列出美方罪状,巴铁大将致电特朗普,送出一句忠告

兵说
2026-04-25 08:30:08
俄罗斯专家:美国所有总统都知道打伊朗的后果,只有特朗普不知道

俄罗斯专家:美国所有总统都知道打伊朗的后果,只有特朗普不知道

揭秘历史的真相
2026-04-23 21:03:05
国乒男团名单敲定!关键二号位确定,王皓布阵高明球迷直呼稳了

国乒男团名单敲定!关键二号位确定,王皓布阵高明球迷直呼稳了

小徐讲八卦
2026-04-25 10:20:20
乌度卡狂喷小贾有理?致命失误+为绝平詹推开申京 1.22亿真没压价

乌度卡狂喷小贾有理?致命失误+为绝平詹推开申京 1.22亿真没压价

颜小白的篮球梦
2026-04-26 07:13:20
4月25日俄乌最新:普京受邀参加G20峰会?

4月25日俄乌最新:普京受邀参加G20峰会?

西楼饮月
2026-04-25 16:23:16
事态升级,中方开打第二波反击,高市或突然辞职,石破茂已扛旗

事态升级,中方开打第二波反击,高市或突然辞职,石破茂已扛旗

浪子阿邴聊体育
2026-04-25 10:21:50
昆明长水国际机场内多处漏水,机场客服:正在抢修

昆明长水国际机场内多处漏水,机场客服:正在抢修

极目新闻
2026-04-25 11:40:00
三星长公主前夫:离婚拿了8370万挥霍一空,和巫女女友沦为阶下囚

三星长公主前夫:离婚拿了8370万挥霍一空,和巫女女友沦为阶下囚

照见古今
2026-04-22 18:42:23
福建永安保安扇女车主耳光事件最新:警方认定来了,全网热议

福建永安保安扇女车主耳光事件最新:警方认定来了,全网热议

老猫观点
2026-04-25 07:31:06
后背发凉!一月入3万36岁女高管,失业8个月加离婚,如今送外卖了

后背发凉!一月入3万36岁女高管,失业8个月加离婚,如今送外卖了

火山詩话
2026-01-02 19:14:41
2026-04-26 10:39:00
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1719文章数 511关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

牛弹琴:伊朗放了美国人鸽子 特朗普被气坏了

头条要闻

牛弹琴:伊朗放了美国人鸽子 特朗普被气坏了

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

健康
时尚
本地
游戏
军事航空

干细胞如何让烧烫伤皮肤"再生"?

伊姐周六热推:电视剧《方圆八百米》;电视剧《金关》......

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

日本涩涩真人影游重返Steam!三大美女伺候 但锁国区

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版