网易首页 > 网易号 > 正文 申请入驻

英伟达下一代GPU,真实性能发布

0
分享至

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容编译自IEEE,谢谢。

Nvidia、甲骨文、谷歌、戴尔和其他 13 家公司报告了他们的计算机训练当今使用的关键神经网络所需的时间。这些结果包括首次亮相的Nvidia 下一代 GPU B200和谷歌即将推出的加速器Trillium。B200在某些测试中的表现比当今的主力Nvidia芯片H100提高了一倍。而且Trillium 的性能比谷歌在 2023 年测试的芯片提高了近四倍。

该基准测试称为 MLPerf v4.1,包括六项任务:推荐、大型语言模型(LLM) GPT-3和 BERT-large 的预训练、 Llama 2 70B 大型语言模型的微调、对象检测、图形节点分类和图像生成。

训练GPT-3是一项艰巨的任务,如果只是为了提供一个基准而完成整个任务是不切实际的。相反,测试是将其训练到专家认为的水平,这意味着如果你继续训练,它很可能会达到目标。对于 Llama 2 70B 来说,目标不是从头开始训练 LLM,而是采用已经训练过的模型并对其进行微调,使其专注于某一特定专业知识——在这种情况下,政府文件。图节点分类是一种用于欺诈检测和药物发现 的机器学习。

随着人工智能的重要性不断演变,主要转向使用生成式人工智能,测试集也发生了变化。MLPerf 的最新版本标志着自基准测试工作开始以来测试内容的彻底转变。“目前,所有原始基准测试都已逐步淘汰,” MLCommons 基准测试工作负责人David Kanter表示。在上一轮测试中,执行某些基准测试仅需几秒钟。

根据 MLPerf 的计算,新基准套件上的 AI 训练正在以摩尔定律预期速度的两倍左右的速度改进。随着时间的推移,结果比 MLPerf 统治时期开始时更快趋于稳定。Kanter 将此主要归因于公司已经弄清楚了如何在非常大的系统上进行基准测试。随着时间的推移,Nvidia、Google和其他公司已经开发出允许近乎线性扩展的软件和网络技术——将处理器数量增加一倍可以将训练时间缩短大约一半。

第一个 Nvidia Blackwell 训练结果

这一轮是 Nvidia 下一代 GPU 架构 Blackwell 的首次训练测试。对于 GPT-3 训练和 LLM 微调,Blackwell (B200) 的每 GPU 性能大约是 H100 的两倍。对于推荐系统和图像生成,收益略有下降,但仍然相当可观——分别为 64% 和 62%。

Nvidia B200 GPU 所采用的Blackwell 架构 延续了使用越来越低精度数字来加速 AI 的趋势。对于 Transformer 神经网络的某些部分(例如ChatGPT、Llama2 和Stable Diffusion),Nvidia H100 和 H200 使用 8 位浮点数。B200 将其降至仅 4 位。

英伟达表示,在 MLPerf Training 4.1 行业基准测试中, NVIDIA Blackwell平台在所有测试的工作负载上都取得了令人印象深刻的成绩,在 LLM 基准测试中,每块 GPU 的性能提高了 2.2 倍,包括 Llama 2 70B 微调和 GPT-3 175B 预训练。此外,NVIDIA 在 NVIDIA Hopper 平台上的提交继续在所有基准测试中保持大规模记录,包括在 GPT-3 175B 基准测试中使用 11,616 个 Hopper GPU 提交的提交。

如上所说,Blackwell 首次向 MLCommons 联盟提交训练,该联盟为行业参与者创建标准化、公正且经过严格同行评审的测试,重点介绍了该架构如何提升生成式 AI 训练性能。

例如,该架构包含新的内核,可以更有效地利用 Tensor Core。内核是经过优化的专用数学运算,例如矩阵乘法,是许多深度学习算法的核心。Blackwell 更高的每 GPU 计算吞吐量和更大、更快的高带宽内存使其能够在更少的 GPU 上运行 GPT-3 175B 基准测试,同时实现出色的每 GPU 性能。

利用更大、带宽更高的 HBM3e 内存,仅需 64 个 Blackwell GPU 即可在 GPT-3 LLM 基准测试中运行,且不会影响每个 GPU 的性能。使用 Hopper 运行相同的基准测试则需要 256 个 GPU。

Blackwell 训练结果遵循了之前提交给 MLPerf Inference 4.1 的结果,与 Hopper 一代相比,Blackwell 的 LLM 推理性能提高了 4 倍。利用 Blackwell 架构的 FP4 精度以及 NVIDIA QUASAR 量化系统,提交结果展现了强大的性能,同时满足了基准的准确性要求。

英伟达表示,NVIDIA 平台不断进行软件开发,为各种框架、模型和应用程序的训练和推理提供性能和功能改进。在这一轮 MLPerf 训练提交中,自推出基准以来,Hopper 的 GPT-3 175B 每 GPU 训练性能提高了 1.3 倍。

NVIDIA 还使用 11,616 个 Hopper GPU 通过NVIDIA NVLink 和 NVSwitch 高带宽 GPU 到 GPU 通信以及 NVIDIA Quantum-2 InfiniBand 网络连接,在 GPT-3 175B 基准上提交了大规模结果 。

自去年以来,NVIDIA Hopper GPU 在 GPT-3 175B 基准测试中的规模和性能提高了三倍多。此外,在 Llama 2 70B LoRA 微调基准测试中,NVIDIA 使用相同数量的 Hopper GPU 将性能提高了 26%,这反映了软件的持续增强。

NVIDIA 不断致力于优化其加速计算平台,从而持续改善 MLPerf 测试结果 - 提高容器化软件的性能,为现有平台上的合作伙伴和客户提供更强大的计算能力,并为他们平台投资带来更高的回报。

谷歌推出第六代硬件

谷歌展示了其第六代 TPU Trillium 的 首批结果(上个月才发布),以及第五代变体 Cloud TPU v5p 的第二轮结果。在 2023 年版本中,这家搜索巨头推出了第五代TPU 的另一个变体 v5e,其设计更注重效率而非性能。与后者相比,Trillium 在 GPT-3 训练任务上的性能提升高达 3.8 倍。

但与所有人的劲敌 Nvidia 相比,情况并不那么乐观。由 6,144 个 TPU v5ps 组成的系统在 11.77 分钟内到达了 GPT-3 训练检查点,远远落后于由 11,616 个 Nvidia H100 组成的系统,后者在大约 3.44 分钟内完成了任务。顶级 TPU 系统仅比其一半大小的 H100 计算机快约 25 秒。

戴尔科技公司的计算机使用了约 75 美分的电力对 Llama 2 70B 大型语言模型进行了微调。

在 v5p 与 Trillium 最接近的正面比较中,每个系统由 2048 个 TPU 组成,即将推出的 Trillium 将 GPT-3 训练时间缩短了整整 2 分钟,比 v5p 的 29.6 分钟提高了近 8%。Trillium 和 v5p 的另一个区别是 Trillium 与AMD Epyc CPU 配对,而不是 v5p 的Intel Xeon。

谷歌还使用 Cloud TPU v5p 训练了图像生成器 Stable Diffusion。Stable Diffusion 有 26 亿个参数,难度不大,MLPerf 参赛者需要将其训练到收敛,而不是像 GPT-3 那样只训练到检查点。1024 TPU 系统排名第二,在 2 分 26 秒内完成任务,比由 Nvidia H100 组成的相同大小的系统慢了大约一分钟。

训练能力仍不透明

训练神经网络的高昂能源成本长期以来一直令人担忧。MLPerf 才刚刚开始测量这一点。戴尔科技是能源类别的唯一参赛者,其八服务器系统包含 64 个 Nvidia H100 GPU和 16 个Intel Xeon Platinum CPU。唯一的测量是在 LLM 微调任务 (Llama2 70B) 中进行的。该系统在 5 分钟的运行中消耗了 16.4 兆焦耳,平均功率为 5.4 千瓦。按照美国的平均成本计算,这意味着大约 75 美分的电费。

虽然结果本身并不能说明什么,但确实可能为类似系统的功耗提供大概的数据。例如,Oracle 报告了接近的性能结果——4 分 45 秒——使用相同数量和类型的 CPU 和 GPU。

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3946期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
纯欲始祖!退圈15年!47岁复出,还能打!

纯欲始祖!退圈15年!47岁复出,还能打!

贵圈真乱
2025-11-07 13:19:53
全国多地临时停课!句容疾控重要提醒

全国多地临时停课!句容疾控重要提醒

句容发布
2025-11-06 20:44:39
博士人设崩塌!医院副院长与美女主任风波,17分钟视频引3大疑问

博士人设崩塌!医院副院长与美女主任风波,17分钟视频引3大疑问

好贤观史记
2025-11-07 09:13:35
特斯拉股东大会批准马斯克万亿美元薪酬计划

特斯拉股东大会批准马斯克万亿美元薪酬计划

财联社
2025-11-07 06:53:20
“眼科女王”曾琦,多张漂亮优雅照片曝光,未来3大困境等着她

“眼科女王”曾琦,多张漂亮优雅照片曝光,未来3大困境等着她

李昕言温度空间
2025-11-06 21:03:20
安徽检察机关依法对黄卫东涉嫌受贿案提起公诉

安徽检察机关依法对黄卫东涉嫌受贿案提起公诉

安徽省人民检察院
2025-11-07 16:03:37
一个血亏,一个赚翻:北京环球影城比上海迪士尼输在哪?

一个血亏,一个赚翻:北京环球影城比上海迪士尼输在哪?

城市研究室
2025-11-06 16:27:43
曾琦,多张漂亮优雅照片曝光,主角双双停职,患者信任碎一地!

曾琦,多张漂亮优雅照片曝光,主角双双停职,患者信任碎一地!

眼光很亮
2025-11-07 14:09:36
杭州一小区物业退出不干了,选聘进场4年,称业主拖欠物业费1200多万元

杭州一小区物业退出不干了,选聘进场4年,称业主拖欠物业费1200多万元

大风新闻
2025-11-07 08:57:02
震惊!网传华东某设计院让员工提供房产,为公司贷款,发2万奖金

震惊!网传华东某设计院让员工提供房产,为公司贷款,发2万奖金

火山诗话
2025-11-07 05:09:14
最新通报!上海一干部被查

最新通报!上海一干部被查

上观新闻
2025-11-07 14:33:05
美荷两国同时发声,对中国独立研发的光刻机技术给予了强烈批评

美荷两国同时发声,对中国独立研发的光刻机技术给予了强烈批评

来科点谱
2025-11-06 13:33:42
湖南省人医17分钟视频风波,女主火辣、男主儒雅,官方发最新通报

湖南省人医17分钟视频风波,女主火辣、男主儒雅,官方发最新通报

鋭娱之乐
2025-11-06 17:08:50
北京协和医院专家:“主食越少越好 甚至完全不吃”观念需纠正

北京协和医院专家:“主食越少越好 甚至完全不吃”观念需纠正

红星新闻
2025-11-06 17:53:32
副院长出轨后续!眼科主任美照被扒,更多大尺度画面曝光,太辣眼

副院长出轨后续!眼科主任美照被扒,更多大尺度画面曝光,太辣眼

180视角
2025-11-07 09:47:50
张家界荒野求生挑战赛进入第30天,赛事方:百人参赛仅剩17名“狠人”,有人已瘦30斤

张家界荒野求生挑战赛进入第30天,赛事方:百人参赛仅剩17名“狠人”,有人已瘦30斤

极目新闻
2025-11-07 11:34:15
奥委会急疯了!2036奥运邀约无人接,中国神回复让全球集体沉默

奥委会急疯了!2036奥运邀约无人接,中国神回复让全球集体沉默

霁寒飘雪
2025-11-06 19:35:42
让中国光刻机“变成废铁”,日本对华下狠手,外媒:比美国人还绝

让中国光刻机“变成废铁”,日本对华下狠手,外媒:比美国人还绝

博览历史
2025-11-06 20:35:03
新股上市第二天大跌超17%,进场的股民全部被套,无一幸免

新股上市第二天大跌超17%,进场的股民全部被套,无一幸免

财经智多星
2025-11-07 12:55:51
清朝“大辫子”到底多脏?满头油光,虱子满头,十步之内不能站人

清朝“大辫子”到底多脏?满头油光,虱子满头,十步之内不能站人

小豫讲故事
2025-11-05 06:00:03
2025-11-07 16:47:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12169文章数 34699关注度
往期回顾 全部

数码要闻

满血纯白战舰,七彩虹CVN X870E ARK FROZEN V14方舟主板测评

头条要闻

七旬老人带一岁孙子住院:孩子父亲去世母亲下落不明

头条要闻

七旬老人带一岁孙子住院:孩子父亲去世母亲下落不明

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

白百何回应东京电影节争议

财经要闻

老登们的社交货币全崩了

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

家居
亲子
本地
旅游
公开课

家居要闻

现代自由 功能美学居所

亲子要闻

儿童尿床,中医有妙招!艾灸4个穴位温补肾气

本地新闻

这届干饭人,已经把博物馆吃成了食堂

旅游要闻

出线不着急,请先查收我们这份48小时逛吃攻略|巴小虎的川超日记⑫

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版