网易首页 > 网易号 > 正文 申请入驻

英伟达下一代GPU,真实性能发布

0
分享至

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容编译自IEEE,谢谢。

Nvidia、甲骨文、谷歌、戴尔和其他 13 家公司报告了他们的计算机训练当今使用的关键神经网络所需的时间。这些结果包括首次亮相的Nvidia 下一代 GPU B200和谷歌即将推出的加速器Trillium。B200在某些测试中的表现比当今的主力Nvidia芯片H100提高了一倍。而且Trillium 的性能比谷歌在 2023 年测试的芯片提高了近四倍。

该基准测试称为 MLPerf v4.1,包括六项任务:推荐、大型语言模型(LLM) GPT-3和 BERT-large 的预训练、 Llama 2 70B 大型语言模型的微调、对象检测、图形节点分类和图像生成。

训练GPT-3是一项艰巨的任务,如果只是为了提供一个基准而完成整个任务是不切实际的。相反,测试是将其训练到专家认为的水平,这意味着如果你继续训练,它很可能会达到目标。对于 Llama 2 70B 来说,目标不是从头开始训练 LLM,而是采用已经训练过的模型并对其进行微调,使其专注于某一特定专业知识——在这种情况下,政府文件。图节点分类是一种用于欺诈检测和药物发现 的机器学习。

随着人工智能的重要性不断演变,主要转向使用生成式人工智能,测试集也发生了变化。MLPerf 的最新版本标志着自基准测试工作开始以来测试内容的彻底转变。“目前,所有原始基准测试都已逐步淘汰,” MLCommons 基准测试工作负责人David Kanter表示。在上一轮测试中,执行某些基准测试仅需几秒钟。

根据 MLPerf 的计算,新基准套件上的 AI 训练正在以摩尔定律预期速度的两倍左右的速度改进。随着时间的推移,结果比 MLPerf 统治时期开始时更快趋于稳定。Kanter 将此主要归因于公司已经弄清楚了如何在非常大的系统上进行基准测试。随着时间的推移,Nvidia、Google和其他公司已经开发出允许近乎线性扩展的软件和网络技术——将处理器数量增加一倍可以将训练时间缩短大约一半。

第一个 Nvidia Blackwell 训练结果

这一轮是 Nvidia 下一代 GPU 架构 Blackwell 的首次训练测试。对于 GPT-3 训练和 LLM 微调,Blackwell (B200) 的每 GPU 性能大约是 H100 的两倍。对于推荐系统和图像生成,收益略有下降,但仍然相当可观——分别为 64% 和 62%。

Nvidia B200 GPU 所采用的Blackwell 架构 延续了使用越来越低精度数字来加速 AI 的趋势。对于 Transformer 神经网络的某些部分(例如ChatGPT、Llama2 和Stable Diffusion),Nvidia H100 和 H200 使用 8 位浮点数。B200 将其降至仅 4 位。

英伟达表示,在 MLPerf Training 4.1 行业基准测试中, NVIDIA Blackwell平台在所有测试的工作负载上都取得了令人印象深刻的成绩,在 LLM 基准测试中,每块 GPU 的性能提高了 2.2 倍,包括 Llama 2 70B 微调和 GPT-3 175B 预训练。此外,NVIDIA 在 NVIDIA Hopper 平台上的提交继续在所有基准测试中保持大规模记录,包括在 GPT-3 175B 基准测试中使用 11,616 个 Hopper GPU 提交的提交。

如上所说,Blackwell 首次向 MLCommons 联盟提交训练,该联盟为行业参与者创建标准化、公正且经过严格同行评审的测试,重点介绍了该架构如何提升生成式 AI 训练性能。

例如,该架构包含新的内核,可以更有效地利用 Tensor Core。内核是经过优化的专用数学运算,例如矩阵乘法,是许多深度学习算法的核心。Blackwell 更高的每 GPU 计算吞吐量和更大、更快的高带宽内存使其能够在更少的 GPU 上运行 GPT-3 175B 基准测试,同时实现出色的每 GPU 性能。

利用更大、带宽更高的 HBM3e 内存,仅需 64 个 Blackwell GPU 即可在 GPT-3 LLM 基准测试中运行,且不会影响每个 GPU 的性能。使用 Hopper 运行相同的基准测试则需要 256 个 GPU。

Blackwell 训练结果遵循了之前提交给 MLPerf Inference 4.1 的结果,与 Hopper 一代相比,Blackwell 的 LLM 推理性能提高了 4 倍。利用 Blackwell 架构的 FP4 精度以及 NVIDIA QUASAR 量化系统,提交结果展现了强大的性能,同时满足了基准的准确性要求。

英伟达表示,NVIDIA 平台不断进行软件开发,为各种框架、模型和应用程序的训练和推理提供性能和功能改进。在这一轮 MLPerf 训练提交中,自推出基准以来,Hopper 的 GPT-3 175B 每 GPU 训练性能提高了 1.3 倍。

NVIDIA 还使用 11,616 个 Hopper GPU 通过NVIDIA NVLink 和 NVSwitch 高带宽 GPU 到 GPU 通信以及 NVIDIA Quantum-2 InfiniBand 网络连接,在 GPT-3 175B 基准上提交了大规模结果 。

自去年以来,NVIDIA Hopper GPU 在 GPT-3 175B 基准测试中的规模和性能提高了三倍多。此外,在 Llama 2 70B LoRA 微调基准测试中,NVIDIA 使用相同数量的 Hopper GPU 将性能提高了 26%,这反映了软件的持续增强。

NVIDIA 不断致力于优化其加速计算平台,从而持续改善 MLPerf 测试结果 - 提高容器化软件的性能,为现有平台上的合作伙伴和客户提供更强大的计算能力,并为他们平台投资带来更高的回报。

谷歌推出第六代硬件

谷歌展示了其第六代 TPU Trillium 的 首批结果(上个月才发布),以及第五代变体 Cloud TPU v5p 的第二轮结果。在 2023 年版本中,这家搜索巨头推出了第五代TPU 的另一个变体 v5e,其设计更注重效率而非性能。与后者相比,Trillium 在 GPT-3 训练任务上的性能提升高达 3.8 倍。

但与所有人的劲敌 Nvidia 相比,情况并不那么乐观。由 6,144 个 TPU v5ps 组成的系统在 11.77 分钟内到达了 GPT-3 训练检查点,远远落后于由 11,616 个 Nvidia H100 组成的系统,后者在大约 3.44 分钟内完成了任务。顶级 TPU 系统仅比其一半大小的 H100 计算机快约 25 秒。

戴尔科技公司的计算机使用了约 75 美分的电力对 Llama 2 70B 大型语言模型进行了微调。

在 v5p 与 Trillium 最接近的正面比较中,每个系统由 2048 个 TPU 组成,即将推出的 Trillium 将 GPT-3 训练时间缩短了整整 2 分钟,比 v5p 的 29.6 分钟提高了近 8%。Trillium 和 v5p 的另一个区别是 Trillium 与AMD Epyc CPU 配对,而不是 v5p 的Intel Xeon。

谷歌还使用 Cloud TPU v5p 训练了图像生成器 Stable Diffusion。Stable Diffusion 有 26 亿个参数,难度不大,MLPerf 参赛者需要将其训练到收敛,而不是像 GPT-3 那样只训练到检查点。1024 TPU 系统排名第二,在 2 分 26 秒内完成任务,比由 Nvidia H100 组成的相同大小的系统慢了大约一分钟。

训练能力仍不透明

训练神经网络的高昂能源成本长期以来一直令人担忧。MLPerf 才刚刚开始测量这一点。戴尔科技是能源类别的唯一参赛者,其八服务器系统包含 64 个 Nvidia H100 GPU和 16 个Intel Xeon Platinum CPU。唯一的测量是在 LLM 微调任务 (Llama2 70B) 中进行的。该系统在 5 分钟的运行中消耗了 16.4 兆焦耳,平均功率为 5.4 千瓦。按照美国的平均成本计算,这意味着大约 75 美分的电费。

虽然结果本身并不能说明什么,但确实可能为类似系统的功耗提供大概的数据。例如,Oracle 报告了接近的性能结果——4 分 45 秒——使用相同数量和类型的 CPU 和 GPU。

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3946期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多名网友爆料,手机信号栏被运营商塞广告

多名网友爆料,手机信号栏被运营商塞广告

黑猫科技迷
2025-11-06 22:00:39
后续!卫健委通报两人已停职,女方长得很漂亮,爆料人身份成谜

后续!卫健委通报两人已停职,女方长得很漂亮,爆料人身份成谜

冬天来旅游
2025-11-07 12:37:00
刷屏了!做空小米已成对冲基金共识?股价一个多月已暴跌近30%...

刷屏了!做空小米已成对冲基金共识?股价一个多月已暴跌近30%...

金石随笔
2025-11-07 00:08:05
曾医生年轻漂亮,已经是主任了,为什么还要屈身副院长?解答扎心

曾医生年轻漂亮,已经是主任了,为什么还要屈身副院长?解答扎心

花心电影
2025-11-07 09:41:11
湖南省人医17分视频风波,女方肤白貌美、男方儒雅绅士,均被停职

湖南省人医17分视频风波,女方肤白貌美、男方儒雅绅士,均被停职

鋭娱之乐
2025-11-07 08:39:22
大瓜!网友爆料副院长和女医生私情,视频画面流出,女方十分主动

大瓜!网友爆料副院长和女医生私情,视频画面流出,女方十分主动

派大星纪录片
2025-11-06 11:07:07
奥委会急疯了!2036奥运邀约无人接,中国神回复让全球集体沉默

奥委会急疯了!2036奥运邀约无人接,中国神回复让全球集体沉默

霁寒飘雪
2025-11-06 19:35:42
赵少康“大罢免”亮票2次,遭台北地检署起诉:从重量刑

赵少康“大罢免”亮票2次,遭台北地检署起诉:从重量刑

海峡导报社
2025-11-06 11:55:13
杭州一小区物业退出不干了,选聘进场4年,称业主拖欠物业费1200多万元

杭州一小区物业退出不干了,选聘进场4年,称业主拖欠物业费1200多万元

大风新闻
2025-11-07 08:57:02
人人都想听好消息,但世界烂透了,乌克兰不再提回到1991年边界

人人都想听好消息,但世界烂透了,乌克兰不再提回到1991年边界

山河路口
2025-11-06 13:54:49
为啥大家不提中国空间站了?因为没脸提,跟国际空间站差距太大!

为啥大家不提中国空间站了?因为没脸提,跟国际空间站差距太大!

百态人间
2025-11-07 05:00:03
上海人狂喜!百米“翡翠山”官宣,魔都真要造山了!

上海人狂喜!百米“翡翠山”官宣,魔都真要造山了!

GA环球建筑
2025-11-07 12:16:56
河北婚车遭拦截!50条香烟才放行,僵持1小时新娘气哭,官方回应

河北婚车遭拦截!50条香烟才放行,僵持1小时新娘气哭,官方回应

奇思妙想草叶君
2025-11-07 02:09:41
炸裂!副院长出轨眼科主任,17分钟不雅视频流出,女方甜美丰腴

炸裂!副院长出轨眼科主任,17分钟不雅视频流出,女方甜美丰腴

公子麦少
2025-11-06 14:22:30
突发!中国造防空导弹发威击落伊尔-76运输机,俄5名机组人员阵亡

突发!中国造防空导弹发威击落伊尔-76运输机,俄5名机组人员阵亡

头条爆料007
2025-11-07 08:52:28
纽约剧变!34岁穆斯林市长崛起,中产与华人票仓集体失声

纽约剧变!34岁穆斯林市长崛起,中产与华人票仓集体失声

华人生活网
2025-11-06 03:16:42
看完湖南女医生17分钟不雅视频:她占据主动,给婚姻撕了一道裂口

看完湖南女医生17分钟不雅视频:她占据主动,给婚姻撕了一道裂口

娜乌和西卡
2025-11-07 10:38:41
小鹏机器人里面是不是真人?全球网友吵翻了,CEO 现场「扒开衣服」自证

小鹏机器人里面是不是真人?全球网友吵翻了,CEO 现场「扒开衣服」自证

AppSo
2025-11-06 17:03:00
北京协和医院专家:“主食越少越好 甚至完全不吃”观念需纠正

北京协和医院专家:“主食越少越好 甚至完全不吃”观念需纠正

红星新闻
2025-11-06 17:53:32
杜兰特嘲讽莫兰特父亲:你儿子不想在灰熊待了,享受最后的周末吧

杜兰特嘲讽莫兰特父亲:你儿子不想在灰熊待了,享受最后的周末吧

懂球帝
2025-11-07 08:31:13
2025-11-07 14:19:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12169文章数 34699关注度
往期回顾 全部

数码要闻

Omdia:2025年第三季度全球平板电脑出货量同比增长5%

头条要闻

中国首例冷冻人8年后 丈夫对其复活信心减弱交新女友

头条要闻

中国首例冷冻人8年后 丈夫对其复活信心减弱交新女友

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

白百何回应东京电影节争议

财经要闻

老登们的社交货币全崩了

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

汽车要闻

小鹏X9增程版综合续航1606公里 有底气挑战赛那?

态度原创

亲子
数码
健康
艺术
房产

亲子要闻

3岁女儿让爸爸去接她放学,结果爸爸没去她生气了,看看她咋说的

数码要闻

全球最高性能:三星 SDI 推出支持 150W 连续放电 18650 柱状电池

超声探头会加重受伤情况吗?

艺术要闻

上海人狂喜!百米“翡翠山”官宣,魔都真要造山了!

房产要闻

锚定居住新趋势!广佛新世界重构湾区“理想生活投资学”

无障碍浏览 进入关怀版