【硬件资讯】两大美国芯片企业AI领域大展拳脚！为占据AI领先地位，美帝出口限制再加严？？|gpu|英特尔|amd|nvidia|英伟达黄仁勋

分享至

新闻① ： AI领域大显神威，Gaudi2和Sapphire Rapids为AI训练提供优秀性能还节约成本

Intel今年2月份推出了Sapphire Rapids架构的第四代至强可扩展处理器，而在5月份推出了第二代深度学习芯片Habana Gaudi 2，后者自然是针对AI领域的产品，而前者也针对AI性能经行了大量优化， MLC ommons公布其行业AI性能基准测试MLPerf训练3.0的结果，Intel的这两款产品都展现出令人印象深刻的训练结果。

目前，业内普遍认为生成式AI和大语言模型（LLMs）仅适宜在GPU上运行。然而，最新的数据显示，基于Intel产品组合的AI解决方案，能够为在封闭生态系统中寻求摆脱当前效率与规模限制的客户提供极具竞争力的选择。

先来说说Habana Gaudi2，训练生成式AI和大语言模型需要服务器集群来满足大规模的计算要求。最新MLPerf结果切实验证了Gaudi2在要求极为苛刻的模型——1750亿参数的GPT-3上的出色性能以及高效的可扩展性。

Gaudi2在GPT-3模型上，384个加速器上的训练时间为311分钟，从256个加速器到384个加速器实现近线性95%的扩展效果。•在计算机视觉模型ResNet-50（8个加速器）和Unet3D（8个加速器）以及自然语言处理模型BERT（8个和64个加速器）上取得了优异的训练结果。与去年11月提交的数据相比，BERT和ResNet模型的性能分别提高了10%和4%，证明Gaudi2软件成熟度的提升，软件支持在持续发展和成熟，并能与日益增长的生成式AI及大语言模型的需求保持同步。

而第四代至强可扩展处理器则是众多解决方案中唯一提交的基于CPU的解决方案，MLPerf结果表明，至强可扩展处理器为企业提供了“开箱即用”的功能，可以在通用系统上部署AI，避免了引入专用AI系统的高昂成本和复杂性。

在封闭区，第四代至强可以分别在50分钟以内（47.93分钟）和90分钟以内（88.17分钟）的时间里训练BERT和ResNet-50模型。对于BERT模型的开放区，结果显示，当扩展至16个节点时，第四代至强能够在大约30分钟左右（31.06分钟）完成模型训练。对于较大的RetinaNet模型，第四代至强能够在16个节点上实现232分钟的训练时间，使客户能够灵活地使用非高峰期的至强周期来训练其模型，即可以在早晨、午餐或者夜间进行模型训练。具备Intel AMX的第四代英特尔至强可扩展处理器提供了显著的性能提升，其范围覆盖了多个框架、端到端数据科学工具，以及广泛的智能解决方案生态系统。

对于少数从头开始间歇性训练大模型的用户，他们可以使用通用CPU，并且通常是在已经完成部署的、基于Intel的服务器上运行其业务。此外，大多数人将采用预先训练好的模型，并用小型数据集对其进行微调。Intel发布的结果表明，通过使用Intel AI软件以及标准的行业开源软件，这种微调可以在短短几分钟内完成。

原文链接：https://www.expreview.com/88992.html

之前我们提到过，对于生成式AI来说，GPU的效率是要远高于CPU的，在AI芯片领域占据优势地位的NVIDIA也有种不带CPU玩的壮志豪情。但CPU厂家显然不能坐以待毙啊？Intel针对AI制造的深度学习芯片Habana Gaudi 2在现有的AI模型上表现出了不错的性能和极高的可拓展性，而属于传统CPU产品的Sapphire Rapids在获得优化后也有不小的提升，不过更多的则是在医用箱方面，性能肯定是不及深度学习芯片以及GPU的。Intel在向AI发展这方面的反应还是很迅速的，目前已经基本组建了基于Intel芯片的AI硬件组合，未来Intel也将发布自己适应自家硬件的AI软件以及行业标准，还是值得期待的。

新闻 ②：英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3，霸榜 8 项测试，集群性能逼近线性增长

11 分钟内训练一遍 GPT-3，8 秒训完 BERT。

这就是英伟达给 AI 圈的一点“小小震撼”。

在最新 MLPerf 训练基准测试中，英伟达 H100 集群，横扫八项测试，全部创下新纪录，并且在大语言模型任务中表现尤为突出！

在大语言模型任务中，H100 集群的加速性能逼近线性增长。

即随着集群处理器数量增加，加速效果也几乎同比增加。

这意味着在集群内 GPU 之间的通信效率非常高。

除此之外，H100 还完成了推荐算法、CV、医学图像识别以及语音识别等任务，是唯一一个参加 8 项测试的集群。

而在算力就是生产力的时代下，这波成绩意味着什么，懂得都懂。

据悉，本次测试系统由英伟达和 Inflection AI 联合开发，在云厂商 CoreWeave 上托管。

单节点性能增长明显

这次 MLPerf Training v3.0 中增加了两项新任务：

大语言模型（基于 GPT-3）

推荐算法

这意味着测试任务包含了更大的数据集和更先进的模型。

如上刷新各项记录的，是由 3584 块 H100 组成的超大集群。

它的具体成绩如下：

这是本轮测试中，英伟达拿出的最大集群。

实际上他们还提交了一个包含 768 块 H100 的集群进行测试，并分别在云上和本地部署。

结果显示二者性能几乎完全相同。

更进一步还论证了随着集群中显卡数量的增加，其性能提升可以接近线性增长。

（NVIDIA Pre-Eos 为本地部署，NVIDIA+CoreWeave 为云上部署）

除此之外，这轮测试中英伟达还刷新了单节点加速记录。

和 6 个月前 MLPef Training v2.1 的数据比较，单个 DGX H100 系统（8 块 H100 组成）在各项任务中平均提速 17%。

和 A100 Tensor Core GPU 相比，最高能提速 3.1 倍（BERT 任务）。

这些加速效果的实现，主要得益于两个方面。

一方面是 H100 本身就足够强悍。

H100 基于最新 Hopper 架构，采用台积电 4nm 工艺，集成 800 亿个晶体管，较 A100 增加了 260 亿个。

内核数量达到前所未有的 16896 个，是 A100 的 2.5 倍。

由于面向 AI 计算，H100 中专门搭载了 Transformer Engine，让大模型训练速度可直接 ×6。

另一方面则是依赖集群内的加速网络。

这里使用的是英伟达 Quantum-2 InfiniBand 网络，是该网络架构的第七代。

官网介绍，加速网络能够提供软件定义网络、网络内计算、性能隔离、优越加速引擎、RDMA 和最快达 400Gb / s 的安全加速。

据悉，共有 90 个系统参与最新一轮测试，其中 82 个使用了英伟达的 GPU，英特尔方面有 7 个系统参与。

英特尔的加速系统使用了 64-96 Intel Xeon Platinum 8380 处理器和 256-389 Intel Habana Gaudi2 加速器。

其高配系统完成 LLM 的训练时间为 311 分钟。

基于这次报告的测试结果，有分析师表示他感受到的最大震撼不是 H100 本身的性能，而是在云上训练 AI 实现的卓越效果。

那么这次和英伟达合作的云厂商 CoreWeave 是谁？联合开发系统 Inflection AI 又来者何人？

计算集群还会进一步扩大

首先来看 CoreWeave。

它成立于 2017 年，是一家大型云厂商，号称提供业内最快、最灵活的大规模 GPU 计算资源，提供渲染、机器学习等云上方案，速度比大型公共云快 35 倍，成本低 80%。

而这家云厂商很受科技巨头青睐，英伟达在此之前没少 cue 过它。

5 月，CoreWeave 拿下 2 亿美元融资，主要来自对冲基金 Magnetar Capital，B 轮总融资额达到 4.21 亿美元。

6 月，有消息称微软与 CoreWeave 签署 AI 算力协议，用于计算基础设施，未来数年内的投资金额可能数十亿美元。

英伟达也向 CoreWeave 投资了 1 亿美元，4 月时它的估值为 20 亿美元。

另一家 AI 初创公司 Inflection AI 由 DeepMind 创始成员穆斯塔法・苏莱曼（Mustafa Suleyman）等人创立。

这家公司成立于 22 年 3 月，已拿下 2.25 亿美元融资，估值超 12 亿美元。

公司已经开发出了一个大语言模型 Pi，正是在 H100 集群上训练出来的。

据了解，Pi 的定位是帮助人类更好和计算机交互，它能通过聊天内容来逐渐了解用户，然后提供更加个性化的回答，类似于个人智能管家的感觉。

Inflection AI 的最新 Blog 里表示，基于目前的合作，他们计划在未来几个月内进一步扩大底层计算基础设施的规模。

[1]https://blogs.nvidia.com/blog/2023/06/27/generative-ai-debut-mlperf/?continueFlag=685ee2dc8db6455efed731baa85e2741
[2]https://developer.nvidia.com/blog/breaking-mlperf-training-records-with-nvidia-h100-gpus/
[3]https://www.forbes.com/sites/stevemcdowell/2023/06/27/nvidia-h100-dominates-new-mlperf-v30-benchmark-results/?sh=62b226c35e99

原文链接：https://m.ithome.com/html/703238.htm

但是NVIDIA的强势也不仅仅是说说而已，最新的H100集群居然只用了11分钟就完成了GPT3的训练，上文中也提到过Habana Gaudi 2在此项目上的成绩，384个加速器上的训练时间为311分钟，H100的计算集群只用了它的零头的时间。不过，抛开规模谈性能都是耍流氓，H100集群11分钟的成绩是建立在3584张H100 GPU的基础上，这个规模也要接近Habana Gaudi 2的10倍了。但，在计算集群这个领域上，可拓展性也是一种难得的优势，且不论其它硬件厂商的计算芯片能不能做到3584的规模，就算能，同等规模下估计也难以超越NVIDIA。

新闻 ③ ：美商务部 7 月初要禁 A800？AI 芯片及云服务出口限制再加码

ChatGPT 引爆的生成式 AI 革命，让美国又慌了。外媒称，美国预计 7 月出台对中国 AI 芯片出口的限制措施，英伟达特供版 A800 也将被禁。

美国又要出手了。

据华尔街日报报道，知情人士表示，美国正考虑对中国 AI 芯片的出口实施新限制。

预计，美国商务部的具体措施或在 7 月初出台。

其中包括，禁止英伟达等其他芯片制造商在未经许可的前提下，向中国客户出货。

另外，AI 云服务也将受到限制。中国 AI 公司曾设法绕过美国出口管制，通过第三方获取高端芯片。

受最新消息影响，英伟达股票下跌超 2%，AMD 下跌约 1.5%。

A800 也要禁？

美国计划采取芯片限制的最新行动，将是编纂和扩大去年 10 月宣布的出口管制措施的「最终规则」的一部分。

此举可能进一步削弱中国打造人工智能能力的能力。

2022 年 8 月底，英伟达和 AMD 都表示，自家的先进芯片，包括英伟达的数据中心芯片 A100、H100 等已经被美国商务部列入了出口管制名单。

紧接着 11 月，英伟达对此作出回应，为中国市场推出了一款先进的 A800 AI 芯片。

其性能低于美国商务部规定的门槛，以此作为禁售 A100 的替代品。

英伟达发言人曾在一份声明中介绍道：

「英伟达 A800 GPU 在 2022 年第三季度投产，是英伟达 A100 的另一个替代品，供中国客户使用。A800 符合美国政府对减少出口管制的明确测试，并且不能通过编程来实现性能超越。」

而现在，知情人士表示，美国商务部正在考虑的新限制措施，甚至将禁止在没有许可证的情况下销售 A800 芯片。

对此，英伟达拒绝对此发表评论，而 AMD 也未立即回应置评请求。

限制 AI 云服务

实体芯片被禁后，企业还可以寻求向国外计算云服务提供商租用「云上算力」。

通过使用云服务供应商和与第三方签订租赁协议，来获取受美国出口管制限制的技术。

今年 GTC 大会上，老黄曾发布了 NVIDIA DGX Cloud 人工智能云服务。其中每个实例配有 8 个 H100 或 A100 80GB GPU。

DGX Cloud 提供 NVIDIA DGX AI 超级计算专用集群，可以让企业快速访问为生成式 AI。和其他开创性应用训练高级模型所需的基础设施和软件。

这样，全球企业能够以「云租赁」的形式按月租用 DGX Cloud 集群，价格为每实例 3.7 万美元 / 月起。

除了英伟达，全球提供云服务的三大巨头厂商，亚马逊、微软、谷歌都是云计算采用率和使用规模最大的。

而现在，这条路似乎在未来也要行不通了。

据知情人士表示，政府还在考虑限制向中国 AI 公司出租云服务。

最早 7 月下手

目前，最新规则的发布具体时间仍不确定，因芯片制造商仍在继续向政府施压，要求放弃或放宽新的限制。

据称，商务部最早将于 7 月停止向中国客户运送英伟达和其他芯片公司制造的芯片。

最新行动的讨论，是在去年第一批限制措施实施后，继当前生成式 A 崛起之后又开展的。

美国官员和政策制定者愈加把人工智能视为国家安全问题。因 AI 工具可以用于制造化学武器、生成恶意计算机代码等等至关重要的问题。

然而，在保护关键技术的同时，最大限度地减少对美国及盟友国家企业运营的影响，对于美国政府自身来说是一个巨大的挑战。

国家安全顾问 Jake Sullivan 在今年 4 月表示，「我们正在用一个小院子和高围墙来保护我们的基础技术」。

商务部于去年 10 月对先进半导体和芯片制造设备实施了一系列严格的出口管制措施，但尚未发布正式规定以将这些规则纳入法律。

自去年秋季以来，政府一直在征求受影响企业的意见，并与盟友国家政府进行协商，以制定最终的规定。

当前，美国已说服两国拥有全球顶级的芯片制造设备制造商：荷兰和日本加入美国的政策。

预计，美国还将允许韩国和台湾的芯片制造商，继续在中国运营和扩大其现有的工厂，生产不太先进或传统芯片。

另外，拜登政府还在考虑颁布一项行政命令，以限制美国对中国和其他竞争对手的投资。

原文链接： https://m.ithome.com/html/703201.htm

随着AI时代的到来，美方似乎是有点急了。或许是为了遏制我国AI领域的进步速度，已经经过减配的A800似乎也将在即将到来的新出口管制条例中被限制出口，A800是基于A100减配得来的，算力本就弱于A100，别说最新的H100了，未来可能连减配的A800都难用上了。美国的这个策略也确实有些恶心，这也不断提醒着我们被卡脖子的痛苦，目前不论是GPU还是其它AI芯片，我国自研产品都还相对较少，但像龙芯这样的厂商也已经投身到这个领域中，希望能开辟出一条不受美帝压迫的、属于中国自己的AI领域道路。

店铺口令链接：

38啊小要去而这以可出之对能哈 https://m.tb.cn/h.UDAMMMz CZ0001 电脑吧评测室

文章转载自网络（链接如上）。文章出现的任何图片，标志均属于其合法持有人；本文仅作传递信息之用。如有侵权可在本文内留言。

引用文章内容与观点不代表电脑吧评测室观点。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.