Google AI 基础架构至上：系统比微架构更重要|谷歌|gpu|英伟达|处理器|infiniband

分享至

转载声明：除调整格式外，不得对原文做改写、改编。原创不易，谢谢合作！

转载请注明来源，并在文章开头添加以下文字/或公众号名片：来源：公众号☞不知名风险投资人 ♥作者：黄先生斜杠青年

♥声明：本文为原创文本，非生成式，转载请注明出处！

人工智能时代的到来已经到来，了解人工智能驱动软件的成本结构与传统软件有很大不同是至关重要的。芯片微架构和系统架构在这些创新形式的软件的开发和可扩展性中起着至关重要的作用。与前几代软件相比，运行软件的硬件基础设施对资本支出和运营支出以及毛利率的影响明显更大，而前几代软件的开发人员成本相对较高。因此，投入大量精力优化您的 AI 基础设施以便能够部署 AI 软件就显得尤为重要。在基础设施方面具有优势的公司也将在利用人工智能部署和扩展应用程序的能力方面具有优势。

我是斜杠青年，一个PE背景的杂食性学者！♥

早在 2006 年，谷歌就兜售了构建人工智能专用基础设施的想法，但这个问题在 2013 年达到了沸点。他们意识到，如果他们想以任何规模部署 AI，他们需要将拥有的数据中心数量增加一倍。因此，他们开始为 2016 年投入生产的 TPU 芯片奠定基础。有趣的是，将其与亚马逊进行比较，亚马逊在同一年意识到他们也需要构建定制芯片。2013 年，他们启动了 Nitro 计划，该计划专注于开发芯片以优化通用 CPU 计算和存储。两家截然不同的公司针对不同时代的计算和软件范式优化了基础设施的工作。

自 2016 年以来，Google 现在已经构建了 6 种不同的 AI 芯片，TPU、TPUv2、TPUv3、TPUv4i、TPUv4 和 TPUv5。谷歌主要设计了这些芯片，并与博通进行了不同数量的中后端合作。这些芯片都是由台积电制造的。自 TPUv2 以来，这些芯片还使用了三星和 SK 海力士的 HBM 内存。虽然谷歌的芯片架构很有趣，我将在本报告的后面部分深入探讨，但还有一个更重要的话题在起作用。

谷歌拥有近乎无与伦比的能力，能够以低成本和高性能可靠地大规模部署人工智能。话虽如此，让我们为这个论点带来一些合理性，因为谷歌也提出了与芯片级性能相关的不诚实声明，这些声明需要纠正。我认为，与 Microsoft 和 Amazon 相比，Google 在 AI 工作负载方面具有性能/总拥有成本（perf/TCO）优势，因为它们采用了从微架构到系统架构的整体方法。将生成式人工智能商业化给企业和消费者的能力是另一回事。.

技术领域是一场永恒的军备竞赛，人工智能是行动最快的战场。随着时间的推移，训练和部署的模型体系结构发生了重大变化。案例和重点在于谷歌的内部数据。从 2016 年到 2019 年，CNN 模型迅速上升，但随后又下降了。CNN 在计算、内存访问、网络等方面与 DLRM、Transformer 和 RNN 有着截然不同的轮廓。同样的情况也发生在完全被变压器取代的 RNN 上。

因此，硬件必须能够灵活地适应行业的发展并为其提供支持。底层硬件不能过度专注于任何特定的模型架构，否则随着模型架构的变化，它可能会过时。从芯片开发到大规模批量部署，一般需要4年时间，因此，硬件可能会被软件想要做的事情抛在后面。这已经可以从使用特定模型类型作为优化点的初创公司的某些 AI 加速器架构中看到。这是大多数人工智能硬件初创公司失败/将要失败的众多原因之一。

这一点在谷歌自己的TPUv4i芯片上尤为明显，该芯片是为推理而设计的，但无法在谷歌最好的模型（如PaLM）上运行推理。上一代 Google TPUv4 和 Nvidia A100 在设计时不可能考虑到大型语言模型。同样，最近部署的 Google TPUv5 和 Nvidia H100 在设计时也不可能考虑到 AI Brick Wall，也无法为解决这一问题而开发的新模型架构策略。这些策略是 GPT-4 模型架构的核心部分。

硬件架构师必须对机器学习朝着他们正在设计的芯片的方向做出最好的猜测。这包括内存访问模式、张量大小、数据重用结构、算术密度与网络开销等。

此外，芯片微架构只是人工智能基础设施真实成本的一小部分。系统级架构和部署灵活性是更重要的因素。今天，我想深入探讨谷歌的 TPU 微架构、系统架构、部署切片、可扩展性，以及它们在基础设施方面相对于其他科技巨头的巨大优势。这包括我们在 TCO 模型中的思考，将 Google 的 AI 基础设施的成本与 Microsoft、Amazon 和 Meta 的成本进行比较。

我还将直接将谷歌的架构与英伟达的架构进行比较，这是首要考虑因素，尤其是从性能和网络的角度来看。我还将简要比较其他公司的人工智能硬件，包括AMD、英特尔、Graphcore、亚马逊、Sambanova、Cerebras、Enflame、Groq、Biren、Iluvatar 和 Preferred Networks。

我仅从业余的角度来研究这一点，以进行大型模型研究、训练和部署。我还想深入研究 DLRM 模型，尽管 DLRM 模型是目前最大的大规模 AI 模型架构，但往往没有得到充分讨论。此外，我将讨论 DLRM 和 LLM 模型类型之间的基础设施差异。最后，我将讨论 Google 为外部云客户成功使用 TPU 的能力。同样在最后，谷歌的 TPU 有一个异常的复活节彩蛋，我认为这是一个错误。

Google 的系统基础架构优势

谷歌在基础设施方面的部分优势在于，他们一直从系统级的角度设计TPU。这意味着单个芯片很重要，但如何在现实世界中的系统中一起使用更为重要。因此，在分析中，我将逐层分析从系统架构到部署使用再到芯片级别。

虽然英伟达也从系统的角度思考，但他们的系统规模比谷歌更小、更窄。此外，直到最近，英伟达还没有云部署的经验。谷歌在其人工智能基础设施方面最大的创新之一是在TPU、ICI之间使用自定义网络堆栈。与昂贵的以太网和 InfiniBand 部署相比，此链路具有低延迟和高性能。它更类似于 Nvidia 的 NVLink。

谷歌的 TPUv2 可以扩展到 256 个 TPU 芯片，与英伟达当前一代 H100 GPU 的数量相同。他们将这个数字增加到 TPUv1024 的 3 个和 TPUv4096 的 4 个。假设当前一代 TPUv5 可以扩展到 16,384 个芯片，而无需通过基于趋势线的低效以太网。虽然从性能的角度来看，这对大规模模型训练很重要，但更重要的是它们能够将其划分为实际使用。

Google 的 TPUv4 系统每台服务器有 8 个 TPUv4 芯片和 2 个 CPU。此配置与 Nvidia 的 GPU 相同，后者位于 8 个 A100 或 H100 的服务器中，每个服务器有 2 个 CPU。单个服务器通常是 GPU 部署的计算单元，但对于 TPU，部署单元是 64 个 TPU 芯片和 16 个 CPU 的较大“切片”。这 64 个芯片通过直连铜缆在内部以 4^3 立方体的形式与 ICI 网络连接。

除了这个由64个芯片组成的单元之外，通信转移到光学领域。这些光收发器的成本是无源铜缆的 10 倍以上，因此 Google 针对这个 64 数字优化了其切片尺寸，以从网络角度最大限度地降低系统级成本。

相比之下，2023 年的 Nvidia SuperPod 部署最多可容纳 256 个 GPU，配备 NVLink，比 16 年的 TPUv2020 pod 的 4 个芯片小 4096 倍。此外，英伟达显然不太关注基于英伟达第一圣方渲染和DGX Superpod系统的密度和网络成本。Nvidia 的部署通常是每个机架 1 台服务器。

一般来说，除了 4 台服务器和 32 个 GPU 之外，通信必须采用光纤。因此，英伟达需要更多的光收发器进行大规模部署。

谷歌OCS

谷歌部署了其定制光开关，该开关使用基于MEMS的微镜阵列在64个TPU切片之间切换。快速总结是，谷歌声称他们的定制网络将吞吐量提高了 30%，功耗减少了 40%，资本支出减少了 30%，流量完成减少了 10%，整个网络的停机时间减少了 50 倍，有关更详细的原因和方式，请@我。

Google 使用这些 OCS 来打造其数据中心骨干。他们还使用它们将 TPU 吊舱内部连接在一起。这种 OCS 的最大优点是信号仅保留在从 64 TPU Pod 内的任何 4096 TPU 切片到 <> TPU 切片的光学域中。

将其与 4,096 个 GPU 和多个 Nvidia SuperPod 的 Nvidia GPU 部署进行比较。该系统需要在这些 GPU 之间进行多层切换，总共需要 ~568 个 InfiniBand 交换机。Google 的 48 TPU 部署只需要 4096 个光开关。

应该注意的是，与第三方从 Nvidia 购买的 Nvidia 的 InfiniBand 交换机相比，直接从 Google 的合同制造商处购买时，Google 的 OCS 每台交换机的价格也高出约 3.2 倍到 3.5 倍。不过，这不是一个公平的比较，因为它包括 Nvidia ~75% 的数据中心毛利率。

如果我们只比较合同制造成本，谷歌的IE成本与英伟达的成本;那么成本差异上升到英伟达InfiniBand交换机的12.8倍到14倍。部署 4096 芯片所需的交换机数量为 48 对 568，IE 为 11.8 倍。英伟达的解决方案在交换机的基础上制造成本更低。当包括额外光收发器的成本时，这个等式会平衡或偏向有利于谷歌。

每层交换之间的每个连接都是需要更多布线的另一个点。虽然其中一些可以通过直接连接的铜缆完成，但仍有多个点的信号也需要通过光纤传输。这些层中的每一层都会在每一层开关之间从电转换到光学再到电转换。这将使大型电气开关系统的功耗远高于谷歌的OCS。

谷歌声称所有这些功耗和成本节约是如此之大，以至于它们的网络成本占TPU v5超级计算机总资本成本的<4%，占总功耗的<3%。这不仅仅是通过从电气开关转向内部光开关来实现的。

通过拓扑将网络成本降至最低

虽然谷歌大力推动这一观点，但重要的是要认识到 Nvidia 和 Nvidia 网络的拓扑结构完全不同。英伟达系统部署了“非阻塞”的“Clos网络”。这意味着它们可以同时在所有输入和输出对之间建立全带宽连接，而不会发生任何冲突或阻塞。这种设计提供了一种可扩展的方法，用于连接数据中心中的许多设备，最大限度地减少延迟并增加冗余。

谷歌的TPU网络放弃了这一点。它们使用 3D 环面拓扑来连接三维网格状结构中的节点。每个节点都连接到网格中的六个相邻节点（上、下、左、右、前和后），在三个维度（X、Y 和 Z）中的每一个维度上形成一个闭环。这创造了一个高度互连的结构，其中节点在所有三个维度上形成一个连续的循环。

第一张图片更合乎逻辑，但如果你考虑了一会儿，有点饿了，这个网络拓扑简直就是一个甜甜圈！

与 Nvidia 使用的 Clos 拓扑相比，环面拓扑有几个优点：

更低的延迟：3D 环面拓扑可以提供更低的延迟，因为它在相邻节点之间有较短的直接链接。这在运行需要节点之间频繁通信的紧密耦合的并行应用程序（例如某些类型的 AI 模型）时特别有用。

更好的局部性：在 3D 环面网络中，物理上彼此靠近的节点在逻辑上也很接近，这可以带来更好的数据局部性并减少通信开销。虽然延迟是一个方面，但功率也是一个巨大的好处。

较低的网络直径：对于相同数量的节点，3D 环面拓扑的网络直径低于 Clos 网络。与 Clos 网络相比，由于需要的交换机要少得多，因此可以节省大量成本。

在硬币的另一面，3D 环面网络有许多缺点。

可预测的性能：Clos网络，特别是在数据中心环境中，由于其非阻塞特性，可以提供可预测且一致的性能。它们确保所有输入输出对可以在全带宽下同时连接，而不会发生冲突或阻塞，这在 3D 环面网络中是无法保证的。

更易于扩展：在脊叶架构中，向网络添加新的叶交换机（例如，以容纳更多服务器）相对简单，并且不需要对现有基础架构进行重大更改。相比之下，缩放 3D 环面网络可能涉及重新配置整个拓扑，这可能更加复杂和耗时。

负载均衡：Clos 网络在任意两个节点之间提供更多路径，从而实现更好的负载均衡和冗余。虽然 3D 环面网络也提供了多条路径，但 Clos 网络中的替代路径数量可能会更多，具体取决于网络的配置。

总的来说，虽然 Clos 具有优势，但 Google 的 OCS 缓解了其中的许多优势。OCS 支持在多个切片和多个 Pod 之间进行简单的扩展。

3D 环面拓扑面临的最大问题是误差可能是一个更大的问题。错误可能会突然出现。即使主机可用性达到 99%，2,048 个 TPU 的幻灯片也无法正常工作，接近 0。即使达到 99.9%，使用 2,000 个 TPU 的训练运行在没有 Google 的 OCS 的情况下也有 50% 的良好输出。

OCS 的优点在于它支持动态重新配置路由。

尽管存在一些故障节点，但仍需要备件来安排作业。操作员无法在不冒故障风险的情况下从 2k 节点 pod 实际调度两个 4k 节点切片。基于 Nvidia 的训练运行通常需要过多的开销，专门用于检查点、拉取故障节点和重新启动它们。谷歌在某种程度上简化了这一点，只是绕过失败的节点进行路由。

OCS 的另一个好处是，切片可以在部署后立即使用，而不是等待整个网络。

部署基础架构 - 用户视角

从成本和功耗的角度来看，基础设施效率很好，允许谷歌每美元部署比其他公司部署GPU更多的TPU，但这没有任何意义。谷歌内部用户获得体验的最大优势之一是，他们可以根据自己的模型定制基础设施需求。

没有任何芯片或系统能够匹配所有用户想要的内存、网络和计算配置文件类型。芯片必须通用化，但与此同时，用户想要这种灵活性，他们不想要一个一刀切的解决方案。Nvidia 通过提供许多不同的 SKU 变体来解决这个问题。此外，它们还提供一些不同的内存容量层以及更紧密的集成选项，例如 Grace + Hopper 和 NVLink Network for SuperPods。

谷歌负担不起这种奢侈。每增加一个 SKU，意味着每个 SKU 的总部署量都会降低。这反过来又降低了他们整个基础设施的利用率。更多的 SKU 也意味着用户更难在需要时获得他们想要的计算类型，因为某些选项将不可避免地被超额认购。然后，这些用户将被迫使用次优配置。

因此，谷歌面临着一个棘手的问题，即为研究人员提供他们想要的确切产品，同时最大限度地减少 SKU 差异。Google 正好有 1 个 TPUv4 部署配置，共 4,096 个 TPU，相比之下，Nvidia 必须支持数百个不同规模的部署和 SKU，以满足其更大、更多样化的客户群。尽管如此，谷歌仍然能够以一种独特的方式对其进行切片和切块，使内部用户能够拥有他们想要的基础设施的灵活性。

Google 的 OCS 还支持创建自定义网络拓扑，例如扭曲环面网络。这些是 3D 环面网络，其中某些维度是扭曲的，这意味着网络边缘的节点以非平凡、非线性的方式连接，从而在节点之间创建额外的快捷方式。这进一步改善了网络直径、负载均衡和性能。

Google 的团队大量利用这一点来协助开发某些模型架构。以下是 1 年 2022 月仅 30 天时间内各种 TPU 配置的芯片数量和网络拓扑的流行情况快照。尽管有 <> 多种不同的配置，尽管许多配置在系统中具有相同数量的芯片，以适应正在开发的各种模型架构。这是 Google 对 TPU 的使用和灵活性的巨大强大见解。此外，它们还有许多较少使用的拓扑结构，甚至没有图示。

为了充分利用可用带宽，用户沿 3D 环面的一个维度映射数据并行度，并在其他维度上映射两个模型平行参数。谷歌声称最佳拓扑选择可以使性能提高 1.2 倍到 2.3 倍。

最大的大规模 AI 模型架构：DLRM

如果不讨论深度学习推荐模型（DLRM），任何关于 AI 基础设施的讨论都是不完整的。这些 DLRM 是百度、Meta、字节跳动、Netflix 和谷歌等公司的支柱。它是广告、搜索排名、社交媒体提要订购等方面年收入超过一万亿美元的引擎。这些模型由数十亿个权重组成，在超过一万亿个样本上进行训练，并以每秒超过 300,000 次查询的速度处理推理。这些型号的大小（10TB+）甚至远远超过了最大的变压器型号，例如GPT4，后者约为1TB+（型号架构差异）。

上述所有公司之间的共同点是，它们依靠不断更新的 DLRM 来推动其在电子商务、搜索、社交媒体和流媒体服务等各个行业（如电子商务、搜索、社交媒体和流媒体服务）中个性化内容、产品或服务的业务。这些模型的成本是巨大的，硬件必须与之协同优化。DLRM 不是一成不变的，而是随着时间的推移而不断改进的，但在继续之前，让我们先解释一下一般的模型架构。我将尽量保持简单。

DLRM 旨在通过对分类和数值特征进行建模来学习用户-项目交互的有意义的表示。该架构由两个主要组件组成：嵌入组件（处理分类特征）和多层感知器（MLP）组件（处理数值特征）。

用最简单的术语来说，多层感知器组件是密集的。这些特征被馈送到一系列全连接层中。这类似于 GPT 4 之前的旧 transformer 架构，它们也很密集。密集层可以很好地映射到硬件上的大规模矩阵多个单元。

嵌入组件是 DLRM 非常独特的组件，也是使其计算配置文件如此独特的组件。DLRM 输入是表示为离散稀疏向量的分类特征。一个简单的谷歌搜索只包含整个语言中的几个单词。这些稀疏输入不能很好地映射到硬件中的大规模矩阵乘法单元，因为它们从根本上更类似于哈希表，而不是张量。由于神经网络通常在密集向量上表现更好，因此采用嵌入将分类特征转换为密集向量。

稀疏输入：[0， 0， 0， 1， 0， 0， 0， 0， 0， 0， 0， 0， 0， 0， 0， 0， 1， 0， 0， 0， 0]

密集向量：[0.3261477， 0.4263801， 0.5121493]

嵌入函数将分类空间（英语中的单词、与社交媒体帖子的互动、对帖子类型的行为）映射到更小的密集空间（代表每个单词的 100 个向量）。这些函数是使用查找表实现的，查找表是 DLRM 的重要组成部分，通常构成 DLRM 模型的第一层。嵌入表的大小可能会有很大差异，每个表的大小从数十兆字节到数百千兆字节甚至数 TB 不等。

Meta 成立 2 年的 DLRM 超过 12 万亿个参数，需要 128 个 GPU 才能运行推理。如今，最大的生产 DLRM 模型至少要大几倍，并且仅为了容纳模型嵌入就消耗了超过 30TB 的内存。预计明年将增加到超过 70TB 的嵌入！因此，这些表需要在许多芯片的内存中进行分区。主要有三种分区方式：分列、分行、分表。

DLRM的性能很大程度上取决于内存带宽、内存容量、矢量处理性能以及芯片之间的网络/互连。嵌入查找操作主要由小的聚集或分散内存访问组成，这些访问具有较低的算术强度（FLOPS 根本不重要）。对嵌入表的访问从根本上说是非结构化的稀疏性。每个查询都必须从 30TB+ 嵌入的一部分中提取数据，这些嵌入分片跨越数百或数千个芯片。这可能导致超级计算机在用于 DLRM 推理的计算、内存和通信负载方面出现不平衡。

对于 MLP 和类似 GPT-3 的变压器中的密集操作，这有很大不同。芯片 FLOPS/sec 仍然是主要的性能驱动因素之一。当然，除了 FLOP 之外，还有多种因素会影响性能，但在 Chinchilla 风格的 LLM 中，GPU 仍然可以实现超过 71% 的硬件 FLOP 利用率。

Google 的 TPU 架构

谷歌的 TPU 为该架构引入了一些关键创新，使其有别于其他处理器。与传统处理器不同，TPU v4 没有专用的指令缓存。相反，它采用直接内存访问（DMA）机制，类似于单元处理器。TPU v4 中的矢量缓存不是标准缓存层次结构的一部分，而是用作暂存器。暂存器与标准缓存的不同之处在于它们需要手动写入，而标准缓存会自动处理数据。谷歌可以利用这种更高效的基础设施，因为不需要服务于那么大的通用计算市场。这确实在一定程度上影响了编程模型，尽管 Google 工程师认为 XLA 编译器堆栈可以很好地处理这个问题。对于外部用户来说，情况并非如此。

TPU v4 拥有 160MB SRAM 和 2 个 TensorCore，每个 TensorCore 都有 1 个矢量单元，带有 4 个矩阵乘法单元（MXU）和 16MB 矢量内存（VMEM）。两个 TensorCore 共享 128MB 内存。它们支持 BF275 的 16 TFLOPS，还支持 INT8 数据类型。TPU v4 的内存带宽为 1200GB/s。芯片间互连（ICI）通过 300 个 50GB/s 链路提供 <>GB/s 的数据传输速率。

TPU v322 中包含一个 4b 超长指令字（VLIW）标量计算单元。在 VLIW 架构中，指令被组合成一个长指令字，然后被分派给处理器执行。这些分组指令（也称为捆绑包）由编译器在程序编译期间显式定义。VLIW 捆绑包包括多达 2 个标量指令、2 个矢量 ALU 指令、1 个矢量加载指令和 1 个矢量存储指令，以及 2 个用于在 MXU 之间传输数据的插槽。

矢量处理单元（VPU）配备 32 个 2D 寄存器，包含 128x 8 32b 元素，使其成为 2D 矢量 ALU。矩阵乘法单元（MXU）在 v128、v128 和 v2 上为 3x4，v1 版本具有 256x256 配置。此更改的原因是 Google 模拟了四个 128x128 MXU 的利用率比一个 60x256 MXU 高 256%，但四个 128x128 MXU 占用的区域与 256x256 MXU 相同。MXU 输入利用 16b 浮点（FP）输入，并使用 32b 浮点（FP）累加。

这些较大的单元允许更高效的数据重用，以突破内存壁垒。

Google DLRM 优化

谷歌是最早开始在其搜索产品中大规模使用DLRM的公司之一。这种独特的需求催生了一个非常独特的解决方案。上述体系结构有一个主要缺陷，即它不能有效地处理 DLRM 的嵌入。Google 的主要 TensorCore 非常大，与这些嵌入的计算配置文件不匹配。谷歌不得不在他们的 TPU 中开发一种全新类型的“SparseCore”，这与上面描述的用于密集层的“TensorCore”不同。

SparseCore （SC）为 Google TPU 中的嵌入提供硬件支持。早在 TPU v2 中，这些特定于域的处理器就具有直接绑定到每个 HBM 通道/子通道的 tile。它们加速了训练深度学习推荐模型（DLRM）中内存带宽最密集的部分，同时仅占用约 5% 的芯片面积和功耗。通过在每个 TPU v2 芯片上使用快速的 HBM4 进行嵌入，而不是 CPU，与将嵌入留在主机 CPU 的主内存上相比，Google 的内部生产 DLRM 速度提高了 7 倍（TPU v4 SparseCore 与 Skylake-SP 上的 TPU v4 嵌入）。

SparseCore 支持从 HBM 快速访问内存，具有专用的提取、处理和刷新单元，可将数据移动到稀疏矢量内存（Spmem）组，并由可编程的 8 宽 SIMD 矢量处理单元（scVPU）进行更新。这些单元的 16 个计算图块进入 SparseCore。

其他跨通道单元执行特定的嵌入操作（DMA、排序、稀疏化减、分叉、连接）。每个 TPU v4 芯片有 4 个 SparseCore，每个都有 2.5MB 的 Spmem。展望未来，我推测 TPUv6 的 SparseCore 数量将继续增加到 5 个，并且由于 HBM32 上的子通道数量增加，tile 数量将增加到 3 个。

虽然迁移到 HBM 的性能提升是巨大的，但性能扩展仍然受到互连等分带宽的影响。TPU v3 中 ICI 的新 4D 环面有助于进一步扩展嵌入查找性能。然而，当扩展到 1024 个芯片时，由于 SparseCore 开销成为瓶颈，这种改进会下降。

如果 Google 认为他们的 DLRM 需要增加超过 ~5 个芯片的大小和容量，那么这个瓶颈可能会导致每个 Tile 的 Spmem 也随着 TPUv512 而增加。

本报告的其余部分将比较 Google TPU 和 Nvidia GPU 以及用于大型语言模型训练的真实数据，而不仅仅是与您通常看到的与训练预算无关的小模型的典型比较。

它还将微架构与 Nvidia GPU 以及 AMD、Intel、Graphcore、Amazon、Sambanova、Cerebras、Enflame、Groq、Biren、Iluvatar 和 Preferred Networks 的其他 AI 硬件进行比较。

我还将比较其他科技巨头与谷歌的人工智能基础设施成本。最后，谷歌的TPU也有一个奇怪的异常，我们不得不假设这是一个错误。

了解最新前沿科学、技术和应用，尽在公众号《不知名风险投资人》和《谁是药神》

关注我，带你先看到未来！♥

转载声明：除调整格式外，不得对原文做改写、改编。原创不易，谢谢合作！

转载请注明来源，并在文章开头添加以下文字/或公众号名片：来源：公众号☞不知名风险投资人 ♥作者：黄先生斜杠青年

♥声明：本文为原创文本，非生成式，转载请注明出处！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.