公众号记得加星标⭐️,第一时间看推送不会错过。
来 源: 内容 编译自 nextplatform 。
英特尔称霸全球芯片市场的时代,高通曾羡慕过数据中心巨头。如今,英伟达已经证明了人工智能处理能够彻底改变芯片制造商的财务状况,高通的处境更是雪上加霜。高通也是高端 Arm CPU 和智能手机附加电路的产量领导者,并且拥有打造服务器 CPU 和人工智能加速器的知识产权和人才,能够抓住巨大的人工智能推理机遇。
高通缺乏的是能够大幅蚕食英伟达AI推理工作负载的技术,无论华尔街本周对这一前景多么兴奋,因为沙特阿拉伯的Humain AI初创公司已成为高通数据中心AI雄心的“金主”。而且,高通完全没有机会创造出任何能够在AI训练领域与英伟达抗衡的产品。根据我们的模型,在截至明年1月的2026财年,英伟达1835亿美元的数据中心收入中,约有一半来自AI训练。
你必须透过这个绿色的镜头来看待高通本周稍微概述的与 Humain 的交易。
今年 5 月,高通与 Humain 签署了一份谅解备忘录,合作开发边缘和数据中心的 AI 技术。该谅解备忘录不仅涵盖了预期的推理 AI 芯片(我们希望它们能有一个更好的产品名称,也希望我们知道具体的代号),还包括搭载骁龙和 Dragonwing 系统级芯片的边缘设备,旨在“加速”后端云基础设施,并针对这些 SoC 调整 Humain 的阿拉伯语大型语言模型。值得注意的是,该谅解备忘录要求高通“开发并提供最先进的数据中心 CPU 和 AI 解决方案”,这无疑意味着高通将重返服务器 CPU 业务,同时获得资金来扩展其 AI 加速器产品线。
让我们首先解决 AI 加速器问题,然后再考虑服务器 CPU。
![]()
本周,在沙特阿拉伯利雅得举行的未来投资倡议2025大会期间,Humain与高通从谅解备忘录正式签署,并宣布两款未来AI加速器正在开发中,Humain是其首家客户。与博通至少拥有两家XPU客户一样,高通也为Humain提供完整的机架式系统,而不仅仅是芯片,后者需要将芯片提供给广达、富士康、英维思、捷普、天弘或WiWynn(仅列举几家巨头)等原始设计制造商,由后者将其转化为服务器并集群化成系统。
高通最初的 AI 100 XPU 早在 2019 年就已发布,并于 2021 年上半年某个时候发货。我们唯一一次见到它们是在晶圆级系统供应商 Cerebras Systems 调整其软件堆栈以进行推理之前。但在 2024 年 3 月,当 WS-3 计算引擎及其 CS-3 系统首次亮相时,Cerebras 将推理任务转移到高通的 AI 100 加速器机架上,以比当时使用自己的系统更便宜的方式进行推理。到去年 9 月,Cerebras 已经调整了其软件以运行推理工作负载,从此我们就再也没有听说过 AI 100 XPU 的消息。
坦白说,现在追逐AI推理的初创公司太多了,而且事情太多,我们都没能回过头来。(高通,对此深表歉意。)无论如何,高通早在2021年9月就发布了一系列关于AI 100加速器的基准测试,这些测试结果很有意思,表明这些设备在ResNet-50图像处理测试中与低端和高端Nvidia“Ampere”GPU以及其他适合边缘计算的推理引擎不相上下。与Nvidia A100 GPU相比,AI 100在每秒每瓦推理性能方面表现尤为出色,这是一个重要的事实。
但随着 GenAI 的出现,推理技术已经取得了长足进步,计算负载也随之大幅提升。与此同时,人们也渴望找到一种更经济的替代方案——如果这种方案真的存在的话——而不是在 Nvidia 机架式 CPU-GPU 混合处理器上运行专家推理。
2024 年 10 月——我们找不到确切的发布日期,这很奇怪——高通开始发售 AI 100 的低配版,称为 AI 80,同时还打造了一款 PCI-Express 卡,将四块 AI 100 芯片互连在一个封装中,称为 AI 100 Ultra。(此外还增加了 AI 80 卡的 Ultra 版本。)高通还开始提高 XPU 上 SRAM 的良率,并将容量从每芯片 126 MB 提升到每芯片 144 MB——我们不知道 SRAM 暂存器内存的这个容量是否是该设备上可用的最大值,如果不是,那么可能很接近了。
就在几天前,加州大学圣地亚哥分校(距离高通总部不远)的研究人员对 AI 100 Ultra 进行了基准测试,并与搭载 4 个和 8 个 A100 GPU 的系统进行了对比,结果显示高通 XPU 表现出色。在 GPT-2 和 Granite 3.2 测试中,4 个 A100 的单位功耗比搭载 4 个高通芯片的单个 AI 100 Ultra 少 60%,而 A100 在 Neomtron-70B 型号上的表现略好一些。但除此之外,相同数量的高通显卡比相同数量的英伟达显卡的单位功耗表现更佳。
![]()
奇怪的是,UCSD 的论文并没有实际进行计算,也没有明确展示这两组设备的对比情况,而是留给读者自行计算。不过,我们制作了上面的表格,以便您了解它们的比较情况。
论文中没有提到的另一件事是计算密度和达到给定吞吐量所需的设备数量。我们做了计算,计算出需要多少个 AIC(高通有时将其称为卡)才能匹配四个或八个 A100 的性能。如你所见,数字加起来非常快。假设你可以将 16 个 AIC 卡放入一个 5U 服务器中(这个密度相当高),那么在 AI 100 Ultra 在效率上击败 GPU 的领域,需要一到四个高通加速器机架才能匹配四个或八个 A100 GPU 的性能。要匹配精度更低的 Nvidia “Hopper” H100 或 H200 或 “Blackwell” B100、B200 或 B300 GPU 的性能,分别需要 2 倍或 4 倍到 6 倍的机架数量。
像往常一样,如果您有空间,并且您的工作量非常并行,那么您可以选择便宜的方式。
下表比较了 Qualcomm AI XPU 的五种现有版本以及我们对未来 AI 200 和 AI 250 加速器的 Ultra 版本的估计,这些版本是本周作为与 Humain 交易的一部分发布的,其外观如下:
![]()
我们相当确信高通正在台湾半导体制造公司生产其 AI XPU;我们已经猜测了所使用的工艺,和往常一样,我们的猜测以粗体红色斜体显示。
我们知道 AI 200 将于明年某个时候上市,Hussain 是其主要客户,它将配备 768 GB 的 LPDDR5 主内存,并使用 PCI-Express 实现机架内扩展网络,并使用以太网实现跨机架扩展。就是这样。我们知道 AI 250 的升级版将于 2027 年初上市,高通已承诺每年更新其 AI 加速器。
我们对 AI 200 Ultra 和 AI 250 Ultra 的外观进行了估计,主要是为了让我们自己开心,并感受一下它们的外观。
关于 AI 100 系列芯片的架构细节,目前知之甚少。它支持 FP16 浮点和 INT8 整数处理,其性能与 AI 100 卡的性能以及板级 SRAM 和主内存的芯片数量和 AI 核心数量相关。AI 100 架构基于高通智能手机 CPU 中的 Hexagon 神经网络处理器 (NNP),在某些 Linux 文档中也称为 Q6。
Qualcomm AI 核心如下所示:
![]()
如您所见,该架构在同一核心上集成了标量单元、矢量单元和张量单元。它代表了高通为其智能手机开发的第七代神经网络处理器。标量芯片采用四路 VLIW 设置,拥有六个硬件线程;它拥有超过 1,800 条指令。标量电路具有指令和数据缓存,尽管图中没有显示,但标量单元和内存子系统之间存在连接,标量单元通过内存子系统将工作卸载到核心上的矢量单元和张量单元。该内存子系统拥有一个 1 MB 的 L2 缓存,该缓存将数据输入到由矢量单元和张量单元共享的 8 MB 暂存器中。
张量单元拥有超过 125 条适用于 AI 运算的指令,并拥有一个 8,192 个 2D 乘法累加器 (MAC) 阵列用于执行 INT8 运算,以及另一个 4,096 个 2D MAC 阵列用于执行 FP16 运算。这些张量扩展被称为 HMX,即六边形矩阵扩展 (Hexagon Matrix Extensions) 的缩写。
矢量单元具有用于分散/聚集集体操作的加速器,并拥有超过 700 条用于人工智能、图像处理和其他内容操作功能的指令。它支持 8 位或 16 位整数运算以及 16 位或 32 位浮点运算。在 8 位整数模式下,该矢量单元每时钟可执行 512 次 MAC 运算;在 16 位浮点模式下,每时钟可执行 256 次 MAC 运算。这显然只是张量单元吞吐量的一部分,但有些算法需要矢量单元,而不是张量单元。矢量指令统称为 HVX,简称六边形矢量扩展。
当您将 16 个 AI 核心放在一个芯片上并在其周围包裹四个 LPDDR4X 内存控制器以及一个具有 8 个 I/O 通道以链接到主机系统的 PCI-Express 4.0 控制器时,AI 100 SoC 的外观如下:
![]()
可以合理地假设,高通将发布具有更多指令和其他内容的 Hexagon 7 架构,并且它将通过 AI 200 这一代增加 SoC 上的 AI 核心数量。为了跟上步伐,AI 200 应该是 2 倍左右,采用 5 纳米工艺蚀刻,可能是为了降低成本,从而获得优于当前 Nvidia GPU 的每瓦性能优势。我们认为,如果 2027 年台积电将工艺缩小到 3 纳米,AI 250 可能会再提高 50%。因此,2026 年 AI 200 将有 32 个核心,2027 年 AI 250 将有 48 个核心。时钟速度将根据所需的散热而定。预计高通将强调效率而不是性能,这意味着更低的时钟和更多的设备,以在与 GPU 设置相同的功耗下获得给定的吞吐量水平。毕竟,这是高通一直在玩的游戏。
我们认为,AI 核心在张量核心上也必须至少达到 FP8 精度(即使不能达到 FP4 精度),这将使每时钟周期的性能比目前基于 Hexagon 6 架构的 AI 核心提高一倍或四倍。高通可能会取消张量核心中的整数支持,并大幅提升浮点数。(我们也会这么做。)
这让我们谈到了 CPU。早在 2017 年,高通就推出了一款名为“Amberwing” Centriq 2400 的 Arm 服务器 CPU 。这是一款 48 核芯片,与当时的“Broadwell”和“Skylake” Xeon SP 相比表现相当不错。有传言称谷歌是 Centriq 项目的支持者,不知出于什么原因,当谷歌没有大量购买 Centriq 时,高通在 2018 年 5 月加大了服务器 CPU 项目的投入。2021 年 1 月,高通收购了 Arm 服务器芯片设计公司 Nuvia,奇怪的是,它不是为了做服务器,而是为了获得其“Phoenix”内核,也就是现在的 Oryon 内核,与高通自己设计的骁龙内核形成对比。
高通在 5 月份与 Humain 联合发布的公告中明确表示,它正在再次开发数据中心服务器 CPU。我们认为,未来的 AI 200 和 AI 250 设备很有可能在封装中集成服务器级 Oryon Arm 内核,从而无需运行外部 X86 或 Arm CPU 作为主机。我们甚至可以说,连接到 AI 200 的 LPDDR5 内存或连接到 AI 250 加速器的 LPDDR6X 内存将与上述 Oryon 内核同步共享。
高通的声明称,AI 250“将首次搭载基于近内存计算的创新内存架构,通过提供超过10倍的有效内存带宽和更低的功耗,为AI推理工作负载带来效率和性能的跨越式提升。” 我们不确定这意味着什么,但听起来可能就是我们上面所说的。我们预计高通不会在其设备中添加HBM堆叠内存,因为这会违背降低成本和提高可用性的初衷。
这就引出了下一个问题:Humain 计划购买多少个高通加速器,这对高通来说意味着什么?(换句话说,它能从 Nvidia 那里拿走多少钱。)
高通表示,它已赢得 200 兆瓦的部署。如果一张 AI 200 Ultra 卡配备四个 SoC,其功耗为 250 瓦,那么需要 80 万张卡。我们知道高通希望每个机架提供 160 千瓦的功率,因此假设 AI 200 Ultra 卡的功耗为该功率的 80%,即 128 千瓦。这意味着每个机架可容纳 512 台设备,总共需要 1250 个机架。如果每张卡的成本为 4000 美元,那么总成本为 32 亿美元,此外可能还需要 20 亿美元用于机架及其冷却、网络和存储。即每机架 520 万美元,如果高通公司摆脱张量核心上的整数运算,只进行浮点运算,并将张量核心上的精度降低到 FP4,那么机架中 320 万美元的计算能力将达到 983 petaflops,即每 petaflops 2,604 美元,每千瓦每 petaflops 16.30 美元。
Nvidia B300 NVL72 每机架成本是多少?其功耗在 120 千瓦到 145 千瓦之间,具体取决于询问对象和具体条件。不包括存储,仅包括扩展网络和主机计算。GB300 NVL72 机架在 FP4 精度下可执行每秒 1100 千万亿次浮点运算(真正针对推理而非训练进行调整),成本约为 40 亿美元。按照每机架 145 千瓦计算,每千万亿次浮点运算的成本为 3636 美元,每千瓦功耗为 25.08 美元。这比高通的每瓦功耗高出约 35%。
AI 200 Ultra 的单价为 6,150 美元(如果我们认为确实如此),那么 GB300 机架式处理器和 AI 200 Ultra 机架式处理器的每瓦性能相同。高通可以根据市场情况在此基础上进一步降价,甚至可能由于供应短缺和希望拥有多家供应商而根本不需要大幅降价。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4210期内容,欢迎关注。
加星标⭐️第一时间看推送,小号防走丢


求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.