公众号记得加星标⭐️,第一时间看推送不会错过。
最近几周,英伟达和 Arm 等公司发布了专门为运行 OpenClaw 等 AI 代理而设计的 CPU。
英特尔数据中心集团负责人、直到去年夏天还担任 Arm 解决方案工程团队执行副总裁的 Kevork Kechichian 并不确定这种“新型”CPU 是否真的是超大规模数据中心或企业真正需要的。
就在几天前,Arm公司发布了其完整的处理器设计——一款名为AGI CPU的芯片,Arm将其定位为一款智能体人工智能处理器。而就在一周前,英伟达也展示了其自主研发的智能体计算平台,该平台由其Vera CPU驱动。
多年来,GPU 和 AI 加速器一直是新闻头条,而现在 CPU 又重新成为焦点,因为那些智能框架、工具、API 调用和 AI 生成的代码片段需要在某些东西上运行,而 GPU 并不是运行这些东西的平台。
上周在旧金山举行的 Arm Everywhere 大会上,Arm cloud AI 执行副总裁 Mohamed Awad 指出,现有的 x86 处理器并非为运行代理而设计,它们的加速模式、同步多线程 (SMT)、专用加速器和其他适用于当今工作负载的传统功能只会占用芯片面积并增加功耗。
“提高频率的同时,什么也会提高?功率。这就是问题所在。这些增强模式无法长时间持续,也无法在整个芯片范围内持续运行,”Awad声称。
当然,Arm 认为其 300 瓦、136 核的芯片可以避免这些问题。
“我们不支持 Lotus Notes,我们根本不做,”Awad 显然指的是 x86实模式。“我们只专注于代理数据中心真正需要的东西:性能、规模和效率。”
与现代 x86 服务器处理器上常见的 AVX 扩展相比,Arm 在 AGI 中使用的内核在单指令多数据流 (SIMD) 功能方面也出奇地少。Arm 的芯片配备了两个 128 位宽的向量单元,而大多数 Intel 和 AMD 服务器芯片支持的向量单元宽度为 512 位。
Awad不遗余力地将芯片缺乏 SMT(你可能知道它也称为超线程)视为一种优势而不是劣势。
“当你使用多线程时会发生什么?你会把两个任务都交给同一个核心处理,这就是它们能达到高线程数的原因,”他说道。“但实际上,你的I/O和带宽并不会翻倍,你只是把瓶颈转移到了别的地方。”
Arm 的 AGI CPU 发布会上强调的优化点是否真的对智能体性能有影响,英特尔的 Kechichian 对此仍有待观察。
他能够理解逻辑的一个领域是 SIMD。
“如果你看一下工作负载,就会发现它主要都是传统的数据传输类型,比如编排,”他说。“在这方面,不使用笨重的SIMD引擎是一件好事。”
他也承认,目前的CPU(包括Arm和x86架构)中有些功能对于代理框架来说并非必需。但他认为,英特尔过去几年开发的许多加速器仍然适用——例如,旨在加速压缩、解压缩和加密工作负载的QuickAssist。
Kechichian 对 Arm 反对 SMT 的理由也持怀疑态度。“就在 Renee 谈论非 SMT 和优化的时候,一周前 Jensen 就展示了另一款支持 SMT 的 CPU。”
英伟达的 Vera CPU 拥有 88 个其定制的基于 Arm 架构的 Olympus 核心,其中包括这家 GPU 巨头所谓的“空间多线程”技术。正如英伟达解释的那样,这项技术本质上是将每个核心的资源平分,而不是像任何其他采用 SMT 的 x86 芯片那样进行时间切片。
“我的看法是,如果他们有这个选择,他们肯定会把它加进去,”凯奇奇安谈到Arm的AGI CPU时说。“但他们没有这个选择,而且Arm的任何核心都没有SMT(同步多线程)技术。”
话虽如此,我们也必须明白,有些工作负载一直以来比其他工作负载更能受益于同步多线程技术 (SMT)。IBM 至今仍在推出每核心配备四个甚至八个线程的新型Power CPU,这并非偶然。
但正因如此,英特尔和 AMD 早已让用户能够轻松地在 BIOS 设置中打开或关闭 SMT,至少对于那些本身就支持每个核心多个线程的部件来说是如此。
除了 Granite Rapids P 核 Xeon 处理器之外,英特尔还有 Sierra Forest 和Clearwater Forest处理器,它们都集成了大量超高效的核心。
Clearwater Forest 与 Arm 的 AGI CPU 有许多共同之处。它拥有 288 个精简的核心,SIMD 扩展极少,并配备 12 通道高速 DDR5 内存。
“它具有高密度、高核心数,而且没有SMT,”Kechichian说道。
当被问及 Arm 的产品与英特尔 Clearwater Forest 的相似之处时,Awad 认为这些部件的设计初衷都是为了最大限度地提高计算密度,他以每个核心的内存带宽为例,并质疑英特尔高效核心的相对性能。
虽然Arm的136核处理器确实能提供每个核心6GB/s的内存带宽,但这很大程度上取决于计算与内存的比例。事实上,对于计算流体动力学等内存密集型工作负载,通常会选择核心数量较少但缓存容量更大的处理器。
通常情况下(但不总是如此),连接到同一内存子系统的核心数量越少,每个核心的带宽就越高。
与英特尔顶级 Clearwater Forest 处理器相比,Arm 的 CPU 每个核心的带宽是其两倍以上。
我们目前还没有完整的 Xeon 6+ SKU 列表,但 Kechichian 告诉我们,该系列产品将提供多种配置,高端型号的核心数可达 288 个,低端型号则为 100 个左右。如果是 136 核对 136 核的对比,Arm 的优势可能会显著缩小。
尽管Xeon 6+处理器与Arm的AGI CPU有很多相似之处,但Kechichian告诉我们,微软认为Xeon 6+在智能代理应用场景中的需求并不大。相反,据称这款芯片最常用于网络应用,例如数据包处理。
Kechichian并未排除未来对代理工作负载的需求出现的可能性。
https://www.theregister.com/2026/03/31/intel_arm_agi_cpu/
(来源:编译自theregister)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4363内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.