公众号记得加星标⭐️,第一时间看推送不会错过。
据彭博新闻社援引知情人士报道,Arm Holdings Plc和软银集团最近几周曾向人工智能计算公司Cerebras Systems Inc.提出初步收购要约,但遭到拒绝。
知情人士透露,总部位于英国的Arm公司及其控股股东软银集团在Cerebras公司首次公开募股(IPO)前曾表示有意收购该公司。软银、Arm和Cerebras的代表均拒绝置评。Cerebras 计划于周三进行首次公开募股 (IPO) 定价,此次 IPO 可能使该公司的估值达到约 340 亿美元。
那么,这家那么有底气的芯片公司,究竟强在哪里?我们来看semianalysis的拆解。
以下为文章正文:
![]()
随着快速tokens的推出以及与 OpenAI 达成 750MW 计算资源协议,Cerebras 已做好迎接公开市场考验的准备。就在六个月前,我们认为晶圆级引擎(Wafer Scale Engine)尽管创新大胆,但其技术缺陷难以掩盖。因此,基于 HBM 的加速器(例如 GPU 和 TPU)持续流行。多年来,Cerebras 的优势(即速度)一直被忽视,人们更关注的是总吞吐量。但现在,随着 Frontier Labs 发布了相同模型权重的快速、优先、标准和批量处理版本,全球用户通过钱包表达了对快速tokens的偏好。这使得 Cerebras 的优势凸显出来,也是 OpenAI 愿意为 Cerebras 计算资源投入数百亿美元的关键原因。
市场需求如此强劲,以至于每个人都看起来很优秀。
今天,正值 Cerebras 即将上市之际,也因为我们对晶圆的热爱,我们特地撰写了一篇篇幅相当于四篇普通文章的文章。文章将深入探讨以下内容:
1、快速推理
2、WSE-3,Cerebras公司独特的晶圆级芯片
3、CS-3,Cerebras公司的系统,拥有独特的架构
4、提供物料清单成本分析
5、解释晶圆何时以及如何赢得快速推理
6、描述晶圆的一些局限性,并说明其权衡取舍。
对速度的需求
快速推理时代已经到来。
虽然SemiAnalysis历来对SRAM芯片持否定态度,但这一切在2025年12月英伟达收购Groq后发生了改变。显然,黄仁勋看到了至少200亿美元的价值,而仅仅几个月后,随着 Claude Code 拐点的到来,他的判断就得到了验证。如今,晶圆芯片已成为主流。
许多人(包括Andrej Karpathy )此前认为,原始智能/能力远比速度重要,但我们最终的偏好证明,有时情况恰恰相反。当智能达到一定阈值后,开发者更倾向于选择速度更快的tokens,而不是更智能的tokens。在人工智能几乎渗透到工作流程各个环节的今天,token的生成速度可能会成为“flow state”(即完成的生产性工作量)的瓶颈。
Opus 4.6 快速模式以其 2.5 倍的交互性(尽管现在速度已降至 2 倍以下,详见下图)而收取 6 倍的价格而闻名。今年 4 月,我们 80% 的 AI 支出(年化峰值达 1000 万美元)都用于 Opus 4.6 快速模式。Opus 4.7 发布后,许多工程师拒绝升级,因为它不包含快速模式。值得注意的是,这是我们首次为了更快的token速度(而且价格溢价也相当高!)而放弃前沿智能。
顺便提一下,Opus 4.6 fast 模式最近变得越来越不划算。Claude Code 中标准的 Opus 4.6 交互速度稳定在 40 tps(每秒token数)左右。Opus 4.6 fast 模式曾经能达到 100 tps 以上,符合其 2.5 倍速度提升的承诺。但最近它的速度下降到了约 70 tps(仅提升了 1.75 倍)。我们最近与 OpenRouter 的朋友们合作,收集了 Claude Opus 两种运行模式下的相关数据。
![]()
我们认为 Opus 4.6 Fast 是 Anthropic 利润率最高的 SKU,也是其今年 ARR 飙升的主要原因。然而,考虑到其速度有所下降、4.7 版本支持延迟以及即将发布的 Mythos,这一结论是否仍然成立还有待观察。
吞吐量-交互性前沿
要充分解释 Cerebras 在其晶圆级芯片上做出的架构决策,我们首先需要回顾一下推理的基本原理。
正如 Jensen 在今年的GTC 大会上反复强调的那样,吞吐量(throughput:每秒每个 GPU 的tokens数量)与交互性(Interactivity:每秒每个用户的tokens数)是推理的根本权衡。在我们最初的InferenceX 报告里,我们将其比作公交车与法拉利:你可以选择慢速服务大量用户,快速服务单个用户,或者介于两者之间的任何速度。
![]()
当然,用户也愿意为更高的交互性支付更多费用,因此目前尚不清楚在帕累托前沿上的哪个位置能够最大化特定模型提供商的整体收入和推理盈利能力。实际上,提供商目前正在部署多种方案,试图占领整个市场。快速模式、优先模式、批量定价以及特定的模型架构都是 OpenAI 和 Anthropic 等公司为了找到最适合其用户群的组合而进行的实验。
![]()
在硬件配置相同的情况下,调整批处理大小(或“并发性”,即同时服务的用户数量)是提升性能曲线的主要方法。这正是InferenceX的优势所在。大多数其他公开的推理基准测试仅考虑单一交互级别下的单一工作负载,而 InferenceX 则针对所有顶级开源模型,在三种不同的输入/输出序列长度组合下构建完整的帕累托前沿。这使得我们可以生成如下图表,该图表显示,在低交互级别下,GB300 NVL72 的吞吐量是 H100 的 20 倍(40 tps),而在高交互级别下,吞吐量则是 H100 的 100 倍(120 tps)。
![]()
或者,您也可以通过改变底层硬件来突破性能瓶颈。这正是 Cerebras 和 Groq 等 SRAM 机器的优势所在。它们极高的内存带宽使其能够在高交互性下提升吞吐量,在极端情况下,甚至可以达到基于 HBM 的加速器根本无法企及的交互水平。Cerebras 的速度可达每秒数千个token,与我们在 InferenceMax 基准测试中使用的加速器相比,这简直是天壤之别。
在人们愿意为更快的tkens支付更多费用的世界里,SRAM 机器看起来相当有吸引力,因为它们既可以让你 (a) 以优质速度同时为更多用户提供服务(将边界“向上”推进),也可以 (b) 以更快、更昂贵的速度为某些用户提供服务(将边界向右扩展)。
晶圆级引擎
Cerebras 的核心理念在于突破单片硅片的掩模尺寸限制。他们并非将晶圆分割成多个芯片,而是力求将整个晶圆都变成一个芯片。这种巧妙的微缩技术旨在解决摩尔定律放缓以及硅片尺寸上限为 858 平方毫米(即掩模光刻技术中单个掩模图案的尺寸)所带来的诸多问题。
这种单片晶圆大小的芯片被称为晶圆级引擎 (WSE:Wafer Scale Engine)。
![]()
WSE是一个12×7的网格,每个晶圆包含84个相同的步进单元/芯片,构成一块完整的硅片。每个晶圆或芯片都包含大量的高速SRAM。50%的硅片面积用于SRAM单元,剩余的50%用于计算核心。其关键创新在于将硅片和存储器集成在同一块硅片上,而不是像传统方式那样将多个不同的芯片互连在一起。这节省了功耗、降低了延迟,并减少了数据从硅片或封装外部传输的成本。
![]()
“传统”GPU 和 XPU 需要先进的封装和网络技术才能实现更高的总计算能力和内存容量,这会增加功耗、速度和网络设备的成本。虽然并非完全可比,但 Cerebras 将其晶圆内数据流速度与 Nvidia 的封装外扩展带宽进行了比较,其前提假设是数据可以保留在 WSE 上,而 GPU 数据则需要传输到封装外。
![]()
![]()
Cerebras 目前的产品是第三代产品 WSE-3,采用台积电 N5 工艺制造。单个 WSE-3 晶圆或“单芯片”上集成了 44GB 的 SRAM。这相当于海量的 SRAM。一般大型处理器片上 SRAM 的容量也只有几百兆字节。即使是 Groq 的 SRAM 芯片,每个 LPU3 也只有 500MB。SRAM 的速度非常快,可以提供 21PB/s 的带宽,比 HBM 高出数千倍。此外,由于 WSE 拥有更多 SRAM 存储体,并且各个存储体的带宽可以聚合,因此其带宽远超高带宽的 Groq LPU。
尽管 Cerebras 为 WSE-3 宣传了大量的浮点运算性能:125 PFLOPS 的 FP16 计算能力,但这只是一个稀疏值,而非密集值。这借鉴了Jensen Math 的策略,但更进一步。与 Nvidia 不同,Cerebras 并未在公开的 WSE 宣传材料中明确指出密集浮点运算性能。然而,Cerebras 在其稀疏值中假设了 8:1 的非结构化稀疏性,因此密集浮点运算性能实际上只有 FP16 计算吞吐量的 1/8,即15.6 PFLOPS。我们称之为“费尔德曼公式”。对于 CS-2/WSE-2,则假设了 10:1 的比例——正如我们在下文看到的,稀疏和密集规格相差一个数量级。虽然 WSE-3 在绝对计算吞吐量方面仍然优于其他芯片,但其单位硅面积的计算能力并不突出,尤其是在今天。这很可能是因为每个核心都比 GPU 的功能阵列大小小得多,而这对于收益收集是必要的,我们将在下面描述收益收集。
![]()
最后一部分是晶圆外网络,这也是WSE中最薄弱的环节。总带宽仅为150GB/s,远低于那些高度重视网络扩展能力的GPU/XPU竞争对手。我们将详细讨论低I/O容量的影响,以及增加I/O容量所面临的结构性难题。
总而言之,WSE 是一款体积非常大的芯片,拥有大量的 SRAM,计算能力尚可,但相对于硅片面积而言并不算强,网络功能则几乎没有。接下来我们将讨论这会带来哪些影响。
SRAM机器
WSE 的优势显而易见,在于其 SRAM 容量。与 Groq 的 LPU 类似,WSE 也属于我们称之为“SRAM 机器”的加速器类别,这类加速器将更多硅片面积用于超高速 SRAM,SRAM 用作主内存,用于存储模型权重和键值缓存。相比之下,主流 GPU 和 ASIC(例如 TPU 和 Trainium)使用 HBM 来存储模型权重和键值缓存。它们也配备了 SRAM,只是容量较小。一般来说,用 SRAM 代替 HBM 意味着更高的带宽、更低的延迟和更快的token输出,但代价是容量减少,因此每个芯片的总吞吐量(以瓦特和美元计)也会降低。此外,SRAM 的每比特成本也更高。以下是我们近期一篇关于 NVIDIA 和 Groq 使用 SRAM 的文章中的图表,对比了这两种技术:
![]()
尽管WSE-3的44GB SRAM容量相对于其他芯片来说已经非常大了,但它与单个HBM3E 12-Hi堆栈提供的36GB容量相比,并没有大多少。考虑到目前每个加速器通常采用8个堆栈,单个GPU或TPU封装(例如当前一代的Blackwell Ultra)的SRAM容量可达288GB,是WSE SRAM容量的6.5倍。
一些读者可能已经注意到,DRAM 的需求量很大,这主要是因为人工智能系统设计人员试图尽可能地提高系统容量。系统中更大的内存容量可以让模型提供商:
1. 拟合一个更大的模型(更多参数)
2. 处理更多并发请求,即更多用户(更多键值缓存)
3. 支持更大的上下文窗口,即每次请求更长的序列长度(更多的键值缓存)
推理提供商正是利用上述所有技术来盈利,这也是每个GPU的内存容量不断增加的原因。不仅如此,可用内存并不局限于单个封装,因为工作负载可以分片到多个芯片上,聚合内存也可以在可扩展架构中汇集在一起。正因如此,网络成为所有AI硬件公司竞争的关键战场。当然,除了Cerebras,他们已经接受了网络容量有限的现状,并正在努力克服这一难题。因此,由于晶圆内存容量有限,Cerebras通过连接更多晶圆来提升网络容量的途径也更加狭窄。网络带宽的不足虽然并非致命,但无疑是WSE-3设计中的一个缺陷,阻碍了Cerebras的业务腾飞。
综上所述,Cerebras 目前正走在健康快速增长的道路上,与 OpenAI 的合作堪称一项变革性举措:到 2028 年,Cerebras 的服务器出货量将比成立以来的总出货量高出一个数量级。这种需求激增已在台积电的晶圆产量中有所体现,为了满足 OpenAI 的部署需求,台积电的晶圆产量在每个季度都显著提升。我们预计,未来几年 Cerebras 的营收将出现显著增长,而 OpenAI 将成为其主要增长动力。
![]()
![]()
Cerebras的技术
为了达到今天的成就,Cerebras 必须解决从芯片到系统再到软件的诸多技术难题。值得称赞的是,他们拥有大量专有硬件技术,尤其与其他许多加速器创业公司所带来的创新(或缺乏创新)相比更是如此。晶圆技术是一项大胆的尝试,现有企业和竞争对手很难复制。
Cerebras的部分专有技术包括:
1. 芯片间布线和布线。Cerebras 利用划线作为晶圆上数据结构的布线,将所有芯片连接在一起。在典型的晶圆中,这些划线区域是禁区,晶圆会被切割成单个芯片。
2. 冗余和故障布线。为了获得可接受的良率,绕过缺陷核心进行布线的能力至关重要。缺陷不可避免,尤其对于接近光罩尺寸的单元而言。通常,接近光罩尺寸的高密度处理器的分选良率远低于 50%。为了实现冗余,WSE 上共有 97 万个核心,其中 90 万个已启用。每个核心都特意做得更小,以提高良率。然而,这并非易事,需要大量的额外成本。一项有趣的举措是,每批晶圆都将配备一套定制的上层金属掩模。这是为了确保每批晶圆的布线方式都不同,从而绕过所有缺陷单元。额外的掩模成本会显著增加台积电晶圆的标称成本。为什么每批晶圆都要这样做?这是因为批内工艺偏差低于批间工艺偏差。点击此处了解更多关于半导体制造工艺偏差的信息。最终结果是晶圆级良率很高。台积电生产的晶圆几乎100%都达到可用于组装成生产服务器的标准。
3. 电源传输与散热。Cerebras 解决的主要挑战之一是将超过 20kW 的功率集成到单个晶圆中,而下一代产品将实现更高的功率。如此巨大的功率需要 Vicor 提供定制的电源传输解决方案。当然,如此强大的功率最终会转化为热量,需要通过专门的散热系统来散发。每个 CS 服务器中的电源传输和散热子组件被称为“引擎模块”。这是另一个关键组件,与 WSE 芯片本身一样,都是为 Cerebras 量身定制的。
尽管 WSE 取得了这些值得称赞的技术成就,但其架构仍存在一些技术限制,制约了其技术路线图和token服务能力。
热设计与冷却
在CS-3设计中,如何在单片46,225 mm²的晶圆上实现25 kW的散热是核心散热难题,这意味着在未考虑热点的情况下,芯片平均热密度约为50 W/cm²。由于3DVC均热板散热器(类似于HGX H100服务器中的散热器)的尺寸要覆盖21.5 cm的芯片,因此被弃用。这种散热器的尺寸会超过其毛细管的极限,导致工作液在返回蒸发器之前就干涸。CS-3采用了定制的液冷堆叠结构,其架构、流量和机架级管路布局均与英伟达更为人熟知的直接芯片单相散热方案有所不同。
这套散热解决方案是100%定制的,并与晶圆协同设计。硅片和其下方的PCB在加热过程中膨胀率不同,在21.5x21.5厘米的晶圆上,这种膨胀率差异足以使传统的封装破裂。因此,冷板、连接晶圆和PCB的连接器以及组装工具都必须从零开始制造。Cerebras将其系统称为“发动机缸体”,这是一个四层结构,包括冷板、晶圆、柔性连接器和PCB,冷却歧管则安装在冷板背面。我们将在下一节中更详细地介绍系统架构。
![]()
散热通过冷板进行。冷却剂流经加工在铜板背面的微鳍通道。铜板面向晶圆的一侧经过抛光处理,并在预紧力的作用下紧贴硅片,使两者在膨胀速率不同的情况下能够相对滑动,同时保持接触以传递热量。
我们在机架到 CDU 的接口处发现了另一个架构挑战。OCP/Nvidia 针对 GB200 NVL72 的参考设计将设施侧流量设定为约 1.5 LPM/kW。目前大多数 CDU 设备都是以此为基准进行选型的。WSE-3 在 25kW 功率下运行流量约为 100 LPM,约为 4 LPM/kW,是 NVL72 参考值的约 3 倍。这种流量差迫使运营商使用更大的泵、更大的管道、更大尺寸的 CDU 以及额定流量更高的快速接头。我们认为 CS-4 应该能够将机架级流量恢复到 1.5–1.7 LPM/kW,如果能够实现,这将使 Cerebras 设备统一采用标准化的基础设施。
Cerebras 的主要冷却合作伙伴之一是 LiquidStack,该公司于 2026 年 3 月被 Trane Technologies 收购。LiquidStack 和 Cerebras 最初开始合作开发两相解决方案,他们共同开发了 L2L 单相 CDU,其尺寸与 CS-3 的流量和压力范围相匹配。
进水温度是Cerebras芯片与其他芯片区别的最后一个方面。Cerebras位于俄克拉荷马州的工厂运行着一座6000吨的冷水机组,生产5°C (42°F) 的冷冻水,然后通过热交换器加热至约21°C (约70°F) 后再送入发动机缸体。相比之下,NVL72芯片的进水温度最高可达45°C (113°F),这使得用户一年中的大部分时间都可以使用自然冷却。CS-3芯片晶圆级的热通量需要更低的进水温度,但这也意味着需要大量的冷水机组。
![]()
CS-3架构和物料清单
让我们暂时放下液冷技术,把目光转向 Cerebras CS-3 系统。
每个 CS-3 包括以下部件:一个 WSE-3 发动机模块、外围计算和 I/O 模块、两个机械泵、12 个 3.3kW 电源单元以及液冷或液液冷却系统。
![]()
![]()
放大观察WSE-3引擎模块,WSE-3引擎本身就需要25kW的功率。WSE-3晶圆的供电和冷却系统经过高度定制和创新。电源通过12个3.3kW电源单元的盲插式电源连接器输入到WSE-3引擎模块。电源单元以50V的电压向12个水平堆叠的PDB板供电。每个PDB板对应一排7个Vicor电源砖,每排电源砖又对应WSE-3晶圆上的一排7个模块。12个PDB板共计84个电源砖,WSE-3晶圆上也对应84个模块。然后,12V的电压被输送到位于PCB另一侧、与WSE-3晶圆相对的Vicor电源模块,Vicor电源砖将电压转换为1V后再输送到晶圆。 WSE-3 通过弹性体插座连接到定制的 PCB 上。
![]()
![]()
WSE-3 引擎模块顶部是 I/O FPGA 模块,通过板对板连接器与 WSE-3 PCB 连接。这些 FPGA 本质上是网卡,接收来自晶圆的 Cerebras 专有 I/O 信号,并将其转换为以太网信号以支持横向扩展,同时也支持 PCIe 接口。定制的冷板连接到 WSE-3 引擎、Vicor 电源模块、CPU 和 I/O FPGA。冷却回路连接到 WSE-3 引擎模块右侧的歧管。歧管有 6 个接头,其中 4 个连接到水泵,2 个连接到液-气或液-液散热系统。
此外,每台 CS 服务器都配备一个独立的“KVSS”节点。这是一个双路 AMD CPU 节点,配备 6TB DDR5 RDIMM 内存,用于 KVCache 卸载。在去年第四季度内存价格上涨之前,我们估计 CS-3 系统和 KVSS CPU 节点的物料清单成本为每机架 35 万美元。考虑到最近的内存价格上涨,我们将 CS-3 系统和 KVSS CPU 节点的物料清单成本估算值上调至每机架 45 万美元。
相对于硅片含量而言,这个价格非常高。虽然名义上加速器硅片(通常是服务器中最昂贵的部分)是一片台积电N5晶圆,价格约为2万美元,但还有许多其他成本。每片晶圆都需要进行掩模,这大大增加了成本。另一个主要的物料清单项目是来自Vicor的电源模块。这是一个定制的VRM,需要为每片晶圆提供25kW的功率,并采用VPD技术。这种定制特性也意味着高昂的成本,我们认为Vicor在每个WSE中的用量与台积电的用量相差不大。定制的散热解决方案也是如此。组装和封装也由Cerebras公司内部完成,而不是外包给代工厂。此外,还有一些外围组件,例如12个100GbE Xilinx FPGA,它们实际上充当网卡,将Cerebras自身的I/O转换为以太网,用于外部通信。
![]()
![]()
晶圆制胜之处
要理解 Cerebras 极高的内存带宽,我们需要设身处地地站在性能工程师的角度,思考 LLM 推理。对性能工程师而言,芯片只是一种工具。无论你使用 10,000 个 LPU、72 个 GPU,还是 1 片晶圆来完成任务,真正重要的是芯片的“算术强度”——即芯片每字节与内存之间传输的数据可以执行多少次浮点运算(FLOPs/byte)。下表列出了 WSE-3 的芯片规格,以便更好地理解其性能。请注意,这些数值均为理论最大值。
![]()
从相对角度来看,人工智能应用的性能取决于芯片上各个内核(即运行在设备而非主机CPU上的软件)的性能。人工智能中使用的典型内核示例是通用矩阵乘法(GEMM)。GEMM可以有不同的形状,这取决于被乘矩阵的形状。某些形状的GEMM在特定硬件上运行可能受内存限制(即性能受限于可用带宽),也可能受计算限制(即性能受限于可用浮点运算次数)。
将WSE-3的浮点运算性能与NVIDIA GPU进行直接比较,结果令人震惊。就密集FP16或INT8浮点运算性能(即开发者使用Cerebras WSE实际使用的浮点运算性能)而言,整个WSE-3的浮点运算性能仅为15.625 PFLOPS。相比之下,运行原生FP4的NVIDIA GPU,B300的浮点运算性能为13.5 PFLOPS(GB300为15 PFLOPS),而Rubin GPU则拥有35 PFLOPS。当然,细心的读者会注意到,FP4浮点运算性能和FP16浮点运算性能并非总是具有可比性,但鉴于目前大多数生产应用都转向FP4,这仍然是最佳的实际比较方式。此外,细心的读者还应注意Cerebras产品营销的影响。Cerebras的营销材料及其S1文件中宣称的每片晶圆的浮点运算性能远高于我们表格中的数据。多亏了“费尔德曼公式”,他们使用了一个 8 倍的因子(声称非结构化稀疏性为 8:1)来达到目的。这甚至比詹森数学标志性的 2:1 规则还要大的稀疏性因子!
要将 Cerebra 与其他替代方案进行比较,直接进行芯片间(或晶圆间)比较意义不大。下文将以整数数据展示一种更有意义的比较方法,以说明晶圆在整个比较过程中所处的位置。
![]()
将单片晶圆的成本和性能与价值约 100 万美元的 HBM 和 SRAM 硬件进行比较,最能说明问题。具体来说,这相当于:2 套 NVIDIA HGX 系统(16 个 GPU)、4 个 NVL72 存储槽(16 个 GPU)或约 50 个 Groq LP30 存储设备。因此,我们将在以下图表中逐步添加更多曲线。
![]()
![]()
这里我们看到,单个 Nvidia Rubin GPU 的浮点运算性能就超过了整个 WSE-3:
![]()
最后,这张图表展示了如何将此分析扩展到系统级别(尽管方式较为简单),比较了单个晶圆 SRAM 与 DGX 系统和 GB300 NVL72 机架的性能曲线。为了在运算强度相同的内核上实现与 Cerebra 相同的浮点运算性能,必须假设网络开销为零,并增加多个 GB300 NVL72 机架。
![]()
为了全面了解哪些人工智能工作负载适合 Cerebras,我们可以看看常见的 GEMM 模型。GEMM 模型通常使用“mnk”表示法,这意味着输入矩阵的大小分别为“m”和“n”,收缩维度为“k”。
![]()
我们可以使用以下公式计算给定GEMM的算术强度:
![]()
作为参考,以下是一些用于LLM推理的GEMM形状示例:
![]()
最后,这里展示了这些内核在不同芯片上的理论性能。只需沿着代表给定内核算术强度的垂直线从下到上追踪,即可看到给定芯片在该 GEMM 形状上能够实现的(理论)性能(以 TFLOPs 为单位)。
![]()
从宏观层面来看,Cerebras 的性能特征非常独特,其在 WSE-3 的 SRAM 和 FP16 或 INT8 FLOPs 下的最佳运算强度为 0.74。随着基于 HBM 的 GPU 的发展趋势相反,运算强度会逐渐增加到 1000 以上,因此,GEMM 结构(或者更广义地说,哪些内核能够最有效地利用 Cerebras 硬件)将出现明显的差异。
为了让读者对特定解码内核的实际浮点运算性能 (FLOPs) 有个大致了解,可以想象一个解码内核,其批处理大小 (m=batch=1) 和算术强度 (AI=2)。这对应于上图中的左侧竖线。沿着这条线从下往上移动手指,你会经过许多芯片才能到达 Cerebras:所有 NVIDIA GPU 和 Groq LPU 在绝对最大理论情况下也只能实现几十或几百 TFLOPs。而 Cerebras 晶圆(同样是理论上)可以实现其全部 15,625 PFLOPs 的性能。这正是该晶圆的关键所在。晶圆上 44GB SRAM 提供的海量内存带宽意味着解码内核可以实现同样巨大的性能。
回到我们作为性能工程师的工作,这意味着低运算强度的解码内核在理论可实现的浮点运算次数(FLOPs)上限要高得多。SRAM带宽可以满足计算需求,而运行相同内核的GPU的HBM内存则会让Blackwell SM100 FP4张量核心不堪重负。因此,未来在Cerebras WSE-3上运行的模型和工作负载类型,例如GPT-5.3-Codex-Spark(其架构也称为gptoss-120b),都将根据晶圆的性能特性进行开发。
这是软硬件协同设计的完美范例。
The Wafer Taketh and
the Wafer Giveth
WSE存在一些我们之前提到的明显缺陷。它拥有大量的SRAM,但SRAM的每瓦或每美元密度本来就不高,而基于HBM的GPU和XPU则能提供更高的每瓦或每美元内存容量。目前,这些HBM被用于服务具有更长上下文长度的大型模型,以及通过批量处理用户来提高吞吐量。将更多晶圆联网以弥补单晶圆内存不足的方案也受到晶圆外带宽的限制。除非出现突破性的技术突破(例如混合键合光收发器晶圆),否则这两个问题都是Cerebras架构有意为之的,使得Cerebras难以经济高效地服务于大型模型,甚至难以服务于具有较长上下文长度的中型模型,而这些模型正是当今智能体工作负载的典型代表。
![]()
如上所示,调整平均请求大小、支持的并发请求数、模型大小以及权重和键值缓存的量化方式时,运行推理所需的 WSE 总数会发生显著变化。这自然会导致推理或解码性能特征的差异,并最终影响 $/Mtok 的成本结论。
此计算器的一个显著假设是平均请求大小为 96.3k。虽然 Cerebras 选择基于平均请求大小为 64k 的假设来构建其面向客户的推理产品,但我们认为这是由于模型运行的上下文窗口限制在 128k 所致。换句话说,这是确认偏差在起作用。
![]()
为了准确了解真实世界的流量模式,我们构建了一个代理,用于从 Claude Code、Codex、Cursor 和 OpenCode 等常用的代理编码工具收集完全匿名的跟踪数据。这是我们持续收集生产环境中的代理跟踪数据,以便在 InferenceX 上进行离线重放工作的一部分。
约 43.2 万个请求(约 800 亿个token)的较大样本量使我们相信,典型的 P50 ISL 约为 9.63 万个token,而非 6.4 万个或更少。我们还推断,P90 或 P95 请求的价值可能比初始请求高出指数级,并且仍然至关重要。总的来说,我们近 50% 的请求超过 12.8 万个token,这是 Cerebras 目前在公共端点上支持的最大上下文窗口。由于工具使用上下文、系统提示以及技能和其他各种形式的引导上下文等因素,我们观察到许多会话的初始上下文长度超过 10 万个token。
![]()
此外,行业正朝着无限增大上下文窗口的方向发展——128k上下文肯定无法长期满足需求,尤其是在代理工作负载日益普及的情况下。由此分析得出的显而易见的结论是,为了在真实世界流量模式下运行具有完整上下文窗口的最新开源模型,Cerebras 需要部署大量的晶圆。
以上述 DeepSeek v4 为例,如果客户拥有 24 台 CS-3 显卡,则可以获得 5 个 GB300 机架。每个机架配备 20TB 的 HBM 内存,足以轻松存储模型权重,剩余超过 19TB 的空间用于 KVCache。如此庞大的 KVCache 容量足以服务更多用户并支持长序列长度,而且总共有 5 个这样的机架。虽然我们已经展示了 Cerebras 在速度方面的优势,但这里我们可以看到基于 HBM 的 GPU 在吞吐量方面也具有显著优势。
SRAM 扩展技术已死
可以说,Cerebras 是受SRAM 微缩技术衰落影响最大的公司,因为 SRAM 是 Cerebras 的核心竞争力,其晶圆面积的 50% 都用于 SRAM。这一点已经体现在他们的产品路线图中。采用台积电 16nm 工艺的 WSE-1 芯片出货时配备了 18GB 的 SRAM;采用 7nm 工艺的 WSE-2 芯片出货时 SRAM 容量跃升至 40GB,实现了 2.2 倍的显著提升。而采用 5nm 工艺的 WSE-3 芯片仅提升至 44GB。这意味着在一个完整的工艺节点转换过程中,SRAM 容量仅提升了 10%,而逻辑晶体管的数量却增长了约 50%。
![]()
展望未来,情况只会更加糟糕。我们可以看到,在5nm工艺(WSE-3目前采用的工艺)之后,SRAM的微缩几乎停滞不前。最常见的3nm工艺N3E相对于N5工艺几乎没有缩小空间,N2及更先进的工艺也同样如此。现在,Cerebras公司提升SRAM容量的唯一途径是增加晶圆上分配给SRAM的面积,但这会牺牲计算面积。当芯片达到晶圆级尺寸时,这是一个严格的权衡。因此,下一代CS-4系统将沿用基于N5工艺的WSE-3芯片,但会提高功耗以支持更高的时钟频率和计算能力,而SRAM容量则保持不变。
相比之下,这对 Groq 来说并不那么重要,因为他们能够在 Z 方向上进行扩展:使用混合键合来添加额外的 SRAM 芯片,从而大幅扩展每个封装的 SRAM,这已列入 Nvidia Groq LP40 的路线图。
从逻辑上讲,Cerebras 也应该采取同样的做法:通过晶圆级键合技术将另一片晶圆连接到 WSE 上,以扩展每个系统的 SRAM 或计算能力。Cerebras 正在认真探索这一方案,他们已经展示了将 DRAM 晶圆混合键合到 WSE 上的概念,以增加高速存储容量。然而,考虑到热机械和键合波方面的诸多挑战,我们对该方案的时间安排和技术可行性表示担忧。诚然,晶圆级键合技术已经成熟,但将整个晶圆拼接成一个完整的芯片尚属首次。Cerebras 过去曾克服过类似的挑战,未来也需要继续创新。
Island 问题——带宽是几何学
尽管存在 SRAM 扩展性问题,但与其他芯片相比,WSE 仍然在单片硅片上提供了压倒性的计算能力和 SRAM 容量。现在,最大的权衡之处在于网络。如前所述,每个 WSE 的封装外带宽仅为 1.2 Tb/s(150GB/s)。与平均水平的加速器相比,这个带宽很低,尤其与 WSE 的计算能力相比更是如此。这并非因为 Cerebras 的架构师忽视了 I/O 对 AI 计算的重要性,或者忽略了增加 SerDes 的数量,而仅仅是晶圆级芯片不可避免的权衡。
相比之下,NVIDIA 即将生产的每颗 Groq LP30 都包含 96 条 112G SerDes 通道。这意味着在更小的芯片上实现了 9.6 Tb/s 的双向带宽。显然,它已为Jensen 今年在 GTC 大会上首次亮相的PDD + AFD 推理方案做好了充分准备。
![]()
那么,为什么要做出带宽上的权衡呢?目前晶圆外带宽为 150 GB/s (1.2 Tb/s),这意味着每毫米边缘只有 0.17 GB/s,因此英伟达的芯片外 I/O 密度是其 130 倍!
![]()
Cerebras 的海岸线密度不足源于晶圆级架构和光罩步进问题。WSE每次只对一个光罩场进行图案化,在 84 芯片阵列(WSE-3 为 12 列 × 7 行)中,将相同的光罩图案铺满整个晶圆。为了使交叉划线互连正常工作,每个光罩曝光都必须完全相同,逻辑电路、存储器、布线和位置都必须一致。正是这一点使得晶圆上的二维网状结构能够均匀地延伸到芯片边界:每个芯片的东侧边缘都与其相邻芯片的西侧边缘通过匹配的引脚分配连接。
这种统一性要求不容商榷,而且对 I/O 的影响非常严重。你不能只用一个光罩来放置物理层 (PHY),而让其他 83 个光罩进行计算。每个光罩都必须是相同的。因此,如果你想在晶圆边缘放置更多的 SerDes 通道,就必须在每个光罩(而不仅仅是周边光罩)上都放置 SerDes。大多数物理层将位于晶圆中心,无法与外部世界通信,因此无法发挥作用。你为这些被困在晶圆内部的 I/O 支付了全部硅成本。
另一种方案是将PHY芯片仅放置在周边光罩中,但这需要非均匀的步进图案,从工艺角度来看是不可行的。这需要在部分图案化的晶圆上更换光罩,这将引入难以承受的工艺风险和复杂性,尤其考虑到所有这些光罩都需要拼接在一起,这会破坏晶圆级制造赖以生存的交叉划线互连(我们之前称之为“放大网络”)。
即使 Cerebras 接受所有 PHY 芯片上都存在裸露硅片和烧蚀面积,他们仍然会遇到第三个限制:晶圆上数据流阻塞。在推理过程中,片上二维网状结构负责在内核之间传输激活值、权重和梯度(这也是我们称之为“扩展网络”的原因)。放置在光罩内的每个 PHY 模块都会在网状结构中形成一个孔洞,计算和路由都无法在该区域进行。PHY 芯片尺寸较大(高速 SerDes 在 5nm 工艺下通常每个芯片的面积为 1-3 mm²,包括不随逻辑扩展的模拟电路),而且由于功耗和电磁干扰 (EMI) 问题,其模拟电路对相邻的数字逻辑电路不利,因此需要设置保护区域。将 PHY 芯片放置在晶圆中心意味着二维网状结构必须绕过该区域进行路由,这会增加光罩之间的延迟并降低总带宽。过多的这种额外路由会违背晶圆级制造的初衷,因为晶圆级制造的关键在于实现跨芯片的快速低功耗数据流。
总之,晶圆级制造之所以成为可能,正是因为采用了均匀的拼接方式(一种光罩图案,一种网格结构),而这也使得增加I/O带宽变得困难。Cerebras公司肯定正在寻找突破这一限制的方法。
我们刚才描述的许多问题都源于电信号传输的实际情况,而光I/O则规避了这些问题。Cerebras正在研发的解决方案(再次证明Cerebras已经意识到这个问题)是将光子互连晶圆混合键合到WSE上。正如之前为了解决内存限制而增加DRAM晶圆一样,带宽限制也通过另一块晶圆来解决。
Cerebras 声称,对于 LLM 推理而言,他们不需要更多带宽,目前积极推进混合键合晶圆级光子 I/O 技术,只是为了帮助其高性能计算 (HPC) 客户。这些 HPC 客户在 NVIDIA 将 GPU 上的 FP64 原生硬件几乎完全移除后,实际上已被 NVIDIA 放弃。Cerebras 积极地将全部资金重新投入到突破性研发中,而不是进行股票回购,这无疑是件好事。对于拥有大量研发项目需要重新投资的公司来说,股票回购并非明智之举。例如,AMD 上个季度斥资约 2.21 亿美元进行股票回购,但其内部多个团队仍然缺乏互联 GPU 集群的开发能力。
![]()
这使得数据能够沿z轴向上进出晶圆,而不是通过边缘传输。开发这种光子晶圆的光子学合作伙伴是Ranovus公司。这再次引发了晶圆级硅芯片WoW混合键合的问题。光学元件对温度非常敏感(不能过热或过冷),而它将直接与发热的晶圆贴合。最后,光纤需要与晶圆完美耦合,这也是一个实际难题。即使在传统的CPO光引擎层面,这个问题也仍在解决中,更不用说晶圆级应用了。
考虑到以上所有因素,让我们来看看架构如何影响推理工作负载。
管道并行化(Pipeline Parellelism)
是强制性的
我们之前已经强调过,在任何推理部署中使用 Cerebras 的一个关键问题是模型规模变得如此庞大。这体现在两个方面:一是总参数数量(例如,DeepSeek V4 的总参数数量为 1.6T),二是键值缓存(通常为 256k 上下文,而 DeepSeek V4 首次实现了 1M 上下文)。
WSE-3 单晶圆 SRAM 容量仅为 44GB,加上 IO 带宽低,导致有效服务于这些尺寸的型号面临挑战。
每个 CS-3 仅有 12 个 100GbE 的 I/O 带宽——整个晶圆的带宽约为 150 GB/s。这仅为 Blackwell 架构采用 NVLink5 时每 GPU 900 GB/s 扩展带宽的六分之一,并且比 HBM 的带宽低一个数量级。
带宽限制使得 Cerebras 难以处理更大的参数模型。任何要使用的大型张量都必须驻留在晶圆上;如此小的 I/O 容量无法实现晶圆上的数据传输。同样,任何需要在每一层都使用高带宽集合的分片策略也被完全排除在外。
唯一真正的选择是流水线并行,它将模型逐层切片到晶圆上,并且仅在各阶段之间传输激活值,其原理是激活值相对于权重而言很小。这降低了网络需求,并使占用大量容量的组件(权重以及一定程度上的键值缓存)保持静止,而不是在晶圆上移动。例如,Cerebras 将 Llama3 70B 模型分片到 4 个 WSE-3 晶圆上,仅在每个晶圆之间传输激活值,从而将 I/O 限制在 1.2Tbps 的可用范围内。
随着用于承载模型的晶圆数量增加,要扩展规模,需要考虑几个因素。首先是流水线瓶颈:为了保持 N 个流水线阶段处于运行状态,至少需要 N 个在轨微批次。一个 4 级配置需要大约 4 个在轨微批次;一个 16 级配置则需要大约 16 个。其次,每个在轨微批次都拥有自己的键值缓存 (KV 缓存) ,而在 Cerebra 芯片上,该 KV 缓存必须位于晶圆上 44GB 的 SRAM 中,而这部分空间大部分已被权重占用。即使像 DeepSeek V4 这样的最新模型采用了高度压缩的 KV,SRAM 的容量仍然足够,但 KV 缓存的晶圆间传输时间仍然相当长。此外,模型规模的扩大也会增加承载权重所需的晶圆数量,从而导致晶圆间激活传输的延迟倍增,进而影响解码时间。
总而言之,目前晶圆在生产中的使用方式基本上违背了晶圆的整个设计理念。晶圆的意义就在于以极高的速度进行小批量生产!
数据分析
让我们用一些开源模型架构进行简单的估算,以便更好地了解不同模型如何映射到 Cerebras 的 SRAM 封装尺寸。以下是一些粗略的估算数据,展示了几种模型的封装尺寸。
![]()
现在根据 WSE-3 规范给出一些粗略的数字。这里我们做了一些假设,包括传输将使用全部 12x100Gbps 的带宽。
![]()
这里我们定义了通过严格沿层边界分片来存储模型权重所需的最小晶圆数量,但并未包含存储键值缓存所需的空间。实际上,可以使用更多晶圆来为键值缓存提供更多空间。激活传输时间未被考虑在内,因为激活操作非常小,其传输时间将受限于I/O路径上的传播时间。
从表中可以看出,DeepSeek 等公司发布的最新 KV 缓存压缩技术可以显著缓解 Cerebras 在长上下文服务方面遇到的问题。然而,I/O 速度慢的问题并未完全解决。首先,片上和片外的 KV 传输时间仍然相当长,达到几毫秒,这不仅影响 TTFT,而且由于 KV 缓存存储和传输相关的批处理、流水线和延迟隐藏等问题,也使得实现高利用率变得更加困难。其次,激活传输的固定 I/O 延迟必须根据承载模型实例所需的晶圆数量来计算。这是 TPOT 中的一项固定成本,与承载模型的晶圆数量呈线性关系。
关键在于,Cerebras 虽然速度很快,但晶圆数据传输的延迟成本很高,因此其性价比(或每焦耳性能)取决于它能隐藏或最小化多少延迟。Cerebras 推理云上的模型产品或许能反映出这在实践中的难度。最大的生产模型是 GPT-OSS,但其总参数量仅为 1200 亿。虽然也有更大的预览模型,但即使是这些模型也最多只有 3550 亿(GLM 4.7)。作为参考,据埃隆·马斯克称,Sonnet 和 Opus 的参数量分别为 1 万亿和 5 万亿。值得注意的是,之前广受欢迎的 Llama 700 亿和 405 亿模型也已被弃用,这可能是由于服务成本过高所致。
![]()
值得强调的是,2025 年最流行的两款前沿开源模型 DeepSeek V3 和 Kimi K2 从未在 Cerebras 公共云平台上提供。尽管 DeepSeek V3 由于采用了多头潜在注意力机制 (MLA) 而大幅减少了键值缓存的大小,使其服务经济性优于 Llama 3 405B,但这种情况依然存在。
综上所述,我们上述的分析表明,即使是更新的DeepSeek V4 Pro,其部署模式也与Llama 405B(他们已经在Cerebras云平台上部署了Llama 405B)类似,但键值缓存容量却小得多。因此,凭借现代键值缓存压缩技术和足够的并发性,即使对于1T以上的大型机型,Cerebras也可能极具吸引力。
Cerebras 与 OpenAI 的协议
OpenAI 在 Cerebras 的未来发展中扮演着举足轻重的角色。它既是 Cerebras 的担保贷款方,又是其最大的认股权证持有人,同时也是其 246 亿美元积压订单的几乎全部来源。OpenAI 在 Cerebras 的财务利益意味着 Cerebras 的命运通过三个相互关联的机制与单一交易对手紧密相连,而这三个机制的运作方向完全一致。如果双方合作成功,贷款将通过交付产能而非现金的方式偿还(已偿还产能部分的 6% 应计利息将被豁免),认股权证将生效并协调双方的激励机制,而收入也将达到数十亿美元。在完全稀释的基础上,OpenAI 最多可持有 Cerebras 12% 的股份(不包括任何新发行的股份)。
详情如下:
2025年12月,Cerebras与OpenAI签署了一份主关系协议(MRA)。根据该协议,OpenAI承诺购买750兆瓦的AI推理计算能力,分批部署,部署时间为2026年至2028年,每批部署期限为3至4年,可延长至5年。OpenAI还拥有额外购买1.25吉瓦计算能力的选择权(而非义务),使总潜在容量达到2吉瓦。截至2025年12月31日,S-1文件披露剩余履约义务为246亿美元。更重要的是,转嫁成本(数据中心租金、电力、租赁物业装修、安保等)由OpenAI报销,并按总额确认为收入。
OpenAI还通过一份年利率为6%的担保本票向Cerebras提供了一笔10亿美元的营运资金贷款。如果Cerebras根据互惠协议(MRA)交付计算能力或硬件来偿还贷款,则可免除利息。还款计划在三年内分期等额偿还,从交付首批250MW计算能力的最后一批后开始。如果互惠协议因OpenAI自身未纠正的重大违约以外的任何原因终止,Cerebras可能需要立即偿还全部未偿余额及应计利息。OpenAI还保留指示托管银行停止执行Cerebras关于资金部署的指示,而直接控制资金处置的权利。
除了互认协议 (MRA) 之外,Cerebras 还向 OpenAI 发行了一份认股权证,以每股 0.00001 美元的行权价格授予 OpenAI 33,445,026 股 N 类(无投票权)普通股,实际上相当于免费。该认股权证分三个结构不同的阶段授予:4,459,337 股在 2026 年 1 月收到 10 亿美元营运资金贷款后立即授予;5,574,171 股在 Cerebras 市值达到 400 亿美元或 OpenAI 达到 MRA 规定的特定费用支付里程碑(以较早者为准)时授予;剩余的 23,411,518 股分几个子阶段授予,这些子阶段与容量交付挂钩,分为已承诺容量(与 MRA 中已确定的交付日期挂钩)和额外容量(仅在 OpenAI 行使将交易扩展至全部 2GW 的选择权时授予)。根据S-1文件,Cerebras评估认为,营运资金贷款部分、市值/支付门槛部分以及承诺产能子部分很可能归属,而额外产能子部分则不太可能归属(即2GW扩建尚未达到基准水平)。OAI还拥有要求登记权,这意味着它可以随时强制Cerebras登记这些股份以供公开出售。认股权证将于2035年12月24日到期,或在MRA项下所有具有约束力的承诺或付款完成后的五个工作日到期。
根据 ASC 505-50 准则,授予客户的股权应在商业协议有效期内确认为抵减收入,而非在归属日或市场价值时确认。该金额锁定在授予日的公允价值,无论股票日后的交易价格如何。根据 S-1 文件,截至 2025 年 12 月 31 日,Cerebras 将认股权证的估值定为每股 82.02 美元,这可以作为 OpenAI 交易授予日公允价值的有效参考。将每股 82.02 美元应用于全部约 3340 万股,我们得出理论上的最大抵减收入约为 27.4 亿美元,约占 OpenAI 预期收入的 10%。我们假设已公布的 246 亿美元积压订单已扣除认股权证的抵减收入。然而,实际上,只有部分订单会按比例分摊到收入中。营运资金贷款部分(约3.66亿美元,将于2026年1月归属)、市值/支付门槛部分(约4.57亿美元)以及承诺产能子部分(规模未披露)。新增产能子部分仅在OAI行使2GW扩建选择权时才会产生抵销收入,并进行累计追赶调整。
尽管 Cerebras 在新云计算热潮中一度被边缘化,但 OpenAI 于 2 月发布的 GPT-5.3-Codex-Spark(该模型基于从真正的 5.3 Codex 版本提炼而来的 gptoss-120B 架构)正在扭转局面。Spark 在 Cerebras 上运行速度高达 2000 tok/秒/用户,并促成了两家公司宣布达成长期合作协议,进一步提升了它们的 IPO 前景(以及 sama 持有的股份价值)。
![]()
目前,Cerebras 的芯片在经济上只能支持相对较小的模型,至少就目前市面上可获取的模型而言是如此。例如, GPT-5.3-Codex-Spark与完整的 GPT-5.3-Codex 完全不同;它是基于 GPT-5.3-Codex 轨迹进行微调的 gpt-oss-120b。换句话说,它是一个精简后的模型,体积缩小了十倍以上。
虽然 GPT-5.3-Codex-Spark 的速度确实很快,但其token目前的价值可能达不到 100 亿美元。OpenAI 要想运行任何参数总数超过 1 万亿、上下文窗口达到 100 万的模型来应对现代智能体工作负载模式,就必须接受成本上的重大权衡(并通过以高溢价出售token来弥补损失),我们预计最终的性能将低于每秒 1000 token的交互效率。另一方面,算法的改进无疑会让小型模型变得更加智能。我们或许只需不到一年的时间,就能看到 GPT 5.5 级别的智能模型以 1200 亿的规模运行。
正如前文所述,我们许多工程师宁愿放弃 Opus 4.7 的前沿智能,转而追求 Opus 4.6 的更快性能。如今,OpenAI 终于推出了 GPT-5.5,其性能达到了 Opus 4.5 的水平。一年后,即使真正的尖端技术早已超越了 GPT-5.5,人们是否还愿意为速度如此之快、质量堪比 GPT-5.5 的token买单呢?我们认为,答案或许是肯定的,而且这还是史无前例的。虽然首批 750MW 的容量已被锁定,但如果 OpenAI 选择使用全部 2GW 甚至更多,Cerebras 的收益空间将更加巨大。这一切都取决于 OpenAI 能够在 Cerebras 硬件上运行的模型质量。
(来源:semianalysis)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4406内容,欢迎关注。
加星标⭐️第一时间看推送
![]()
![]()
求推荐
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.