看懂Cerebras：算力让AI学会思考，记忆让Agent学会干活|gpu|英伟达|hbm|高带宽内存

分享至

来源：市场资讯

（来源：五源资本 5Y Capital）

算力让AI学会思考，记忆让Agent学会干活。

Cerebras上市这周，Ben Thompson最新文章讲透了：AI从"聊天"进化到"自主执行任务"，整个芯片架构的瓶颈变了。

你跟豆包聊天等的是速度; 当Kimi Claw替你跑5小时的任务,它不在乎快3秒还是慢30秒——它在乎的是能不能记住上下文、能不能持续工作。每执行一步，工作记忆（KV Cache）就膨胀一层。GPU是为"人在屏幕前等"设计的：prefill时显存空转、decode时算力空转——一半时间在干等。

真正卡脖子的不是算得多快, 是存得住多少、读得出多快。更本质的是, long-running agent让KV Cache从临时缓存变成了持久化工作记忆。谁能让这份记忆存得更久、复用率更高、成本更低，谁就握住了Agent经济的命门。

这比跑分重要得多。

文｜Ben Thompson

若论上市时机，在2026 年 5 月做一家芯片公司，几乎再理想不过。路透社（Reuters）周末报道：

两名知情人士周日告诉路透社，受市场对这家 AI 芯片公司股票需求持续升温的推动，Cerebras Systems 最快将于周一上调其首次公开募股（IPO）的发行规模与定价。消息人士表示，公司正考虑将发行价区间由原定的每股 115–125 美元上调至 150–160 美元，发行股数也由 2800 万股扩至 3000 万股；因信息尚未公开，两人均要求匿名。

半导体股的这轮持续走高，根本驱动当然是 AI——尤其是市场逐渐意识到：智能体(Agents）将吞下海量算力（Compute）。但 Cerebras 所指向的命题更为宽阔：迄今为止，AI 的算力叙事几乎只关于 GPU、只关于英伟达（Nvidia）；而未来的图景，将日益异构化（Heterogeneous）。

GPU时代

GPU如何成为AI中心的故事已是老生常谈，简而言之：

正如屏幕上绘制像素是一个并行过程（Parallel process）——处理单元越多，图形渲染就越快——AI 计算同样如此：处理单元数量直接决定计算速度。
英伟达正是顺势握住了这种"双重用途"：它让图形处理器变得可编程（Programmable），又以 CUDA 这套完整软件生态，把这种编程能力推向所有开发者。
图形与 AI 的根本差别，在于问题规模——模型远比视频游戏的textures庞大。由此带来两条连锁演进：单颗 GPU 上的高带宽内存（HBM, High-bandwidth memory）容量急剧扩张；芯片间互联（Chip-to-chip networking）也出现重大突破，使多颗芯片得以作为一个可寻址系统（Addressable system）协同工作。这两条线上，英伟达都处于领先。
GPU 的头号用例始终是训练，而训练对上面第三点尤为苛刻。每一个训练步骤内部是高度并行的，但步骤之间是串行的：进入下一步之前，每颗 GPU 都必须把自己的结果同步给所有其他 GPU。这就是为什么一个万亿参数（Trillion-parameter）的模型，必须装进数万颗 GPU 的总内存里——且这些 GPU 之间能像一台机器一样彼此通信。英伟达同时统治了这两个难题：一是抢在全行业之前锁住 HBM 供应，二是长期重金投入网络技术。

当然，训练并非唯一的 AI 工作负载，另一个是推理（Inference）。推理包含三个主要部分：

1、预填充（Prefill）：将大语言模型（LLM）需要了解的所有内容编码为可理解的状态；这是高度并行的，算力至关重要。

2、解码第一部分（Decode Part 1）：包括读取KV 缓存（KV Cache）——其中存储了上下文，包括预填充阶段的输出——以进行注意力计算。这是一个带宽至关重要的串行步骤，且内存需求是多变的且日益增大。

3、解码第二部分（Decode Part 2）：是在模型权重上进行的前向反馈计算(Feed-forward computation）；这也是一个带宽至关重要的串行步骤，其内存需求由模型的大小决定。

这两个解码步骤在模型的每一层交替进行（它们是交错运行而非单纯顺序运行），也就是说，解码是串行的，且受内存带宽限制（Memory-bandwidth bound）。每生成一个Token，都必须完整读取两个不同的内存池：存储上下文且随每个令牌增长的 KV 缓存，以及模型权重本身。两者都必须被完整读取才能产生一个单一的输出令牌。

GPU 完美应对了这三种需求：为预填充提供高算力，为 KV 缓存和权重提供充足的 HBM，以及在单颗 GPU 内存不足时通过芯片互连实现内存池化。换句话说，适用于训练的架构同样适用于推理——看看 SpaceX 与 Anthropic 达成的交易就明白了。Anthropic 在官方博客中提到：

“我们已签署协议，使用 SpaceX Colossus 1 数据中心的所有计算容量。这让我们获得了超过 300 兆瓦的新容量（超过 22 万颗英伟达 GPU）。这将直接提升 Claude Pro 和 Claude Max 用户的服务能力。”

SpaceX 保留了 Colossus 2——推测既用于未来模型的训练，也用于现有模型的推理。他们之所以能在同一个数据中心同时完成这两项任务，正是因为 xAI 的模型目前使用量并不大；更切中本文要点的是，他们能这样做是因为训练和推理都可以在 GPU 上完成。事实上，Anthropic 签约使用的这些原属于 Colossus 1 的 GPU 最初也是用于训练的；GPU 如此灵活是一个巨大的优势。

解读Cerebras

Cerebras 制造的东西完全不同。虽然硅晶圆的直径为 300mm，但“光罩极限”（Reticle limit）——即光刻工具在晶圆上能曝光的最大面积——约为 26mm x 33mm。这是芯片的有效尺寸上限；超越这个限制就需要通过芯片间的“中介层”将两个独立芯片连接起来，这正是英伟达在 B200 上所做的。而 Cerebras 发明了一种跨越“划片线”（Scribe lines，即光罩曝光之间的边界）布线的方法，将整块晶圆制成一颗单一芯片，无需相对缓慢的芯片间互连。

其结果是：一颗拥有恐怖算力和海量 SRAM、且访问速度快到惊人的芯片。数据对比：Cerebras 最新的 WSE-3 拥有 44GB 片上 SRAM，带宽达 21 PB/s；而英伟达 H100 拥有 80GB HBM，带宽为 3.35 TB/s。换句话说，WSE-3 的内存虽然只有 H100 的一半多，但内存带宽是后者的 6000 倍。

之所以将 WSE-3 与 H100 对比，是因为 H100 是目前推理领域使用最广的芯片，而推理显然是 Cerebras 最擅长的。你可以用 Cerebras 训练，但其芯片间的联网故事并不诱人，这意味着所有的算力和片上内存大多只是闲置；真正有意义的是它能以远超 GPU 的速度生成令牌流。

然而，训练的局限性也同样存在于推理中：只要所有数据能装进片上内存，Cerebras 的速度就是极致体验；一旦内存需求超出上限（无论是模型更大，还是更常见的 KV 缓存更长），Cerebras 就不再合理，尤其是考虑到其价格。这种“整块晶圆即芯片”的技术意味着高良率是极大的挑战，从而大幅推高了成本。

与此同时，我确实认为 Cerebras 风格的芯片会有市场：目前该公司正强调速度对于编程的实用性——推理意味着需要产生大量tokens，这意味着大幅提升每秒token数等同于更快的思考速度。但我认为这是一个暂时的用例，原因稍后解释。真正重要的是人类需要等待多久才能得到答案，随着 AI 穿戴设备等产品日益普及，交互速度（尤其是语音，这将取决于令牌生成速度）将对用户体验产生实质性影响。

智能体推理Agentic Inference

我此前曾提出，在 LLM 时代我们经历了三个拐点：

1、ChatGPT 证明了Token预测的实用性。

2、o1引入了推理概念，即更多的令牌意味着更好的答案。

3、Opus 4.5和Claude Code引入了首批实用的Agents，它们能利用推理模型和一套包含工具使用、工作校验等的框架来实际完成任务。

虽然这些都属于“推理”范畴，但我认为，提供答案——我称之为“应答推理”（Answer inference）——与执行任务——我称之为“智能体推理（Agentic inference）”之间，正变得界限分明。Cerebras 的目标市场是“应答推理”；而从长远来看，我认为“智能体推理”的架构将与 Cerebras 甚至 GPU 的路径截然不同。

我之前提到，快推理用于编程只是暂时用例。具体来说，目前使用 LLM 编程仍需人类参与。是人类定义任务、检查代码、提交拉取请求（PR）等；然而，不难预见未来这一切将完全由机器处理。这将广泛适用于智能体工作：智能体的真正威力不在于为人类工作，而在于脱离人类干预独立工作。

以此类推，解决智能体推理的最佳路径将与应答推理大相径庭。应答推理最看重的是token速度；而智能体推理最看重的是记忆（Memory）。智能体需要上下文、状态和历史。其中一部分存在于活跃的 KV 缓存中，一部分存在于主机内存或 SSD 中，更多则存在于数据库、日志、嵌入和对象存储中。关键点在于：智能体推理将不再是 GPU 回答一个问题，而是围绕模型构建的复杂内存层级系统。

至关重要的一点是，这种智能体专用内存层级暗示了一种必然的权衡：以速度换容量。而且，如果系统中没有人类在实时参与，较低的速度就不再是核心考量。如果一个智能体在运行通宵任务，它不在乎延迟对用户体验的影响；它只在乎能否完成任务。如果全新的内存方法能让复杂任务成为可能，那么些许延迟是可以接受的。

与此同时，如果延迟不再是首要考量，那么对极致算力和高带宽内存（HBM）的追求就显得不合时宜：如果延迟不是硬约束，那么更慢、更便宜的内存（如传统 DRAM）就更具吸引力。如果整个系统主要在等待内存响应，芯片也不需要追求最尖端的制程。这将引发架构的深刻变革，但并不意味着现有架构会消失：

训练（Training）：将持续重要，英伟达当前的架构（高算力、高带宽内存、高速网络）将继续统治。

应答推理（Answer inference）：将是一个重要但相对较小的市场，极致速度（如 Cerebras 或 Groq）将非常有用。

智能体推理（Agentic inference）：将逐渐从 GPU 中解耦。GPU 在预填充时浪费内存、在解码时浪费算力的短板会凸显。取而代之的是由高容量、低成本内存主导的系统，配合“足够好”的算力。事实上，CPU 处理工具调用的速度可能比 GPU 的速度更重要。

同时，这些类别在规模和重要性上并不等同。具体而言，智能体推理将是未来最大的市场，因为它不受人类数量或时间的限制。今天的智能体只是花哨的应答推理；未来的真正智能体推理将是计算机根据其他计算机的指令完成工作，其市场规模不随人口增长，而随算力扩张。

智能体推理对算力的启示

到目前为止，提及“随算力扩张”通常隐含着对英伟达的看好。然而，英伟达迄今为止的相对优势很大程度上建立在延迟上：英伟达芯片算力极快，但为了让算力不闲置，需要巨额投入以扩张 HBM 和网络。如果延迟不再是核心约束，英伟达的方案似乎就不再值得支付溢价。

英伟达也意识到了这一转变：该公司推出了名为 Dynamo 的推理框架来帮助解构推理的不同部分，并推出独立内存和 CPU 机架等产品，以实现更大的 KV 缓存和更快的工具调用，从而让昂贵的 GPU 保持忙碌。但最终，超大规模云厂商可能会为了成本和简便性，在非 GPU 受限的智能体推理任务中寻找替代方案。

与此同时，中国虽然缺乏顶尖算力，却拥有智能体推理所需的一切：足够快的 GPU、足够快的 CPU、DRAM 和硬盘等。挑战当然在于训练用的算力；此外，应答推理在国家安全（尤其是军事应用）方面可能更为重要。

另一个有趣的视角是空间（Space）：更慢的芯片反而让“太空数据中心”更具可行性。首先，如果内存可以外挂，芯片可以做得更简单、运行更凉爽。其次，老旧制程由于物理尺寸更大，能更好地抵御太空辐射。第三，老旧制程功耗更低，散热压力更小。第四，非尖端制程意味着更高的可靠性，这在无法维修的卫星上至关重要。

英伟达 CEO 黄仁勋常说“摩尔定律已死”；他的意思是未来的提速将依靠系统级创新。然而，当智能体可以脱离人类独立行动时，最深刻的启示或许是：摩尔定律已经不再重要。我们获得更多算力的方式，是意识到我们现有的算力其实已经“足够好”了。

五源寻找、支持、激励孤独的创业者，为其提供从精神到所有经营运作的支持。我们相信，如果别人眼中疯狂的你，开始被相信，世界将会别开生面。

BEIJING·SHANGHAI·SHENZHEN·HONGKONG

WWW.5YCAP.COM

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.