来源:市场资讯
(来源:五源资本 5Y Capital)
算力让AI学会思考,记忆让Agent学会干活。
Cerebras上市这周,Ben Thompson最新文章讲透了:AI从"聊天"进化到"自主执行任务",整个芯片架构的瓶颈变了。
你跟豆包聊天等的是速度; 当Kimi Claw替你跑5小时的任务,它不在乎快3秒还是慢30秒——它在乎的是能不能记住上下文、能不能持续工作。每执行一步,工作记忆(KV Cache)就膨胀一层。GPU是为"人在屏幕前等"设计的:prefill时显存空转、decode时算力空转——一半时间在干等。
真正卡脖子的不是算得多快, 是存得住多少、读得出多快。 更本质的是, long-running agent让KV Cache从临时缓存变成了持久化工作记忆。谁能让这份记忆存得更久、复用率更高、成本更低,谁就握住了Agent经济的命门。
这比跑分重要得多。
文|Ben Thompson
若论上市时机,在2026 年 5 月做一家芯片公司,几乎再理想不过。路透社(Reuters)周末报道:
两名知情人士周日告诉路透社,受市场对这家 AI 芯片公司股票需求持续升温的推动,Cerebras Systems 最快将于周一上调其首次公开募股(IPO)的发行规模与定价。消息人士表示,公司正考虑将发行价区间由原定的每股 115–125 美元上调至 150–160 美元,发行股数也由 2800 万股扩至 3000 万股;因信息尚未公开,两人均要求匿名。
半导体股的这轮持续走高,根本驱动当然是 AI——尤其是市场逐渐意识到:智能体(Agents)将吞下海量算力(Compute)。但 Cerebras 所指向的命题更为宽阔:迄今为止,AI 的算力叙事几乎只关于 GPU、只关于英伟达(Nvidia);而未来的图景,将日益异构化(Heterogeneous)。
GPU时代
GPU如何成为AI中心的故事已是老生常谈,简而言之:
正如屏幕上绘制像素是一个并行过程(Parallel process)——处理单元越多,图形渲染就越快——AI 计算同样如此:处理单元数量直接决定计算速度。
英伟达正是顺势握住了这种"双重用途":它让图形处理器变得可编程(Programmable),又以 CUDA 这套完整软件生态,把这种编程能力推向所有开发者。
图形与 AI 的根本差别,在于问题规模——模型远比视频游戏的textures庞大。由此带来两条连锁演进:单颗 GPU 上的高带宽内存(HBM, High-bandwidth memory)容量急剧扩张;芯片间互联(Chip-to-chip networking)也出现重大突破,使多颗芯片得以作为一个可寻址系统(Addressable system)协同工作。这两条线上,英伟达都处于领先。
GPU 的头号用例始终是训练,而训练对上面第三点尤为苛刻。每一个训练步骤内部是高度并行的,但步骤之间是串行的:进入下一步之前,每颗 GPU 都必须把自己的结果同步给所有其他 GPU。这就是为什么一个万亿参数(Trillion-parameter)的模型,必须装进数万颗 GPU 的总内存里——且这些 GPU 之间能像一台机器一样彼此通信。英伟达同时统治了这两个难题:一是抢在全行业之前锁住 HBM 供应,二是长期重金投入网络技术。
当然,训练并非唯一的 AI 工作负载,另一个是推理(Inference)。推理包含三个主要部分:
1、预填充(Prefill):将大语言模型(LLM)需要了解的所有内容编码为可理解的状态;这是高度并行的,算力至关重要。
2、解码第一部分(Decode Part 1):包括读取KV 缓存(KV Cache)——其中存储了上下文,包括预填充阶段的输出——以进行注意力计算。这是一个带宽至关重要的串行步骤,且内存需求是多变的且日益增大。
3、解码第二部分(Decode Part 2):是在模型权重上进行的前向反馈计算(Feed-forward computation);这也是一个带宽至关重要的串行步骤,其内存需求由模型的大小决定。
这两个解码步骤在模型的每一层交替进行(它们是交错运行而非单纯顺序运行),也就是说,解码是串行的,且受内存带宽限制(Memory-bandwidth bound)。 每生成一个Token,都必须完整读取两个不同的内存池:存储上下文且随每个令牌增长的 KV 缓存,以及模型权重本身。两者都必须被完整读取才能产生一个单一的输出令牌。
GPU 完美应对了这三种需求:为预填充提供高算力,为 KV 缓存和权重提供充足的 HBM,以及在单颗 GPU 内存不足时通过芯片互连实现内存池化。换句话说,适用于训练的架构同样适用于推理——看看 SpaceX 与 Anthropic 达成的交易就明白了。Anthropic 在官方博客中提到:
“我们已签署协议,使用 SpaceX Colossus 1 数据中心的所有计算容量。这让我们获得了超过 300 兆瓦的新容量(超过 22 万颗英伟达 GPU)。这将直接提升 Claude Pro 和 Claude Max 用户的服务能力。”
SpaceX 保留了 Colossus 2——推测既用于未来模型的训练,也用于现有模型的推理。他们之所以能在同一个数据中心同时完成这两项任务,正是因为 xAI 的模型目前使用量并不大;更切中本文要点的是,他们能这样做是因为训练和推理都可以在 GPU 上完成。事实上,Anthropic 签约使用的这些原属于 Colossus 1 的 GPU 最初也是用于训练的;GPU 如此灵活是一个巨大的优势。
解读Cerebras
Cerebras 制造的东西完全不同。虽然硅晶圆的直径为 300mm,但“光罩极限”(Reticle limit)——即光刻工具在晶圆上能曝光的最大面积——约为 26mm x 33mm。这是芯片的有效尺寸上限;超越这个限制就需要通过芯片间的“中介层”将两个独立芯片连接起来,这正是英伟达在 B200 上所做的。而 Cerebras 发明了一种跨越“划片线”(Scribe lines,即光罩曝光之间的边界)布线的方法,将整块晶圆制成一颗单一芯片,无需相对缓慢的芯片间互连。
其结果是:一颗拥有恐怖算力和海量 SRAM、且访问速度快到惊人的芯片。数据对比:Cerebras 最新的 WSE-3 拥有 44GB 片上 SRAM,带宽达 21 PB/s;而英伟达 H100 拥有 80GB HBM,带宽为 3.35 TB/s。换句话说,WSE-3 的内存虽然只有 H100 的一半多,但内存带宽是后者的 6000 倍。
之所以将 WSE-3 与 H100 对比,是因为 H100 是目前推理领域使用最广的芯片,而推理显然是 Cerebras 最擅长的。你可以用 Cerebras 训练,但其芯片间的联网故事并不诱人,这意味着所有的算力和片上内存大多只是闲置;真正有意义的是它能以远超 GPU 的速度生成令牌流。
然而,训练的局限性也同样存在于推理中:只要所有数据能装进片上内存,Cerebras 的速度就是极致体验;一旦内存需求超出上限(无论是模型更大,还是更常见的 KV 缓存更长),Cerebras 就不再合理,尤其是考虑到其价格。这种“整块晶圆即芯片”的技术意味着高良率是极大的挑战,从而大幅推高了成本。
与此同时,我确实认为 Cerebras 风格的芯片会有市场:目前该公司正强调速度对于编程的实用性——推理意味着需要产生大量tokens,这意味着大幅提升每秒token数等同于更快的思考速度。但我认为这是一个暂时的用例,原因稍后解释。真正重要的是人类需要等待多久才能得到答案,随着 AI 穿戴设备等产品日益普及,交互速度(尤其是语音,这将取决于令牌生成速度)将对用户体验产生实质性影响。
智能体推理Agentic Inference
我此前曾提出,在 LLM 时代我们经历了三个拐点:
1、ChatGPT 证明了Token预测的实用性。
2、o1引入了推理概念,即更多的令牌意味着更好的答案。
3、Opus 4.5和Claude Code引入了首批实用的Agents,它们能利用推理模型和一套包含工具使用、工作校验等的框架来实际完成任务。
虽然这些都属于“推理”范畴,但我认为,提供答案——我称之为“应答推理”(Answer inference)——与执行任务——我称之为“智能体推理(Agentic inference)”之间,正变得界限分明。Cerebras 的目标市场是“应答推理”;而从长远来看,我认为“智能体推理”的架构将与 Cerebras 甚至 GPU 的路径截然不同。
我之前提到,快推理用于编程只是暂时用例。具体来说,目前使用 LLM 编程仍需人类参与。是人类定义任务、检查代码、提交拉取请求(PR)等;然而,不难预见未来这一切将完全由机器处理。这将广泛适用于智能体工作:智能体的真正威力不在于为人类工作,而在于脱离人类干预独立工作。
以此类推,解决智能体推理的最佳路径将与应答推理大相径庭。应答推理最看重的是token速度;而智能体推理最看重的是记忆(Memory)。 智能体需要上下文、状态和历史。其中一部分存在于活跃的 KV 缓存中,一部分存在于主机内存或 SSD 中,更多则存在于数据库、日志、嵌入和对象存储中。关键点在于:智能体推理将不再是 GPU 回答一个问题,而是围绕模型构建的复杂内存层级系统。
至关重要的一点是,这种智能体专用内存层级暗示了一种必然的权衡:以速度换容量。 而且,如果系统中没有人类在实时参与,较低的速度就不再是核心考量。如果一个智能体在运行通宵任务,它不在乎延迟对用户体验的影响;它只在乎能否完成任务。如果全新的内存方法能让复杂任务成为可能,那么些许延迟是可以接受的。
与此同时,如果延迟不再是首要考量,那么对极致算力和高带宽内存(HBM)的追求就显得不合时宜:如果延迟不是硬约束,那么更慢、更便宜的内存(如传统 DRAM)就更具吸引力。如果整个系统主要在等待内存响应,芯片也不需要追求最尖端的制程。这将引发架构的深刻变革,但并不意味着现有架构会消失:
训练(Training):将持续重要,英伟达当前的架构(高算力、高带宽内存、高速网络)将继续统治。
应答推理(Answer inference):将是一个重要但相对较小的市场,极致速度(如 Cerebras 或 Groq)将非常有用。
智能体推理(Agentic inference):将逐渐从 GPU 中解耦。GPU 在预填充时浪费内存、在解码时浪费算力的短板会凸显。取而代之的是由高容量、低成本内存主导的系统,配合“足够好”的算力。事实上,CPU 处理工具调用的速度可能比 GPU 的速度更重要。
同时,这些类别在规模和重要性上并不等同。具体而言,智能体推理将是未来最大的市场,因为它不受人类数量或时间的限制。今天的智能体只是花哨的应答推理;未来的真正智能体推理将是计算机根据其他计算机的指令完成工作,其市场规模不随人口增长,而随算力扩张。
智能体推理对算力的启示
到目前为止,提及“随算力扩张”通常隐含着对英伟达的看好。然而,英伟达迄今为止的相对优势很大程度上建立在延迟上:英伟达芯片算力极快,但为了让算力不闲置,需要巨额投入以扩张 HBM 和网络。如果延迟不再是核心约束,英伟达的方案似乎就不再值得支付溢价。
英伟达也意识到了这一转变:该公司推出了名为 Dynamo 的推理框架来帮助解构推理的不同部分,并推出独立内存和 CPU 机架等产品,以实现更大的 KV 缓存和更快的工具调用,从而让昂贵的 GPU 保持忙碌。但最终,超大规模云厂商可能会为了成本和简便性,在非 GPU 受限的智能体推理任务中寻找替代方案。
与此同时,中国虽然缺乏顶尖算力,却拥有智能体推理所需的一切:足够快的 GPU、足够快的 CPU、DRAM 和硬盘等。挑战当然在于训练用的算力;此外,应答推理在国家安全(尤其是军事应用)方面可能更为重要。
另一个有趣的视角是空间(Space):更慢的芯片反而让“太空数据中心”更具可行性。首先,如果内存可以外挂,芯片可以做得更简单、运行更凉爽。其次,老旧制程由于物理尺寸更大,能更好地抵御太空辐射。第三,老旧制程功耗更低,散热压力更小。第四,非尖端制程意味着更高的可靠性,这在无法维修的卫星上至关重要。
英伟达 CEO 黄仁勋常说“摩尔定律已死”;他的意思是未来的提速将依靠系统级创新。然而,当智能体可以脱离人类独立行动时,最深刻的启示或许是:摩尔定律已经不再重要。我们获得更多算力的方式,是意识到我们现有的算力其实已经“足够好”了。
五源寻找、支持、激励孤独的创业者,为其提供从精神到所有经营运作的支持。我们相信,如果别人眼中疯狂的你,开始被相信,世界将会别开生面。
BEIJING·SHANGHAI·SHENZHEN·HONGKONG
WWW.5YCAP.COM
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.