网易首页 > 网易号 > 正文 申请入驻

看懂Cerebras:算力让AI学会思考,记忆让Agent学会干活

0
分享至

来源:市场资讯

(来源:五源资本 5Y Capital)

算力让AI学会思考,记忆让Agent学会干活。

Cerebras上市这周,Ben Thompson最新文章讲透了:AI从"聊天"进化到"自主执行任务",整个芯片架构的瓶颈变了。

你跟豆包聊天等的是速度; 当Kimi Claw替你跑5小时的任务,它不在乎快3秒还是慢30秒——它在乎的是能不能记住上下文、能不能持续工作。每执行一步,工作记忆(KV Cache)就膨胀一层。GPU是为"人在屏幕前等"设计的:prefill时显存空转、decode时算力空转——一半时间在干等。

真正卡脖子的不是算得多快, 是存得住多少、读得出多快。 更本质的是, long-running agent让KV Cache从临时缓存变成了持久化工作记忆。谁能让这份记忆存得更久、复用率更高、成本更低,谁就握住了Agent经济的命门。

这比跑分重要得多。

文|Ben Thompson

若论上市时机,在2026 年 5 月做一家芯片公司,几乎再理想不过。路透社(Reuters)周末报道:

两名知情人士周日告诉路透社,受市场对这家 AI 芯片公司股票需求持续升温的推动,Cerebras Systems 最快将于周一上调其首次公开募股(IPO)的发行规模与定价。消息人士表示,公司正考虑将发行价区间由原定的每股 115–125 美元上调至 150–160 美元,发行股数也由 2800 万股扩至 3000 万股;因信息尚未公开,两人均要求匿名。

半导体股的这轮持续走高,根本驱动当然是 AI——尤其是市场逐渐意识到:智能体(Agents)将吞下海量算力(Compute)。但 Cerebras 所指向的命题更为宽阔:迄今为止,AI 的算力叙事几乎只关于 GPU、只关于英伟达(Nvidia);而未来的图景,将日益异构化(Heterogeneous)。

GPU时代

GPU如何成为AI中心的故事已是老生常谈,简而言之:

  • 正如屏幕上绘制像素是一个并行过程(Parallel process)——处理单元越多,图形渲染就越快——AI 计算同样如此:处理单元数量直接决定计算速度。

  • 英伟达正是顺势握住了这种"双重用途":它让图形处理器变得可编程(Programmable),又以 CUDA 这套完整软件生态,把这种编程能力推向所有开发者。

  • 图形与 AI 的根本差别,在于问题规模——模型远比视频游戏的textures庞大。由此带来两条连锁演进:单颗 GPU 上的高带宽内存(HBM, High-bandwidth memory)容量急剧扩张;芯片间互联(Chip-to-chip networking)也出现重大突破,使多颗芯片得以作为一个可寻址系统(Addressable system)协同工作。这两条线上,英伟达都处于领先。

  • GPU 的头号用例始终是训练,而训练对上面第三点尤为苛刻。每一个训练步骤内部是高度并行的,但步骤之间是串行的:进入下一步之前,每颗 GPU 都必须把自己的结果同步给所有其他 GPU。这就是为什么一个万亿参数(Trillion-parameter)的模型,必须装进数万颗 GPU 的总内存里——且这些 GPU 之间能像一台机器一样彼此通信。英伟达同时统治了这两个难题:一是抢在全行业之前锁住 HBM 供应,二是长期重金投入网络技术。

当然,训练并非唯一的 AI 工作负载,另一个是推理(Inference)。推理包含三个主要部分:

1、预填充(Prefill):将大语言模型(LLM)需要了解的所有内容编码为可理解的状态;这是高度并行的,算力至关重要。

2、解码第一部分(Decode Part 1):包括读取KV 缓存(KV Cache)——其中存储了上下文,包括预填充阶段的输出——以进行注意力计算。这是一个带宽至关重要的串行步骤,且内存需求是多变的且日益增大。

3、解码第二部分(Decode Part 2):是在模型权重上进行的前向反馈计算(Feed-forward computation);这也是一个带宽至关重要的串行步骤,其内存需求由模型的大小决定。

这两个解码步骤在模型的每一层交替进行(它们是交错运行而非单纯顺序运行),也就是说,解码是串行的,且受内存带宽限制(Memory-bandwidth bound)。 每生成一个Token,都必须完整读取两个不同的内存池:存储上下文且随每个令牌增长的 KV 缓存,以及模型权重本身。两者都必须被完整读取才能产生一个单一的输出令牌。

GPU 完美应对了这三种需求:为预填充提供高算力,为 KV 缓存和权重提供充足的 HBM,以及在单颗 GPU 内存不足时通过芯片互连实现内存池化。换句话说,适用于训练的架构同样适用于推理——看看 SpaceX 与 Anthropic 达成的交易就明白了。Anthropic 在官方博客中提到:

“我们已签署协议,使用 SpaceX Colossus 1 数据中心的所有计算容量。这让我们获得了超过 300 兆瓦的新容量(超过 22 万颗英伟达 GPU)。这将直接提升 Claude Pro 和 Claude Max 用户的服务能力。”

SpaceX 保留了 Colossus 2——推测既用于未来模型的训练,也用于现有模型的推理。他们之所以能在同一个数据中心同时完成这两项任务,正是因为 xAI 的模型目前使用量并不大;更切中本文要点的是,他们能这样做是因为训练和推理都可以在 GPU 上完成。事实上,Anthropic 签约使用的这些原属于 Colossus 1 的 GPU 最初也是用于训练的;GPU 如此灵活是一个巨大的优势。

解读Cerebras

Cerebras 制造的东西完全不同。虽然硅晶圆的直径为 300mm,但“光罩极限”(Reticle limit)——即光刻工具在晶圆上能曝光的最大面积——约为 26mm x 33mm。这是芯片的有效尺寸上限;超越这个限制就需要通过芯片间的“中介层”将两个独立芯片连接起来,这正是英伟达在 B200 上所做的。而 Cerebras 发明了一种跨越“划片线”(Scribe lines,即光罩曝光之间的边界)布线的方法,将整块晶圆制成一颗单一芯片,无需相对缓慢的芯片间互连。

其结果是:一颗拥有恐怖算力和海量 SRAM、且访问速度快到惊人的芯片。数据对比:Cerebras 最新的 WSE-3 拥有 44GB 片上 SRAM,带宽达 21 PB/s;而英伟达 H100 拥有 80GB HBM,带宽为 3.35 TB/s。换句话说,WSE-3 的内存虽然只有 H100 的一半多,但内存带宽是后者的 6000 倍。

之所以将 WSE-3 与 H100 对比,是因为 H100 是目前推理领域使用最广的芯片,而推理显然是 Cerebras 最擅长的。你可以用 Cerebras 训练,但其芯片间的联网故事并不诱人,这意味着所有的算力和片上内存大多只是闲置;真正有意义的是它能以远超 GPU 的速度生成令牌流。

然而,训练的局限性也同样存在于推理中:只要所有数据能装进片上内存,Cerebras 的速度就是极致体验;一旦内存需求超出上限(无论是模型更大,还是更常见的 KV 缓存更长),Cerebras 就不再合理,尤其是考虑到其价格。这种“整块晶圆即芯片”的技术意味着高良率是极大的挑战,从而大幅推高了成本。

与此同时,我确实认为 Cerebras 风格的芯片会有市场:目前该公司正强调速度对于编程的实用性——推理意味着需要产生大量tokens,这意味着大幅提升每秒token数等同于更快的思考速度。但我认为这是一个暂时的用例,原因稍后解释。真正重要的是人类需要等待多久才能得到答案,随着 AI 穿戴设备等产品日益普及,交互速度(尤其是语音,这将取决于令牌生成速度)将对用户体验产生实质性影响。

智能体推理Agentic Inference

我此前曾提出,在 LLM 时代我们经历了三个拐点:

1、ChatGPT 证明了Token预测的实用性。

2、o1引入了推理概念,即更多的令牌意味着更好的答案。

3、Opus 4.5和Claude Code引入了首批实用的Agents,它们能利用推理模型和一套包含工具使用、工作校验等的框架来实际完成任务。

虽然这些都属于“推理”范畴,但我认为,提供答案——我称之为“应答推理”(Answer inference)——与执行任务——我称之为“智能体推理(Agentic inference)”之间,正变得界限分明。Cerebras 的目标市场是“应答推理”;而从长远来看,我认为“智能体推理”的架构将与 Cerebras 甚至 GPU 的路径截然不同。

我之前提到,快推理用于编程只是暂时用例。具体来说,目前使用 LLM 编程仍需人类参与。是人类定义任务、检查代码、提交拉取请求(PR)等;然而,不难预见未来这一切将完全由机器处理。这将广泛适用于智能体工作:智能体的真正威力不在于为人类工作,而在于脱离人类干预独立工作。

以此类推,解决智能体推理的最佳路径将与应答推理大相径庭。应答推理最看重的是token速度;而智能体推理最看重的是记忆(Memory)。 智能体需要上下文、状态和历史。其中一部分存在于活跃的 KV 缓存中,一部分存在于主机内存或 SSD 中,更多则存在于数据库、日志、嵌入和对象存储中。关键点在于:智能体推理将不再是 GPU 回答一个问题,而是围绕模型构建的复杂内存层级系统。

至关重要的一点是,这种智能体专用内存层级暗示了一种必然的权衡:以速度换容量。 而且,如果系统中没有人类在实时参与,较低的速度就不再是核心考量。如果一个智能体在运行通宵任务,它不在乎延迟对用户体验的影响;它只在乎能否完成任务。如果全新的内存方法能让复杂任务成为可能,那么些许延迟是可以接受的。

与此同时,如果延迟不再是首要考量,那么对极致算力和高带宽内存(HBM)的追求就显得不合时宜:如果延迟不是硬约束,那么更慢、更便宜的内存(如传统 DRAM)就更具吸引力。如果整个系统主要在等待内存响应,芯片也不需要追求最尖端的制程。这将引发架构的深刻变革,但并不意味着现有架构会消失:

训练(Training):将持续重要,英伟达当前的架构(高算力、高带宽内存、高速网络)将继续统治。

应答推理(Answer inference):将是一个重要但相对较小的市场,极致速度(如 Cerebras 或 Groq)将非常有用。

智能体推理(Agentic inference):将逐渐从 GPU 中解耦。GPU 在预填充时浪费内存、在解码时浪费算力的短板会凸显。取而代之的是由高容量、低成本内存主导的系统,配合“足够好”的算力。事实上,CPU 处理工具调用的速度可能比 GPU 的速度更重要。

同时,这些类别在规模和重要性上并不等同。具体而言,智能体推理将是未来最大的市场,因为它不受人类数量或时间的限制。今天的智能体只是花哨的应答推理;未来的真正智能体推理将是计算机根据其他计算机的指令完成工作,其市场规模不随人口增长,而随算力扩张。

智能体推理对算力的启示

到目前为止,提及“随算力扩张”通常隐含着对英伟达的看好。然而,英伟达迄今为止的相对优势很大程度上建立在延迟上:英伟达芯片算力极快,但为了让算力不闲置,需要巨额投入以扩张 HBM 和网络。如果延迟不再是核心约束,英伟达的方案似乎就不再值得支付溢价。

英伟达也意识到了这一转变:该公司推出了名为 Dynamo 的推理框架来帮助解构推理的不同部分,并推出独立内存和 CPU 机架等产品,以实现更大的 KV 缓存和更快的工具调用,从而让昂贵的 GPU 保持忙碌。但最终,超大规模云厂商可能会为了成本和简便性,在非 GPU 受限的智能体推理任务中寻找替代方案。

与此同时,中国虽然缺乏顶尖算力,却拥有智能体推理所需的一切:足够快的 GPU、足够快的 CPU、DRAM 和硬盘等。挑战当然在于训练用的算力;此外,应答推理在国家安全(尤其是军事应用)方面可能更为重要。

另一个有趣的视角是空间(Space):更慢的芯片反而让“太空数据中心”更具可行性。首先,如果内存可以外挂,芯片可以做得更简单、运行更凉爽。其次,老旧制程由于物理尺寸更大,能更好地抵御太空辐射。第三,老旧制程功耗更低,散热压力更小。第四,非尖端制程意味着更高的可靠性,这在无法维修的卫星上至关重要。

英伟达 CEO 黄仁勋常说“摩尔定律已死”;他的意思是未来的提速将依靠系统级创新。然而,当智能体可以脱离人类独立行动时,最深刻的启示或许是:摩尔定律已经不再重要。我们获得更多算力的方式,是意识到我们现有的算力其实已经“足够好”了。

五源寻找、支持、激励孤独的创业者,为其提供从精神到所有经营运作的支持。我们相信,如果别人眼中疯狂的你,开始被相信,世界将会别开生面。

BEIJING·SHANGHAI·SHENZHEN·HONGKONG

WWW.5YCAP.COM

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梅西造5球+退役言论,让他有望达成一项神迹,难度远超1000球

梅西造5球+退役言论,让他有望达成一项神迹,难度远超1000球

野渡舟山人
2026-05-15 14:34:37
中美会晤对新德里意味着什么?印度破防:中美会晤,对印度不利

中美会晤对新德里意味着什么?印度破防:中美会晤,对印度不利

丁丁鲤史纪
2026-05-15 16:50:30
很多中国人看不起清朝,其实,清朝的强大远远超出现代人的想象

很多中国人看不起清朝,其实,清朝的强大远远超出现代人的想象

铭记历史呀
2026-05-15 01:22:20
刘亦菲越来越喜欢穿丝袜了

刘亦菲越来越喜欢穿丝袜了

乡野小珥
2026-05-15 15:51:07
终于知道大爷大妈经常跑银行的原因了!网友:后来我辞职了!

终于知道大爷大妈经常跑银行的原因了!网友:后来我辞职了!

另子维爱读史
2026-05-13 07:40:13
三个月交易超7亿美元?特朗普“炒股账本”曝光,硅谷和华尔街巨头一个不少

三个月交易超7亿美元?特朗普“炒股账本”曝光,硅谷和华尔街巨头一个不少

华尔街见闻官方
2026-05-15 05:44:51
1978年300名农业专家参观大寨,却发现:大寨是一场惊天谎言!

1978年300名农业专家参观大寨,却发现:大寨是一场惊天谎言!

温读
2025-03-20 10:58:55
农村光棍没减少,又冒4个扎心怪象,热闹背后全是难念的经

农村光棍没减少,又冒4个扎心怪象,热闹背后全是难念的经

老特有话说
2026-05-12 15:30:33
特朗普离京之前,中美订下“三年之约”

特朗普离京之前,中美订下“三年之约”

老嘪科普
2026-05-15 16:12:31
对重庆铜梁龙的质疑,为向余望请营养师,体能教练很难吗

对重庆铜梁龙的质疑,为向余望请营养师,体能教练很难吗

足球分析员
2026-05-15 11:00:05
突发重磅!美国放行H200!明天科技牛回归!

突发重磅!美国放行H200!明天科技牛回归!

老A情报圈
2026-05-15 00:45:38
每天 5 分钟深蹲,长期坚持,这7大变化找上你

每天 5 分钟深蹲,长期坚持,这7大变化找上你

增肌减脂
2026-05-15 13:05:10
身处杭州、深圳两地的“表姐妹”的男朋友是同一人?警方:骗子扮演两个角色两头行骗,为骗取钱财竟为双方“设定关系”

身处杭州、深圳两地的“表姐妹”的男朋友是同一人?警方:骗子扮演两个角色两头行骗,为骗取钱财竟为双方“设定关系”

环球网资讯
2026-05-15 09:09:12
破防了!王曼昱赢球后第一个抱马琳,一向冷静的她这次失态了!

破防了!王曼昱赢球后第一个抱马琳,一向冷静的她这次失态了!

小娱乐悠悠
2026-05-15 09:00:02
IGN10分《地平线6》遭怒喷!男女不分 LGBT就拿高分

IGN10分《地平线6》遭怒喷!男女不分 LGBT就拿高分

游民星空
2026-05-15 16:59:00
我跟女总裁说:你要是我媳妇我一天揍你3顿,隔天她带5个保镖堵我

我跟女总裁说:你要是我媳妇我一天揍你3顿,隔天她带5个保镖堵我

千秋文化
2026-05-13 19:47:04
演唱会延期!女歌手突发休克,被送入ICU抢救!“状况不明”

演唱会延期!女歌手突发休克,被送入ICU抢救!“状况不明”

南方都市报
2026-05-15 17:25:56
43岁身材还这么“满”?王心凌的身材到底是怎么保持的?

43岁身材还这么“满”?王心凌的身材到底是怎么保持的?

马拉松跑步健身
2026-05-04 19:32:40
郑告蒋家后代:蒋介石逝哪葬哪,是对全体中国人民的最好安排!

郑告蒋家后代:蒋介石逝哪葬哪,是对全体中国人民的最好安排!

扶苏聊历史
2025-12-26 16:08:12
我国目前仍有两个机场公安局实行垂直管理,其中一个设在高校内

我国目前仍有两个机场公安局实行垂直管理,其中一个设在高校内

小圣杂谈原创
2026-05-09 15:58:24
2026-05-15 17:47:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3195859文章数 7366关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

白宫称中方同意重开霍尔木兹海峡 外交部回应

头条要闻

白宫称中方同意重开霍尔木兹海峡 外交部回应

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

特朗普的北京时刻

汽车要闻

标杆级乘坐感受 驾驶智界V9需要再细腻一点?

态度原创

本地
艺术
旅游
时尚
公开课

本地新闻

用苏绣的方式,打开江西婺源

艺术要闻

陆游竟是一位书法高手!80岁写的字仍旧气势非凡,难怪秦桧嫉妒不已

旅游要闻

容贤标:推动猫儿山向全国性山海经文化高地跃升

56岁逆风翻盘,她怎么从全网群嘲变成了大家的天才女友?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版