网易首页 > 网易号 > 正文 申请入驻

40倍成本墙:当推理速度撞上缓存盲区

0
分享至

周三下午,一个工程师对着成本报表愣了很久。Cerebras上的推理速度快得不像这个时代,但账单上的数字让他清醒过来——没有缓存,多轮对话的成本是竞争对手的40倍。

这是RapidNative团队的真实处境。他们把智能体跑在Cerebras上,GLM 4.7的流式输出"第一次让人感觉像未来"。但产品复杂度的膨胀和成本结构的残酷,把技术理想拽回了地面。


事情是从简单到失控的。最初的RapidNative一次只生成一个组件:一个模型、一份系统提示、一块屏幕输出。整个系统能装进人的脑子。但真实应用需要规划模式、子智能体、MCP服务器、可组合的技能。团队自己造了一套,结果"系统变得嘈杂"。

与此同时,Claude Code、OpenCode、Flue(Astro作者的新项目)不约而同走向了同一套架构:技能、子智能体、规划模式、MCP。行业标准正在收敛,RapidNative的自研方案成了"更差的版本"。

真正的冲击来自成本核算。Cerebras目前不支持提示缓存。在RapidNative或OpenCode这类编码会话中,每一轮都要重发完整对话历史。有缓存时,只需为新token付费;没有缓存,每一轮都要为全部历史买单。

同一模型(GLM 4.7)的对比数据:支持缓存的供应商 versus Cerebras,会话进行几轮后,token成本差距约40倍。

速度很重要。但没那么重要。

团队现在的解法是把智能体拆成两半,都留在Cerebras上。主智能体跑GPT OSS 120B,单token成本比同平台的GLM 4.7低5-6倍。缓存缺失的问题还在,但更便宜的单价缓解了长对话的失血。屏幕生成子智能体继续用GLM 4.7,短上下文、单次输出,速度是核心卖点,没有长历史需要重发,缓存缺失的伤害有限。

同一个供应商,不同模型对应不同子任务。推理正在从单一端点变成路由器。

这不是撤离Cerebras的计划。恰恰相反——在他们上线缓存之前,用更便宜的模型对冲长上下文成本,是一种权宜。一旦Cerebras支持提示缓存,40倍的差距会瞬间抹平,眼下这套架构折腾也就失去了必要。

团队最期待的事很明确:Cerebras加上提示缓存。在那之前,同平台换用低价模型是正在评估的过渡方案。

技术选型永远是在多个变量间找平衡。速度、成本、功能完整性,很少能同时满分。RapidNative的困境和应对,其实是AI基础设施成熟期的典型样本——当底层能力出现阶段性盲区,应用层只能用架构复杂度来换生存空间。

缓存会来的。问题是,多少团队能撑到那时候,以及为此要付多少学费。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
要6选秀签+24岁DPOY!字母哥交易索要天价,雄鹿老板首谈字母未来

要6选秀签+24岁DPOY!字母哥交易索要天价,雄鹿老板首谈字母未来

你的篮球频道
2026-05-08 08:44:24
她帮美国造出原子弹,37年后见到周总理,第一句话让人瞬间泪崩

她帮美国造出原子弹,37年后见到周总理,第一句话让人瞬间泪崩

老范谈史
2026-04-20 20:30:16
69年皮定均调往兰州军区,机场与驻军闹矛盾,妻子怒斥:不讲人情

69年皮定均调往兰州军区,机场与驻军闹矛盾,妻子怒斥:不讲人情

我不是沃神
2026-05-08 06:00:03
真正把北匈奴打到欧洲的,其实并非卫青和霍去病,而是另一个人

真正把北匈奴打到欧洲的,其实并非卫青和霍去病,而是另一个人

铭记历史呀
2026-05-08 00:06:20
难怪中方迟迟不表态,美媒道出扎心真相:原来中方早看不上我们了

难怪中方迟迟不表态,美媒道出扎心真相:原来中方早看不上我们了

十夏九漓
2026-05-08 14:56:10
《良陈美锦》害死母亲,爬上姐夫的床,顾澜连错三次,难怪输锦朝

《良陈美锦》害死母亲,爬上姐夫的床,顾澜连错三次,难怪输锦朝

乡野小珥
2026-05-09 01:37:45
2026款宝马X5下调13万,六缸3.0T发动机,也太香了吧

2026款宝马X5下调13万,六缸3.0T发动机,也太香了吧

侃故事的阿庆
2026-05-09 01:58:00
性和谐:为爱加点“坏”的调味料

性和谐:为爱加点“坏”的调味料

精彩分享快乐
2026-05-09 07:10:03
朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

番外行
2026-04-16 08:25:40
中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

细说职场
2026-05-06 14:21:03
刚刚!油价最新调整通知!

刚刚!油价最新调整通知!

沙雕小琳琳
2026-05-08 20:10:12
为什么饭后不能立即洗碗?提醒:3个科学道理,避免低级错误

为什么饭后不能立即洗碗?提醒:3个科学道理,避免低级错误

芹姐说生活
2026-05-08 12:32:51
要打奉陪到底,中方当面插旗,沉默72小时后,日本在境外发射导弹

要打奉陪到底,中方当面插旗,沉默72小时后,日本在境外发射导弹

影孖看世界
2026-05-07 15:58:50
从未缺席季后赛,8年6次至少进分决!生涯巅峰的他被这战绩气疯了

从未缺席季后赛,8年6次至少进分决!生涯巅峰的他被这战绩气疯了

阿浪的篮球故事
2026-05-08 16:05:04
莱温斯基:1995年,我的蓝裙子被总统克林顿脱下,就在白宫办公室

莱温斯基:1995年,我的蓝裙子被总统克林顿脱下,就在白宫办公室

史不语
2026-05-06 08:50:06
头号詹黑贝勒斯:詹姆斯排历史第9 心理素质最脆弱+失去裁判尊重

头号詹黑贝勒斯:詹姆斯排历史第9 心理素质最脆弱+失去裁判尊重

罗说NBA
2026-05-09 06:11:38
突发!美伊战火再起,美军轰炸伊朗多地,伊朗击中美国3艘军舰

突发!美伊战火再起,美军轰炸伊朗多地,伊朗击中美国3艘军舰

共工之锚
2026-05-09 00:05:46
意网协主席炮轰四大满贯:垄断可耻!我们要办第五个大满贯

意网协主席炮轰四大满贯:垄断可耻!我们要办第五个大满贯

体育妞世界
2026-05-08 08:52:49
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
俄方愤怒质问“你们站哪边”,亚美尼亚:在这个问题上不是俄盟友

俄方愤怒质问“你们站哪边”,亚美尼亚:在这个问题上不是俄盟友

观察者网
2026-05-08 12:20:07
2026-05-09 07:48:49
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
2366文章数 26关注度
往期回顾 全部

科技要闻

Meta疯狂拥抱人工智能:员工苦不堪言

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

教育
艺术
旅游
公开课
军事航空

教育要闻

太乖的孩子在AI时代没有出头之日

艺术要闻

清风拂面,心旷神怡

旅游要闻

深度体验花样海南

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:最高领袖穆杰塔巴全面掌控局势

无障碍浏览 进入关怀版