网易首页 > 网易号 > 正文 申请入驻

200万字符装不下对话?Cloudflare押注记忆外包

0
分享至

Claude Opus能吞下250万字符,但你的AI助手还是转头就忘。Cloudflare的新服务想解决这个问题——不是让模型记更多,而是帮它学会"遗忘"。

上下文焦虑:大模型的隐形天花板


AI模型的"记忆力"有个硬指标:上下文窗口(context window),单位是token。Anthropic的Claude Opus 4.7号称100万token,约等于55.5万英文单词或250万Unicode字符。Claude Sonnet 4.6同样100万token,却能塞下75万单词——因为用了不同的分词器。

Google的Gemma 4系列更保守:小模型12.8万token,大模型25.6万token。

数字看起来宽裕,实际可用空间被层层盘剥。系统提示词、工具定义、自定义智能体、记忆文件、技能配置、历史消息、自动压缩缓冲区——这些"公摊面积"吃掉10%到20%的额度。用户真正能用的,远没有标称的那么慷慨。

更麻烦的是上下文膨胀。多轮对话下来,历史记录像滚雪球。开发者被迫在"保留完整历史"和"控制token成本"之间走钢丝。_truncation_(截断)会丢失信息,_summarization_(摘要)会扭曲原意,两者都是权宜之计。

Cloudflare的工程师Tyson Trautmann和Rob Sutter在博客中写道:"针对真实代码库和生产系统运行数周甚至数月的智能体,需要的是随规模增长仍保持实用的记忆——而非仅仅在干净基准数据集上表现良好、可能完全塞进新版模型上下文窗口的记忆。"

正方:记忆外包是工程最优解

Agent Memory的核心主张是"异步CRUD"——把对话数据抽离出来,按需注入。不是让模型背负全部历史,而是让它在需要时"回忆"。

技术实现上,这是一个托管服务。开发者通过Cloudflare Worker绑定或REST API调用,用自然语言查询存取记忆。示例代码很直白:await profile.recall("用户偏好什么包管理器?"),返回"用户偏好pnpm而非npm"。

正方论据一:成本结构更合理。按查询计费,而非按上下文token持续计费。长期运行的智能体,token消耗是线性增长的;外包记忆后,变成按需调用的弹性成本。

正方论据二:质量可能提升。Trautmann和Sutter暗示了一个反直觉现象:更多上下文不总是更好。某些场景下,精简的、经过筛选的上下文反而让模型输出更准确。记忆服务充当"策展人"角色,过滤噪声。

正方论据三:基础设施整合。Cloudflare的现有客户——已经用Worker部署边缘计算的用户——可以零摩擦接入。REST API则向外部生态敞开,不绑架技术栈。

正方论据四:持久性保证。对话历史不再依附于单次会话或模型实例,成为独立的数据资产。智能体重启、模型切换、甚至供应商迁移,记忆可以跟随。

反方:新抽象层,老问题

质疑者的切入点很直接:这不是什么新发明。

开源社区早有解决方案。LangChain的ConversationBufferMemory、LlamaIndex的ChatMemoryBuffer、以及无数开发者自研的向量数据库+检索增强生成(检索增强生成,RAG)流水线,都在解决同类问题。Cloudflare不过是把这些封装成托管服务,加上品牌名。

反方论据一:锁定风险。记忆数据存入Cloudflare的生态,迁移成本几何?REST API是开放承诺还是过渡姿态?历史经验表明,"方便接入"往往伴随着"难以抽身"。

反方论据二:延迟与一致性。异步操作意味着网络往返。recall()调用是毫秒级还是百毫秒级?高频交互场景下,这会不会成为瓶颈?博客承诺"快速且合理的单次查询成本",但缺乏具体数字。

反方论据三:语义漂移。自然语言查询的模糊性是个老问题。"用户偏好什么包管理器?"和"用户上次用的包管理器是什么?"可能指向不同答案。记忆服务的检索精度,取决于嵌入模型和排序算法的黑箱质量。

反方论据四:隐私与合规。对话数据离开模型上下文,进入第三方存储。GDPR的"被遗忘权"如何执行?数据驻留地如何控制?企业客户的审计需求如何满足?这些细节在beta阶段通常语焉不详。

判断:边缘计算的内存层战争

Cloudflare这一步棋,要放在更大的棋盘上看。

它的核心资产是边缘网络——全球300多个城市的节点,让计算贴近用户。Agent Memory是这个网络的逻辑延伸:不仅计算要边缘化,记忆也要边缘化。当智能体在Worker上运行时,它的"大脑"和"回忆"在同一个物理位置,延迟被压缩到理论极限。

这是与中心化云厂商的差异化竞争。AWS有Bedrock,Google有Vertex AI,Azure有OpenAI Service,但它们的优势在模型供应和算力规模。Cloudflare押注的是"智能体的运行时环境"——一个更轻量、更分布、更开发者友好的层。

Trautmann和Sutter的措辞值得玩味:"针对真实代码库和生产系统运行数周甚至数月的智能体"。这不是在描述聊天机器人,是在描述一种新型的、长期驻留的自动化实体。软件工程正在从"写代码"转向"养智能体",而记忆是养育的基础设施。

开源替代方案的存在不构成致命威胁。企业用户愿意为"托管"付费,前提是SLA清晰、生态成熟、迁移路径可控。Cloudflare的赌注是:当智能体从demo走向7×24小时生产负载时,自建记忆的运维成本会逼退大多数团队。

当前状态是private beta,公开信息有限。关键未知数在于定价模型——按存储量、查询次数、还是两者结合?以及与其他记忆方案(如直接调用向量数据库)的成本对比。

一个观察角度:Cloudflare没有自建大模型,而是做模型的"内存扩展卡"。这符合其一贯策略——不做应用层的竞争者,做基础设施层的赋能者。当模型厂商卷上下文长度时,Cloudflare在卷上下文的管理效率。两条路线未必冲突,可能互补。

最终,Agent Memory的价值不取决于技术独创性,而取决于"记忆即服务"这个品类能否成立。如果长期运行的AI智能体成为常态,专门化的记忆基础设施就是刚需。Cloudflare在赌这个未来,而且赌得早。

100万token的上下文窗口,250万字符的理论容量,实际可用可能只有80%。这个数字差距,就是Agent Memory试图占领的空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贵州彩民喜中双色球头奖!621万元大奖花落黔地

贵州彩民喜中双色球头奖!621万元大奖花落黔地

蓝色海边
2026-04-24 12:42:04
3.22亿美元罚单背后:匿名团队如何触发美国版权法最昂贵条款

3.22亿美元罚单背后:匿名团队如何触发美国版权法最昂贵条款

固件更新中
2026-04-24 10:45:39
太绝了:亚沙会开幕式被外国评论员狂夸!

太绝了:亚沙会开幕式被外国评论员狂夸!

看看新闻Knews
2026-04-23 17:40:03
岛内最新民调,事关两岸统一,蒋万安郑丽文支持率有惊人变化?

岛内最新民调,事关两岸统一,蒋万安郑丽文支持率有惊人变化?

DS北风
2026-04-23 15:56:17
国际足联主席亲自访华,世界杯两度扩军,为何想让中国办世界杯?

国际足联主席亲自访华,世界杯两度扩军,为何想让中国办世界杯?

霁寒飘雪
2026-04-24 11:41:57
看完周深才懂:不懂感恩的孩子,再优秀也只是昙花一现

看完周深才懂:不懂感恩的孩子,再优秀也只是昙花一现

阿废冷眼观察所
2026-04-24 15:25:44
老兵借厕所被拒后续!官方公布处理结果,保安被开除,老兵回应

老兵借厕所被拒后续!官方公布处理结果,保安被开除,老兵回应

180视角
2026-04-22 01:03:20
因春晚唱了一首歌,被封杀14年,如今身价过亿,却无偿捐给祖国

因春晚唱了一首歌,被封杀14年,如今身价过亿,却无偿捐给祖国

奇怪的鲨鱼们
2026-04-24 15:30:29
悲催!北京土著欲娶北方小县城留京女,因彩礼问题,男方果断分手

悲催!北京土著欲娶北方小县城留京女,因彩礼问题,男方果断分手

火山詩话
2026-04-23 06:28:37
24号收评:三大指数集体下挫,所有人都注意,大盘下周开始这样看

24号收评:三大指数集体下挫,所有人都注意,大盘下周开始这样看

春江财富
2026-04-24 15:28:32
中方不伺候了!对荷光刻机优待全部取消,450亿芯片不做了!

中方不伺候了!对荷光刻机优待全部取消,450亿芯片不做了!

混沌录
2026-04-22 16:08:10
吝啬鬼!开拓者老板被批!NBA总裁紧急回应

吝啬鬼!开拓者老板被批!NBA总裁紧急回应

篮球教学论坛
2026-04-24 14:39:01
两度冲院士没选上,雷神山院长王行环双开,院内女医生终于敢开口

两度冲院士没选上,雷神山院长王行环双开,院内女医生终于敢开口

社会日日鲜
2026-04-23 08:23:29
刘少奇位次何以反超周恩来?长征残兵营里死守一张底牌

刘少奇位次何以反超周恩来?长征残兵营里死守一张底牌

人生录
2026-04-21 20:24:11
当不成总统了?美国四大前总统已经联手,打响扳倒特朗普的第一枪

当不成总统了?美国四大前总统已经联手,打响扳倒特朗普的第一枪

米老鼠的世界
2026-04-23 23:48:22
一片没买!高端芯片缺席中国市场,美商务部长:中国快研发出来了

一片没买!高端芯片缺席中国市场,美商务部长:中国快研发出来了

林子说事
2026-04-23 12:56:34
英超争冠冲刺,近十年最激烈?

英超争冠冲刺,近十年最激烈?

足球报
2026-04-24 14:39:57
97年钱瑗病逝,8天后昏迷中的钱钟书突然喊道:阿圆,转去自己家

97年钱瑗病逝,8天后昏迷中的钱钟书突然喊道:阿圆,转去自己家

大运河时空
2026-04-23 19:20:03
记者:梅西、内马尔、姆巴佩在巴黎时,更衣室分裂成了几个帮派

记者:梅西、内马尔、姆巴佩在巴黎时,更衣室分裂成了几个帮派

懂球帝
2026-04-24 09:59:08
余承东话含金量还在上升!日产3月在华新车销量增长23% 靠华为拉爆丰田本田

余承东话含金量还在上升!日产3月在华新车销量增长23% 靠华为拉爆丰田本田

快科技
2026-04-23 11:56:29
2026-04-24 16:04:50
字节漫游指南
字节漫游指南
有态度网友ytd
2755文章数 28关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

女子买二手奔驰里程数偏差20万公里 看到事故记录崩溃

头条要闻

女子买二手奔驰里程数偏差20万公里 看到事故记录崩溃

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

19家企业要"铝代铜",格力偏不

汽车要闻

YU7 GT 5 月上市!小米Vision GT概念车国内首秀

态度原创

家居
旅游
教育
艺术
健康

家居要闻

自然肌理 温润美学

旅游要闻

刚刚,在昭化区启幕,标着广元正式...

教育要闻

江西省委宣传部原常务副部长陈东有:教育孩子不能太急切

艺术要闻

16幅 佐恩高清油画 | 瑞典著名画家

干细胞如何让烧烫伤皮肤"再生"?

无障碍浏览 进入关怀版