多轮对话走到第20轮时,你的账单里有多少token是在为"历史包袱"买单?工具日志、中间结果、已经用不上的上下文——这些东西删了怕丢信息,不删就是持续烧钱。腾讯云刚开源的TencentDB Agent Memory给了一个新思路:把啰嗦的东西扔给本地文件,上下文里只留一张任务图,需要时再钻回去取。
这个项目5月刚放出来,MIT协议。核心做法分四层记忆,每层都能追溯到原始数据:最底层是原始对话和工具日志,往上依次是结构化事实、聚合后的解决方案模式、以及长期积累的用户行为画像。真正省token的 trick 在短期处理——详细的工具输出被 offload 到 refs/*.md 文件,上下文里只剩一张轻量的 Mermaid 流程图。Agent需要具体数据时,按 node_id 去取就行。
![]()
项目团队公布的基准测试数据(长周期会话场景,非单轮测试)显示:WideSearch 任务 token 消耗从 1,847,232 降到 868,416,降幅 52.99%;SWE-bench 提升 9.93%,相对温和。WideSearch 降幅最大符合预期——这类任务上下文累积最快。需要提醒的是,这些数据来自项目方自测,未经独立验证。
安装不复杂。OpenClaw 用户一条命令装插件,改下配置重启 gateway 即可。默认用 SQLite + sqlite-vec,不需要外接数据库。注意 offload.enabled: true 这个开关——不开的话只有长期记忆功能,拿不到 Mermaid 压缩的收益。
Token 减少是一层优化。如果再把 LLM 调用走 gateway 路由,还能叠第二层:按任务选最便宜的可用模型、429/5xx 自动 fallback、统一成本看板。Hermes 用户把 MODEL_BASE_URL 指向 gateway 端点就行。两层叠加,省 token × 低单价 = 复利效应。
目前限制也明显:只支持 OpenClaw 和 Hermes 两个框架,offload 默认关闭,SQLite 单线程(并发得切腾讯云向量数据库后端)。以及,前面提到的 benchmark 都是项目方自己跑的。
这个方案的价值在于把"记忆"拆成了可追踪的分层结构,而不是简单做摘要或截断。对于需要跑几十轮以上的 agent 场景,52% 的 token 降幅意味着真金白银的账单变化——当然,前提是你的工作负载和 WideSearch 类似,且你愿意接受 SQLite 的单机限制。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.