腾讯开源Agent记忆方案：长对话token砍半，实测数据公布|上下文|知名企业|agent|sqlite|人工智能模型

腾讯开源Agent记忆方案：长对话token砍半，实测数据公布

2026-05-16 05:38:14　来源: 全栈遛狗员

北京举报

分享至

多轮对话走到第20轮时，你的账单里有多少token是在为"历史包袱"买单？工具日志、中间结果、已经用不上的上下文——这些东西删了怕丢信息，不删就是持续烧钱。腾讯云刚开源的TencentDB Agent Memory给了一个新思路：把啰嗦的东西扔给本地文件，上下文里只留一张任务图，需要时再钻回去取。

这个项目5月刚放出来，MIT协议。核心做法分四层记忆，每层都能追溯到原始数据：最底层是原始对话和工具日志，往上依次是结构化事实、聚合后的解决方案模式、以及长期积累的用户行为画像。真正省token的 trick 在短期处理——详细的工具输出被 offload 到 refs/*.md 文件，上下文里只剩一张轻量的 Mermaid 流程图。Agent需要具体数据时，按 node_id 去取就行。

项目团队公布的基准测试数据（长周期会话场景，非单轮测试）显示：WideSearch 任务 token 消耗从 1,847,232 降到 868,416，降幅 52.99%；SWE-bench 提升 9.93%，相对温和。WideSearch 降幅最大符合预期——这类任务上下文累积最快。需要提醒的是，这些数据来自项目方自测，未经独立验证。

安装不复杂。OpenClaw 用户一条命令装插件，改下配置重启 gateway 即可。默认用 SQLite + sqlite-vec，不需要外接数据库。注意 offload.enabled: true 这个开关——不开的话只有长期记忆功能，拿不到 Mermaid 压缩的收益。

Token 减少是一层优化。如果再把 LLM 调用走 gateway 路由，还能叠第二层：按任务选最便宜的可用模型、429/5xx 自动 fallback、统一成本看板。Hermes 用户把 MODEL_BASE_URL 指向 gateway 端点就行。两层叠加，省 token × 低单价 = 复利效应。

目前限制也明显：只支持 OpenClaw 和 Hermes 两个框架，offload 默认关闭，SQLite 单线程（并发得切腾讯云向量数据库后端）。以及，前面提到的 benchmark 都是项目方自己跑的。

这个方案的价值在于把"记忆"拆成了可追踪的分层结构，而不是简单做摘要或截断。对于需要跑几十轮以上的 agent 场景，52% 的 token 降幅意味着真金白银的账单变化——当然，前提是你的工作负载和 WideSearch 类似，且你愿意接受 SQLite 的单机限制。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.