唐杰的上联，姚顺雨的下联|上下文|新论文|agent

唐杰的上联，姚顺雨的下联

2026-05-19 10:48:02　来源: 字母榜

北京举报

分享至

agent正在变得越来越能干，但它还有一个很尴尬的问题，那就是干着干着，就忘了自己要干什么了。

长任务、跨会话、连续执行，这些的确是agent的发展方向，可前提是它必须有一套可靠的记忆系统。否则，再强的模型也只能在一次次对话里反复“重新认识世界”。

腾讯最近开源的AgentDB，瞄准的正是这个问题。

这一个是专门用来解决记忆问题的独立组件，一共只有几MB的大小，下载到电脑以后，在OpenClaw或者Hermes Agent里输入一个指令，AgentDB就安装完成了。

就是这么一个“小玩意”，在发布的同时，腾讯专门为其开设了独立的X账号（ @TencentDBAbxo2），并由团队亲自在社交媒体上与开发者互动。

虽然腾讯不同业务都有X账号，比如混元、腾讯云等等，但这是腾讯第一次为一个开源工具单独开X账号，可见腾讯对这个开源项目的重视程度。

那就别说别的了，直接进入主题吧！

AgentDB解决了什么问题？

对于模型记忆这个问题，Codex和OpenClaw曾尝试用压缩的方式解决，把冗长的历史对话压缩成一小段摘要，但这种做法会不可逆地损失记忆的细节。

当Agent需要回溯某个具体决策的依据时，那些被压缩掉的信息就永远找不回来了。

这就是传统记忆系统的现状。要么把所有历史对话无脑塞进上下文窗口，导致token消耗爆炸，成本直线上升。要么用总结压缩历史，虽然省了token，但细节永久丢失，Agent在需要考证时只能靠模糊的印象瞎猜。

这两种方案都不够优雅，也都不够实用。

AgentDB本质上是一个分层渐进式的Agent记忆管道系统。它采用“符号化短期记忆+分层长期记忆”的双轨架构，试图在token效率和信息完整性之间找到平衡点。

这套系统的设计理念包含三个维度。

第一个维度，拒绝暴力堆积，也拒绝不可逆压缩。

AgentDB设计了L0到L3四层记忆金字塔。L0是原始对话，完整保留每一轮交互的原始记录。L1是提取的原子记忆，由LLM自动从对话中提取结构化事实、用户偏好、任务约束和中间结论。L2是场景聚合，按任务类型自动归纳相关记忆，形成场景块。L3是用户画像，持续提炼信息，形成稳定的长期用户档案。

这种分层设计的核心价值在于“可压缩、可展开、可追溯”。

平时Agent工作时，只需要加载高层的Persona和场景块，就能把握用户偏好和任务脉络，token消耗极低。当需要考证细节时，再通过索引机制检索底层的原子记忆和原始对话，完整还原证据链。整个过程没有任何信息被不可逆地丢弃，所有压缩都是有损但可恢复的。

它就像图书馆一样，把记忆放在不同的区域，比如国外文学、工具书之类。平时为了省时间，只看目录和摘要，需要细节时再去原始记录里找，以保证不丢失信息。

这套机制的实际效果相当显著。在PersonaMem长期记忆测试中，AgentDB的准确率从传统方案的48%跃升至76%。这使得Agent能够在跨会话的场景中稳定地记住用户的偏好和历史决策，而不是每次对话都像第一次见面一样从零开始。

第二个维度，符号化记忆解决长任务中的信息过载。

在复杂任务中，最消耗token的往往不是对话本身，而是那些冗长的中间日志。

搜索结果可能有几千字，代码片段可能有上百行，错误堆栈可能占满整个屏幕。如果把这些内容全部塞进上下文，token很快就会爆表。

AgentDB的做法是将这些冗长内容offload到外部文件系统，同时用Mermaid图谱提取其中的关系结构。注入到Agent上下文中的只是轻量级的符号化表示，比如一个任务节点的ID、一段代码的摘要、一个搜索结果的关键词。

当Agent需要回溯细节时，通过node_id精准召回原始文本。这种设计让上下文从“数十万token的日志堆”压缩为“几百token的关系图谱”。

也就是说，AgentDB把大段大段的日志、代码、搜索结果存到外面，只在AI的“工作台”上放一个索引编号和关键词摘要。需要时再根据编号去调取原文。

在WideSearch任务中，这套机制的效果尤其明显。token使用量降低了61.38%，而任务成功率反而提升了51.52%。

这个反直觉的结果揭示了一个重要事实，更多的上下文并不总是意味着更好的表现。当无关信息稀释了注意力时，Agent反而会迷失在信息的海洋中，做出错误的决策。

符号化记忆通过结构化的方式呈现信息，让Agent能够清晰地看到任务的全貌和执行路径，从而做出更准确的判断。

第三个维度，全本地化、零外部依赖。

AgentDB默认使用SQLite加sqlite-vec作为后端，无需连接任何外部API或云服务。这对企业场景至关重要。记忆数据往往包含敏感的业务逻辑、用户偏好和项目细节，全本地化意味着数据主权完全掌握在用户手中。

大多数记忆系统都依赖云端向量数据库或第三方embedding服务，数据必须上传到外部服务器才能使用。

尤其是对于金融、医疗、政务这些行业来说，这种依赖是有问题的，所以这类公司往往都是私有云，把数据存在本地里，但本地的服务器又跑不动大模型。

AgentDB的全本地化方案解决的正是这个问题。

从技术实现来看，AgentDB的四层记忆管线是完全自动化的。

对话开始时，系统自动通过向量检索或混合搜索召回相关记忆，加载用户画像，注入到系统上下文中。对话结束后，系统自动录制对话消息，双写到IMemoryStore和JSONL文件。

当累积到一定轮次后，Pipeline调度器按序触发L1、L2、L3的提取和归纳流程。整个过程对用户和Agent都是透明的，不需要手动干预。

你只需要在OpenClaw或Hermes Agent中安装插件，配置好LLM接口，AgentDB就能开始工作。

所有字段都有合理的默认值，零配置即可使用。对于有特殊需求的用户，AgentDB也提供了丰富的配置选项，可以调整每一层的触发阈值、间隔时间、提取策略等参数。

AgentDB的另一个亮点是可追溯性。压缩或抽象最大的风险是“丢失证据”，当召回的记忆出错时，用户只能看到一堆向量分数，无法判断问题出在哪里。

AgentDB保留了关键的中间产物作为可读文件。

每一条信息都100%可找回、可恢复，无论是短期记忆中被卸载的一段报错日志，还是长期记忆里总结出的一条用户偏好，Agent或开发者都可以沿着“高层符号→中层索引→底层原文”的链路进行完美溯源与恢复。

姚顺雨的“上下文理论”找到了最佳实践

AgentDB这个产品，某种程度上来说，就是腾讯对姚顺雨“上下文理论”的一个落地方案。

姚顺雨此前多次强调，AI的核心能力不在于参数规模，而在于对上下文的理解、管理和利用。

这个观点在他加入腾讯后发布的第一个模型Hy3 preview中，得到了充分体现。

Hy3 preview这个模型最特别的地方在于，它把“出色的上下文学习和指令遵循能力”单独拎出来，写进了核心能力清单的第一条。

当其他厂商都在卷agent能力、代码生成、多模态的时候，Hy3把上下文能力放在了最显眼的位置。

姚顺雨加入腾讯后发布的第一个研究成果是CL-bench，这是一个专门用来测试模型能否从上下文中学习新知识并正确应用的基准。

在Hy3 preview的性能展示中，第一张图放的不是SWE-Bench Pro或者Terminal-Bench 2.0这种agent和代码榜单，而是AdvancedIF、AA-LCR，以及CL-bench这些看上下文推理、检索和指令遵循的榜单。

腾讯认为上下文管理能力，才是AI下一阶段赛道。

其实市面上有不少模型厂商都会在宣传时都会强调自己支持多长的上下文，包括OpenAI和Anthropic，从一开始的32K到128K，再到1M甚至微软曾经提到过的10M上下文。

但你真正用的时候就会发现，上下文越长，模型的表现往往越差。

信息密度被稀释，注意力被分散，模型在海量的无关信息中迷失方向，反而做出更多错误的决策。

姚顺雨团队的消融实验验证了这个观点，无关信息会稀释了注意力。这也是AgentDB的分层设计想要去解决的问题。

腾讯为AgentDB专门开设X账号，并由团队成员主动发起AMA，这在腾讯的开源项目中并不常见。这种高调姿态背后，是腾讯希望将AgentDB打造成“上下文管理”领域标杆的野心。

然而AgentDB目前在实战这块并没有很抢眼的表现，腾讯需要给AgentDB“带货”。

AgentDB的价值需要通过具体场景才能被感知。

比如，腾讯可以拿出混元模型，结合AgentDB构建一个“连续工作30天不丢失上下文的代码审查Agent”，或者“记住用户所有偏好的个性化内容推荐Agent”。

只有当开发者看到“某个模型+AgentDB”产生的化学反应，大家才会去用它。

唐杰的“上联”，姚顺雨的“下联”

就在AgentDB发布前夕，智谱创始人唐杰深夜发布了一条长文反思，核心观点直指，长周期任务将是今年AI最可能的突破点。

唐杰认为，AI的真正价值不在于单轮对话的智能，而在于通过与环境持续交互，完成复杂、延展的任务。

他举了一个黑客的例子，一个能24/7不间断搜寻软件漏洞的AI，本质上是在学习黑客的高阶直觉和方法论，而非简单的搜索。

这种“长周期学习+持续执行”的能力，才是下一阶段AI所需要的。

而要实现长周期任务，唐杰指出了三大技术支柱，记忆、持续学习、自我判断。

其中，记忆被他列为“通过巧妙工程手段最先被解决”的能力。

这个判断和AgentDB的产品逻辑几乎是重合的。

如果说唐杰出了一个“上联”，“长周期任务需要记忆作为前提”，那么腾讯用AgentDB对了一个“下联”，“分层记忆让长周期任务成为可能”。

Agent需要记住自己做了什么，为什么这么做，接下来该做什么。如果每执行几步就忘记之前的决策，那么长周期任务根本无法完成。

更有意思的是，唐杰还在文中提到了“自我判断”能力，虽然AgentDB体积很小，但它的架构中也允许AI进行“自我判断”。

当Agent能够通过Mermaid图谱清晰地看到自己的任务进展、通过分层记忆回溯历史决策，它就具备了“元认知”的基础。

知道自己做了什么、为什么这么做、接下来该做什么。

这种结构化的自我认知，正是自我判断的前提。

从这个角度看，AgentDB不仅是一个记忆系统，更是腾讯对“长周期任务时代”的一次技术押注。

唐杰描绘了愿景，腾讯拿出了工具。

而在这场“长周期竞赛”中，记忆系统就是Agent的燃料箱。容量决定续航，结构决定效率。

AgentDB的开源，意味着腾讯把这个燃料箱的设计图纸公开了，而且还是免费的。

智谱在长周期任务上已经有了一些初步的成果。在GLM-5.1的白皮书中提到，GLM-5.1在不需要任何人工干预的前提下，能够持续作业8小时。

但这只是一张成绩单，要真正让企业放心，还得看它在更多场景里会不会掉链子，遇到没见过的问题时能不能靠自己的手段解决。

长周期任务不是一个通用产品，它需要针对不同行业、不同场景做深度定制。

这也是AgentDB的机会所在。

作为一个独立的记忆组件，AgentDB可以和任何模型、任何Agent框架集成。智谱可以用，字节可以用，阿里也可以用。

这种开放性让AgentDB有机会成为长周期任务的基础设施。

而长周期任务也不是某一家公司的专利，是整个行业的共同方向。谁能率先在这个方向上取得突破，谁就能在下一轮竞争中占据先机。

而在这场竞赛中，记忆管理能力将是决定性的因素之一。

腾讯把这套方案开源出来，既是一种技术自信的展示，也是一种对生态建设的投资。

如果AgentDB能够成为长周期任务的标准记忆组件，那么腾讯在这个领域的影响力就会远远超出一个开源项目本身。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

唐杰的上联，姚顺雨的下联

韬定律论文V2版，充工程细节和实测数据

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

揭法国锋线最大优势 有人比姆巴佩还快?

白鹿打戏抠图惹非议 连累丞磊遭扒皮

韩国股市杠杆失控：450亿美元资金狂飙

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

苏姿丰签名同款！极摩客EVO-X3 AI工作站全球开卖：国行版21699元起

别再说"露肩衣服 "难驾驭！看看这几组日常穿搭，大方有回头率

短到捏不住的铅笔头，写下的满是懂事和感恩。老师问：“怎么用这么短呀？”男孩安静鞠了一躬

国内足球之旅？这座小城给你高分答案

来过玉溪灵照山才懂，不用远赴远方，家门口就藏着千年的山水禅意

老人被一次拔12颗牙种10颗:能刷的钱都刷走只剩30块

老人被一次拔12颗牙种10颗:能刷的钱都刷走只剩30块

揭法国锋线最大优势有人比姆巴佩还快?

白鹿打戏抠图惹非议连累丞磊遭扒皮

方程豹钛9内饰曝光用上了长联屏设计/下半年上市