首篇自进化智能体系统技术报告:Token成本直降近10倍,省钱又高效|调用|上下文|工作流|电子表格|token

分享至

机器之心发布

当 AI 智能体不再只是「一次性工具」，而是能够持续学习、自我进化的「数字伙伴『数字同事』，会发生什么？自进化智能体应该采取怎样的设计原则？

全球首个基于「上下文信息密度最大化」设计原则的自进化智能体系统 ——GenericAgent（GA），正式发布其技术报告。

报告显示，GA 能在保持任务准确率前提下，比同类竞争对手节省近 10 倍 Token。报告深度解读了 GA 的核心设计理念，介绍了自进化智能体的评测基准，并给出了评测数据，全面剖析 GA 的自进化能力以及智能体设计的可靠思路！

整个报告长达 47 页，今天大家可以一睹为快！

Github 实时更新版本链接：https://github.com/lsdefine/GenericAgent/blob/main/assets/GenericAgent_Technical_Report.pdf
arxiv 版本链接：https://arxiv.org/abs/2604.17091

GA 是什么？

GenericAgent（GA）是复旦大学知识工场实验室旗下 A3 实验室（Advantage AI Agent 实验室，与深圳夸夸菁领科技有限公司合作）构建的一个通用型、自进化 LLM 智能体系统。

GA 是下一代自组织、自学习、自进化的通用智能体的代表之一，是一个拥有「生命感」，能够在用户使用调教下快速学习与成长的数字生命。GA 技术的商业应用版是 DinTal Claw，旨在将这一自进化架构深度应用于政企场景，打造低成本、高效率、安全可控的「数智员工」实战标杆。

GA 自 2026 年 1 月 11 日开源以来，一度在 github trending python 编程语言登顶第一。力压OpenAI、Google 等头部AI企业的开源系统。

先上结论：GA 强在哪？

任务完成率更高：在多个基准测试中，GA 实现 100% 准确率，全面领先主流智能体系统；
Token 消耗更低：相同任务下，Token 消耗仅为主流智能体系统的 15%-35%，省钱又高效；
越用越聪明：重复执行相同任务时，Token 消耗可降低高达 89.6%，真正实现「经验复用」；
网页浏览更强：在复杂多跳搜索任务中，准确率是基线系统的 3 倍，同时消耗更少资源。

GenericAgent 整体架构图

为什么你需要关注 GA？

最近，从 Claude Code、OpenAI Codex 到 Openclaw，AI 正在从被动的文本生成器，转变为能够主动操作终端、文件系统、浏览器的「目标导向型代理」。但是，一个直接的问题摆在用户面前：「他们真的好用吗？」

智能体「记性差」，聊着聊着就忘了

传统智能体随着交互增多，上下文越来越长，即「上下文爆炸」。关键信息反而被淹没。结果就是：步骤越多，出错率越高。

每次任务都从零开始，经验无法积累

今天总结的经验，明天换个会话就没了。智能体一直在「重复造轮子」。Token 消耗随任务数量线性增长，但有效能力却保持停滞，形成一个没有累积交互回报的「停滞循环」。

核心洞见：信息密度才是关键

面对这些问题，研究团队提出了一个重磅观点：

长周期性能的决定因素，不是上下文长度，而是在有限的上下文预算内能够维持多少与决策相关的信息。

换句话说，上下文信息密度才是核心。通过最大化上下文信息密度可以保证：决策信息不遗漏、冗余信息被消除、上下文可读性高（次要但重要）。

GenericAgent：四大机制打造自进化智能体

基于「上下文信息密度最大化」这一核心原则，GA 通过四个紧密关联的组件实现了 Agent：

机制一：最小原子工具集

工具最小化不是限制，而是 GA 在减少交互开销的同时保持通用能力的核心机制。

GA 只保留了 9 个原子工具，分为五类能力：文件操作、代码执行、网页交互、记忆管理、人在回路。并且，这几个原子工具能够通过组合泛化，造出新的工具来解决复杂任务。

有趣的是，仅「code_run」这一个工具在理论上就是图灵完备的，可以复制所有其他工具的功能。那为什么还要保留其他 8 个工具？答案是：最小原子工具集可以降低任务的决策成本。

上表为长程复杂任务结果。五项任务涵盖文档生成（PDF/PPT 创建）、SQL 协作查询生成、实验分析报告撰写、结合网络检索的采购决策，以及研究论文复现可行性分析，本表报告的是长程任务集上的平均结果。

机制二：分层按需记忆

记忆的核心是按需存取。GA 的关键设计是默认仅注入元记忆和 L1 索引层，遵循 L1→L2/L3 路由链，仅在需要时检索更深层的事实或程序知识。这样，记忆不会稳步挤占当前任务所需的活跃上下文预算。

GA 将记忆组织为四层架构

L1 索引层：紧凑指针，包括高频入口点、关键词映射和少量硬约束；
L2 事实层：经过验证且稳定的事实信息，长期有效；
L3 SOP 层：可复用的程序性知识，包括任务工作流、前置条件、关键执行步骤、常见失败案例及相应调试 / 恢复策略；
L4 原始会话存档层：历史执行会话，用于持久化和可追溯性。

更巧妙的是，随着 L2 和 L3 增长，L1 保持有界。每个 L1 条目仅记录知识类别的「存在性」—— 而非其内容。

这种极端压缩之所以可行，是因为 LLM 本身充当解码器：一旦它识别出相关能力或事实存在，就可以通过工具调用从更深层检索完整内容。

上表为 GA 等在 LoCoMo 上的长期事实记忆评估。GA 基于自身优越的记忆架构设计，确保了记忆的高效召回。

机制三：自进化机制

GA 将自进化是一个显式且可检查的流程。

什么在进化？解决任务的策略，而非原子工具。工具接口和用户交互是任务无关的，在运行时保持不变。相反，所有任务特定能力都编码在 SOP 文件和可复用脚本中。

知识如何积累？通过分层记忆，GA 确保在一个会话中获得的知识在后续会话中立即可用。

进化的质量如何控制？ GA 在低记忆层级（L4）保留原始行动轨迹，但不允许它们直接向上传播。L3 的可复用程序仅通过显式整合步骤创建，在子目标完成或成功从失败中恢复等有意义的时间点触发。

在相同任务五次重复运行中，只有 GenericAgent 随着任务经验的积累不断提升工作效率。

机制四：上下文截断与压缩

GA 聚焦于压缩而非扩展 —— 将更高密度的信息打包到更小的窗口中，优于将稀释的内容输入更大的窗口。

GA 使用四种不同粒度的上下文修剪机制：

工具输出截断：控制单个消息的大小；
标签级压缩：从旧消息中移除低价值片段；
消息驱逐：当整体预算超出时移除最旧内容；
工作记忆锚点提示词：确保任务关键信息在驱逐后保持可见。

这四种机制协同工作，确保活跃上下文不随交互轮数线性增长。

在安装 20 个技能并经过高强度使用后，只有 GA 有效防止了上下文膨胀。

评估结果：效率与性能的双重胜利

研究团队在多个基准测试上对 GA 进行了全面评估。

核心结论：性能更强，成本更低

先来看最硬核的评测结果。在 SOP-bench、Lifelong AgentBench 和 RealFinBench 三大基准测试中，GA 的表现堪称惊艳。

在 SOP-bench 和 Lifelong AgentBench 上，GA 以 100% 的准确率全面领先；在更贴近真实场景的 RealFinBench 上，GA 以 65% 的准确率登顶行业第一。

同等任务下，GA 的 Token 消耗仅为其它主流智能体系统的 15% 到 35%，真正做到了「花小钱办大事」。

任务完成率与 Token 效率对比图

越用越聪明：重复执行效率跃迁

GA 自进化能力保证了它的高效。

当其他系统在重复执行同类任务时，耗时和 Token 消耗基本是一条直线，只有 GA 越用越好用。5 次重复运行后，运行时间从 102 秒降至 66 秒，Token 消耗从 20 万直接腰斩至 10 万。

这不是简单的缓存复用，而是GA 把第一次试错的经验，自动提炼成了可复用的标准操作流程，让后续任务真正实现了「站在肩膀上出发」。

重复运行效率提升曲线图

这种进化能力还能跨任务泛化。在 8 个不同网页任务的重复测试中，GA 后续执行的 Token 消耗平均下降 79.3%，最高单任务节省达 92.4%。任务越复杂、依赖链条越长，节省效果越显著。

相比之下，主流智能体系统在多次运行中数据波动不定，仍在重复探索，而GA 展现出清晰的「冷启动→快速收敛」模式，真正学会了如何学习。

跨任务 Token 收敛对比图

长期进化：从「学徒」到「专家」的蜕变

长期进化的性能更高。第一轮执行时，GA 需要 7 分 30 秒、调用 32 次大模型、消耗 22.2 万 Token；而到了第九轮，仅需 1 分 38 秒、5 次调用、2.3 万 Token 即可完成同等任务，Token 消耗减少 89.6%，调用次数减少 84.4%。

这种从探索到执行、从文本 SOP 到可执行代码的进化，不是人工干预的结果，而是系统自主完成的。

九轮进化轨迹数据图

网页浏览：在混乱中保持清醒

网页是智能体的「终极考场」，一个网页的访问动辄为 Agent 引入上百万 token 开销，而 GA 在这里同样表现出色。

在最具挑战的 BrowseComp-ZH 多跳推理任务中，GA 准确率达到 0.60，是主流智能体系统 0.20 的整整 3 倍，同时 Token 消耗仅为其三分之一；在真实网页任务中，GA 以 0.26M Token 获得 0.577 分，主流智能体系统消耗 0.76M Token 仅得 0.50 分。

面对海量 HTML 噪声和动态 DOM 元素，GA 的上下文压缩与分层记忆机制展现出压倒性优势，真正做到「在复杂环境中不迷路」。

网页浏览性能对比图

关键发现：重新思考智能体设计

从 GenericAgent 的开发中，研究团队提炼出五个关键发现，这些发现对 LLM 智能体系统的设计具有广泛相关性。

发现一：上下文信息密度是结构性约束

上下文信息密度不是「可选」的优化目标，而是每个智能体系统必须通过设计面对的结构性约束。只要智能体使用 LLM 作为其推理引擎，每个决策步骤的质量最终在单次前向传播内确定，无论工具、记忆容量或工作流复杂度如何，都无法规避此约束。

发现二：存在智能体系统的最小完备能力集

在信息密度的结构性约束下，智能体只需实现三种能力。任何不服务于这三种能力之一的设计都在引入额外复杂度，从而降低信息密度。

工具接口：智能体与外部世界交互的唯一通道；
上下文管理：对应于语言模型的输入，任务状态、中间结果、工具输出和所有其他内容在进入上下文前必须主动过滤；
记忆形成：对应于跨任务知识积累，如果不将交互中验证的内容保留为可复用记忆，每个任务都从头开始。

发现三：更低 Token 消耗对应更好任务性能

这一发现违反直觉，因为普遍假设是更长的推理链和更多交互轮次反映更彻底的深思熟虑，因此应产生更好结果。然而，实验结果在长周期智能体执行设置中系统地指向相反结论。

在 Lifelong AgentBench 上，GA 仅消耗 Claude Code 输入 Token 的 27.7% 和 OpenClaw 的 15.5%，同时实现更高的 100% 任务完成率。

超过某个点后，额外 Token 不会引入更多有用信息，反而通过位置偏差、注意力稀释和有效窗口收缩降低推理质量。消耗更多 Token 的智能体更是上下文管理的系统性失效导致的，通过额外交互补偿每步决策质量的退化，而非改进它。

发现四：权限定义智能体能力的上限

智能体能接触多少环境，就能获得多少智能。

智能体能感知什么、能作用于什么、能从什么反馈中学习，直接决定它能发展的推理链复杂度和能解决的任务难度。一个小规模沙箱中的 agent，不论他多么安全，他的智能水平是极其有限的。在智能体探索阶段锁定行动边界，等同于在系统设计阶段预先封顶其能力上限。缩小探索边界不是构建有用智能体的路径，其终点是一个安全但无用的系统。

发现五：最小架构是智能体自主进化的必要前提

开发团队提出一个新的、更长远意义的「自进化」三个维度：

技能整合
自主探索
架构自更新

因此，当架构足够精简时，Agent 可以审视和修改自身，最终实现 Agent 的自进化。一个拥有数十万行代码的系统对智能体是不透明的 —— 它既无法理解也无法修改。相比之下，几千行的核心代码库是可读、可理解、可修改的。在 GA 的最小架构中，作为原生执行面的自托管 CLI 自然使子智能体能够读取和修改核心代码库，使架构自更新成为实际的、可实现的。

结语：智能体的可靠方向

GenericAgent 的技术报告拆解出了一套全新的智能体架构设计框架，它揭示了大量现有 Agent 的设计是盲目的。GenericAgent 仅用 3000 多行核心代码实现的能力，充分展示了智能体未来发展的无限前景。

GenericAgent 自 2026 年 1 月 11 日起已经开源，目前在 Github 已获超过 5.2K+ Star，进入 Github 趋势榜。欢迎大家一起见证智能体的进化时刻！

开源链接：https://github.com/lsdefine/GenericAgent
GA 小白使用指南（图文版本）: https://my.feishu.cn/wiki/CGrDw0T76iNFuskmwxdcWrpinPb
GA 官方教程：https://github.com/datawhalechina/hello-generic-agent

敬请关注 GenericAgent 的商业落地版本，更智能、更省钱、更安全、更稳定的 Dintal Claw 的最新动态！

团队以往研究工作：

还需付费卸载龙虾？这只龙虾能直接「杀死」OpenClaw

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651021300&idx=1&sn=a346a3bdee36b5285bc239186be4318a&scene=21&poc_token=HGgt6GmjGRIXIAcNJWAXmlcXszciMd2reVrVUxU1

一只能安装龙虾的龙虾，才是好龙虾！

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651020372&idx=1&sn=8f29daff11cb7723f5c523134b303386&scene=21&poc_token=HHgt6GmjaPNexhwaPahPzz3Ox6H_qiujpeAG4Hzm

一个 Agent，发出了「人生」第一条朋友圈

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651018653&idx=1&sn=5d8578072edd5a01bd4f4fbfb20aadb8&scene=21&poc_token=HIgt6GmjblQla9nv290pv3T3GZPoyVZ5G72HLxoZ

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.