网易首页 > 网易号 > 正文 申请入驻

TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

0
分享至

来源:市场资讯

(来源:机器之心)


本项目由曼彻斯特大学、北京航空航天大学、香港科技大学,以及 Multimodal Art Projection(MAP)研究团队联合提出。

本文由 Jincheng Ren、Siwei Wu、Yizhi Li 共同一作完成,通讯作者为 Jian Yang 和 Chenghua Lin。Jincheng Ren 来自 MAP,并在曼彻斯特大学开展研究实习;Siwei Wu 和 Yizhi Li 来自曼彻斯特大学。Jian Yang 来自北京航空航天大学,Chenghua Lin 来自曼彻斯特大学。


  • arXiv 论文:http://arxiv.org/abs/2604.19572

  • Hugging Face Daily Paper:https://huggingface.co/papers/2604.19572

  • GitHub 开源代码:https://github.com/multimodal-art-projection/TACO

随着代码智能从 code foundation models 走向 autonomous coding agents,CLI/terminal 正在成为智能体进入真实软件工程工作流的重要入口。

近期一篇关于 Code Intelligence 的综述也指出(arXiv:2511.18538),真实部署中的代码智能不仅要会生成代码,还要能处理大代码库上下文、开发工具链集成和复杂工作流。也正是在这种背景下,CLI Agent 被用于更长程、更复杂的终端任务,一个新的瓶颈开始显现:问题不一定是上下文窗口不够大,而是上下文在多轮交互中变得越来越 “脏”。但 terminal output 又不能被简单删除。

错误信息、文件路径、测试名称、build target、依赖版本等关键线索,往往就藏在冗长日志里。

为了解决这一问题,团队提出了 TACO(Terminal Agent Compression),一个无需训练、即插即用的终端智能体自进化观测压缩框架。TACO 让智能体从真实交互轨迹中学习 compression rules,在过滤低价值 terminal output 的同时,尽量保留后续决策所需的关键行动线索。

实验显示,TACO 在 TerminalBench 1.0/2.0 以及多个 terminal-related benchmark 上同时提升了任务成功率和 token 效率。

长程 CLI Agent 不是记不下,而是上下文越来越脏

CLI Agent 每执行一步命令,都会把 terminal output 带入下一轮决策。任务越长,安装日志、编译输出、测试结果、构建 trace 等低价值环境反馈就越容易堆满上下文,淹没真正关键的行动线索。

我们在 TerminalBench 2.0 的轨迹中验证了这一点。图 1 显示,在 Qwen3-Coder-480B、DeepSeek-V3.2 和 MiniMax-M2.5 的运行轨迹里,raw prompt 中有相当一部分内容可以被人工抽取为低价值冗余,比例达到 24.6%–44.1%。这说明,长上下文并不总是意味着更多有效信息,很多时候只是更多噪声。


但 terminal output 又不能被粗暴删除。错误信息、文件路径、命令参数、测试名称、build target、依赖版本、二进制符号,往往就藏在这些日志里。全量保留会让上下文越来越脏,简单压缩又可能删掉后续决策所需的关键线索。

这也说明,解决办法不能只是 “把 terminal output 变短”。

因此,terminal observation compression 的难点不只是 “压短”,而是判断:哪些内容可以安全过滤,哪些信息必须保留。更麻烦的是,这个边界并不固定。同样是编译输出,在一个任务里可能只是冗余日志,在另一个任务里却可能包含关键编译参数;同样是安装日志,在普通任务里可以大量过滤,但在依赖冲突任务里,版本号和错误信息可能就是下一步决策依据。

为此,我们比较了三类静态压缩方法,基础模型选择的是 Qwen3-Coder-480B:

  • Seed Rules:少量人工预设规则,例如压缩 pip install、apt-get、git clone 等常见高输出命令。

  • High-Quality Rules:更多人工整理的高质量规则,覆盖范围更广,但仍然是固定规则。

  • LLM Summarize:直接让 LLM 对 terminal output 做摘要压缩。

如下图所示,静态方法虽然可以降低 token 开销,但性能并不稳定。LLM Summarize 的 token cost 最低,但准确率反而明显下降;TACO 的 token cost 不是最低,却取得了最高的准确率和更小的方差。这说明,terminal observation compression 的关键不是 “压得越狠越好”,而是能否在减少低价值输出的同时,稳定保留后续决策所需的关键线索。


相比之下,TACO 的关键不是 “压得更狠”,而是 self-evolving:它会在真实交互轨迹中观察哪些规则有效、哪些规则可能压缩过度,并把可复用的规则沉淀到全局规则池中。也就是说,TACO 不是用一套固定策略压所有输出,而是让 Agent 在不同工作流中逐步学会:哪些观察可以安全过滤,哪些行动线索必须保留。

TACO:让 Terminal Agent 学会过滤低价值观察

TACO:一个面向终端智能体的、即插即用的自进化观测上下文压缩框架。

TACO 的核心思路彻底抛弃了 “人工预设截断” 或 “LLM 实时总结” 的传统路径,而是构建了一个轻量级的自进化规则引擎。在 TACO 中,所谓的 “规则” 并非模糊的自然语言提示词,而是由触发条件、保留模式和剔除模式组成的函数。

为了让这些规则能够动态适应极度异构的终端环境,TACO 设计了一套 “任务内动态纠偏、全局跨域沉淀” 的闭环流转机制。具体而言,整个自我演化过程包含以下三个核心阶段:


第一,Terminal Output Compression。

在每个交互步骤中,agent 执行命令并得到原始 terminal output。TACO 会根据当前任务的 active rules 对输出进行压缩。对于包含显式错误、异常、失败信号或关键诊断信息的输出,TACO 采取保守策略,避免过度压缩。对于非关键、重复性强的输出,例如安装进度、编译流水、下载日志、重复测试信息,TACO 会通过规则过滤掉低价值部分。

第二,Intra-Task Rule Set Evolution。

不同任务会产生不同类型的终端输出。固定规则很难覆盖所有情况。因此,当 TACO 遇到某类当前规则无法处理的高输出命令时,会生成新的压缩规则,并加入当前任务的 active rule set。

同时,TACO 也会关注压缩是否过度。比如,agent 后续重新请求完整输出、重复执行同一命令,或者表现出缺失信息的行为,都会被视作潜在的 over-compression signal。此时,TACO 会降低相关规则的使用,并生成更保守的替代规则。

第三,Global Rule Pool Evolution。

很多终端压缩模式是跨任务复用的。例如,pip install 的下载进度通常可以压缩,apt-get 的 Unpacking / Setting up 行通常信息密度较低,git clone 的 transfer progress 大多是噪声,而编译输出中的 error、warning、undefined reference 必须保留。

TACO 会把任务中验证有效的规则写回 Global Rule Pool。后续任务开始时,TACO 会从全局规则池中检索相关规则,用来初始化当前任务的 active rules。随着更多任务被执行,Global Rule Pool 会不断积累高质量压缩知识。

实验:不只是省 token,也提升任务成功率

TACO 被评估在 TerminalBench 1.0、TerminalBench 2.0 以及多个 terminal-related benchmark 上,包括 SWE-Bench Lite、CompileBench、DevEval 和 CRUST-Bench。

在 TerminalBench 上,将 TACO 插入 Terminus-2 后,多种强模型都获得了稳定提升。


这些提升说明,终端观测压缩并不是单纯节省上下文空间。过滤低价值输出后,模型反而更容易关注任务相关信息,从而提升长程任务完成率。

相同 token budget 下,TACO 仍然更强

一个自然疑问是:TACO 的提升是否只是因为 agent 运行了更多步骤?

为此,论文进一步比较了固定 token budget 下 Baseline 和 TACO 的准确率。结果显示,在相同 token 消耗下,TACO 在六个模型上都获得了更高准确率。

这说明 TACO 并不是简单通过增加交互开销换取性能,而是在相同上下文预算下提高了有效信息密度。


这个结果也回应了一个更实际的问题:对于长程 agent 来说,真正重要的不只是 “总 token 少了多少”,而是每个 token 里有多少信息真正服务于下一步决策。

跨 Benchmark 泛化:规则不是只适配 TerminalBench

除了 TerminalBench,TACO 还在多个 terminal-related benchmark 上进行了验证。


可以看到,在 SWE-Bench Lite、DevEval、CRUST-Bench 等任务上,TACO 在提升准确率的同时降低了总 token 消耗;在 CompileBench 上,准确率保持不变,但 token 消耗明显下降。

这说明 TACO 学到的规则不是只针对某一个 benchmark 的特殊技巧,而是在不同 terminal workflow 中捕获了可复用的压缩模式。

Self-evolving 如何判断已经稳定?

自进化方法还会带来一个实际问题:如果系统一直生成和更新规则,什么时候才算收敛?

TACO 没有直接用测试集准确率来判断是否停止,因为这会引入评测泄露。我们转而观察 Global Rule Pool 中 Top-K 规则的稳定性:如果连续多轮演化后,排名靠前的规则大部分保持不变,说明系统已经学到一组稳定可复用的压缩规则。

具体来说,论文使用 Retention 衡量相邻两轮中 Top-K 规则的重合比例。Retention 越高,说明有效规则前沿越稳定。


图中上半部分显示,三个模型的 Top-30 rule retention 在多轮演化后逐渐超过 90%;下半部分显示,当 retention 稳定后,任务准确率的 rolling standard deviation 也明显下降。也就是说,规则池稳定和性能稳定是同步出现的。因此,Retention 可以作为 TACO 的实用收敛信号:当高价值规则集合基本不再变化时,继续自进化的收益就会变小。

Case Study

上面的实验说明 TACO 能提升准确率和 token 效率。接下来更重要的问题是:TACO 到底删掉了什么,又保留了什么?下面通过三个真实轨迹片段来看它的压缩行为。

10,000 字符的安装日志,压缩到 73 字符

在 TerminalBench 2.0 的 adaptive-rejection-sampler 任务中,agent 需要安装 R runtime,于是执行:apt-get install -y r-base

原始输出超过 10,000 字符,包含大量重复的 Unpacking 和 Setting up 行。对后续决策来说,agent 并不需要完整阅读所有安装过程。它真正需要知道的是:安装是否还在进行、有没有报错、最终是否成功。

TACO 在任务中演化出针对这类输出的规则,将 10,071 字符的输出压缩到 73 字符,只保留当前安装状态。


关键不在于这个数字本身,而在于:TACO 没有粗暴截断输出,而是根据命令类型和任务状态识别出 “进度噪声” 和 “状态信号” 的区别。

更重要的是:保留任务连续性的关键线索

另一个例子来自 sqlite-with-gcov 任务。

在这个任务中,agent 需要编译 SQLite 并启用 gcov 覆盖率。原始 make 输出中有大量文件复制列表和长编译命令。TACO 会删除冗长的复制列表,但保留 -fprofile-arcs、-ftest-coverage 等覆盖率相关编译参数。


这很关键。因为对这个任务来说,这些编译 flag 是判断 gcov 是否正确启用的重要证据。普通截断策略很可能会把它们切掉,而 TACO 的规则式过滤可以保留这些行动线索。

在二进制逆向任务 vulnerable-secret 中,TACO 还演化出针对 objdump 输出的规则:过滤重复的 hex dump 行,同时保留 call 指令、符号标签和关键地址信息。这些信息正是 agent 追踪二进制控制流所需要的。


这说明 TACO 并不是简单地把输出变短,而是把终端输出变得更像 “下一步决策所需的 observation”。

总结

TACO 提供了一种无需训练的自进化观测压缩方案,让 Agent 从真实轨迹中学习哪些输出可以安全过滤、哪些行动线索必须保留。

让 Agent 学会丢掉无效观察,才能让它在长程任务中走得更稳。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一场3-0横扫!赢球不可怕,可怕的是赛后法国队这番话,不怕国乒

一场3-0横扫!赢球不可怕,可怕的是赛后法国队这番话,不怕国乒

乐悠悠娱乐
2026-05-09 11:12:14
伦敦世乒赛:中法大战,王楚钦苦战,林诗栋惨败,梁靖崑成关键

伦敦世乒赛:中法大战,王楚钦苦战,林诗栋惨败,梁靖崑成关键

小潌拍客在北漂
2026-05-10 04:31:03
郑钦文:奥胖胜一筹,无缘十六强……

郑钦文:奥胖胜一筹,无缘十六强……

墨韵书语
2026-05-10 04:54:08
后人皆惋惜戊戌变法失败,殊不知,很多内容,现代人根本无法接受

后人皆惋惜戊戌变法失败,殊不知,很多内容,现代人根本无法接受

史行途
2026-05-09 17:22:59
马来西亚与中国决裂,转向日本,361亿赔偿引发热议!

马来西亚与中国决裂,转向日本,361亿赔偿引发热议!

橙色书卷
2026-05-06 21:19:04
张继科:国乒赢这支韩国队太正常了,朱世赫柳承敏才是最强阵容

张继科:国乒赢这支韩国队太正常了,朱世赫柳承敏才是最强阵容

乒谈
2026-05-09 22:07:06
女性私处的“尴尬”时刻,多数女人都表示经历过,男人尽量也看看

女性私处的“尴尬”时刻,多数女人都表示经历过,男人尽量也看看

熊猫医学社
2026-04-21 10:54:56
下跌4.59%,油价“刚涨又跌”,下次5月21日调整,汽柴油变下跌中

下跌4.59%,油价“刚涨又跌”,下次5月21日调整,汽柴油变下跌中

猪友巴巴
2026-05-10 05:25:03
患难见真情!中方紧要关头伸出援手,给生死存亡的杜氏家族,送出了一丝希望

患难见真情!中方紧要关头伸出援手,给生死存亡的杜氏家族,送出了一丝希望

爱意随风起呀
2026-05-10 04:45:47
国乒幕后功臣浮出水面!能战胜韩国有原因,王皓躲过一劫太幸运

国乒幕后功臣浮出水面!能战胜韩国有原因,王皓躲过一劫太幸运

三十年莱斯特城球迷
2026-05-08 22:57:55
以游客身份入境,未经许可拍摄!8名中国人在泰国拍短剧被捕

以游客身份入境,未经许可拍摄!8名中国人在泰国拍短剧被捕

大象新闻
2026-05-09 13:54:19
口碑反转!王菲没想到,负债累累的李亚鹏,如今却让自己“难堪”

口碑反转!王菲没想到,负债累累的李亚鹏,如今却让自己“难堪”

白面书誏
2026-01-19 17:22:22
国乒出征伦敦时间确定!世乒赛首场比赛对手出炉 剑指温布利!

国乒出征伦敦时间确定!世乒赛首场比赛对手出炉 剑指温布利!

好乒乓
2026-04-21 12:07:20
台球皇帝亨德利承认更重视赵心童而非吴宜泽,没想到小吴有一特质

台球皇帝亨德利承认更重视赵心童而非吴宜泽,没想到小吴有一特质

杨华评论
2026-05-09 22:51:03
安徽,一男子租8辆宝马当婚车,接完新娘下楼婚车不见了,没办法叫出租车接亲!婚后将租车行告上法庭,要求赔偿1.8万,法院判了!

安徽,一男子租8辆宝马当婚车,接完新娘下楼婚车不见了,没办法叫出租车接亲!婚后将租车行告上法庭,要求赔偿1.8万,法院判了!

乔话
2026-05-06 23:46:35
美国做了个实验,将3男3女关一起2年,他们出来时,令所有人惊讶

美国做了个实验,将3男3女关一起2年,他们出来时,令所有人惊讶

千秋文化
2026-05-05 20:32:13
在车站见到妈妈,妈妈一激动对着孩子喊出了猫的名字,网友:一些养宠后遗症

在车站见到妈妈,妈妈一激动对着孩子喊出了猫的名字,网友:一些养宠后遗症

拜见喵主子
2026-05-08 11:24:51
5060 Ti 终于降价了丨5月9日硬件日报

5060 Ti 终于降价了丨5月9日硬件日报

小蜜情感说
2026-05-09 12:27:08
河北美女教练离世,年仅 32 岁太惋惜

河北美女教练离世,年仅 32 岁太惋惜

搞笑娱乐笑话
2026-05-09 10:44:11
世乒赛4月28日开赛:王楚钦入院,梁靖崑旧伤复发,周启豪也伤了

世乒赛4月28日开赛:王楚钦入院,梁靖崑旧伤复发,周启豪也伤了

开成运动会
2026-04-21 22:53:35
2026-05-10 06:07:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3160482文章数 7276关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

家居
艺术
房产
数码
公开课

家居要闻

菁英人居 全能豪宅

艺术要闻

阳光,此刻醉美

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

数码要闻

有鸿蒙·更美的——全球首台鸿蒙智选美的智能空调上市

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版