20%通过率背后：Agent还没学会"不跑偏"|代码|上下文|智能体|电子表格|agent|token

20%通过率背后：Agent还没学会"不跑偏"

2026-04-02 10:46:14　来源: 硬核玩家2哈

北京举报

分享至

写代码和盖房子有点像。短任务是砌一堵墙，记住砖怎么摆就行；长任务是盖一栋楼，你得在几百步之后还记得地基怎么打，遇到暴雨知道先加固哪一层。

但现在的Agent，基本都是砌墙高手，盖楼就露怯。

LongCLI-Bench的数据很直白：最顶尖的Agent，长任务通过率不到20%。更尴尬的是，大部分任务连30%都没跑到就卡死，失败往往发生在最开始的几步。这意味着它们连"开个好头"都做不到——单步能力再惊艳，链条一拉长就迷失。

SlopCodeBench的研究更扎心。追踪Agent在迭代任务中的表现，发现一种系统性退化：随着迭代次数增加，代码质量持续下滑。80%的轨迹出现结构侵蚀，近90%的冗余代码比例上升。对比48个开源Python仓库，Agent代码的冗余度是人工代码的2.2倍，而且人类代码越写越稳，Agent代码越写越烂。

这就像一个人，短期记忆满分，长期规划为零。短期需求一来，结构就变形，最后堆成一座摇摇欲坠的代码山。

面对这个问题，Claude和Codex走了两条路。

Claude Opus 4.6把上下文窗口从20万token拉到100万token，但真正有意思的是它的"上下文拆分"设计。面对复杂任务，它会自动生成多个探索型子智能体，各自扫描、检索、总结，只把关键信息回传给主智能体。这种分工像是一个项目经理带几个侦察兵，主脑不被细节淹没，专注拍板。

Codex则是另一个极端。它像AlphaGo，调试复杂问题时表现"超人类"，很多Opus搞不定的问题它能啃下来。核心优势是"自我构建"——Codex团队用Codex调试自己的训练、管理部署、诊断测试，形成"AI造AI"的加速循环。OpenAI的追求很明确：不做最优雅的交互，只做最难的题。

两条路径其实指向同一个公式：长任务能力 = 上下文容量 × 上下文质量。缺了容量，复杂任务接不住；缺了质量，信息一多就迷路。

而当Agent开始跑长任务，Token的角色变了——从技术副产品变成战略资产。

无问芯穹的Token消耗每两周翻一番，至今翻了10倍。这种增速上次出现还是3G流量时代，但含义完全不同：那时候是用户行为迁移，现在是经济活动本身的AI化。黄仁勋在2026年GTC正式提出"Token经济学"，国家数据局3月把Token定为"智能时代的价值锚点"。

短任务的Token价值是线性的，长任务则是指数级。百万级Token跑完一个软件开发，产出可能是数万美元。但这也意味着，商业模式正在从订阅制向Token制迁移，甚至终极目标——按结果付费——面临一个度量难题：任务足够长时，AI贡献和人类贡献深度交织，价值怎么切分？

2026年被称作"智能体元年"，核心判断是AI从"回答问题的人"变成"完成任务的人"。这个转变的工程含义是颠覆性的：Chatbot时代比的是单步能力，Agent时代比的是谁在几百步之后还记得最初要干什么。

换句话说，长任务能力不再是技术指标，而是区分"玩具"与"工具"的唯一标准。能完成长任务的Agent，Token才有价值，商业模型才有意义，存在本身才能重构工作流与生活流。

一位前OpenAI研究员的观察很到位：当上下文token占用超过50%，他会主动清理，用"金丝雀检测"埋入无关但可验证的信息，一旦模型开始遗忘，说明上下文已被污染。这种对"质量衰减"的警惕，或许正是下一代Agent设计的起点。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.