![]()
写代码和盖房子有点像。短任务是砌一堵墙,记住砖怎么摆就行;长任务是盖一栋楼,你得在几百步之后还记得地基怎么打,遇到暴雨知道先加固哪一层。
但现在的Agent,基本都是砌墙高手,盖楼就露怯。
LongCLI-Bench的数据很直白:最顶尖的Agent,长任务通过率不到20%。更尴尬的是,大部分任务连30%都没跑到就卡死,失败往往发生在最开始的几步。这意味着它们连"开个好头"都做不到——单步能力再惊艳,链条一拉长就迷失。
SlopCodeBench的研究更扎心。追踪Agent在迭代任务中的表现,发现一种系统性退化:随着迭代次数增加,代码质量持续下滑。80%的轨迹出现结构侵蚀,近90%的冗余代码比例上升。对比48个开源Python仓库,Agent代码的冗余度是人工代码的2.2倍,而且人类代码越写越稳,Agent代码越写越烂。
这就像一个人,短期记忆满分,长期规划为零。短期需求一来,结构就变形,最后堆成一座摇摇欲坠的代码山。
面对这个问题,Claude和Codex走了两条路。
Claude Opus 4.6把上下文窗口从20万token拉到100万token,但真正有意思的是它的"上下文拆分"设计。面对复杂任务,它会自动生成多个探索型子智能体,各自扫描、检索、总结,只把关键信息回传给主智能体。这种分工像是一个项目经理带几个侦察兵,主脑不被细节淹没,专注拍板。
Codex则是另一个极端。它像AlphaGo,调试复杂问题时表现"超人类",很多Opus搞不定的问题它能啃下来。核心优势是"自我构建"——Codex团队用Codex调试自己的训练、管理部署、诊断测试,形成"AI造AI"的加速循环。OpenAI的追求很明确:不做最优雅的交互,只做最难的题。
两条路径其实指向同一个公式:长任务能力 = 上下文容量 × 上下文质量。缺了容量,复杂任务接不住;缺了质量,信息一多就迷路。
而当Agent开始跑长任务,Token的角色变了——从技术副产品变成战略资产。
无问芯穹的Token消耗每两周翻一番,至今翻了10倍。这种增速上次出现还是3G流量时代,但含义完全不同:那时候是用户行为迁移,现在是经济活动本身的AI化。黄仁勋在2026年GTC正式提出"Token经济学",国家数据局3月把Token定为"智能时代的价值锚点"。
短任务的Token价值是线性的,长任务则是指数级。百万级Token跑完一个软件开发,产出可能是数万美元。但这也意味着,商业模式正在从订阅制向Token制迁移,甚至终极目标——按结果付费——面临一个度量难题:任务足够长时,AI贡献和人类贡献深度交织,价值怎么切分?
2026年被称作"智能体元年",核心判断是AI从"回答问题的人"变成"完成任务的人"。这个转变的工程含义是颠覆性的:Chatbot时代比的是单步能力,Agent时代比的是谁在几百步之后还记得最初要干什么。
换句话说,长任务能力不再是技术指标,而是区分"玩具"与"工具"的唯一标准。能完成长任务的Agent,Token才有价值,商业模型才有意义,存在本身才能重构工作流与生活流。
一位前OpenAI研究员的观察很到位:当上下文token占用超过50%,他会主动清理,用"金丝雀检测"埋入无关但可验证的信息,一旦模型开始遗忘,说明上下文已被污染。这种对"质量衰减"的警惕,或许正是下一代Agent设计的起点。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.