网易首页 > 网易号 > 正文 申请入驻

20%通过率背后:Agent还没学会"不跑偏"

0
分享至


写代码和盖房子有点像。短任务是砌一堵墙,记住砖怎么摆就行;长任务是盖一栋楼,你得在几百步之后还记得地基怎么打,遇到暴雨知道先加固哪一层。

但现在的Agent,基本都是砌墙高手,盖楼就露怯。

LongCLI-Bench的数据很直白:最顶尖的Agent,长任务通过率不到20%。更尴尬的是,大部分任务连30%都没跑到就卡死,失败往往发生在最开始的几步。这意味着它们连"开个好头"都做不到——单步能力再惊艳,链条一拉长就迷失。

SlopCodeBench的研究更扎心。追踪Agent在迭代任务中的表现,发现一种系统性退化:随着迭代次数增加,代码质量持续下滑。80%的轨迹出现结构侵蚀,近90%的冗余代码比例上升。对比48个开源Python仓库,Agent代码的冗余度是人工代码的2.2倍,而且人类代码越写越稳,Agent代码越写越烂。

这就像一个人,短期记忆满分,长期规划为零。短期需求一来,结构就变形,最后堆成一座摇摇欲坠的代码山。

面对这个问题,Claude和Codex走了两条路。

Claude Opus 4.6把上下文窗口从20万token拉到100万token,但真正有意思的是它的"上下文拆分"设计。面对复杂任务,它会自动生成多个探索型子智能体,各自扫描、检索、总结,只把关键信息回传给主智能体。这种分工像是一个项目经理带几个侦察兵,主脑不被细节淹没,专注拍板。

Codex则是另一个极端。它像AlphaGo,调试复杂问题时表现"超人类",很多Opus搞不定的问题它能啃下来。核心优势是"自我构建"——Codex团队用Codex调试自己的训练、管理部署、诊断测试,形成"AI造AI"的加速循环。OpenAI的追求很明确:不做最优雅的交互,只做最难的题。

两条路径其实指向同一个公式:长任务能力 = 上下文容量 × 上下文质量。缺了容量,复杂任务接不住;缺了质量,信息一多就迷路。

而当Agent开始跑长任务,Token的角色变了——从技术副产品变成战略资产。

无问芯穹的Token消耗每两周翻一番,至今翻了10倍。这种增速上次出现还是3G流量时代,但含义完全不同:那时候是用户行为迁移,现在是经济活动本身的AI化。黄仁勋在2026年GTC正式提出"Token经济学",国家数据局3月把Token定为"智能时代的价值锚点"。

短任务的Token价值是线性的,长任务则是指数级。百万级Token跑完一个软件开发,产出可能是数万美元。但这也意味着,商业模式正在从订阅制向Token制迁移,甚至终极目标——按结果付费——面临一个度量难题:任务足够长时,AI贡献和人类贡献深度交织,价值怎么切分?

2026年被称作"智能体元年",核心判断是AI从"回答问题的人"变成"完成任务的人"。这个转变的工程含义是颠覆性的:Chatbot时代比的是单步能力,Agent时代比的是谁在几百步之后还记得最初要干什么。

换句话说,长任务能力不再是技术指标,而是区分"玩具"与"工具"的唯一标准。能完成长任务的Agent,Token才有价值,商业模型才有意义,存在本身才能重构工作流与生活流。

一位前OpenAI研究员的观察很到位:当上下文token占用超过50%,他会主动清理,用"金丝雀检测"埋入无关但可验证的信息,一旦模型开始遗忘,说明上下文已被污染。这种对"质量衰减"的警惕,或许正是下一代Agent设计的起点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杀人诛心!拜仁2-1客胜皇马,主帅孔帕尼赛后发言暗藏捧杀玄机!

杀人诛心!拜仁2-1客胜皇马,主帅孔帕尼赛后发言暗藏捧杀玄机!

田先生篮球
2026-04-08 09:06:27
支持率下降,特朗普被催下台,美国新总统浮现,对华态度更强硬

支持率下降,特朗普被催下台,美国新总统浮现,对华态度更强硬

李健政观察
2026-04-07 15:07:05
骗走50亿!用小鲜肉的血抗衰,被央视曝光的“捞金女王”,真栽了

骗走50亿!用小鲜肉的血抗衰,被央视曝光的“捞金女王”,真栽了

凡知
2026-04-07 21:16:54
“新型婚姻”正在流行:妻子不委屈,丈夫不为难,婆婆不受累

“新型婚姻”正在流行:妻子不委屈,丈夫不为难,婆婆不受累

十点读书
2026-04-07 19:03:22
全红婵被谁网暴了?那个微信群网暴全红婵的那个微信群能跑掉吗?

全红婵被谁网暴了?那个微信群网暴全红婵的那个微信群能跑掉吗?

常识群
2026-04-08 14:46:05
中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

健康之光
2026-03-23 20:10:05
今年首个30℃将登场!雷雨也不远了……

今年首个30℃将登场!雷雨也不远了……

上海预警发布
2026-04-08 17:21:29
事实证明,73岁无儿无女的迟重瑞,早已被陈丽华“安排”好了后路

事实证明,73岁无儿无女的迟重瑞,早已被陈丽华“安排”好了后路

乡野小珥
2026-04-08 17:29:22
女子回应“汉堡自助吃太多被拒绝接待”:不接受道歉,更不要赔偿 涉事店铺去年被列为经营异常

女子回应“汉堡自助吃太多被拒绝接待”:不接受道歉,更不要赔偿 涉事店铺去年被列为经营异常

红星新闻
2026-04-08 19:52:16
“捞女车祸后赖上备胎”?截瘫女子澄清,没公布恋情不代表没恋爱

“捞女车祸后赖上备胎”?截瘫女子澄清,没公布恋情不代表没恋爱

汉史趣闻
2026-04-07 11:58:05
“高中女孩”与“职高女孩”的对比图火了,家长直言:差距太大了

“高中女孩”与“职高女孩”的对比图火了,家长直言:差距太大了

世界圈
2026-04-08 09:22:28
伊朗发现重大惊喜,打向以色列的导弹,竟然一颗都没被拦截

伊朗发现重大惊喜,打向以色列的导弹,竟然一颗都没被拦截

策略述
2026-04-08 13:54:01
DRAM价格超越黄金价格,克价逼近1500元人民币

DRAM价格超越黄金价格,克价逼近1500元人民币

风向观察
2026-04-08 07:14:28
炸裂,广州首个顶奢商场,撑不住了

炸裂,广州首个顶奢商场,撑不住了

拆神
2026-04-08 10:26:47
社保基金会:坚决拥护党中央决定

社保基金会:坚决拥护党中央决定

新京报
2026-04-07 21:41:14
诈尸了!哈梅内伊死而复生?特朗普大秀军功,伊朗做出了一个举动

诈尸了!哈梅内伊死而复生?特朗普大秀军功,伊朗做出了一个举动

荣亭小吏
2026-04-08 11:21:24
三峡大坝收支出炉:运行20余年,总投资近2500亿,如今回本了吗?

三峡大坝收支出炉:运行20余年,总投资近2500亿,如今回本了吗?

丁丁鲤史纪
2026-04-07 10:44:35
2.0升!丰田新车官宣:17.98万元起

2.0升!丰田新车官宣:17.98万元起

手机评测室
2026-04-08 11:49:40
陈丽华,吃到“唐僧肉”的女首富

陈丽华,吃到“唐僧肉”的女首富

难得君
2026-04-08 08:36:45
撞脸彭于晏的上海民警在杭州执勤时走红,最近“相亲到崩溃”?对象一亮相,网友直呼太般配

撞脸彭于晏的上海民警在杭州执勤时走红,最近“相亲到崩溃”?对象一亮相,网友直呼太般配

极目新闻
2026-04-08 07:34:31
2026-04-08 20:19:00
硬核玩家2哈
硬核玩家2哈
沉淀中,勿扰
942文章数 5关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

男子称套中的鹦鹉致父亲高烧患肺炎:治疗25天花费18万

头条要闻

男子称套中的鹦鹉致父亲高烧患肺炎:治疗25天花费18万

体育要闻

40岁,但实力倒退12年

娱乐要闻

杨颖邓超低调现身观众席 支持陈赫话剧

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

5门5座/新复古造型 缤果Pro将于4月14日开启预售

态度原创

本地
健康
手机
公开课
军事航空

本地新闻

跟着歌声游安徽,听古村回响

干细胞抗衰4大误区,90%的人都中招

手机要闻

OPPO哈苏大师模全新升级 胶片配方水印同款直出

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

文化符号当“弹药” 美伊将信息战带入新阶段

无障碍浏览 进入关怀版