网易首页 > 网易号 > 正文 申请入驻

AI编程代理为何越干越蠢?JetBrains实验颠覆行业认知

0
分享至

你有没有想过,让AI连续写几小时代码,它的表现反而越来越差?这不是你的错觉。全球数千个开发团队正在经历同一种崩溃:代理记得住海量信息,却做不出正确决策。

2025年12月的NeurIPS会议上,JetBrains扔下一枚炸弹


他们的论文《复杂性陷阱》直指行业痛点。研究团队对比了两种解决"上下文腐烂"(context rot)的策略:一边是Cursor、OpenHands等主流工具追捧的复杂大语言模型摘要技术,另一边是简单到近乎粗暴的"观察遮蔽"——直接把旧工具输出替换成占位符,提示"此处内容已省略",但完整保留代理的推理和行动历史。

结果让所有人意外。观察遮蔽的成本只有无上下文管理代理的一半,任务完成率却持平甚至略胜。两者叠加还能再降7%成本。那些花大力气研发的精密压缩算法,可能从一开始就搞错了方向。

上下文窗口的残酷真相:装得下≠用得好

现代前沿模型能处理20万甚至百万级词元(token),Google的Gemini系列足以一次性吞下一整本书或多文件代码库。但这只是纸面数字。

Chroma Labs的研究证实了一个尴尬规律:模型在聚焦输入上表现惊艳,面对完整长上下文时却持续滑坡。2025年2月,Adobe的研究人员升级了经典的"大海捞针"测试——不仅要定位隐藏信息,还要基于它做推理。领先模型在短提示下准确率超90%,词元数涨到3.2万时,成绩断崖式下跌。

问题出在注意力机制的本质。模型并非平等对待上下文中的每个词元,早期信息会被后续输入稀释。当代理连续运行数小时,积累了数百次工具调用、文件读取和调试记录,关键决策依据可能淹没在噪声里。

JetBrains的实验设计:用数据说话

研究团队选取了SWE-bench Verified基准测试的子集,这是评估AI编程能力的行业标准。他们控制变量对比了四种配置:无上下文管理(基线)、纯LLM摘要、纯观察遮蔽,以及两者组合。

核心发现层层递进。第一,简单遮蔽策略在成本效率上碾压复杂方案——50%的降幅不是小数目。第二,任务完成率没有牺牲,甚至在部分子任务上反超。第三,组合策略的边际收益有限,7%和11%的额外降幅暗示着收益递减的边界。

论文作者之一在报告中指出:「行业过度投资于上下文压缩的复杂性,却忽视了信息筛选的基本原则。」

为什么遮蔽比摘要更有效?

这涉及AI代理的工作机制差异。LLM摘要试图用模型自身压缩历史,但摘要过程本身消耗词元、引入噪声,还可能丢失关键细节。观察遮蔽则采取完全不同的哲学:承认代理的推理链条比原始输出更重要。

举个例子。代理读取了某个配置文件,三小时后再次需要该信息。摘要方案会让模型重写这段内容,可能扭曲原意;遮蔽方案只显示"[文件内容已省略,曾读取于某时]",但保留"我读取此文件是为了解决X问题"的推理痕迹。代理知道信息存在过,知道获取路径,这比模糊的摘要更利于决策。

成本结构也因此改变。摘要需要实时调用模型生成,遮蔽只是文本替换。在长时间运行的代理会话中,这一差距会指数级放大。

行业连锁反应:工具厂商的十字路口

Cursor和OpenHands代表的复杂派不会立刻投降。他们的技术栈建立在深度上下文理解上,转向简单遮蔽意味着架构重构。但JetBrains的数据给出了难以忽视的财务论据:在规模化部署中,50%的成本差距直接决定商业模式可行性。

更深层的影响在于评估标准。此前行业比拼的是上下文窗口大小、压缩算法的精巧程度,现在可能要转向"有效信息密度"——单位成本内,代理能保留多少 actionable 的决策依据。

Google的Gemini团队尚未公开回应,但其百万级词元窗口的营销话术已显尴尬。窗口再大,模型用不好也是摆设。Adobe的"推理型大海捞针"测试正在成为新的性能基准,它暴露的不仅是定位能力,更是长程逻辑连贯性。

开发者的实操启示

对于正在评估AI编程工具的团队,JetBrains的研究提供了即时可用的筛选框架。第一,追问厂商的上下文管理策略——是摘要、遮蔽,还是混合方案?第二,要求看长时间任务的成本曲线,而非单次调用的报价。第三,测试场景要包含多文件、多轮迭代的真实工作流,而非孤立编码题。

对于自建代理系统的工程师,论文给出了清晰的实验路径。从纯遮蔽基线开始,逐步叠加摘要,监控任务完成率和词元消耗的比值。7%的组合收益是否值得额外复杂度,取决于具体场景的错误成本。

数据收束:一个被量化的悖论

JetBrains的实验最终留下一组冰冷数字:50%成本降幅,7%组合边际收益,90%→断崖的准确率曲线。它们共同指向同一个结论——在AI编程代理的上下文管理中,简单策略击败了复杂工程,而行业花了太久才承认这一点。

当技术竞赛从"谁能压缩更多信息"转向"谁更懂该扔掉什么",我们或许正在见证一个更务实的AI开发时代的开端。不是更大的窗口,而是更聪明的遗忘。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伦敦世乒赛:日本女单首次输球!1:3无缘胜利,张本美和拿下3连胜

伦敦世乒赛:日本女单首次输球!1:3无缘胜利,张本美和拿下3连胜

国乒二三事
2026-05-03 12:19:50
新加坡很想哭,却不敢大声哭出来!

新加坡很想哭,却不敢大声哭出来!

华人星光
2026-05-03 11:43:07
1-3遗憾失利!国羽女队无缘卫冕尤伯杯,韩国队时隔4年再夺冠

1-3遗憾失利!国羽女队无缘卫冕尤伯杯,韩国队时隔4年再夺冠

全景体育V
2026-05-03 20:42:00
湖人正式拒绝为里弗斯提供续约合同!东契奇出面硬刚管理层

湖人正式拒绝为里弗斯提供续约合同!东契奇出面硬刚管理层

木塔
2026-05-03 17:40:00
俄罗斯“苏-34”战机被击落

俄罗斯“苏-34”战机被击落

名人苟或
2026-05-03 13:14:52
诡异!今年五一旅游为何首日就爆?各大景点肉贴肉人挤人到哭!

诡异!今年五一旅游为何首日就爆?各大景点肉贴肉人挤人到哭!

魔都囡
2026-05-02 13:26:29
俄乌战争如果俄罗斯最终赢了,你我在有生之年很可能亲历战争

俄乌战争如果俄罗斯最终赢了,你我在有生之年很可能亲历战争

快乐彼岸
2026-05-03 06:52:39
绝色美人艾梅柏:曾经迷倒德普和马斯克,如今带着3个娃“隐居”

绝色美人艾梅柏:曾经迷倒德普和马斯克,如今带着3个娃“隐居”

小书生吃瓜
2026-05-02 22:22:47
特朗普:已赚回出兵成本的37倍!美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,他此前呼吁中国购买委石油,中方:其他国家无权指手画脚

特朗普:已赚回出兵成本的37倍!美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,他此前呼吁中国购买委石油,中方:其他国家无权指手画脚

每日经济新闻
2026-05-03 09:07:16
现在体制内的酒局快要没有了

现在体制内的酒局快要没有了

微微热评
2026-05-03 17:34:35
连续被手下败将逆转!陈雨菲0-2韩国二单,尤杯决赛国羽陷绝境

连续被手下败将逆转!陈雨菲0-2韩国二单,尤杯决赛国羽陷绝境

钉钉陌上花开
2026-05-03 19:06:49
爆冷!中国男团遭遇26年来世乒赛首败:1-3不敌韩国队 王楚钦缺阵

爆冷!中国男团遭遇26年来世乒赛首败:1-3不敌韩国队 王楚钦缺阵

风过乡
2026-05-03 06:12:32
人活着,其实就两件事,想通了,一辈子都顺了

人活着,其实就两件事,想通了,一辈子都顺了

心理观察局
2026-05-03 08:19:07
卡佩罗:大罗满脑子只有女人,训练从不达标,就是个负面榜样

卡佩罗:大罗满脑子只有女人,训练从不达标,就是个负面榜样

懂球帝
2026-05-03 16:59:03
大外交|一周内高层通话、各界代表来华,中美互动进入“密集期”

大外交|一周内高层通话、各界代表来华,中美互动进入“密集期”

澎湃新闻
2026-05-03 16:12:28
越南4月出口同比增长21%,预估17.9%

越南4月出口同比增长21%,预估17.9%

每日经济新闻
2026-05-03 10:18:05
中国首次动用的新武器——阻断令

中国首次动用的新武器——阻断令

凯利经济观察
2026-05-03 12:40:14
35岁主管被公司用AI替岗,月薪从2.5万降至1.5万,协商不成后被裁,公司被判支付26万余元赔偿金

35岁主管被公司用AI替岗,月薪从2.5万降至1.5万,协商不成后被裁,公司被判支付26万余元赔偿金

环球网资讯
2026-05-03 16:56:51
网友爆料:蒋圣龙因为内脏问题,可能会选择退役

网友爆料:蒋圣龙因为内脏问题,可能会选择退役

懂球帝
2026-05-03 08:27:30
惨烈!五一票房11年来最差,陈思诚呼吁给中国电影机会

惨烈!五一票房11年来最差,陈思诚呼吁给中国电影机会

文娱春秋Plus
2026-05-02 13:45:48
2026-05-03 21:15:00
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
2065文章数 26关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

美国空军C-17运输机降落北京 中美开启一连串密集互动

头条要闻

美国空军C-17运输机降落北京 中美开启一连串密集互动

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

游戏
教育
时尚
健康
房产

艾欧尼亚杯决赛日:鏖战五局!QS勇夺冠军

教育要闻

中考710,你可以怎么选?

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

干细胞治烧烫伤面临这些“瓶颈”

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

无障碍浏览 进入关怀版