网易首页 > 网易号 > 正文 申请入驻

让AI越用越聪明——斯坦福这篇ICLR论文让微调信仰开始动摇

0
分享至

这是一篇来自斯坦福大学、SambaNova Systems与UC Berkeley的联合研究,标题叫《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》,中文可以译作"智能体上下文工程:为自我进化的语言模型构建动态语境"。

论文的核心主张只有一句话:与其修改模型的权重,不如让模型的"记忆"越来越好用。发表后,这篇论文在AI社区引发了不小的讨论,甚至有工程师直接喊出"微调已死"。原因在于,他们用一个更小的开源模型,通过这套方法,在公开榜单上追平了IBM用GPT-4.1构建的生产级智能体——而且没有花一分钱去做微调。

这个结果足够令人吃惊,值得认真拆解一遍。

先说一个被低估的问题:上下文工程

在深入ACE之前,需要先厘清一个术语:上下文适配(Context Adaptation),或者更通俗地说,"上下文工程"。

对LLM来说,提升性能有两条路:一条是改模型本身,也就是微调(fine-tuning);另一条是改模型的输入,也就是往prompt里塞更好的指令、策略、示例、领域知识。后者就是上下文工程。

这条路并不新鲜。每个认真做过RAG、写过system prompt、调过few-shot的工程师都在无意识地做上下文工程。它的优势显而易见:不需要动模型权重,改起来快、看得见、可以随时回滚。

但它的天花板在哪里?

研究者在论文里指出了两个老对手从未解决的根本缺陷。

第一个:简洁偏差(Brevity Bias)。 现有的提示优化方法,比如GEPA,倾向于把上下文压缩成简短的通用指令。这在某些场景里够用,但在需要大量领域知识的任务里,把"当分页API返回为空时停止循环"这类具体的工程经验浓缩成"请注意API规范",就等于把最有价值的东西扔掉了。

第二个:上下文崩塌(Context Collapse)。 这个现象更危险。当让一个LLM在每次更新时全量重写上下文,随着内容越来越多,模型会倾向于把它压缩成更短的摘要。论文里给出了一个实测数据:在AppWorld基准测试的第60步,上下文里有18,282个token,准确率达到66.7。但下一步,LLM全量重写后,上下文直接塌缩到了122个token,准确率跌到57.1,比什么都不做(基准线63.7)还要差。一次重写,把60步积累的所有经验清零了。


这就是ACE要解决的核心问题。

ACE的核心思路:把上下文当成一本会生长的手册

ACE的设计哲学可以用一句话概括:"上下文不是摘要,而是剧本(playbook)。"

背后有一个关键判断——人类和LLM的处理习惯恰好相反。人类喜欢高度浓缩的信息,靠背景知识和直觉填补空白;而LLM在接收详细、具体、丰富的上下文时,表现往往更好,它们有能力在推理时自己判断哪些内容有用。

所以,与其帮LLM"提炼",不如帮它"积累"。

ACE的架构由三个角色协同完成:


Generator(生成器)执行实际任务,产出推理轨迹——哪些步骤走通了,哪些报错了,哪些API用错了,完整记录。

Reflector(反思器)拿着这份轨迹做诊断。它会分析哪里出了问题,为什么出问题,正确做法应该是什么,并提炼出"关键洞察"。它还会对剧本里现有的每个知识条目打标签:这次有没有帮上忙?

Curator(整理器)把反思器的输出转化为结构化的"增量条目"(delta entries),然后用非LLM的确定性逻辑合并进剧本。合并、去重、修改计数器——全部不需要再跑一次大模型。

这里有一个细节值得注意:Curator在合并时用的是代码逻辑,而不是让LLM重写整个剧本。这直接消除了上下文崩塌的根源。更新是原子的、局部的,过去积累的内容不会因为一次新的迭代而消失。

增量更新与"生长再精炼"机制

ACE的防崩塌设计有两个具体机制,值得展开说。

增量delta更新:剧本由一条条带ID的知识条目(bullets)组成,每个条目记录着它被标记为"有用"和"有害"的次数。新的经验只会追加或修改已有条目,不会触发全量重写。多个增量可以并行处理,然后一次性合并——这也是为什么ACE的延迟能大幅低于传统方法。

生长再精炼(Grow-and-Refine):剧本会持续变长,但这不能无限膨胀。ACE用语义嵌入做相似度比较,把语义相近的条目合并或去重。这个精炼操作可以主动触发(每次delta之后),也可以懒触发(只有当上下文窗口快撑不住了才运行)。

论文里展示了一个AppWorld生成的剧本样例,里面分成"策略与硬规则"、"可用代码片段与模板"、"故障排查与陷阱"三个板块。比如其中一条写道:如果身份验证失败,按顺序尝试用手机号而非邮箱作为用户名,清除supervisor里的凭证,查阅API文档确认正确参数,不要使用变通方法(workaround)。

这不是一条抽象的"注意认证问题",而是一条可以直接指导下一次操作的具体经验。这正是ACE与之前方法的本质区别。

实验结果:更小的模型,顶尖的成绩

研究团队在两类任务上做了系统评测。

智能体基准(AppWorld):这是一个要求LLM通过Python代码调用API、完成日常任务的复杂环境,包含邮件、文件系统、音乐、支付等场景。任务分"普通"和"挑战"两个难度级别,公开榜单上有来自工业界的对标系统。

在离线适配(先用训练集优化剧本,再在测试集上评估)的设置下,ReAct + ACE的平均准确率达到59.4%,而ICL基准线是46.0%,GEPA是46.4%,提升幅度接近13个百分点。在线适配(边测试边更新剧本)的设置下,ACE达到59.5%,比Dynamic Cheatsheet高出7.6个点。


更重要的比较来自公开榜单快照(2025年9月20日)。榜首是IBM的CUGA,使用GPT-4.1,平均准确率60.3%。ACE使用的是DeepSeek-V3.1(一个更小的开源模型),平均59.4%,基本持平。在更难的test-challenge分项上,ACE的TGC(任务目标完成率)比CUGA高8.4个百分点。

金融领域基准(FiNER + Formula):这两个任务要求对XBRL格式的财务文件做实体识别和数值推理,需要大量金融领域的专门知识。有标注监督时,ACE在FiNER上比基线提升7.6个点,在Formula上提升高达18个点。平均来看,比GEPA高出10.9个点。

还有一个值得关注的数字:在无标注场景下(只靠执行反馈,没有人工标注的正确答案),ACE在AppWorld上仍然比基准线高14.8个点。这说明ACE的自我改进机制不依赖人工监督,代码执行的成功或失败本身就是足够强的信号。

效率的对比同样戏剧性。在离线适配上,ACE的适配延迟比GEPA低82.3%,需要的rollout数量少75.1%。在线适配上,比Dynamic Cheatsheet的延迟低91.5%,token费用低83.6%。

消融实验揭示了什么

论文花了不少篇幅做消融(逐步拆掉某个组件,看性能如何变化),结论比较清晰。

去掉Reflector和多轮迭代,只保留基本框架,AppWorld平均准确率从59.4%跌到55.1%,损失4.3个点。只去掉多轮迭代,保留Reflector,准确率56.8%,损失2.6个点。这说明Reflector的存在本身就有价值,而多轮迭代在此基础上进一步改善了质量。

在线适配中,加入"离线预热"(先用训练集跑一遍积累初始剧本,再进入在线测试)从56.1%提升到59.5%,增益明显。这个设置在实际部署中是可行的——对于确定的业务场景,提前用历史数据初始化剧本,然后在生产环境里继续在线更新。

这套方法的边界在哪里

论文在Limitations一节坦诚地讨论了几个限制。

ACE的表现强依赖Reflector的质量。如果模型本身连有效的反思都做不到,剧本就会被噪声污染。金融任务在无标注场景下,ACE和DC都出现了性能下降,就是因为缺乏可靠的信号,错误的反思反而干扰了剧本。

不是所有任务都适合这套方法。HotPotQA这类问答任务更需要的是如何检索和整合证据的高层策略,而不是堆砌细节;Game of 24这类有固定解法的游戏,一条规则就够了,多余的上下文只是负担。

ACE最适合的场景是:需要掌握大量领域知识、工具使用有很多细节、或者环境交互有很多特定经验值得积累的任务——恰好是当下企业级AI应用最集中的方向。

长上下文不等于高成本

这个点被论文单独拿出来讨论,因为它是一个常见的误解。

ACE会生成比GEPA更长的上下文,有人担心这意味着更高的推理成本。但作者指出,现代推理基础设施对长上下文做了专门优化——KV cache复用、压缩和卸载等技术让重复使用的上下文段不需要反复做prefill计算。随着长上下文推理的效率持续提升,ACE这类方法的摊销成本会越来越低,而它带来的性能收益会持续存在。

更深的一层含义是,上下文里存储的知识是"可解释的"。合规官员可以直接阅读剧本,知道AI学到了什么;发现问题时可以直接编辑或删除某条知识,而不是重新跑一遍微调。这在金融、法律、医疗等受监管行业里,是一个实质性的优势。

论文地址:

https://arxiv.org/pdf/2510.04618

END本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:ACE与传统prompt优化方法(如GEPA)的本质区别是什么?

GEPA等方法会不断重写整个提示,倾向于生成越来越简短的通用指令,以此来满足验证指标。ACE的不同之处在于它不做全量重写。每次迭代只生成"增量条目",用非LLM的代码逻辑合并进剧本,保证旧知识不会因为一次新的更新而消失。这直接解决了"简洁偏差"和"上下文崩塌"两个问题。

Q2:没有人工标注的正确答案,ACE怎么知道该学什么?

在智能体任务中,代码执行本身就是天然的反馈信号——代码跑通了、任务完成了,就是正确的;报错了、任务失败了,就是错误的。ACE的Reflector利用这些执行结果做反思,不需要人工标注。这使得ACE可以在生产环境中持续自我改进,而不需要持续的人工干预。

Q3:这套方法是否意味着模型微调变得不必要了?

不是这个意思,但它确实改变了微调的必要性边界。对于需要快速适配、知识需要频繁更新、或者领域知识量大但结构清晰的场景,ACE提供了一条更轻量的替代路径。微调在需要改变模型底层推理能力或语言风格时仍然有价值,但在"让模型知道更多领域经验"这件事上,ACE表明上下文工程可以做到原来认为需要微调才能实现的效果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哪个大聪明想出来的,用瓶盖收纳鸡蛋!

哪个大聪明想出来的,用瓶盖收纳鸡蛋!

新住家居
2026-04-09 07:06:35
你见过的中年失独的人是怎样?看网友讲述只能无尽的叹息再叹息

你见过的中年失独的人是怎样?看网友讲述只能无尽的叹息再叹息

侃神评故事
2026-04-19 07:30:09
你敢信吗?太湖底下有2.3米厚的淤泥,可上面才盖着不到1.9米的水

你敢信吗?太湖底下有2.3米厚的淤泥,可上面才盖着不到1.9米的水

掠影后有感
2026-04-01 20:26:07
明知道佩泽希齐扬和阿拉格齐“有问题”,革命卫队为何不拿下他们

明知道佩泽希齐扬和阿拉格齐“有问题”,革命卫队为何不拿下他们

民间胡扯老哥
2026-04-19 07:27:18
顶着骂名给中国送技术,年薪超4亿的她,为何敢和美国对着干

顶着骂名给中国送技术,年薪超4亿的她,为何敢和美国对着干

番外行
2026-04-19 07:40:10
刚拿WSBK冠军就翻车!820RR半路爆缸,张雪回应太果断

刚拿WSBK冠军就翻车!820RR半路爆缸,张雪回应太果断

童叔不飙车
2026-04-19 00:54:41
172 86斤!陈瑾近20年不吃米饭,骨密度如70岁老人,纸片人胜利?

172 86斤!陈瑾近20年不吃米饭,骨密度如70岁老人,纸片人胜利?

东方不败然多多
2026-04-17 01:34:38
伊朗议长:对美不信任仍未完全化解 敦促美方对等履约

伊朗议长:对美不信任仍未完全化解 敦促美方对等履约

环球网资讯
2026-04-19 10:55:53
山东男篮客场爆冷,终结深圳15连胜,3名外援同时复苏

山东男篮客场爆冷,终结深圳15连胜,3名外援同时复苏

臻体育
2026-04-19 21:48:15
什么级别的单位是武警站岗?哪些党政部门是武警站岗?

什么级别的单位是武警站岗?哪些党政部门是武警站岗?

袁老师说历史
2026-04-19 18:25:03
瑞幸推出7元瓶装咖啡,这是自己打自己?

瑞幸推出7元瓶装咖啡,这是自己打自己?

财经早餐
2026-04-18 09:45:48
考古:大明湖挖出文物证实,济南是中国唯一5000年连续建城的城市

考古:大明湖挖出文物证实,济南是中国唯一5000年连续建城的城市

文史达观
2026-03-27 16:15:00
日本爆冷夺冠!朝鲜U20女足全场0进球,球员赛后黑脸拒绝握手

日本爆冷夺冠!朝鲜U20女足全场0进球,球员赛后黑脸拒绝握手

谈史论天地
2026-04-19 13:52:15
35岁傅彪儿子,住豪宅生活奢华,单身满头白发,走上了“不归路”

35岁傅彪儿子,住豪宅生活奢华,单身满头白发,走上了“不归路”

林轻吟
2026-04-02 19:51:37
辽沪二番战机不可失!赵继伟率队PK两位前队友,内外开花方能取胜

辽沪二番战机不可失!赵继伟率队PK两位前队友,内外开花方能取胜

君马体育
2026-04-19 20:34:40
挤出来的“假深度”,在姐姐这纯天然的圆润面前,全是弟弟!

挤出来的“假深度”,在姐姐这纯天然的圆润面前,全是弟弟!

飛娱日记
2026-04-13 10:36:35
中小学生上课时间大调整:9点上课或成新规,周六上课引家长热议

中小学生上课时间大调整:9点上课或成新规,周六上课引家长热议

复转这些年
2026-04-18 12:47:43
0 开火却锁死日舰!国人怒问为何不击沉?真相竟是为了这一大局

0 开火却锁死日舰!国人怒问为何不击沉?真相竟是为了这一大局

眼界看视野
2026-04-18 15:12:13
斯诺克2席16强出炉!小钢炮6连鞭逆转张安达,丁俊晖7-2追平纪录

斯诺克2席16强出炉!小钢炮6连鞭逆转张安达,丁俊晖7-2追平纪录

刘姚尧的文字城堡
2026-04-19 20:57:19
请来“项羽”的苏超,又吓了所有人一跳

请来“项羽”的苏超,又吓了所有人一跳

金错刀
2026-04-19 17:54:26
2026-04-19 22:20:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
3365文章数 170关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

印度当晚召见伊朗大使抗议两船只遭开火袭击 伊朗回应

头条要闻

印度当晚召见伊朗大使抗议两船只遭开火袭击 伊朗回应

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

教育
手机
旅游
公开课
军事航空

教育要闻

挑战30天:用60道逻辑题,练出孩子的理解力与变通力

手机要闻

华为Pura 90系列再次被确认:尺寸、续航全曝光,大家会选谁?

旅游要闻

丰台王佐这片花海,真的藏不住了!春天必冲的打卡地标

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗逼退美扫雷艇:美方求给15分钟撤退

无障碍浏览 进入关怀版