网易首页 > 网易号 > 正文 申请入驻

让AI越用越聪明——斯坦福这篇ICLR论文让微调信仰开始动摇

0
分享至

这是一篇来自斯坦福大学、SambaNova Systems与UC Berkeley的联合研究,标题叫《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》,中文可以译作"智能体上下文工程:为自我进化的语言模型构建动态语境"。

论文的核心主张只有一句话:与其修改模型的权重,不如让模型的"记忆"越来越好用。发表后,这篇论文在AI社区引发了不小的讨论,甚至有工程师直接喊出"微调已死"。原因在于,他们用一个更小的开源模型,通过这套方法,在公开榜单上追平了IBM用GPT-4.1构建的生产级智能体——而且没有花一分钱去做微调。

这个结果足够令人吃惊,值得认真拆解一遍。

先说一个被低估的问题:上下文工程

在深入ACE之前,需要先厘清一个术语:上下文适配(Context Adaptation),或者更通俗地说,"上下文工程"。

对LLM来说,提升性能有两条路:一条是改模型本身,也就是微调(fine-tuning);另一条是改模型的输入,也就是往prompt里塞更好的指令、策略、示例、领域知识。后者就是上下文工程。

这条路并不新鲜。每个认真做过RAG、写过system prompt、调过few-shot的工程师都在无意识地做上下文工程。它的优势显而易见:不需要动模型权重,改起来快、看得见、可以随时回滚。

但它的天花板在哪里?

研究者在论文里指出了两个老对手从未解决的根本缺陷。

第一个:简洁偏差(Brevity Bias)。 现有的提示优化方法,比如GEPA,倾向于把上下文压缩成简短的通用指令。这在某些场景里够用,但在需要大量领域知识的任务里,把"当分页API返回为空时停止循环"这类具体的工程经验浓缩成"请注意API规范",就等于把最有价值的东西扔掉了。

第二个:上下文崩塌(Context Collapse)。 这个现象更危险。当让一个LLM在每次更新时全量重写上下文,随着内容越来越多,模型会倾向于把它压缩成更短的摘要。论文里给出了一个实测数据:在AppWorld基准测试的第60步,上下文里有18,282个token,准确率达到66.7。但下一步,LLM全量重写后,上下文直接塌缩到了122个token,准确率跌到57.1,比什么都不做(基准线63.7)还要差。一次重写,把60步积累的所有经验清零了。


这就是ACE要解决的核心问题。

ACE的核心思路:把上下文当成一本会生长的手册

ACE的设计哲学可以用一句话概括:"上下文不是摘要,而是剧本(playbook)。"

背后有一个关键判断——人类和LLM的处理习惯恰好相反。人类喜欢高度浓缩的信息,靠背景知识和直觉填补空白;而LLM在接收详细、具体、丰富的上下文时,表现往往更好,它们有能力在推理时自己判断哪些内容有用。

所以,与其帮LLM"提炼",不如帮它"积累"。

ACE的架构由三个角色协同完成:


Generator(生成器)执行实际任务,产出推理轨迹——哪些步骤走通了,哪些报错了,哪些API用错了,完整记录。

Reflector(反思器)拿着这份轨迹做诊断。它会分析哪里出了问题,为什么出问题,正确做法应该是什么,并提炼出"关键洞察"。它还会对剧本里现有的每个知识条目打标签:这次有没有帮上忙?

Curator(整理器)把反思器的输出转化为结构化的"增量条目"(delta entries),然后用非LLM的确定性逻辑合并进剧本。合并、去重、修改计数器——全部不需要再跑一次大模型。

这里有一个细节值得注意:Curator在合并时用的是代码逻辑,而不是让LLM重写整个剧本。这直接消除了上下文崩塌的根源。更新是原子的、局部的,过去积累的内容不会因为一次新的迭代而消失。

增量更新与"生长再精炼"机制

ACE的防崩塌设计有两个具体机制,值得展开说。

增量delta更新:剧本由一条条带ID的知识条目(bullets)组成,每个条目记录着它被标记为"有用"和"有害"的次数。新的经验只会追加或修改已有条目,不会触发全量重写。多个增量可以并行处理,然后一次性合并——这也是为什么ACE的延迟能大幅低于传统方法。

生长再精炼(Grow-and-Refine):剧本会持续变长,但这不能无限膨胀。ACE用语义嵌入做相似度比较,把语义相近的条目合并或去重。这个精炼操作可以主动触发(每次delta之后),也可以懒触发(只有当上下文窗口快撑不住了才运行)。

论文里展示了一个AppWorld生成的剧本样例,里面分成"策略与硬规则"、"可用代码片段与模板"、"故障排查与陷阱"三个板块。比如其中一条写道:如果身份验证失败,按顺序尝试用手机号而非邮箱作为用户名,清除supervisor里的凭证,查阅API文档确认正确参数,不要使用变通方法(workaround)。

这不是一条抽象的"注意认证问题",而是一条可以直接指导下一次操作的具体经验。这正是ACE与之前方法的本质区别。

实验结果:更小的模型,顶尖的成绩

研究团队在两类任务上做了系统评测。

智能体基准(AppWorld):这是一个要求LLM通过Python代码调用API、完成日常任务的复杂环境,包含邮件、文件系统、音乐、支付等场景。任务分"普通"和"挑战"两个难度级别,公开榜单上有来自工业界的对标系统。

在离线适配(先用训练集优化剧本,再在测试集上评估)的设置下,ReAct + ACE的平均准确率达到59.4%,而ICL基准线是46.0%,GEPA是46.4%,提升幅度接近13个百分点。在线适配(边测试边更新剧本)的设置下,ACE达到59.5%,比Dynamic Cheatsheet高出7.6个点。


更重要的比较来自公开榜单快照(2025年9月20日)。榜首是IBM的CUGA,使用GPT-4.1,平均准确率60.3%。ACE使用的是DeepSeek-V3.1(一个更小的开源模型),平均59.4%,基本持平。在更难的test-challenge分项上,ACE的TGC(任务目标完成率)比CUGA高8.4个百分点。

金融领域基准(FiNER + Formula):这两个任务要求对XBRL格式的财务文件做实体识别和数值推理,需要大量金融领域的专门知识。有标注监督时,ACE在FiNER上比基线提升7.6个点,在Formula上提升高达18个点。平均来看,比GEPA高出10.9个点。

还有一个值得关注的数字:在无标注场景下(只靠执行反馈,没有人工标注的正确答案),ACE在AppWorld上仍然比基准线高14.8个点。这说明ACE的自我改进机制不依赖人工监督,代码执行的成功或失败本身就是足够强的信号。

效率的对比同样戏剧性。在离线适配上,ACE的适配延迟比GEPA低82.3%,需要的rollout数量少75.1%。在线适配上,比Dynamic Cheatsheet的延迟低91.5%,token费用低83.6%。

消融实验揭示了什么

论文花了不少篇幅做消融(逐步拆掉某个组件,看性能如何变化),结论比较清晰。

去掉Reflector和多轮迭代,只保留基本框架,AppWorld平均准确率从59.4%跌到55.1%,损失4.3个点。只去掉多轮迭代,保留Reflector,准确率56.8%,损失2.6个点。这说明Reflector的存在本身就有价值,而多轮迭代在此基础上进一步改善了质量。

在线适配中,加入"离线预热"(先用训练集跑一遍积累初始剧本,再进入在线测试)从56.1%提升到59.5%,增益明显。这个设置在实际部署中是可行的——对于确定的业务场景,提前用历史数据初始化剧本,然后在生产环境里继续在线更新。

这套方法的边界在哪里

论文在Limitations一节坦诚地讨论了几个限制。

ACE的表现强依赖Reflector的质量。如果模型本身连有效的反思都做不到,剧本就会被噪声污染。金融任务在无标注场景下,ACE和DC都出现了性能下降,就是因为缺乏可靠的信号,错误的反思反而干扰了剧本。

不是所有任务都适合这套方法。HotPotQA这类问答任务更需要的是如何检索和整合证据的高层策略,而不是堆砌细节;Game of 24这类有固定解法的游戏,一条规则就够了,多余的上下文只是负担。

ACE最适合的场景是:需要掌握大量领域知识、工具使用有很多细节、或者环境交互有很多特定经验值得积累的任务——恰好是当下企业级AI应用最集中的方向。

长上下文不等于高成本

这个点被论文单独拿出来讨论,因为它是一个常见的误解。

ACE会生成比GEPA更长的上下文,有人担心这意味着更高的推理成本。但作者指出,现代推理基础设施对长上下文做了专门优化——KV cache复用、压缩和卸载等技术让重复使用的上下文段不需要反复做prefill计算。随着长上下文推理的效率持续提升,ACE这类方法的摊销成本会越来越低,而它带来的性能收益会持续存在。

更深的一层含义是,上下文里存储的知识是"可解释的"。合规官员可以直接阅读剧本,知道AI学到了什么;发现问题时可以直接编辑或删除某条知识,而不是重新跑一遍微调。这在金融、法律、医疗等受监管行业里,是一个实质性的优势。

论文地址:

https://arxiv.org/pdf/2510.04618

END本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:ACE与传统prompt优化方法(如GEPA)的本质区别是什么?

GEPA等方法会不断重写整个提示,倾向于生成越来越简短的通用指令,以此来满足验证指标。ACE的不同之处在于它不做全量重写。每次迭代只生成"增量条目",用非LLM的代码逻辑合并进剧本,保证旧知识不会因为一次新的更新而消失。这直接解决了"简洁偏差"和"上下文崩塌"两个问题。

Q2:没有人工标注的正确答案,ACE怎么知道该学什么?

在智能体任务中,代码执行本身就是天然的反馈信号——代码跑通了、任务完成了,就是正确的;报错了、任务失败了,就是错误的。ACE的Reflector利用这些执行结果做反思,不需要人工标注。这使得ACE可以在生产环境中持续自我改进,而不需要持续的人工干预。

Q3:这套方法是否意味着模型微调变得不必要了?

不是这个意思,但它确实改变了微调的必要性边界。对于需要快速适配、知识需要频繁更新、或者领域知识量大但结构清晰的场景,ACE提供了一条更轻量的替代路径。微调在需要改变模型底层推理能力或语言风格时仍然有价值,但在"让模型知道更多领域经验"这件事上,ACE表明上下文工程可以做到原来认为需要微调才能实现的效果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
傅彪儿子近照曝光!过年和张一山聚餐,生活奢华难掩35岁满头白发

傅彪儿子近照曝光!过年和张一山聚餐,生活奢华难掩35岁满头白发

叨唠
2026-02-24 21:53:09
开年最大IPO来了!

开年最大IPO来了!

胡润百富
2026-02-25 18:31:31
宋彬彬晚年回国道歉仍不被原谅,其父宋任穷也不愿提起她,为何

宋彬彬晚年回国道歉仍不被原谅,其父宋任穷也不愿提起她,为何

春秋砚
2026-02-24 12:25:08
邱毅:大陆的鹰派上来了!解放军出现重大变动,台岛担忧武统提前

邱毅:大陆的鹰派上来了!解放军出现重大变动,台岛担忧武统提前

我心纵横天地间
2026-02-23 23:04:29
特鲁姆普:奥沙利文现在很容易被击败,我建议他没准备好就别参赛

特鲁姆普:奥沙利文现在很容易被击败,我建议他没准备好就别参赛

世界体坛观察家
2026-02-25 17:19:03
牧原股份,拟更名!

牧原股份,拟更名!

大象新闻
2026-02-25 20:53:04
台湾预言家预言,蒋万安只要顺利连任,他就会成为未来国民党少主

台湾预言家预言,蒋万安只要顺利连任,他就会成为未来国民党少主

鲸探所长
2026-02-25 17:29:14
郭士强终于听劝?男篮决战日本前最后2人离队,这次真是背水一战

郭士强终于听劝?男篮决战日本前最后2人离队,这次真是背水一战

小哆说体育
2026-02-26 03:47:11
辽宁:加快推进新一轮找矿突破行动

辽宁:加快推进新一轮找矿突破行动

界面新闻
2026-02-24 07:54:22
不出意外!2026年3月起,房子、车子、存款或将迎来重大改变

不出意外!2026年3月起,房子、车子、存款或将迎来重大改变

财经保探长
2026-02-23 19:40:52
雅阁官降10万仍被吐槽 广汽本田降价为何打动不了消费者?

雅阁官降10万仍被吐槽 广汽本田降价为何打动不了消费者?

BigCarShow
2026-02-23 23:44:11
刘少昂女友发文:人们看到了结果,我目睹了那些努力

刘少昂女友发文:人们看到了结果,我目睹了那些努力

懂球帝
2026-02-25 13:42:11
春节赴日中国游客都是谁?日媒暗访调查,真相完全没想到

春节赴日中国游客都是谁?日媒暗访调查,真相完全没想到

老五汽车世界
2026-02-24 07:41:58
香港警务处答南都:23岁女警员用佩枪自杀事件由重案组跟进

香港警务处答南都:23岁女警员用佩枪自杀事件由重案组跟进

南方都市报
2026-02-25 13:50:07
谷爱凌外婆冯国珍走了,交通部一封感谢信,信息量巨大!

谷爱凌外婆冯国珍走了,交通部一封感谢信,信息量巨大!

达文西看世界
2026-02-25 19:39:16
发现一个扎心真相:你家孩子躺平,根本不是懒,而是“能量”太低了!试试我这2招“赋能秘法”,很管用

发现一个扎心真相:你家孩子躺平,根本不是懒,而是“能量”太低了!试试我这2招“赋能秘法”,很管用

青春期父母成长学堂
2026-02-25 19:35:34
终于,这一国免签了!欧洲平替,不输希腊,2-3k往返!随便一张,就能刷爆朋友圈

终于,这一国免签了!欧洲平替,不输希腊,2-3k往返!随便一张,就能刷爆朋友圈

背包旅行
2026-02-25 10:37:05
有经销商半年利润没了!惨淡的送礼市场,没年味儿的春节,是“社会进步”吗?

有经销商半年利润没了!惨淡的送礼市场,没年味儿的春节,是“社会进步”吗?

食品内参
2026-02-25 10:25:59
离婚率暴涨的真相!不是女人现实,是男人还在“旧世界”里睡大觉

离婚率暴涨的真相!不是女人现实,是男人还在“旧世界”里睡大觉

加油丁小文
2026-02-26 05:00:03
3-1进16强!国乒20岁1米83新星崛起:连胜劲敌,冲击主力位置?

3-1进16强!国乒20岁1米83新星崛起:连胜劲敌,冲击主力位置?

李喜林篮球绝杀
2026-02-25 15:25:32
2026-02-26 06:00:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1897文章数 162关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

医生被指未完成创收指标被待岗 官方通报

头条要闻

医生被指未完成创收指标被待岗 官方通报

体育要闻

勇士爆冷惜败鹈鹕 梅尔顿28分赛季新高

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

房产
教育
亲子
旅游
家居

房产要闻

海南楼市春节热销地图曝光!三亚、陵水又杀疯了!

教育要闻

专业调剂不懂就亏大了!3招避免入坑

亲子要闻

产后性生活冷淡?找回“高潮”,是修复夫妻关系的第一步

旅游要闻

赴日中国游客较去年锐减50%,泰国、韩国接住这波“红利”

家居要闻

艺居办公 温度与效率

无障碍浏览 进入关怀版