网易首页 > 网易号 > 正文 申请入驻

斯坦福新论文:微调已死,自主上下文当立

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

是时候为传统微调献上挽歌了。

一项全新研究,刚刚又给微调致命一击。

来自斯坦福大学、SambaNova Systems公司和加州大学伯克利分校的研究人员,在新论文中证明:

依靠上下文工程,无需调整任何权重,模型也能不断变聪明。



他们提出的方法名为智能体上下文工程ACE

ACE不依赖模型重新训练,而是让上下文自主进化,通过反复生成、反思并编辑自己的提示,直至成为一个自我完善的系统。

在智能体和特定领域的基准测试中,ACE能同时优化离线上下文(如system prompt)和在线上下文(如agent memory),并稳定优于强力基线模型。



下面具体来看。

ACE框架

现在很多AI应用(比如自动处理财务数据的工具、能调用APP的智能助手)都靠 “上下文适配” 来提升能力。

简单来说,就是不给模型改底层参数,而是在输入里加指令、策略或证据,但老方法有两个大问题:

简洁偏置

为了让输入简短,把关键细节丢了。比如只说 “处理财务数据”,却没说 “要按XBRL格式核对数值”,导致模型犯错。

上下文崩溃

反复修改输入时,模型会把之前积累的有用信息越改越短、越改越没用。比如原本有1.8万个token的实用策略,准确率为66.7,改一次就剩122个token,效果却下降到57.1。



ACE就是为了解决这两个问题来的,与将知识压缩为简短摘要或静态指令的方法不同,它将上下文视为不断演化的操作手册,能够随时间不断累积、优化并组织策略。

基于Dynamic Cheatsheet的智能体设计,ACE把模型的 “上下文优化” 拆成分工明确的三个角色。

  • 生成器(Generator):负责生成推理轨迹;
  • 反思器(Reflector):负责从成功和错误中提炼具体见解;
  • 整理器(Curator):负责将这些见解整合到结构化的上下文更新中。



如上图所示,工作流程首先由生成器针对新查询生成推理轨迹,这些轨迹既能呈现有效策略,也会暴露常见错误。

随后,反思器对这些轨迹进行评析,从中提炼出经验教训,并可选择通过多轮迭代加以优化。

接着,整理器将这些经验合成为简洁的增量条目,再经由轻量级的非LLM逻辑,以确定性的方式将其合并至现有上下文中。

由于更新内容被逐项分解并局部化,多个增量得以并行合并,从而实现大规模的批量适应。

此外,ACE还支持多轮次适应机制,即对同一组查询进行反复学习,逐步强化上下文质量。

ACE在两大场景中全面超越基线

实验结果表明,在智能体和财务分析两大场景中,ACE稳定优于Base LLM(无适配)、ICL(少样本演示)、GEPA(主流prompt优化)、Dynamic Cheatsheet(动态备忘单)等方法。

在智能体测试中,研究团队采用的是AppWorld,它是一套自主智能体任务集合,涵盖API理解、代码生成和环境交互。

结果显示,ReAct+ACE相比ReAct+ICL和ReAct+GEPA分别领先12.3%和11.9%,优势显著。这表明,与固定的演示示例或单一优化指令提示相比,结构化、可演进且精细化的上下文能够更有效地促进智能体学习。

这一优势在在线场景中同样得以延续:ACE平均以7.6%的性能提升领先于Dynamic Cheatsheet等现有自适应方法。



在财务分析中,研究者选用FiNER和Formula来测评模型的金融推理能力,其任务依赖可扩展商业报告语言(XBRL)。

  • FiNER要求对XBRL财务文档中的token进行标注,将其归类为139种细粒度实体类型之一,这是在受监管领域进行金融信息抽取的关键步骤。
  • Formula则侧重于从结构化XBRL报告中提取数值,并通过计算回答金融查询,即进行数值推理任务。

在离线环境下,当模型获得训练集中的真实答案作为输入时,ACE以平均10.9%的优势明显超越了ICL、MIPROv2和GEPA。



此外,ACE在降低自适应成本(如尝试次数和token输入/生成的费用)与延迟方面展现出显著优势。

具体而言,在AppWorld的离线自适应任务中,与GEPA相比,ACE将自适应延迟降低了82.3%,并将尝试次数减少了75.1%。

在FiNER的在线自适应场景中,与DC相比,ACE实现了91.5%的自适应延迟降低,并在token输入与生成的相关费用上节省了83.6%。



华人出品

这项研究的两位一作都是华人。



Qizheng Zhang,斯坦福大学计算机科学系四年级博士生。此前在芝加哥大学获得了数学、计算机科学和统计学三个专业的学士学位。

本科期间,他就与Junchen Jiang和Ravi Netravali两位教授合作开展计算机网络研究,专注于面向视频流与分析的网络系统设计。

此外,他还在美国阿贡国家实验室数学与计算机科学部(MCS)和微软研究院实习过。



Changran Hu,本科毕业于清华大学,硕士毕业于加州大学伯克利分校。

20岁时,他就成为了一家AI音乐生成公司DeepMusic的联合创始人,成功获得来自中国顶级企业的1000万美元投资,并与多位中国流行歌手(如周杰伦、李健)建立合作。

随后,他以应用科学家实习生的身份加入微软,并于2021年成为Sambanova Systems研究工程师,随后晋升为技术主管兼经理,主要负责模型后训练与智能体AI相关研发工作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
张雪峰好兄弟曝内情泣不成声,人民日报悼念官媒定义,卫健委追责

张雪峰好兄弟曝内情泣不成声,人民日报悼念官媒定义,卫健委追责

潮鹿逐梦
2026-03-26 10:55:41
减仓!4000点有点难了

减仓!4000点有点难了

郭小凡财经
2026-03-26 09:06:21
丞相是丞相,宰相是宰相,两者一字之差却天壤之别,可别分不清楚

丞相是丞相,宰相是宰相,两者一字之差却天壤之别,可别分不清楚

观史搜寻着
2026-03-26 01:10:50
沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

素衣读史
2026-03-25 21:26:46
周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

回旋镖
2026-03-25 20:38:44
自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

老马拉车莫少装
2026-03-26 10:24:28
尊严不容践踏,对日打击必须是毁灭性的,绝不能手下留情!

尊严不容践踏,对日打击必须是毁灭性的,绝不能手下留情!

李光满说
2026-03-25 17:27:16
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

闪电新闻
2026-03-26 10:48:55
张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

枫红染山径
2026-03-25 16:56:22
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

离离言几许
2026-03-26 12:11:37
欧洲议会表决通过欧美贸易协议

欧洲议会表决通过欧美贸易协议

新京报
2026-03-26 18:39:20
2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

2012年,用U型锁砸日系车并重伤车主的蔡洋早已出狱,如今怎样了

谈史论天地
2026-03-25 09:57:09
黄金、白银,直线跳水!特朗普,大消息!

黄金、白银,直线跳水!特朗普,大消息!

证券时报e公司
2026-03-26 14:47:48
张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

古希腊掌管松饼的神
2026-03-26 16:52:30
不法之徒村田晃大,正面照曝光

不法之徒村田晃大,正面照曝光

新京报
2026-03-26 11:18:17
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
2026-03-26 19:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
家居
旅游
亲子
公开课

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版