网易首页 > 网易号 > 正文 申请入驻

斯坦福新论文:微调已死,自主上下文当立

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

是时候为传统微调献上挽歌了。

一项全新研究,刚刚又给微调致命一击。

来自斯坦福大学、SambaNova Systems公司和加州大学伯克利分校的研究人员,在新论文中证明:

依靠上下文工程,无需调整任何权重,模型也能不断变聪明。



他们提出的方法名为智能体上下文工程ACE

ACE不依赖模型重新训练,而是让上下文自主进化,通过反复生成、反思并编辑自己的提示,直至成为一个自我完善的系统。

在智能体和特定领域的基准测试中,ACE能同时优化离线上下文(如system prompt)和在线上下文(如agent memory),并稳定优于强力基线模型。



下面具体来看。

ACE框架

现在很多AI应用(比如自动处理财务数据的工具、能调用APP的智能助手)都靠 “上下文适配” 来提升能力。

简单来说,就是不给模型改底层参数,而是在输入里加指令、策略或证据,但老方法有两个大问题:

简洁偏置

为了让输入简短,把关键细节丢了。比如只说 “处理财务数据”,却没说 “要按XBRL格式核对数值”,导致模型犯错。

上下文崩溃

反复修改输入时,模型会把之前积累的有用信息越改越短、越改越没用。比如原本有1.8万个token的实用策略,准确率为66.7,改一次就剩122个token,效果却下降到57.1。



ACE就是为了解决这两个问题来的,与将知识压缩为简短摘要或静态指令的方法不同,它将上下文视为不断演化的操作手册,能够随时间不断累积、优化并组织策略。

基于Dynamic Cheatsheet的智能体设计,ACE把模型的 “上下文优化” 拆成分工明确的三个角色。

  • 生成器(Generator):负责生成推理轨迹;
  • 反思器(Reflector):负责从成功和错误中提炼具体见解;
  • 整理器(Curator):负责将这些见解整合到结构化的上下文更新中。



如上图所示,工作流程首先由生成器针对新查询生成推理轨迹,这些轨迹既能呈现有效策略,也会暴露常见错误。

随后,反思器对这些轨迹进行评析,从中提炼出经验教训,并可选择通过多轮迭代加以优化。

接着,整理器将这些经验合成为简洁的增量条目,再经由轻量级的非LLM逻辑,以确定性的方式将其合并至现有上下文中。

由于更新内容被逐项分解并局部化,多个增量得以并行合并,从而实现大规模的批量适应。

此外,ACE还支持多轮次适应机制,即对同一组查询进行反复学习,逐步强化上下文质量。

ACE在两大场景中全面超越基线

实验结果表明,在智能体和财务分析两大场景中,ACE稳定优于Base LLM(无适配)、ICL(少样本演示)、GEPA(主流prompt优化)、Dynamic Cheatsheet(动态备忘单)等方法。

在智能体测试中,研究团队采用的是AppWorld,它是一套自主智能体任务集合,涵盖API理解、代码生成和环境交互。

结果显示,ReAct+ACE相比ReAct+ICL和ReAct+GEPA分别领先12.3%和11.9%,优势显著。这表明,与固定的演示示例或单一优化指令提示相比,结构化、可演进且精细化的上下文能够更有效地促进智能体学习。

这一优势在在线场景中同样得以延续:ACE平均以7.6%的性能提升领先于Dynamic Cheatsheet等现有自适应方法。



在财务分析中,研究者选用FiNER和Formula来测评模型的金融推理能力,其任务依赖可扩展商业报告语言(XBRL)。

  • FiNER要求对XBRL财务文档中的token进行标注,将其归类为139种细粒度实体类型之一,这是在受监管领域进行金融信息抽取的关键步骤。
  • Formula则侧重于从结构化XBRL报告中提取数值,并通过计算回答金融查询,即进行数值推理任务。

在离线环境下,当模型获得训练集中的真实答案作为输入时,ACE以平均10.9%的优势明显超越了ICL、MIPROv2和GEPA。



此外,ACE在降低自适应成本(如尝试次数和token输入/生成的费用)与延迟方面展现出显著优势。

具体而言,在AppWorld的离线自适应任务中,与GEPA相比,ACE将自适应延迟降低了82.3%,并将尝试次数减少了75.1%。

在FiNER的在线自适应场景中,与DC相比,ACE实现了91.5%的自适应延迟降低,并在token输入与生成的相关费用上节省了83.6%。



华人出品

这项研究的两位一作都是华人。



Qizheng Zhang,斯坦福大学计算机科学系四年级博士生。此前在芝加哥大学获得了数学、计算机科学和统计学三个专业的学士学位。

本科期间,他就与Junchen Jiang和Ravi Netravali两位教授合作开展计算机网络研究,专注于面向视频流与分析的网络系统设计。

此外,他还在美国阿贡国家实验室数学与计算机科学部(MCS)和微软研究院实习过。



Changran Hu,本科毕业于清华大学,硕士毕业于加州大学伯克利分校。

20岁时,他就成为了一家AI音乐生成公司DeepMusic的联合创始人,成功获得来自中国顶级企业的1000万美元投资,并与多位中国流行歌手(如周杰伦、李健)建立合作。

随后,他以应用科学家实习生的身份加入微软,并于2021年成为Sambanova Systems研究工程师,随后晋升为技术主管兼经理,主要负责模型后训练与智能体AI相关研发工作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荷兰没料到已完全失控!欧美准备收割中国的壁垒:成为框死自己牢笼

荷兰没料到已完全失控!欧美准备收割中国的壁垒:成为框死自己牢笼

星辰大海路上的种花家
2025-11-04 08:37:35
减肥的尽头是提代谢!5个办法让代谢飙升20%

减肥的尽头是提代谢!5个办法让代谢飙升20%

增肌减脂
2025-11-03 17:00:24
知名品牌突然宣布:中国门店将全部关闭!

知名品牌突然宣布:中国门店将全部关闭!

鲁中晨报
2025-11-03 22:15:03
生死一战!广州豹末轮赢球=冲超?57分奇迹只待主场猎杀

生死一战!广州豹末轮赢球=冲超?57分奇迹只待主场猎杀

中山印象体育摄影师
2025-11-03 13:34:50
定了!火箭对独行侠,休城主力前锋缺阵,伤势不严重,或只休1场

定了!火箭对独行侠,休城主力前锋缺阵,伤势不严重,或只休1场

熊哥爱篮球
2025-11-04 08:30:03
烧成骨架的残骸,开始反噬电车行业,吹牛造成的恶果

烧成骨架的残骸,开始反噬电车行业,吹牛造成的恶果

柏铭锐谈
2025-10-31 16:38:05
16岁少年在未管所遭殴打致死案一审宣判:同监区3名罪犯获刑,最高被判死缓

16岁少年在未管所遭殴打致死案一审宣判:同监区3名罪犯获刑,最高被判死缓

红星新闻
2025-11-02 21:41:21
太古里偶遇马筱梅孕味藏不住,玥儿遮脸神似大S,霖霖急着要直播

太古里偶遇马筱梅孕味藏不住,玥儿遮脸神似大S,霖霖急着要直播

鑫鑫说说
2025-11-04 09:19:51
荷兰与广州同为1800多万人,荷兰创造1.22万亿GDP,广州令人意外

荷兰与广州同为1800多万人,荷兰创造1.22万亿GDP,广州令人意外

近史谈
2025-11-01 16:36:25
心爱的硅胶娃娃被室友锁上门猛干,男子“抓奸在床”气哭报警获赔7766元

心爱的硅胶娃娃被室友锁上门猛干,男子“抓奸在床”气哭报警获赔7766元

可达鸭面面观
2025-10-11 15:09:06
闺蜜让我当心男友,我婚前把房子卖了,婚后第3天婆婆露出真面目

闺蜜让我当心男友,我婚前把房子卖了,婚后第3天婆婆露出真面目

农村情感故事
2025-10-12 18:26:37
安帅:世界杯名单基本已定17-18人;世界杯集训只会带26人

安帅:世界杯名单基本已定17-18人;世界杯集训只会带26人

懂球帝
2025-11-04 05:09:27
活久见!山东一宝马汽车“穿棉袄”,网友:天冷,别冻着我的活爹

活久见!山东一宝马汽车“穿棉袄”,网友:天冷,别冻着我的活爹

火山诗话
2025-11-01 13:41:41
1只就判刑!2022年,四川男子风干14755只,值两千多万

1只就判刑!2022年,四川男子风干14755只,值两千多万

万象硬核本尊
2025-09-10 21:20:34
第一次感受到维C“杀伤力”,2块钱解决这么多麻烦事,简直无敌了

第一次感受到维C“杀伤力”,2块钱解决这么多麻烦事,简直无敌了

Home范
2025-09-30 13:30:13
A股:人民日报重磅发布,证监会高压护航,周二将迎来新的变化?

A股:人民日报重磅发布,证监会高压护航,周二将迎来新的变化?

云鹏叙事
2025-11-04 00:00:02
东契奇把乔丹上限拉高4分!NBA77年神迹即将被破,詹皇安心当老三

东契奇把乔丹上限拉高4分!NBA77年神迹即将被破,詹皇安心当老三

嘴炮体坛
2025-11-03 15:38:24
瑜伽裤与针织衫的融合,收腰提臀显身材,小姐姐气质不是一般的好

瑜伽裤与针织衫的融合,收腰提臀显身材,小姐姐气质不是一般的好

小乔古装汉服
2025-10-29 17:44:02
退休后才发现:大多数退休老人不旅游,去旅游的往 往是这3类人!

退休后才发现:大多数退休老人不旅游,去旅游的往 往是这3类人!

户外钓鱼哥阿勇
2025-11-04 09:10:54
1982年,杜义德主动提出辞职,邓小平生气道:我都不急,你急什么

1982年,杜义德主动提出辞职,邓小平生气道:我都不急,你急什么

简史档案馆
2025-11-03 11:05:03
2025-11-04 11:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
11620文章数 176322关注度
往期回顾 全部

科技要闻

OpenAI“杀”疯了!又一笔380亿大单

头条要闻

阿里员工离职创业 把DeepSeek"装"进毛绒玩具年入过亿

头条要闻

阿里员工离职创业 把DeepSeek"装"进毛绒玩具年入过亿

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

《繁花》录音事件完整版长达43分钟

财经要闻

作价40亿美元!星巴克中国易主

汽车要闻

上汽旗舰智己LS9首发评测 可能是最好开的9系SUV

态度原创

教育
旅游
数码
手机
军事航空

教育要闻

英文版傲慢与偏见语音课02

旅游要闻

“粤享暖冬 乐游广东”消费季启动 冬天去哪里? 梗係广东啦!

数码要闻

小米占比超60%,华为第二,荣耀第三

手机要闻

双11旗舰首选!一加15性能Ultra重磅开售,3999元起解锁全能体验

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版