网易首页 > 网易科技 > 网易科技 > 正文

AI助手总犯同一个错?别急着换模型,微软开源“工作手册”,准确率飙升

0
分享至

出品 | 网易智能

作者 | 小爪

编辑 | 王凤枝

用过Claude Code、Codex或其他AI编程助手的人,很容易遇到同一种卡点:你明明提醒过它一次,它下次还是会犯同一个错。

你说"写完要跑测试",它这次照做了;换一个任务,又忘了。你补一条规则"别直接改配置文件",它当场听懂了;过几天遇到类似场景,还要重新提醒。

面对这种情况,最直觉的反应是换一个更强的模型。微软研究院等团队开源的SkillOpt给了另一个答案:先别急着换模型,也许该训练的是AI助手每次执行前看的那份工作手册。

编程助手只是最容易感知这个问题的场景。SkillOpt的实验不只覆盖代码任务,也覆盖问答、表格、文档、多模态、数学和具身智能体它真正讨论的是:模型每次执行任务前读取的流程性说明,能不能被测试、更新和回滚。

训练流程,不训练模型权重

SkillOpt项目页把核心理念概括为:训练流程,不训练权重。

这里的skill,更接近一份写给AI助手的工作标准操作流程:遇到某类任务时,先看什么、怎么查证、该用哪些工具、输出格式有什么要求、哪些坑不能再踩。

很多团队已经在这么做。项目里会放AGENTS.md、CLAUDE.md、SKILL.md,告诉模型这个仓库怎么工作、哪些命令要跑、哪些文件不能乱动、什么时候必须停下来问人。

问题是,这些文件通常靠人维护:出过一次事故,补一条规则;复盘发现遗漏,再改几句;等下次类似任务出错,才想起那条说明可能已经不够用了。它们能被模型读取,却未必被认真优化过。

SkillOpt把这份自然语言工作手册当成一个可以训练的对象。

目标模型和执行环境先固定不动,系统让模型带着当前skill去做一批任务,记录执行轨迹和得分;再由另一个优化模型分析成功和失败记录,提出对skill文件的增删改;最后把候选skill放到保留验证集上试,只有分数真的提高,才把这次修改留下。

这套流程听起来像机器学习训练,但最后被修改的不是模型权重,而是一份Markdown文件。

经验写下来,还不等于学会

很多智能体系统已经会从失败轨迹里写总结,把经验放进记忆库、反思记录或新提示词。但经验写进去,不代表下次一定会被正确使用。

所以SkillOpt给skill修改加了几道硬约束。

第一,修改有预算。 论文把每轮能改多少条skill设成一个"文本学习率",防止优化模型一上来把整份文件重写。

第二,候选修改必须过验证门。 训练任务上看起来变好,不算数;只有在保留验证集上分数提高,这条修改才会进入当前版本。

第三,被拒绝的修改不会完全丢掉。 它们会进入"被拒编辑缓冲区",变成后续优化时的反面经验:哪些改法看起来合理,实际会伤害表现。

第四,短期改动和长期模式分开处理。 系统不会让每一步都被局部结果牵着走,而是允许它在更长周期里吸收稳定经验。

SkillOpt的反常识之处在这里:AI助手变强,不一定只靠模型权重,也可能靠一份更会学习的工作手册。

实验结果:小手册也能拉开差距

论文里的实验结果需要放回原始评估范围里看。

SkillOpt在6个基准、7个目标模型和3种执行方式中做了52个被评估的组合。其中Codex和Claude Code这两类执行框架只覆盖5个适配任务,ALFWorld没有放进这两类框架。

按论文正文的总体汇总口径,在GPT-5.5上,相比不使用skill的基线,SkillOpt让直接对话平均准确率提升23.5个点;放进Codex agentic loop里提升24.8个点;放进Claude Code里提升19.1个点。

这些提升来自论文设定下的任务、模型和执行环境,不能直接下定论说"所有AI助手都能提升二十几个点"。 更稳妥的说法是:在这套测试里,一份经过验证的工作手册已经能明显影响智能体表现。

最终留下来的技能文件并不大。论文报告,6个基准里的best_skill.md长度从379到1995个token,中位数约920个token。真正被接受的修改也不多,每个基准只有1到4次提交进入最终skill,中位数2.5次。

这和很多人对"自进化agent"的想象不一样。它没有不断堆一大坨记忆,也没有把所有复盘都塞进提示词。 大部分候选修改被挡在验证门外,最后留下的是少量、可读、可审计的流程规则。

它学到的是工作纪律

论文展示过一些学出来的规则。它们不是某道题的答案,而是程序化的工作纪律。

换句话说,它学到的是"下次遇到类似问题时,先这样干",不是"这道题选C"。

论文里给了更具体的例子。SpreadsheetBench任务中,优化后的skill会要求模型先检查workbook的结构和公式,再把计算后的静态值写入完整目标区域,而不是只依赖Excel重新计算。DocVQA任务里,它要求回答必须绑定到具体视觉区域。ALFWorld任务里,它会记录已经搜索过的位置,优先检查没去过的容器和表面,避免在同一批位置里反复打转。

这些规则的语气很接近人类写给同事的操作说明:直接、具体、带条件约束。它们不会空喊"提高准确率",只告诉模型"先检查结构""不要只看预览""不要重复搜已耗尽的位置"。SkillOpt和普通长提示词的差别也在这里:候选规则要经过任务轨迹和验证门筛选,最后留下少量能稳定改善结果的动作规则。

论文还展示了两次运行细节。ALFWorld里,初始skill只是通用的"搜索目标、拿起、转换、放到目的地"策略;优化后增加了对象名称匹配、访问位置记忆、进度锁和避免重复验证的规则,测试表现从49.3提升到74.6。SpreadsheetBench里,初始skill已经会用Python处理表格,优化后进一步学会检查真实workbook、定位多sheet表头和目标区域、规范化key与单元格类型,并在保存后重新打开workbook检查边界行和空白结果,测试表现从40.4提升到78.9。

Prasenjit Sarkar在X上评论SkillOpt时写过一句话:模型没问题,有问题的是指令。

这句话解释了SkillOpt为什么戳中AI编程工具用户。当一个agent反复失败时,团队很容易说模型不够强。但在很多工程场景里,失败可能来自流程没有写清楚、工具使用顺序不稳定、验证步骤没有强制执行、输出格式没有约束。

换一个更大的模型当然可能有帮助。但如果流程文件本身无法被训练、验证和回滚,同样的问题还会出现。

它和手写规则文件差在哪

SkillOpt很容易让人联想到今天各种AI编程工具里的规则文件。Cursor有rules,Claude Code会读CLAUDE.md,Codex和很多agent harness也会读项目说明。它们解决的是同一个问题:模型进入一个项目之前,要先知道这里的工作方式。

手写规则文件的典型问题,是越写越长、互相打架、没人知道哪条真的有用。一条规则可能是某次事故后的临时补丁,也可能只是某个人的偏好。它被写进文件后,未必有人定期验证;失效了也不一定会被删掉。

SkillOpt的差别在于,它把"规则有没有用"放回任务表现里判断。 优化模型可以提议新增、删除或替换规则,但候选skill必须在保留验证集上变好才会留下。被拒绝的编辑还会进入"被拒编辑缓冲区",提醒后续优化别再走同一条坏路。

这像是给AGENTS.md、CLAUDE.md、SKILL.md这类文件加了一层训练和验收机制:规则写进去之后,还要被任务证明;规则文件越积越厚之前,也要能删、能回滚、能解释为什么留下。

"人工采纳"为什么是必要的门槛

SkillOpt的论文发布于5月22日。GitHub README显示,项目在6月2日开放PyPI v0.1.0,6月15日预览SkillOpt-Sleep。Trendshift页面显示,截至6月30日,microsoft/SkillOpt已有约1万星。

SkillOpt-Sleep面向Claude Code、Codex、Copilot这类本地编码智能体,目标是在夜间复盘历史会话、离线重放高频任务,把通过验证门的经验整理成候选技能,并暂存给用户审阅采纳。

这让SkillOpt从论文里的基准测试,靠近了普通AI编程工具用户的一天: 白天让agent改代码、跑测试、处理重复任务;晚上系统把这一天的会话拿去离线复盘,找出反复出现的失败模式;第二天再给出一组可以审阅、接受或拒绝的候选skill,而不是把新规则自动写进项目。

如果这条路线成立,AI编程助手的"学习"就不会只发生在下一代模型发布时。 它也可能发生在团队自己的项目里:哪些命令总要跑,哪些目录不能碰,哪些检查反复漏掉,哪些输出格式总出错,都可以从真实任务里变成可验证的工作规则。

它还需要能打分的任务

SkillOpt还不是万能学习机。

论文自己也写了限制。它依赖可评分的执行轨迹和保留验证集,最适合那些有自动评测、精确匹配、可执行检查或可靠反馈信号的任务。

如果任务是开放式写作、复杂判断、审美偏好或多目标编辑,验证门就没那么简单。你很难只靠一个分数判断"当前skill是否真的更好"。这时可能还需要人工评估,或者更强的模型评审。

还有一个现实成本:训练这份skill本身要跑额外的执行轨迹,也要调用优化模型。它的部署成本很轻,但训练成本不是零。只有当同一类任务会被反复执行时,这笔前期优化成本才更容易摊薄。

另外,SkillOpt优化的是单一可移植skill,而不是庞大的技能库。对高度异质的工作流来说,一份通用技能可能不够;不同任务需要不同skill,skill之间还要版本管理、归属、回滚和审计。

团队协作会让这个问题更复杂。每个工程师都训练出自己的skill之后,项目需要区分哪些规则能合并到团队文件,哪些只能留在个人偏好里;规则互相冲突时,还要有人决定优先级;某条新规则提高了表格任务表现、却伤害了代码重构任务时,也要重新划分它的归属。SkillOpt论文还没有解决这些团队治理问题,但这类系统进入真实项目后绕不开它们。

所以,SkillOpt更像一个提醒:AI经验要稳定上线,不能只靠"记住了",还要有触发、执行、验证和回滚。

AI的记忆,不能只靠写下来

Codex、Claude Code这类工具已经能根据说明来调整行为。下一步要追问的,不只是"再给它多写几条规则",而是这些规则能不能被测试、被复用、被淘汰。

微软这篇论文没有改模型权重,也没有承诺让agent在所有任务里自动变强。但它提醒了一件很重要的事:AI助手的能力,不只藏在模型里,也藏在那份看似普通的工作手册里。

如果这份手册能被训练,AI agent的进步就不只靠下一代大模型发布,也可以来自每一次任务后的可验证复盘。

相关推荐
热点推荐
马苏:11年青春喂了狗,一张照片毁掉半生

马苏:11年青春喂了狗,一张照片毁掉半生

带你逛体坛
2026-06-30 16:37:25
瞒不住了!台海都是假象,美国真正的恶仗,已经打到中国家门口

瞒不住了!台海都是假象,美国真正的恶仗,已经打到中国家门口

小樾说历史
2026-06-28 12:04:30
1978年,邱清泉之子邱国渭,以蚂蚁搬家方式将全家送往美国

1978年,邱清泉之子邱国渭,以蚂蚁搬家方式将全家送往美国

历史点行
2026-06-09 16:01:55
炒币巨亏2.8亿最后盈利5亿,套现离场美图,蔡文胜在下什么大棋?

炒币巨亏2.8亿最后盈利5亿,套现离场美图,蔡文胜在下什么大棋?

李砍柴
2026-06-29 17:36:33
让北宋头痛不已的“契丹”,是现在的哪个民族,说出来你或许不信

让北宋头痛不已的“契丹”,是现在的哪个民族,说出来你或许不信

芳芳历史烩
2026-06-30 12:46:45
伊朗副外长:本周在多哈进行伊美技术性谈判不属实

伊朗副外长:本周在多哈进行伊美技术性谈判不属实

新京报
2026-06-29 18:21:29
俄袭乌造成133名人伤亡,美媒爆大瓜:俄新兵战场存活时间30分钟

俄袭乌造成133名人伤亡,美媒爆大瓜:俄新兵战场存活时间30分钟

史政先锋
2026-06-30 18:18:03
俞敏洪抛出惊人言论:我有两个大学男同学已经死了,都是家庭条件很好,但俩人没有抵抗挫折和不幸的能力

俞敏洪抛出惊人言论:我有两个大学男同学已经死了,都是家庭条件很好,但俩人没有抵抗挫折和不幸的能力

心理观察局
2026-06-03 07:17:10
国内“高端油车”第一名:地位依旧稳固,一个月销量超9900台

国内“高端油车”第一名:地位依旧稳固,一个月销量超9900台

柳先说
2026-06-29 21:42:42
WTT美国大满贯:男单大爆冷!世界冠军2:3东道主,国乒4人被淘汰

WTT美国大满贯:男单大爆冷!世界冠军2:3东道主,国乒4人被淘汰

国乒二三事
2026-06-30 10:50:12
安切洛蒂:我们从来没有想过不能扳平;日本队非常值得尊重

安切洛蒂:我们从来没有想过不能扳平;日本队非常值得尊重

懂球帝
2026-06-30 06:04:01
海尔、美的、格力回应欧洲空调需求激增

海尔、美的、格力回应欧洲空调需求激增

中国能源网
2026-06-30 09:44:04
刚刚,韩红公开发文致歉:随口一句“走个面”,确实过于轻率随意,对此我深感自责!

刚刚,韩红公开发文致歉:随口一句“走个面”,确实过于轻率随意,对此我深感自责!

都市快报橙柿互动
2026-06-30 18:53:59
韩国球迷表态,主帅洪明甫受中国影响,把中国战术带入韩国体系

韩国球迷表态,主帅洪明甫受中国影响,把中国战术带入韩国体系

体坛狗哥
2026-06-29 21:29:04
林志颖捂了12年的kimi,首次公开正面照,网友:这脸,判若俩人……

林志颖捂了12年的kimi,首次公开正面照,网友:这脸,判若俩人……

可读
2026-06-25 23:21:52
台湾问题即将突破临界点,两大迹象表明,大陆或要准备出手了?

台湾问题即将突破临界点,两大迹象表明,大陆或要准备出手了?

铭记历史呀
2026-06-29 16:49:31
吉马良斯:日本队整场都处于防守状态,但他们确实进步了很多

吉马良斯:日本队整场都处于防守状态,但他们确实进步了很多

懂球帝
2026-06-30 04:25:07
安切洛蒂胆子真大?巴西踢日本敢一分钟都不让内马尔上,真相来了

安切洛蒂胆子真大?巴西踢日本敢一分钟都不让内马尔上,真相来了

云隐南山
2026-06-30 13:31:26
心理学:一个男的一旦跟婚外的女人睡过了,他就很难再死心塌地爱自己老婆了,别不信

心理学:一个男的一旦跟婚外的女人睡过了,他就很难再死心塌地爱自己老婆了,别不信

心理观察局
2026-06-30 07:04:26
即将在世界杯对决,佛得角门将告诉华商:我们不怕阿根廷队

即将在世界杯对决,佛得角门将告诉华商:我们不怕阿根廷队

澎湃新闻
2026-06-30 17:28:36
2026-06-30 19:35:00

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

无人机攻防正酣 乌克兰却在此时给俄罗斯出了个难题

头条要闻

无人机攻防正酣 乌克兰却在此时给俄罗斯出了个难题

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

家居
亲子
游戏
房产
军事航空

家居要闻

传奇筑 日常诗

亲子要闻

宝蓝画完画不洗手就去吃饭,被爸爸拉着去洗手不准吃东西。

《斯普拉遁:涂击队》直面会今晚举行 时长15分钟

房产要闻

等了三年!改善顶流实景交付,海口标杆的的答卷来了!

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版
×