AI助手总犯同一个错？别急着换模型，微软开源“工作手册”，准确率飙升|编程|智能体

AI助手总犯同一个错？别急着换模型，微软开源“工作手册”，准确率飙升

2026-06-30 16:50:55　来源: 网易智能

北京举报

分享至

出品 | 网易智能

作者 | 小爪

编辑 | 王凤枝

用过Claude Code、Codex或其他AI编程助手的人，很容易遇到同一种卡点：你明明提醒过它一次，它下次还是会犯同一个错。

你说"写完要跑测试"，它这次照做了；换一个任务，又忘了。你补一条规则"别直接改配置文件"，它当场听懂了；过几天遇到类似场景，还要重新提醒。

面对这种情况，最直觉的反应是换一个更强的模型。微软研究院等团队开源的SkillOpt给了另一个答案：先别急着换模型，也许该训练的是AI助手每次执行前看的那份工作手册。

编程助手只是最容易感知这个问题的场景。SkillOpt的实验不只覆盖代码任务，也覆盖问答、表格、文档、多模态、数学和具身智能体。它真正讨论的是：模型每次执行任务前读取的流程性说明，能不能被测试、更新和回滚。

训练流程，不训练模型权重

SkillOpt项目页把核心理念概括为：训练流程，不训练权重。

这里的skill，更接近一份写给AI助手的工作标准操作流程：遇到某类任务时，先看什么、怎么查证、该用哪些工具、输出格式有什么要求、哪些坑不能再踩。

很多团队已经在这么做。项目里会放AGENTS.md、CLAUDE.md、SKILL.md，告诉模型这个仓库怎么工作、哪些命令要跑、哪些文件不能乱动、什么时候必须停下来问人。

问题是，这些文件通常靠人维护：出过一次事故，补一条规则；复盘发现遗漏，再改几句；等下次类似任务出错，才想起那条说明可能已经不够用了。它们能被模型读取，却未必被认真优化过。

SkillOpt把这份自然语言工作手册当成一个可以训练的对象。

目标模型和执行环境先固定不动，系统让模型带着当前skill去做一批任务，记录执行轨迹和得分；再由另一个优化模型分析成功和失败记录，提出对skill文件的增删改；最后把候选skill放到保留验证集上试，只有分数真的提高，才把这次修改留下。

这套流程听起来像机器学习训练，但最后被修改的不是模型权重，而是一份Markdown文件。

经验写下来，还不等于学会

很多智能体系统已经会从失败轨迹里写总结，把经验放进记忆库、反思记录或新提示词。但经验写进去，不代表下次一定会被正确使用。

所以SkillOpt给skill修改加了几道硬约束。

第一，修改有预算。 论文把每轮能改多少条skill设成一个"文本学习率"，防止优化模型一上来把整份文件重写。

第二，候选修改必须过验证门。 训练任务上看起来变好，不算数；只有在保留验证集上分数提高，这条修改才会进入当前版本。

第三，被拒绝的修改不会完全丢掉。 它们会进入"被拒编辑缓冲区"，变成后续优化时的反面经验：哪些改法看起来合理，实际会伤害表现。

第四，短期改动和长期模式分开处理。 系统不会让每一步都被局部结果牵着走，而是允许它在更长周期里吸收稳定经验。

SkillOpt的反常识之处在这里：AI助手变强，不一定只靠模型权重，也可能靠一份更会学习的工作手册。

实验结果：小手册也能拉开差距

论文里的实验结果需要放回原始评估范围里看。

SkillOpt在6个基准、7个目标模型和3种执行方式中做了52个被评估的组合。其中Codex和Claude Code这两类执行框架只覆盖5个适配任务，ALFWorld没有放进这两类框架。

按论文正文的总体汇总口径，在GPT-5.5上，相比不使用skill的基线，SkillOpt让直接对话平均准确率提升23.5个点；放进Codex agentic loop里提升24.8个点；放进Claude Code里提升19.1个点。

这些提升来自论文设定下的任务、模型和执行环境，不能直接下定论说"所有AI助手都能提升二十几个点"。 更稳妥的说法是：在这套测试里，一份经过验证的工作手册已经能明显影响智能体表现。

最终留下来的技能文件并不大。论文报告，6个基准里的best_skill.md长度从379到1995个token，中位数约920个token。真正被接受的修改也不多，每个基准只有1到4次提交进入最终skill，中位数2.5次。

这和很多人对"自进化agent"的想象不一样。它没有不断堆一大坨记忆，也没有把所有复盘都塞进提示词。 大部分候选修改被挡在验证门外，最后留下的是少量、可读、可审计的流程规则。

它学到的是工作纪律

论文展示过一些学出来的规则。它们不是某道题的答案，而是程序化的工作纪律。

换句话说，它学到的是"下次遇到类似问题时，先这样干"，不是"这道题选C"。

论文里给了更具体的例子。SpreadsheetBench任务中，优化后的skill会要求模型先检查workbook的结构和公式，再把计算后的静态值写入完整目标区域，而不是只依赖Excel重新计算。DocVQA任务里，它要求回答必须绑定到具体视觉区域。ALFWorld任务里，它会记录已经搜索过的位置，优先检查没去过的容器和表面，避免在同一批位置里反复打转。

这些规则的语气很接近人类写给同事的操作说明：直接、具体、带条件约束。它们不会空喊"提高准确率"，只告诉模型"先检查结构""不要只看预览""不要重复搜已耗尽的位置"。SkillOpt和普通长提示词的差别也在这里：候选规则要经过任务轨迹和验证门筛选，最后留下少量能稳定改善结果的动作规则。

论文还展示了两次运行细节。ALFWorld里，初始skill只是通用的"搜索目标、拿起、转换、放到目的地"策略；优化后增加了对象名称匹配、访问位置记忆、进度锁和避免重复验证的规则，测试表现从49.3提升到74.6。SpreadsheetBench里，初始skill已经会用Python处理表格，优化后进一步学会检查真实workbook、定位多sheet表头和目标区域、规范化key与单元格类型，并在保存后重新打开workbook检查边界行和空白结果，测试表现从40.4提升到78.9。

Prasenjit Sarkar在X上评论SkillOpt时写过一句话：模型没问题，有问题的是指令。

这句话解释了SkillOpt为什么戳中AI编程工具用户。当一个agent反复失败时，团队很容易说模型不够强。但在很多工程场景里，失败可能来自流程没有写清楚、工具使用顺序不稳定、验证步骤没有强制执行、输出格式没有约束。

换一个更大的模型当然可能有帮助。但如果流程文件本身无法被训练、验证和回滚，同样的问题还会出现。

它和手写规则文件差在哪

SkillOpt很容易让人联想到今天各种AI编程工具里的规则文件。Cursor有rules，Claude Code会读CLAUDE.md，Codex和很多agent harness也会读项目说明。它们解决的是同一个问题：模型进入一个项目之前，要先知道这里的工作方式。

手写规则文件的典型问题，是越写越长、互相打架、没人知道哪条真的有用。一条规则可能是某次事故后的临时补丁，也可能只是某个人的偏好。它被写进文件后，未必有人定期验证；失效了也不一定会被删掉。

SkillOpt的差别在于，它把"规则有没有用"放回任务表现里判断。 优化模型可以提议新增、删除或替换规则，但候选skill必须在保留验证集上变好才会留下。被拒绝的编辑还会进入"被拒编辑缓冲区"，提醒后续优化别再走同一条坏路。

这像是给AGENTS.md、CLAUDE.md、SKILL.md这类文件加了一层训练和验收机制：规则写进去之后，还要被任务证明；规则文件越积越厚之前，也要能删、能回滚、能解释为什么留下。

"人工采纳"为什么是必要的门槛

SkillOpt的论文发布于5月22日。GitHub README显示，项目在6月2日开放PyPI v0.1.0，6月15日预览SkillOpt-Sleep。Trendshift页面显示，截至6月30日，microsoft/SkillOpt已有约1万星。

SkillOpt-Sleep面向Claude Code、Codex、Copilot这类本地编码智能体，目标是在夜间复盘历史会话、离线重放高频任务，把通过验证门的经验整理成候选技能，并暂存给用户审阅采纳。

这让SkillOpt从论文里的基准测试，靠近了普通AI编程工具用户的一天： 白天让agent改代码、跑测试、处理重复任务；晚上系统把这一天的会话拿去离线复盘，找出反复出现的失败模式；第二天再给出一组可以审阅、接受或拒绝的候选skill，而不是把新规则自动写进项目。

如果这条路线成立，AI编程助手的"学习"就不会只发生在下一代模型发布时。 它也可能发生在团队自己的项目里：哪些命令总要跑，哪些目录不能碰，哪些检查反复漏掉，哪些输出格式总出错，都可以从真实任务里变成可验证的工作规则。

它还需要能打分的任务

SkillOpt还不是万能学习机。

论文自己也写了限制。它依赖可评分的执行轨迹和保留验证集，最适合那些有自动评测、精确匹配、可执行检查或可靠反馈信号的任务。

如果任务是开放式写作、复杂判断、审美偏好或多目标编辑，验证门就没那么简单。你很难只靠一个分数判断"当前skill是否真的更好"。这时可能还需要人工评估，或者更强的模型评审。

还有一个现实成本：训练这份skill本身要跑额外的执行轨迹，也要调用优化模型。它的部署成本很轻，但训练成本不是零。只有当同一类任务会被反复执行时，这笔前期优化成本才更容易摊薄。

另外，SkillOpt优化的是单一可移植skill，而不是庞大的技能库。对高度异质的工作流来说，一份通用技能可能不够；不同任务需要不同skill，skill之间还要版本管理、归属、回滚和审计。

团队协作会让这个问题更复杂。每个工程师都训练出自己的skill之后，项目需要区分哪些规则能合并到团队文件，哪些只能留在个人偏好里；规则互相冲突时，还要有人决定优先级；某条新规则提高了表格任务表现、却伤害了代码重构任务时，也要重新划分它的归属。SkillOpt论文还没有解决这些团队治理问题，但这类系统进入真实项目后绕不开它们。

所以，SkillOpt更像一个提醒：AI经验要稳定上线，不能只靠"记住了"，还要有触发、执行、验证和回滚。

AI的记忆，不能只靠写下来

Codex、Claude Code这类工具已经能根据说明来调整行为。下一步要追问的，不只是"再给它多写几条规则"，而是这些规则能不能被测试、被复用、被淘汰。

微软这篇论文没有改模型权重，也没有承诺让agent在所有任务里自动变强。但它提醒了一件很重要的事：AI助手的能力，不只藏在模型里，也藏在那份看似普通的工作手册里。

如果这份手册能被训练，AI agent的进步就不只靠下一代大模型发布，也可以来自每一次任务后的可验证复盘。