![]()
2024年,一个生产环境的客服Agent平均每周要经历12次人工干预。不是模型不够聪明,是 prompt 工程师的咖啡喝不过来了。
静态Agent的崩溃曲线很清晰:上线第一周处理80%的查询,第三周跌到60%,两个月后人类接管率超过40%。问题从来不是"能不能做",而是"能不能自己学会做更好"。
Level 1:Prompt调优——把人工循环变成自动循环
OpenAI的Self-Evolving Agents Cookbook把这个过程拆成了可复现的流水线。核心是一个VersionedPrompt类,每次迭代生成新版本,保留历史记录供回滚。
运行机制分三步:Grader给输出打分,Metaprompt Agent分析失败案例,生成优化后的新 prompt。整个循环跑完只需要几分钟,成本趋近于零。
「我们见过太多团队把三个月的人力调优压缩成三小时的自动运行。」这是Cookbook文档里的原话。
但 prompt 调优有天花板。当失败源于工具缺失或推理架构缺陷,再精致的指令也是让LLM「用更优雅的姿势犯错」。
Level 2:动态技能库——让Agent自己决定学什么
技能(Skill)在这里指可复用的工具集合:API调用、代码执行、多步骤推理模板。传统Agent的技能表是 deployment 时写死的,自进化版本允许Agent在运行时评估「我需要新工具吗」。
DSPy框架把这个逻辑做进了编译器。开发者描述任务,DSPy通过贝叶斯搜索生成候选 prompt,在验证集上评分,最终输出最优版本。更狠的是,它能把优化后的 prompt 「蒸馏」进更小的模型权重,让7B参数模型跑出接近70B的效果。
Stanford的TextGrad走了另一条路:把整个Agent视为可微分程序,用文本梯度(Textual Gradients)定位失败模式。不需要人工标注,失败案例本身就是训练信号。
这两个框架的共同点是——技能进化不再依赖产品经理的直觉,而是变成可量化的优化问题。
Level 3:代码与Harness进化——Karpathy的野路子
Andrej Karpathy的autoresearch项目把这个层级推向了极端:Agent不仅优化 prompt,还能重写自己的训练代码。
具体实现是 overnight 运行。Agent分析当天的失败日志,生成代码补丁,在隔离环境测试,通过验证后合并到主分支。整个过程不需要人类坐在旁边。
Harness指的是测试框架和评估流水线。自进化Agent会同时优化「做题能力」和「判题标准」,避免自我欺骗式的分数膨胀。
这个层级的风险很明显:代码生成错误可能导致级联故障。所以autoresearch强制要求沙箱隔离和人工审核关卡——进化可以自动,部署必须有人点头。
Level 4:RAG——当知识库成为瓶颈
很多Agent失败不是因为推理能力,而是因为「不知道」。RAG(检索增强生成,Retrieval-Augmented Generation)解决的是知识新鲜度和领域深度问题。
自进化在这里体现在两个维度:检索策略优化和知识库自动更新。Agent分析哪些查询频繁触发「我不知道」,主动发起网络搜索或文档抓取,把新信息注入向量数据库。
成本从中等开始——向量存储和Embedding调用都不便宜,但比 fine-tuning 便宜一个数量级。关键决策点是:失败源于知识缺失,还是知识有了但用不对?
AgentScope框架把这个判断做进了主循环。生产数据自动流入评估管道,持续触发或跳过RAG更新。
Level 5:LLM Fine-tuning——最后的核武器
当前面四层都失效,问题通常落在「推理风格」或「思维模式」层面。这时候需要动模型权重。
Fine-tuning的成本结构是:数据准备几天,训练几小时到几天,GPU账单从几百到几千美元。更重要的是,这是一个单向门——调好的模型很难「回滚」到之前的状态。
所以自进化系统在这里需要最严格的门控。不是「能跑就训」,而是累积足够多的高置信度失败案例,确认问题确实源于模型能力而非 prompt 或工具缺陷,才触发训练流水线。
AgentScope的自动化 fine-tuning 模块会先做小规模实验,验证损失下降曲线和下游任务指标,才放大到全量数据。
统一裁判:LLM Judge如何决定走哪条路
五个层级的核心矛盾是——每层都有适用场景,但人工判断太慢,固定规则太僵。解决方案是一个Master LLM Judge管道。
输入是当前失败的上下文:查询内容、Agent输出、Grader评分、历史干预记录。Judge输出两个决策:问题归类(prompt/技能/代码/知识/模型)和置信度分数。
置信度超过阈值,自动触发对应层级的进化代码;低于阈值,转人工分析。这个设计把「要不要进化」也变成了可优化的参数——Judge本身可以通过反馈数据迭代。
OpenAI Cookbook、DSPy、TextGrad、autoresearch、AgentScope——五个框架覆盖了从分钟级到天数级、从免费到昂贵的完整光谱。2026年的工程实践把它们统称为递归优化(Recursive Optimization)或自蒸馏(Self-Distillation),不再是论文概念,是跑在生产环境的 cron job。
一个尚未被回答的问题是:当Agent能自己改代码、自己训模型、自己决定要不要继续进化——人类工程师的干预阈值应该设在哪里?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.