网易首页 > 网易号 > 正文 申请入驻

5层进化:OpenAI把Agent调优成本压到0元,Karpathy却让它自己写代码

0
分享至


2024年,一个生产环境的客服Agent平均每周要经历12次人工干预。不是模型不够聪明,是 prompt 工程师的咖啡喝不过来了。

静态Agent的崩溃曲线很清晰:上线第一周处理80%的查询,第三周跌到60%,两个月后人类接管率超过40%。问题从来不是"能不能做",而是"能不能自己学会做更好"。

Level 1:Prompt调优——把人工循环变成自动循环

OpenAI的Self-Evolving Agents Cookbook把这个过程拆成了可复现的流水线。核心是一个VersionedPrompt类,每次迭代生成新版本,保留历史记录供回滚。

运行机制分三步:Grader给输出打分,Metaprompt Agent分析失败案例,生成优化后的新 prompt。整个循环跑完只需要几分钟,成本趋近于零。

「我们见过太多团队把三个月的人力调优压缩成三小时的自动运行。」这是Cookbook文档里的原话。

但 prompt 调优有天花板。当失败源于工具缺失或推理架构缺陷,再精致的指令也是让LLM「用更优雅的姿势犯错」。

Level 2:动态技能库——让Agent自己决定学什么

技能(Skill)在这里指可复用的工具集合:API调用、代码执行、多步骤推理模板。传统Agent的技能表是 deployment 时写死的,自进化版本允许Agent在运行时评估「我需要新工具吗」。

DSPy框架把这个逻辑做进了编译器。开发者描述任务,DSPy通过贝叶斯搜索生成候选 prompt,在验证集上评分,最终输出最优版本。更狠的是,它能把优化后的 prompt 「蒸馏」进更小的模型权重,让7B参数模型跑出接近70B的效果。

Stanford的TextGrad走了另一条路:把整个Agent视为可微分程序,用文本梯度(Textual Gradients)定位失败模式。不需要人工标注,失败案例本身就是训练信号。

这两个框架的共同点是——技能进化不再依赖产品经理的直觉,而是变成可量化的优化问题。

Level 3:代码与Harness进化——Karpathy的野路子

Andrej Karpathy的autoresearch项目把这个层级推向了极端:Agent不仅优化 prompt,还能重写自己的训练代码。

具体实现是 overnight 运行。Agent分析当天的失败日志,生成代码补丁,在隔离环境测试,通过验证后合并到主分支。整个过程不需要人类坐在旁边。

Harness指的是测试框架和评估流水线。自进化Agent会同时优化「做题能力」和「判题标准」,避免自我欺骗式的分数膨胀。

这个层级的风险很明显:代码生成错误可能导致级联故障。所以autoresearch强制要求沙箱隔离和人工审核关卡——进化可以自动,部署必须有人点头。

Level 4:RAG——当知识库成为瓶颈

很多Agent失败不是因为推理能力,而是因为「不知道」。RAG(检索增强生成,Retrieval-Augmented Generation)解决的是知识新鲜度和领域深度问题。

自进化在这里体现在两个维度:检索策略优化和知识库自动更新。Agent分析哪些查询频繁触发「我不知道」,主动发起网络搜索或文档抓取,把新信息注入向量数据库。

成本从中等开始——向量存储和Embedding调用都不便宜,但比 fine-tuning 便宜一个数量级。关键决策点是:失败源于知识缺失,还是知识有了但用不对?

AgentScope框架把这个判断做进了主循环。生产数据自动流入评估管道,持续触发或跳过RAG更新。

Level 5:LLM Fine-tuning——最后的核武器

当前面四层都失效,问题通常落在「推理风格」或「思维模式」层面。这时候需要动模型权重。

Fine-tuning的成本结构是:数据准备几天,训练几小时到几天,GPU账单从几百到几千美元。更重要的是,这是一个单向门——调好的模型很难「回滚」到之前的状态。

所以自进化系统在这里需要最严格的门控。不是「能跑就训」,而是累积足够多的高置信度失败案例,确认问题确实源于模型能力而非 prompt 或工具缺陷,才触发训练流水线。

AgentScope的自动化 fine-tuning 模块会先做小规模实验,验证损失下降曲线和下游任务指标,才放大到全量数据。

统一裁判:LLM Judge如何决定走哪条路

五个层级的核心矛盾是——每层都有适用场景,但人工判断太慢,固定规则太僵。解决方案是一个Master LLM Judge管道。

输入是当前失败的上下文:查询内容、Agent输出、Grader评分、历史干预记录。Judge输出两个决策:问题归类(prompt/技能/代码/知识/模型)和置信度分数。

置信度超过阈值,自动触发对应层级的进化代码;低于阈值,转人工分析。这个设计把「要不要进化」也变成了可优化的参数——Judge本身可以通过反馈数据迭代。

OpenAI Cookbook、DSPy、TextGrad、autoresearch、AgentScope——五个框架覆盖了从分钟级到天数级、从免费到昂贵的完整光谱。2026年的工程实践把它们统称为递归优化(Recursive Optimization)或自蒸馏(Self-Distillation),不再是论文概念,是跑在生产环境的 cron job。

一个尚未被回答的问题是:当Agent能自己改代码、自己训模型、自己决定要不要继续进化——人类工程师的干预阈值应该设在哪里?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
医生坦言:只要血脂报告里没有这2个词,血管健康就不用太担忧

医生坦言:只要血脂报告里没有这2个词,血管健康就不用太担忧

健康科普365
2026-04-07 11:35:05
费迪南德转发利马和勒温犯规对比图,并@裁判公司要求解释

费迪南德转发利马和勒温犯规对比图,并@裁判公司要求解释

懂球帝
2026-04-14 19:35:05
马斯克再放狠话:能建造出比中国任何公共交通系统,都更好的系统

马斯克再放狠话:能建造出比中国任何公共交通系统,都更好的系统

李詋穷游天下
2026-04-15 17:00:07
巴基斯坦下单了?120亿美元购买歼35、空警500和红旗19

巴基斯坦下单了?120亿美元购买歼35、空警500和红旗19

三叔的装备空间
2026-04-14 11:15:25
校方回应“演出服遭学生家长集体退货”:家长已确认收货,全额支付服装费用

校方回应“演出服遭学生家长集体退货”:家长已确认收货,全额支付服装费用

红星新闻
2026-04-14 12:20:23
功不可没,登贝莱把全场最佳奖杯献给恩里克

功不可没,登贝莱把全场最佳奖杯献给恩里克

懂球帝
2026-04-15 07:16:17
台专家警告:如果大陆武统台湾,将毁灭500个城市,1.4亿人死亡!

台专家警告:如果大陆武统台湾,将毁灭500个城市,1.4亿人死亡!

小嵩
2026-04-13 19:45:21
跳级3-0夺冠!国乒14岁新星进化:王皓盼来好苗子,看齐王楚钦?

跳级3-0夺冠!国乒14岁新星进化:王皓盼来好苗子,看齐王楚钦?

李喜林篮球绝杀
2026-04-15 18:37:16
台湾网友怕上海福建人在台打黑工,网友回怼:令人发笑!

台湾网友怕上海福建人在台打黑工,网友回怼:令人发笑!

虔青
2026-04-14 21:03:30
崔始源演「振动器意外」被喷上热搜,400万围观网友集体懵圈

崔始源演「振动器意外」被喷上热搜,400万围观网友集体懵圈

影视情报室
2026-04-13 08:18:09
国际乒联设百年荣誉榜,国乒仅入选3人,一邓亚萍二马龙,三是?

国际乒联设百年荣誉榜,国乒仅入选3人,一邓亚萍二马龙,三是?

格斗社
2026-04-15 16:51:15
"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

毒sir财经
2025-12-08 22:57:40
天后麦当娜:一生交往一百多猛男,与自己保镖欢爱视频,还被拍卖

天后麦当娜:一生交往一百多猛男,与自己保镖欢爱视频,还被拍卖

七阿姨爱八卦
2026-04-09 09:32:37
从2.9万/㎡跌到5千/㎡!总价20万抄底南沙收租?

从2.9万/㎡跌到5千/㎡!总价20万抄底南沙收租?

乐居财经官方
2026-04-14 17:34:59
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
博班:就这种后防线加上费兰这样的前锋,巴萨永远拿不到欧冠

博班:就这种后防线加上费兰这样的前锋,巴萨永远拿不到欧冠

懂球帝
2026-04-15 07:16:17
打了45天血战才明白!伊朗最大的敌人并不是美以,而是这些身边人

打了45天血战才明白!伊朗最大的敌人并不是美以,而是这些身边人

顾史
2026-04-15 10:29:52
外媒:中国展示运-30,称其性能超越目前世界上最好的战术运输机

外媒:中国展示运-30,称其性能超越目前世界上最好的战术运输机

混沌录
2026-04-14 17:28:17
哥大学生被下达“最终驱逐令”!曾是亲哈马斯学生领袖,被吊销绿卡

哥大学生被下达“最终驱逐令”!曾是亲哈马斯学生领袖,被吊销绿卡

大洛杉矶LA
2026-04-15 03:23:09
石宇奇全满贯的机会真的来了!对比林丹李宗伟 安赛龙退役确实太早了

石宇奇全满贯的机会真的来了!对比林丹李宗伟 安赛龙退役确实太早了

舟望停云
2026-04-15 18:01:22
2026-04-15 19:36:49
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
1383文章数 13关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

男生遭欺凌其父在调解室猝死 母亲:一家人都快抑郁了

头条要闻

男生遭欺凌其父在调解室猝死 母亲:一家人都快抑郁了

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

曾志伟办73岁生日派对,逾百艺人到场

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

家居
艺术
本地
游戏
公开课

家居要闻

简而不减 暖居之道

艺术要闻

这山水,荡涤胸中尘埃

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

《战神》新作是女性主角!网友暴怒:索尼搞女拳?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版