网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

5层进化：OpenAI把Agent调优成本压到0元，Karpathy却让它自己写代码

2026-04-14 08:59:30　来源: 爬虫饲养员

北京举报

0

分享至

2024年，一个生产环境的客服Agent平均每周要经历12次人工干预。不是模型不够聪明，是 prompt 工程师的咖啡喝不过来了。

静态Agent的崩溃曲线很清晰：上线第一周处理80%的查询，第三周跌到60%，两个月后人类接管率超过40%。问题从来不是"能不能做"，而是"能不能自己学会做更好"。

Level 1：Prompt调优——把人工循环变成自动循环

OpenAI的Self-Evolving Agents Cookbook把这个过程拆成了可复现的流水线。核心是一个VersionedPrompt类，每次迭代生成新版本，保留历史记录供回滚。

运行机制分三步：Grader给输出打分，Metaprompt Agent分析失败案例，生成优化后的新 prompt。整个循环跑完只需要几分钟，成本趋近于零。

「我们见过太多团队把三个月的人力调优压缩成三小时的自动运行。」这是Cookbook文档里的原话。

但 prompt 调优有天花板。当失败源于工具缺失或推理架构缺陷，再精致的指令也是让LLM「用更优雅的姿势犯错」。

Level 2：动态技能库——让Agent自己决定学什么

技能（Skill）在这里指可复用的工具集合：API调用、代码执行、多步骤推理模板。传统Agent的技能表是 deployment 时写死的，自进化版本允许Agent在运行时评估「我需要新工具吗」。

DSPy框架把这个逻辑做进了编译器。开发者描述任务，DSPy通过贝叶斯搜索生成候选 prompt，在验证集上评分，最终输出最优版本。更狠的是，它能把优化后的 prompt 「蒸馏」进更小的模型权重，让7B参数模型跑出接近70B的效果。

Stanford的TextGrad走了另一条路：把整个Agent视为可微分程序，用文本梯度（Textual Gradients）定位失败模式。不需要人工标注，失败案例本身就是训练信号。

这两个框架的共同点是——技能进化不再依赖产品经理的直觉，而是变成可量化的优化问题。

Level 3：代码与Harness进化——Karpathy的野路子

Andrej Karpathy的autoresearch项目把这个层级推向了极端：Agent不仅优化 prompt，还能重写自己的训练代码。

具体实现是 overnight 运行。Agent分析当天的失败日志，生成代码补丁，在隔离环境测试，通过验证后合并到主分支。整个过程不需要人类坐在旁边。

Harness指的是测试框架和评估流水线。自进化Agent会同时优化「做题能力」和「判题标准」，避免自我欺骗式的分数膨胀。

这个层级的风险很明显：代码生成错误可能导致级联故障。所以autoresearch强制要求沙箱隔离和人工审核关卡——进化可以自动，部署必须有人点头。

Level 4：RAG——当知识库成为瓶颈

很多Agent失败不是因为推理能力，而是因为「不知道」。RAG（检索增强生成，Retrieval-Augmented Generation）解决的是知识新鲜度和领域深度问题。

自进化在这里体现在两个维度：检索策略优化和知识库自动更新。Agent分析哪些查询频繁触发「我不知道」，主动发起网络搜索或文档抓取，把新信息注入向量数据库。

成本从中等开始——向量存储和Embedding调用都不便宜，但比 fine-tuning 便宜一个数量级。关键决策点是：失败源于知识缺失，还是知识有了但用不对？

AgentScope框架把这个判断做进了主循环。生产数据自动流入评估管道，持续触发或跳过RAG更新。

Level 5：LLM Fine-tuning——最后的核武器

当前面四层都失效，问题通常落在「推理风格」或「思维模式」层面。这时候需要动模型权重。

Fine-tuning的成本结构是：数据准备几天，训练几小时到几天，GPU账单从几百到几千美元。更重要的是，这是一个单向门——调好的模型很难「回滚」到之前的状态。

所以自进化系统在这里需要最严格的门控。不是「能跑就训」，而是累积足够多的高置信度失败案例，确认问题确实源于模型能力而非 prompt 或工具缺陷，才触发训练流水线。

AgentScope的自动化 fine-tuning 模块会先做小规模实验，验证损失下降曲线和下游任务指标，才放大到全量数据。

统一裁判：LLM Judge如何决定走哪条路

五个层级的核心矛盾是——每层都有适用场景，但人工判断太慢，固定规则太僵。解决方案是一个Master LLM Judge管道。

输入是当前失败的上下文：查询内容、Agent输出、Grader评分、历史干预记录。Judge输出两个决策：问题归类（prompt/技能/代码/知识/模型）和置信度分数。

置信度超过阈值，自动触发对应层级的进化代码；低于阈值，转人工分析。这个设计把「要不要进化」也变成了可优化的参数——Judge本身可以通过反馈数据迭代。

OpenAI Cookbook、DSPy、TextGrad、autoresearch、AgentScope——五个框架覆盖了从分钟级到天数级、从免费到昂贵的完整光谱。2026年的工程实践把它们统称为递归优化（Recursive Optimization）或自蒸馏（Self-Distillation），不再是论文概念，是跑在生产环境的 cron job。

一个尚未被回答的问题是：当Agent能自己改代码、自己训模型、自己决定要不要继续进化——人类工程师的干预阈值应该设在哪里？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

性能真的不重要了吗？Jeff Dean给出反常答案

新智元 2025-12-28 17:20:51
0 跟贴 0
写Verilog、调CUDA，总翻车？工业代码大模型开始学会先想后写了

机器之心Pro 2026-04-14 17:09:10
0 跟贴 0

千问上线表格Agent：支持从对话直接生成、编辑Excel文件

新周刊 2026-04-15 10:55:25
0 跟贴 0

有了这个Agent，上班路上也能做表了

智东西 2026-04-15 10:54:09
0 跟贴 0
浏览器原地变龙虾！Chrome上线Skills，技能一键复用帮你干活

量子位 2026-04-15 13:44:27
2 跟贴 2

Chrome Skills来了！一键调用+跨标签页抓取

智东西 2026-04-15 17:32:07
0 跟贴 0

Hermes Agent抄袭中国团队代码实锤！被锤后回应：你删号

新智元 2026-04-15 18:12:02
1 跟贴 1
让两个大模型在线吵架，跑通全网95%科研代码｜深势Deploy-Master

机器之心Pro 2026-01-09 14:22:47
0 跟贴 0

Claude Code把自己的介绍，外包给这家AI公司了

智东西 2026-04-15 17:43:10
0 跟贴 0
1.8万美金干掉顶级专家！Anthropic开启AI自主进化：Claude竟能自我「开颅」

新智元 2026-04-15 12:36:39
7 跟贴 7
离谱！我的新上班搭子，居然是个超靠谱的AI

机器之心Pro 2026-04-15 11:20:37
0 跟贴 0
世界怎么背着我偷偷进化啊!!!

网不红萌叔Joey 2026-04-14 14:04:58
0 跟贴 0
美国阿波罗11号首次登月代码公开，内存竟只有3.75KB

快科技 2026-04-13 15:40:19
22 跟贴 22
装修界的大师，不用切曲线也能做出S形框架

科学大搜索 2026-04-11 14:11:25
3 跟贴 3
上一个兄弟离职了，我接手了他的代码，我承认没憋住

环亚搞笑 2026-04-14 14:35:36
3 跟贴 3
OpenAI也搞「Mythos」？刚刚，网络安全版GPT-5.4-Cyber亮相

机器之心Pro 2026-04-15 10:06:26
0 跟贴 0
嫌疑人当面删代码，挑衅警察不懂技术，警察自爆身份吓傻嫌疑人

一剪梅看点 2026-04-13 15:57:18
0 跟贴 0
Agent新王诞生？Hermes 7周追上龙虾，中国用户可微信直连

DeepTech深科技 2026-04-15 17:10:45
0 跟贴 0
死敌爆料是狠！OpenAI内部信阴阳Claude营收注水80亿，然后泄露了

量子位 2026-04-15 11:21:05
0 跟贴 0
场均40分不如总冠军：乔丹如何从杀手进化成领袖

白嫖的小知识 2026-04-14 10:02:52
3 跟贴 3
Edge AI Daily 早报（4月15日）

钛媒体APP 2026-04-15 08:20:10
0 跟贴 0
小猫这是代码冲突了还是抽筋了，突然就卡了一下

重庆城市TV 2026-04-14 17:04:41
0 跟贴 0
120W是“型号”不是功率？误导消费者要付出代价

南方都市报 2026-04-13 00:36:10
3612 跟贴 3612
千问Excel功能实测：简单表格秒生成，复杂函数搞不定

酷看天下事 2026-04-15 14:37:04
1 跟贴 1
大批“五一”航班突然取消涉及重庆

环球网资讯 2026-04-14 21:52:45
1122 跟贴 1122
不看代码找漏洞？GPT-5.4-Cyber太猛，巨头们紧急开会

雷科技 2026-04-15 18:51:59
0 跟贴 0
为证清白疯狂杀人？逻辑鬼才

喜蕃影视 2026-04-13 15:56:00
0 跟贴 0
举债3.68亿、总投资超7亿，农业实训基地为何不见农业影子？

上观新闻 2026-04-14 21:54:17
1917 跟贴 1917
2026年内部协作工具横评：谁在真干活谁在混

码上闲叙 2026-04-15 19:16:45
0 跟贴 0
加沙街头：一位父亲的最后拥抱

硅屿手记 2026-04-15 08:44:00
0 跟贴 0
街溜子又进化了，诸位，远望6可曾听过！

走人间正道 2026-04-15 13:56:43
0 跟贴 0
龙虾军团有了最强「视力」！一眼看图直接写代码-1

机器之心Pro 2026-04-02 16:56:32
0 跟贴 0
Steam要抢SteamDB饭碗？30天价格查询功能曝光

固件更新中 2026-04-15 12:44:46
0 跟贴 0
世界杯将至义务迎来“销量爆发式增长”

环球网资讯 2026-04-14 22:03:34
1560 跟贴 1560
揭秘年销10亿的爆款宋柚汁：“宋柚”是商标，柚含量不到3%，主配料为糖水，品牌号称全国销量第一

蓝鲸新闻 2026-04-15 09:44:24
242 跟贴 242
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
人类正在退化？一组数据撕开生存悖论

码上闲叙 2026-04-15 09:04:03
6 跟贴 6
深圳龙华一楼盘每平方米降2万引发深夜抢购监管部门紧急调查

新京报 2026-04-14 19:26:38
432 跟贴 432
DeepMind CEO 德米斯：核聚变要靠 AI 突破！人类将迎来取之不尽的能源

知了3C 2026-04-13 19:02:25
0 跟贴 0
有人把巴菲特芒格炼成AI Agent，Github标星狂揽5w+

量子位 2026-04-15 09:48:11
1 跟贴 1

医生坦言：只要血脂报告里没有这2个词，血管健康就不用太担忧

医生坦言：只要血脂报告里没有这2个词，血管健康就不用太担忧

健康科普365

2026-04-07 11:35:05

费迪南德转发利马和勒温犯规对比图，并@裁判公司要求解释

费迪南德转发利马和勒温犯规对比图，并@裁判公司要求解释

懂球帝

2026-04-14 19:35:05

马斯克再放狠话：能建造出比中国任何公共交通系统，都更好的系统

马斯克再放狠话：能建造出比中国任何公共交通系统，都更好的系统

李詋穷游天下

2026-04-15 17:00:07

巴基斯坦下单了？120亿美元购买歼35、空警500和红旗19

巴基斯坦下单了？120亿美元购买歼35、空警500和红旗19

三叔的装备空间

2026-04-14 11:15:25

校方回应“演出服遭学生家长集体退货”：家长已确认收货，全额支付服装费用

校方回应“演出服遭学生家长集体退货”：家长已确认收货，全额支付服装费用

红星新闻

2026-04-14 12:20:23

功不可没，登贝莱把全场最佳奖杯献给恩里克

功不可没，登贝莱把全场最佳奖杯献给恩里克

懂球帝

2026-04-15 07:16:17

台专家警告：如果大陆武统台湾，将毁灭500个城市，1.4亿人死亡！

台专家警告：如果大陆武统台湾，将毁灭500个城市，1.4亿人死亡！

小嵩

2026-04-13 19:45:21

跳级3-0夺冠！国乒14岁新星进化：王皓盼来好苗子，看齐王楚钦？

跳级3-0夺冠！国乒14岁新星进化：王皓盼来好苗子，看齐王楚钦？

李喜林篮球绝杀

2026-04-15 18:37:16

台湾网友怕上海福建人在台打黑工，网友回怼：令人发笑！

台湾网友怕上海福建人在台打黑工，网友回怼：令人发笑！

虔青

2026-04-14 21:03:30

崔始源演「振动器意外」被喷上热搜，400万围观网友集体懵圈

崔始源演「振动器意外」被喷上热搜，400万围观网友集体懵圈

影视情报室

2026-04-13 08:18:09

国际乒联设百年荣誉榜，国乒仅入选3人，一邓亚萍二马龙，三是？

国际乒联设百年荣誉榜，国乒仅入选3人，一邓亚萍二马龙，三是？

格斗社

2026-04-15 16:51:15

"第一软饭男"去世了，伺候美国老妇13年，继承268亿，死后钱给谁

"第一软饭男"去世了，伺候美国老妇13年，继承268亿，死后钱给谁

毒sir财经

2025-12-08 22:57:40

天后麦当娜：一生交往一百多猛男，与自己保镖欢爱视频，还被拍卖

天后麦当娜：一生交往一百多猛男，与自己保镖欢爱视频，还被拍卖

七阿姨爱八卦

2026-04-09 09:32:37

从2.9万/㎡跌到5千/㎡！总价20万抄底南沙收租？

从2.9万/㎡跌到5千/㎡！总价20万抄底南沙收租？

乐居财经官方

2026-04-14 17:34:59

蒋介石孙子召开发布会，提出“两蒋”移灵大陆，2句话让世人唏嘘

蒋介石孙子召开发布会，提出“两蒋”移灵大陆，2句话让世人唏嘘

老谢谈史

2026-03-18 18:33:35

博班：就这种后防线加上费兰这样的前锋，巴萨永远拿不到欧冠

博班：就这种后防线加上费兰这样的前锋，巴萨永远拿不到欧冠

懂球帝

2026-04-15 07:16:17

打了45天血战才明白！伊朗最大的敌人并不是美以，而是这些身边人

打了45天血战才明白！伊朗最大的敌人并不是美以，而是这些身边人

顾史

2026-04-15 10:29:52

外媒：中国展示运-30，称其性能超越目前世界上最好的战术运输机

外媒：中国展示运-30，称其性能超越目前世界上最好的战术运输机

混沌录

2026-04-14 17:28:17

哥大学生被下达“最终驱逐令”！曾是亲哈马斯学生领袖，被吊销绿卡

哥大学生被下达“最终驱逐令”！曾是亲哈马斯学生领袖，被吊销绿卡

大洛杉矶LA

2026-04-15 03:23:09

石宇奇全满贯的机会真的来了！对比林丹李宗伟安赛龙退役确实太早了

石宇奇全满贯的机会真的来了！对比林丹李宗伟安赛龙退役确实太早了

舟望停云

2026-04-15 18:01:22

爬虫饲养员

业余养了只叫“龙虾”的AI爬虫，主业是给互联网打工。

1383文章数 13关注度

往期回顾全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

男生遭欺凌其父在调解室猝死母亲:一家人都快抑郁了

头条要闻

男生遭欺凌其父在调解室猝死母亲:一家人都快抑郁了

体育要闻

三球准绝杀戴大金链：轰30+10自我救赎

娱乐要闻

曾志伟办73岁生日派对，逾百艺人到场

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协小鹏GX首发评测

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

艺术

本地

游戏

公开课

家居要闻

简而不减暖居之道

艺术要闻

这山水，荡涤胸中尘埃

本地新闻

12吨巧克力有难，全网化身超级侦探添乱

《战神》新作是女性主角！网友暴怒：索尼搞女拳？

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版