网易首页 > 网易号 > 正文 申请入驻

写行命令喝杯咖啡,回来技能准确率从67%飙到94%

0
分享至

你现在写技能文件给AI干活,还是在凭感觉猜。你不知道它到底听不听话,不知道你啰嗦的地方它本来就会,不知道你的“好心指点”反而让它更糊涂——更不知道换个便宜的Haiku模型,它还能不能跑。

skill-optimizer做的事,是把这种“我感觉”变成“数据说”。给技能上一套法官打分的评估流水线,让AI代理带着你的技能跑真实任务,再不带技能跑一遍当对照。两次分数的差距,就是你那篇SKILL.md的真实价值。


这条流水线现在有两套互补招式。第一式叫skill review,是静态地看你的技能文件本身,从完整性、可操作性、简洁度和鲁棒性四个维度打分。结构问题不用等跑起来才暴露,这一关就能筛掉一批。第二式是任务评估,先根据你的技能自动生成真实场景的任务,每个场景跑两轮——一轮不带技能当基线,一轮带上技能出结果,再让一个LLM法官按任务专属评分标准给两个输出分别打分。技能的价值增量,全在分数差里。

还有一个之前你可能根本没意识到的盲区:你的技能有没有被调用。在一个装了多个技能的插件里,代理得先正确路由到对的技能,后面所有优化逻辑才有意义。现在可以用激活评估来测这个,逐个场景挖路由缺口,还自动给技能描述出改写建议。

Matteo Collina开源了一套现代Node.js开发技能集,社区已经拿了1200多颗星、80多个分支,覆盖Fastify、TypeScript、代码规范、文档和核心Node.js模式。我就是拿他那个Fastify最佳实践技能做了一次实测。在Claude Code里敲了一句话:把这个项目里的Fastify技能优化一下。然后离开座位去拿咖啡。

回来一看,结果已经全出来了:五个真实评估场景,每个场景的基线分数,优化前后的完整对比,诊断出一个退化问题,给出了修复方案,重新跑了一遍验证了改善。这个技能在真实场景下的平均成功率从67%跳到了94%。我没有写一条评估,没有设计一个评分标准,就说了三个词,剩下的全是skill-optimizer自己干的。

结果分析现在也不只是简单过一遍。系统用了一套四桶框架来归类每个场景:正常工作的、有缺口的、描述冗余的、引发退化的。不是笼统说“有问题”,而是告诉你每一类问题到底有多少、出在哪里。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
半导体市值超越国有大行,新一轮牛市大周期启动!下周继续数涨停板?

半导体市值超越国有大行,新一轮牛市大周期启动!下周继续数涨停板?

和讯网
2026-06-21 15:29:13
2026-06-22 02:40:49
固件更新中
固件更新中
有态度网友ytd
233文章数 50关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

西班牙4-0大胜沙特 亚马尔首次世界杯首发+首球

头条要闻

西班牙4-0大胜沙特 亚马尔首次世界杯首发+首球

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

原来她就是张颂文老婆

财经要闻

“床垫界的特斯拉”破产了

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

时尚
本地
旅游
艺术
军事航空

邮报盘点哈兰德奢侈品收藏:33万镑爱马仕包、28万豪华腕表

本地新闻

龙腾资江 韵动邵阳

旅游要闻

不用远赴江南,安宁这条河既有山泉灵气,又藏国人专属山水乡愁!

艺术要闻

310米!欧盟第一高楼,坐落于波兰

军事要闻

时隔44年试射洲际导弹 现场照片传递三个重磅信息

无障碍浏览 进入关怀版