网易首页 > 网易号 > 正文 申请入驻

Anthropic把模型评测做成"盲测餐厅"

0
分享至


2024年,一个团队用Claude Code写了3个月代码,最后发现Sonnet生成的模块漏洞率比Opus高40%——但他们直到生产事故后才意识到。这不是模型能力问题,是评测方法出了问题。

LaunchDarkly和Anthropic最近放出一套工具,让开发者给AI代码生成做"私人定制体检"。不是跑那些通用基准,而是测你的安全规则、你的API规范、你团队特有的技术债模式。

核心逻辑像开盲测餐厅:同一道菜让3个厨师做,评委按你的口味标准打分,吃完才知道谁做的。

这套方案需要搭一个代理服务器,把Claude Code的请求转发到LaunchDarkly。后者根据规则路由到不同模型(Sonnet/Opus/Mistral甚至本地Ollama),同时触发你定义的评测规则。几周后,仪表盘会告诉你:哪个模型在你的代码库上真正靠谱。

代理服务器的工作流程

当Claude Code向POST /v1/messages发请求时,代理会做四件事。提取纯文本提示,把Anthropic的消息格式转成LaunchDarkly的LDMessages,工具块和图片直接丢弃——代码生成场景不需要这些。

路由请求通过LaunchDarkly的AI Configs。代理创建一个带selectedModel属性的上下文,模型选择器根据这个属性匹配目标模型变体。调用模型并触发评测器,如果选中的变体绑定了评测器,SDK按采样率自动调度评分,结果流入Monitoring仪表盘。最后返回标准Messages响应, assistant回复作为单文本块,附带token用量。


Claude Code始终对接本地/v1/messages端点,模型选择和在线评测全在后台完成。开发者体验无感知,数据却在默默积累。

三个实战评测器设计

教程建议搭建三类评测器,对应代码生成的真实痛点。安全漏洞扫描器,检查SQL注入、硬编码密钥、不安全反序列化等你实际在意的风险点。API契约验证器,比对生成代码是否符合你们团队的OpenAPI规范、命名约定、错误处理模式。

范围蔓延检测器,标记那些"过度设计"的代码——比如为简单CRUD引入不必要的抽象层,这是某些模型的典型毛病。LaunchDarkly的评测系统支持用LLM-as-judge模式实现这些:你写一段评分prompt,系统让另一个模型当"裁判"给输出打分。

关键设计:评测标准完全自定义。不是用别人的安全榜单,是你自己的.eslintrc、你的架构评审清单、你上次复盘会总结的5个常见陷阱。

数据积累后的选型逻辑

运行几周后,仪表盘会呈现模型-任务匹配度。可能Sonnet在安全评分上稳定领先,但复杂端点的API契约 adherence(遵守度)不如Opus。可能Mistral在你特定的技术栈上性价比最优,但通用基准里根本测不出来。


这种颗粒度的结论,靠HumanEval或SWE-bench是给不了的。那些基准测的是"平均程序员水平",你要的是"在我的屎山代码里不翻车"。

教程提供了两种搭建方式:LaunchDarkly仪表盘可视化配置,或Claude Code的agent skills(如果已安装后者更快)。项目创建命令是/aiconfig-projects,建一个名为"custom-evals-claude-code"的项目。模型选择器用/aiconfig-create创建,三个变体分别是Sonnet、Opus、Mistral,消息内容为空——这里只负责路由,不预设对话。

这套方案最狠的设计是"无感知数据收集"。开发者继续用Claude Code正常写代码,每次生成背后都在跑A/B测试。没有额外的评测流程,没有打断心流的问卷,数据自然沉淀。

对比传统做法:团队通常先选一个模型用半年,出问题再换,换的时候也没有系统性证据。或者同时开多个订阅,凭感觉轮换。LaunchDarkly把这个过程工程化了,用实际代码库当测试集,用真实业务规则当评分标准。

一个细节:代理目前只处理text-only的代码生成场景。工具调用、多模态输入被显式过滤——这是务实的边界设定,先解决80%的核心场景,而非追求大而全。

如果你的团队正在多模型之间摇摆,或者对现有选型心里没底,这种"持续评测基建"可能比再跑一轮基准测试更有价值。毕竟,代码生成质量的终极裁判,终究是你自己的生产环境。

你现在用的模型,是基于数据选的,还是基于发布会PPT选的?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
彻底不装了?特朗普访华再生变!中方提的要求,美方竟然一口回绝

彻底不装了?特朗普访华再生变!中方提的要求,美方竟然一口回绝

到此为止的印象
2026-05-09 13:39:53
热搜上引众怒“河北某夜市最不堪入目的一幕”:人性可以多丑陋?

热搜上引众怒“河北某夜市最不堪入目的一幕”:人性可以多丑陋?

小椰子专栏
2026-05-09 13:25:28
暂停使用!已陪伴广州人22年!街坊:不舍

暂停使用!已陪伴广州人22年!街坊:不舍

广州生活美食圈
2026-05-08 11:47:10
埃博拉都杀不死它!为什么蝙蝠全身是毒,自己却一点事没有?

埃博拉都杀不死它!为什么蝙蝠全身是毒,自己却一点事没有?

半解智士
2026-05-07 22:55:35
吴宜泽世锦赛夺冠后首秀!4-5惜败,输球原因揭晓,获希金斯致敬

吴宜泽世锦赛夺冠后首秀!4-5惜败,输球原因揭晓,获希金斯致敬

球场没跑道
2026-05-09 17:52:41
张爱玲吃下堕胎药,在床上疼得打滚,孩子掉下来后,随手扔进马桶

张爱玲吃下堕胎药,在床上疼得打滚,孩子掉下来后,随手扔进马桶

云霄纪史观
2026-05-07 19:38:06
安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

法老不说教
2026-05-09 15:11:16
重磅!中国接力队37秒85战胜牙买加,“短跑王者”神话被打破?

重磅!中国接力队37秒85战胜牙买加,“短跑王者”神话被打破?

林子说事
2026-05-09 16:03:37
致命倒计时开始!朝鲜内部细节曝光:7个月后,半岛再无回头路

致命倒计时开始!朝鲜内部细节曝光:7个月后,半岛再无回头路

真的好爱你
2026-05-09 15:52:00
随着长春亚泰3-2逆转,梅州客家0-2,中甲最新积分榜出炉

随着长春亚泰3-2逆转,梅州客家0-2,中甲最新积分榜出炉

侧身凌空斩
2026-05-09 21:32:03
农夫和蛇新版!女子带娃在景区爬山受伤,大叔好心帮忙被举报抽烟

农夫和蛇新版!女子带娃在景区爬山受伤,大叔好心帮忙被举报抽烟

火山詩话
2026-05-09 06:19:41
外媒:中国新型隐身导弹,将独步全球?

外媒:中国新型隐身导弹,将独步全球?

兵国大事
2026-05-09 00:10:06
与台“断交”!巴拉圭总统窜台不到24小时,就收到了大陆严重警告

与台“断交”!巴拉圭总统窜台不到24小时,就收到了大陆严重警告

混沌录
2026-05-09 16:18:10
蒋介石晚年坦言:败退台湾无悔,此生最大不甘就是听了斯大林此言

蒋介石晚年坦言:败退台湾无悔,此生最大不甘就是听了斯大林此言

芳芳历史烩
2026-05-04 01:43:43
悲催!网传广东一律所人走完了,有转行的,有转所的,还有待业的

悲催!网传广东一律所人走完了,有转行的,有转所的,还有待业的

火山詩话
2026-05-09 16:31:17
峨眉山推猴男子社会性死亡!正脸照被扒,官方追责,工作或受牵连

峨眉山推猴男子社会性死亡!正脸照被扒,官方追责,工作或受牵连

阿伧说事
2026-05-08 14:22:01
菲方滋扰中国科考船画面公开

菲方滋扰中国科考船画面公开

环球网资讯
2026-05-09 21:31:47
雪中送炭!中方伸出援手,3小时直飞达沃,给绝境中的莎拉带来希望

雪中送炭!中方伸出援手,3小时直飞达沃,给绝境中的莎拉带来希望

井普椿的独白
2026-05-09 14:26:34
37岁杨颖杂志照让人心酸,眼神散了资源跌了,从顶流到不敢认

37岁杨颖杂志照让人心酸,眼神散了资源跌了,从顶流到不敢认

童叔不飙车
2026-05-09 21:24:53
4年1.04亿!回顾布伦森尼克斯生涯,队史最佳签约?

4年1.04亿!回顾布伦森尼克斯生涯,队史最佳签约?

篮球实录
2026-05-10 00:26:37
2026-05-10 00:56:49
报错免疫体
报错免疫体
一名在需求评审和数据异常中反复横跳的产品运营。
2452文章数 24关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

游戏
时尚
艺术
公开课
军事航空

Windows 11 PC上的Xbox模式不支持多显示器

伊姐周六热推:电视剧《喀什恋歌》;电视剧《低智商犯罪》......

艺术要闻

深圳终究失去“中国第一高楼”,华润接手地块!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版