网易首页 > 网易号 > 正文 申请入驻

这家药企把AI事故变成了测试题库

0
分享至

你的AI agent在生产环境翻车之后,那些报错日志最后去哪了? Madrigal Pharmaceuticals的做法是:直接变成下一版的考题。

LangChain官网这周发了篇博客,讲这家生物制药公司怎么搭多智能体平台。架构本身没什么新鲜——编排器路由、并行代理、共享工作区,都是标准套路。真正让我停下滑动的是质量保证板块里的一句话:


「生产故障会自动回流到我们的LangSmith数据集。每个有意义的错误都会变成新测试用例。评估套件从真实故障中生长,而非合成场景。」

这就是现在生产环境AI里最被低估的模式:用验证失败当评估数据集。

合成测试的盲区

大多数团队搭agent评估套件,起手姿势一模一样:写50-100条合成测试用例,跑一遍agent,算通过率。上线v1够用了。

然后agent进生产环境,你开始发现合成测试根本没覆盖到的失效模式——因为你根本想象不到。

发票agent所有测试都过,但偶尔漏掉货币字段,只因源数据用了它没见过的ISO 4217代码。合同提取agent处理英文完美,遇到双语文档却默默返回空数组。代码审查agent安全检测准确率98%,但只要变量名里带"eval"的字符串比较就报误报。

这些才是真正要紧的故障,而且只在生产环境现身。Madrigal的洞察是自动捕获它们,喂回评估数据集。他们的测试套件不止测"以为会出错的",还测"实际出过错的"。

Madrigal的流水线长什么样

根据LangChain那篇博客,他们的 setup 大致这样:

Agent在生产环境处理任务 → LangSmith追踪每次工具调用、检索、决策 → 出现有意义错误时捕获并加入LangSmith数据集 → 该数据集成为后续agent迭代的测试用例 → 大模型作为评判员(LLM-as-judge)给完整agent运行打分,评分标准"镜像真实终端用户的业务反馈表"

这套方法扎实,LangSmith的追踪让他们看清agent决策全链条。但有两点值得注意:

第一,评估主要靠大模型。他们用"LLM-as-judge评分器"打结果分。博客里没提确定性验证——schema检查、类型强制、业务规则评估——在LLM评判之前有没有先跑一遍。

第二,故障捕获似乎在追踪层发生。出问题的时候,trace抓下来。但trace什么都抓,它天生分不清"agent调错了工具"和"agent最终输出违反业务约束"。两者进同一个数据集,得有人手动筛选哪些故障真能当测试用例用。

Flow的解法:让约束检查前置

我们建Flow的时候,脑子里想的就是这类问题。

Flow的核心设计是约束即代码(Constraints-as-Code)。不是等agent跑完再让大模型判分,而是在执行流程里嵌入确定性检查点。schema验证、类型强制、业务规则——这些在LLM生成输出之前就拦住问题。

这和Madrigal的LLM-as-judge不是互斥,是分层。确定性检查抓"硬错误":输出格式不对、必填字段缺失、数值超范围。这些不需要大模型评判,规则写死就行。LLM-as-judge处理"软质量":语气是否合适、建议是否有用、推理是否连贯。

关键区别在于:当约束检查失败时,Flow自动把失败场景结构化归档。不是丢进一个原始trace池子等人工捞,而是按失败类型分类——schema违规、业务规则冲突、类型不匹配——直接生成可复用的测试用例。

Madrigal得手动筛选trace里哪些故障值得进数据集。Flow的用户拿到的是已经分类好的、可直接回归测试的失败样本。

为什么"真实故障当测试"这么难普及

这个模式听起来像常识,实际落地阻力不小。

技术债是头号障碍。很多团队的生产监控和评估基础设施是割裂的。故障在A系统报警,测试用例存在B系统,中间靠人工搬运。Madrigal能自动化,是因为LangSmith把追踪和数据集打通了。没这个基础设施的,只能干瞪眼。

组织惯性是二号障碍。QA团队习惯写合成用例,觉得"真实故障太脏、太随机、不好控制"。确实,生产故障带着各种上下文噪音,直接当测试用例会 flaky。但这不是放弃的理由,是设计过滤机制的信号。Madrigal的做法是只收"meaningful errors",标准是人定的。

第三个障碍更隐蔽:失败羞耻。团队不愿意把生产事故摊开当教材,尤其是涉及客户数据的。Madrigal是药企,合规要求极严,他们敢这么做,说明找到了脱敏和结构化的方法。

从"防故障"到"养故障"

传统软件测试的思路是消灭故障。AI agent测试的新思路是:把故障当资产养起来。

合成测试覆盖的是已知未知(known unknowns)——你意识到可能出问题的地方。生产故障暴露的是未知未知(unknown unknowns)——你根本想不到的 corner case。后者的价值随时间指数增长,因为agent的失效模式会漂移。今天的大模型版本和明天的,犯错方式不一样。

Madrigal的模式本质是建立组织记忆。每个生产故障都是付费买来的认知,不能用完就扔。变成测试用例,才能确保下一代agent不再踩同一个坑。

Flow的基础设施设计围绕这个理念:约束检查失败自动入库,按类型标签化,支持一键导入回归测试套件。你不需要像Madrigal那样手动从trace里捞故障,系统帮你结构化归档。

落地 checklist

想复制Madrigal模式,先问自己几个问题:

生产监控能不能自动识别"有意义的错误"?不是所有异常都值得进数据集,需要业务规则过滤。

错误捕获和测试基础设施是否连通?如果中间需要导CSV、写脚本、人工审核,摩擦成本会杀死这个流程。

失败样本是否可复现?生产故障带着特定上下文,脱敏后还能不能跑通?需要环境隔离和mock机制。

团队有没有"养故障"的文化?从追责转向学习,需要管理层表态。

LLM-as-judge 的边界

回到Madrigal的具体实现,他们的评分全靠大模型当裁判。这省事,但有天花板。

大模型评判的稳定性是个老问题。同样输出,换个大模型版本,分数可能飘。更麻烦的是,评判标准"镜像真实终端用户的业务反馈表"——用户反馈本身是主观的、时变的、可能互相矛盾的。

Flow的做法是混合评分:确定性检查给硬指标,LLM-as-judge处理软质量,人工抽检兜底。不是不信大模型,是不全押在它身上。

另一个细节:Madrigal的评判对象是"完整agent运行"。这很合理,agent的价值在端到端。但调试的时候,你需要知道是哪一步出的问题。LangSmith的追踪给了这个能力,但评分是整体打的。Flow支持分层评分——子任务可独立评估,方便定位。

基础设施决定方法论

Madrigal能实践"故障即测试",前提是LangSmith提供了追踪-数据集闭环。没有这个基础设施,理念就是空话。

这解释了为什么这个模式至今小众。大多数团队的生产监控和ML实验管理是两套系统,数据流断了。Madrigal是LangChain生态的深度用户,天然享受这个红利。

Flow的定位是把这个能力泛化。不管你用什么agent框架,约束检查、失败捕获、测试生成是一体化的。不绑死特定追踪工具,但提供同等的数据闭环。

换句话说,Madrigal证明了模式可行,Flow想降低复制门槛。

药企场景的启示

Madrigal是生物制药公司,这个背景不是偶然。

药企对合规和可追溯性的要求,倒逼他们建立严格的评估体系。AI agent处理的是研发文档、监管申报、临床数据,出错成本极高。他们的"故障即测试"模式,是在高压环境下进化出来的。

这对其他行业有参考价值。金融、法律、医疗——任何容错率低的场景,都需要类似的严肃评估。不是"差不多能用",是每次迭代都有回归测试背书。

反过来,消费级应用可能觉得这套太重。但Madrigal的案例说明:一旦业务关键,评估基础设施的投资回报率极高。一个生产故障的代价,可能远超建测试体系的投入。

从个案到模式

LangChain这篇博客的价值,是把Madrigal的实践结构化呈现。以前"故障当测试"是口口相传的野路子,现在有了可参照的架构图。

但参照不等于复制。Madrigal的具体实现有依赖:LangSmith追踪、LLM-as-judge评分、人工筛选meaningful errors。每一点替换都需要重新设计。

Flow的出发点是:把模式抽象,基础设施下沉。约束检查、失败归档、测试生成——这些能力应该框架层解决,让每个团队都能低门槛实践。

这不是说Madrigal的做法过时。恰恰相反,他们验证了需求真实存在。Flow想做的是让更多人不必从头造轮子。

下一步会怎么演化

Madrigal模式还有优化空间。

自动分类是 obvious 的方向。现在靠人工标"meaningful",未来可以用小模型做初筛。失败模式聚类,相似故障合并,减少测试套件膨胀。

另一个方向是主动探索。被动等生产故障效率太低,可以用对抗生成或模糊测试主动造故障,补全覆盖盲区。

还有跨组织共享。同行业的故障模式有共性,脱敏后能否建立行业基准测试集?这比各自闭门造车高效得多。

Flow的路线图包含这些方向。约束检查失败的数据结构已经标准化,为后续分析打好基础。

给技术负责人的 takeaway

如果你正在或计划上生产级AI agent,三点建议:

第一,评估套件必须从第一天就设计"自生长"机制。合成测试起步可以,但要有管道接生产反馈。否则三个月后,测试和实际脱节,评估变成安慰剂。

第二,分层评估比单一评分可靠。确定性检查抓硬错误,LLM-as-judge处理软质量,人工兜底。别把一切都押在大模型裁判上。

第三,基础设施选型看闭环能力。追踪、监控、测试、迭代是否连通?数据能不能自动流动?这比单个功能点更重要。

Madrigal的案例是个提醒:生产AI的评估,不是写完测试用例就结束的事,是持续从现实中学习的系统。你的下一个测试用例,可能正藏在昨天的报错日志里。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国正式砍断美式长臂,美媒集体破防:我们的制裁体系真要碎了!

中国正式砍断美式长臂,美媒集体破防:我们的制裁体系真要碎了!

混沌录
2026-05-06 17:01:19
25万买奔驰GLC?这波“官降”直接把豪华SUV的遮羞布给扯下来了!

25万买奔驰GLC?这波“官降”直接把豪华SUV的遮羞布给扯下来了!

沙雕小琳琳
2026-05-04 19:29:01
港星鼎爷怒曝家丑!被大儿子榨干200万积蓄,身后事全权托付幼子

港星鼎爷怒曝家丑!被大儿子榨干200万积蓄,身后事全权托付幼子

橙星文娱
2026-05-06 09:21:08
“只顾自己纹眉,不管女儿死活?”14岁女孩生日照,脸上全是槽点

“只顾自己纹眉,不管女儿死活?”14岁女孩生日照,脸上全是槽点

蝴蝶花雨话教育
2026-04-25 00:45:03
顶级互喷!!4000万救助金!!骂得太狠了!

顶级互喷!!4000万救助金!!骂得太狠了!

柚子说球
2026-05-06 23:15:45
G1广东94-102不敌北京 球员评价:3人优秀,4人及格,5人低迷

G1广东94-102不敌北京 球员评价:3人优秀,4人及格,5人低迷

篮球资讯达人
2026-05-06 21:25:02
A股存储芯片股集体飙涨,多股20cm涨停,金螳螂11天9板,闻泰科技一字跌停

A股存储芯片股集体飙涨,多股20cm涨停,金螳螂11天9板,闻泰科技一字跌停

21世纪经济报道
2026-05-06 12:16:08
真心感慨倪妮的长相太神奇了!
单看五官真没一个是完美标配

真心感慨倪妮的长相太神奇了! 单看五官真没一个是完美标配

小光侃娱乐
2026-05-04 19:30:04
朝鲜援俄伤亡数据曝光,1.4万精锐伤亡过半,纪念墙画面惨烈

朝鲜援俄伤亡数据曝光,1.4万精锐伤亡过半,纪念墙画面惨烈

番外行
2026-05-04 14:47:50
性学专家李银河说:你若50岁左右,人生余额已不多。不出意外…

性学专家李银河说:你若50岁左右,人生余额已不多。不出意外…

豁达宇宙
2025-10-22 18:31:20
开国上将黄永胜,被判17年,出狱后分三套房子并告诉他五个安排

开国上将黄永胜,被判17年,出狱后分三套房子并告诉他五个安排

莫地方
2026-05-06 00:25:03
1938年,张爱玲40岁的父亲趁妻子熟睡,偷偷摸进18岁女儿的卧室。

1938年,张爱玲40岁的父亲趁妻子熟睡,偷偷摸进18岁女儿的卧室。

小马姨
2026-04-30 09:12:29
莱巴金娜:完全没考虑抗议奖金过低,球员们根本不凝聚

莱巴金娜:完全没考虑抗议奖金过低,球员们根本不凝聚

网球之家
2026-05-06 23:23:54
韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

西楼知趣杂谈
2026-04-09 09:35:17
一55岁男子心梗离世,很少吃油炸零食,医者叹气:无知毁了他

一55岁男子心梗离世,很少吃油炸零食,医者叹气:无知毁了他

医学原创故事会
2026-05-06 23:42:03
世乒赛战报:欧洲3冠王出局,16强对阵赛程出炉CCTV直播国乒冲2金

世乒赛战报:欧洲3冠王出局,16强对阵赛程出炉CCTV直播国乒冲2金

求球不落谛
2026-05-06 07:16:25
她是吴宜泽姐姐,血脉压制从小揪弟弟耳朵,长得漂亮是机车爱好者

她是吴宜泽姐姐,血脉压制从小揪弟弟耳朵,长得漂亮是机车爱好者

以茶带书
2026-05-05 16:57:12
花几百万换“17岁男孩”的血就可以年轻,这是把邪恶公开化了

花几百万换“17岁男孩”的血就可以年轻,这是把邪恶公开化了

林中木白
2026-05-06 10:42:09
福建一女副校长停职,操场上当众辱骂学生引发热议

福建一女副校长停职,操场上当众辱骂学生引发热议

手工制作阿爱
2026-05-06 15:10:31
总投资45亿!广东百亿大学新校区,公布二期建设规划

总投资45亿!广东百亿大学新校区,公布二期建设规划

朗威谈星座
2026-05-06 19:46:48
2026-05-07 00:35:00
全栈遛狗员
全栈遛狗员
白天跟需求对线,晚上在小区遛狗。
2274文章数 61关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

中国发布阻断禁令后鲁比奥声称将二次制裁 外交部回应

头条要闻

中国发布阻断禁令后鲁比奥声称将二次制裁 外交部回应

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

健康
艺术
房产
时尚
本地

干细胞治烧烫伤面临这些“瓶颈”

艺术要闻

震撼!康斯坦丁摄影作品里的性感曲线让人惊艳!

房产要闻

遥遥领先!这个澄迈顶流红盘,凭什么持续霸榜

有些路,不必每一步都走得那么用力

本地新闻

用青花瓷的方式,打开西溪湿地

无障碍浏览 进入关怀版