网易首页 > 网易号 > 正文 申请入驻

谷歌工程师把AI失败率做到91%:越不准,越敢用

0
分享至


2024年,企业级AI系统的平均首次修复成功率是34%。谷歌云工程师Matt Williams把这个数字故意压到更低——他的AI在第一次诊断后,91%的情况下会被系统拦下。

这不是bug。这是设计。

Williams在GitHub开源的Dead Letter Oracle,专门处理事件驱动架构里最脏的活:死信队列(Dead Letter Queue,失败消息堆积区)。传统方案是工程师手动排查、猜一个修复方案、直接上生产环境赌运气。他的系统反着来——第一次修复故意让它错,用模拟环境验证,再决定是否放行

为什么"故意失败"比"一次成功"更可靠

大多数AI Agent演示都在走 happy path:输入问题,输出正确答案,掌声响起。Williams在博客中写道:「A system that always succeeds on the first try is not reasoning — it is pattern-matching.」(总在第一次就成功的系统不是在推理,它只是在模式匹配。)

Dead Letter Oracle的核心机制是强制分阶段验证。消息进入死信队列后,系统执行四步闭环:

第一步,LLM(大语言模型)提出修复方案;第二步,确定性工具验证方案的具体性——"调整生产者schema"这种模糊指令会被打低分,"将user_id改为12345"这种可执行指令得分更高;第三步,模拟重放测试;第四步,Gatekeeper(守门人模块)根据置信度和环境风险做出ALLOW/WARN/BLOCK决策。


关键设计在于:模拟环境必须暴露第一次修复的缺陷。Williams举了一个真实场景——某消息因schema版本不匹配失败,AI首次建议"降级到v1 schema"。模拟显示这会丢失v2新增的字段数据。第一次修复被证伪后,系统进入修订循环,而非直接上生产

Gatekeeper的决策逻辑:同一修复方案,生产环境比测试环境更难通过

Gatekeeper评估四个独立因子:模拟置信度、环境类型(生产/预发/测试)、修复确认状态、历史相似案例结果。这不是硬编码的if/else,而是多因子评分模型——和访问控制、风控系统的架构同源。

一个具体案例:某修复方案在模拟中获得0.91置信度。在预发环境,Gatekeeper输出ALLOW,自动重放。同一方案进入生产环境,输出变为WARN——触发人工审核流程。

Williams解释这个设计:「The Gatekeeper applies a higher confidence threshold in production than in staging.」生产环境的容错成本更高,因此阈值更高。这不是保守,是校准。

BLOCK触发条件同样明确:模拟置信度在修订后仍低于阈值,或未确认任何修复方案。系统不奖励"努力过",只奖励"验证过"。

MCP协议:把AI工具变成可组合的基础设施


Dead Letter Oracle的技术架构值得拆解。Agent和MCP(Model Context Protocol,模型上下文协议)服务器作为独立进程运行,通过stdio通信。这个边界不是装饰——工具可以被任何MCP兼容客户端调用,不限于这个Agent本身。

Williams设计了四个MCP工具:三个确定性工具(诊断消息、验证修复、模拟重放),一个编排工具(整合前三个为治理流水线)。LLM只负责解释层:提出和修订方案。测量和验证交给确定性工具。

这种分工回应了企业AI的一个核心焦虑:如何把"智能"关进笼子里?答案是协议化。MCP工具是契约,不是实现细节。换一家公司的Agent,只要兼容协议,就能调用同一套诊断能力。

置信度计算方式也公开透明:replay_simulate评估三项指标——修复后的schema有效性、修复具体性(具体值vs高层指令)、与重放规则的对齐度。高分修复必须同时满足:语法正确、动作可执行、符合组织策略。

这套设计把"AI黑箱"变成了可审计的决策链。每一步推理、每一次评分、每一个决策都有日志。合规团队可以追问:为什么这个方案被WARN?Gatekeeper会指向模拟报告的具体字段。

开源社区的反应验证了需求。项目发布两周内, issues区聚集了来自Netflix、Spotify、Snowflake等公司的工程师,讨论最多的是阈值调参——0.91在生产环境触发WARN,那0.95呢?0.87呢?Williams的回复是:「阈值不是常数,是组织风险偏好的函数。」

一个细节值得玩味。Dead Letter Oracle的README里没有"AI"这个词,只有"agent"和"LLM"。Williams在讨论区解释:「我们不是在卖智能,我们是在卖治理。」

当你的死信队列里躺着一条失败消息,AI第一次给出的修复方案,你希望它直接执行,还是先证明自己是错的?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重庆真正最大的乡镇曝光,一个镇比两个主城区还大,网友:太大了

重庆真正最大的乡镇曝光,一个镇比两个主城区还大,网友:太大了

带着瓶盖儿去旅行
2026-04-06 22:48:31
23投狂砍32分+5记三分球!提前锁定常规赛MVP,郭士强眼光毒辣

23投狂砍32分+5记三分球!提前锁定常规赛MVP,郭士强眼光毒辣

老叶评球
2026-04-06 22:55:28
全球最大弹药库:澳门大搬空需6年,是否足够美国打次世界大战?

全球最大弹药库:澳门大搬空需6年,是否足够美国打次世界大战?

小蒨喜欢解说
2026-03-23 17:51:09
清明后,宁可不吃肉也要吃这4种菜!养肝明目补维C,错过再等明年

清明后,宁可不吃肉也要吃这4种菜!养肝明目补维C,错过再等明年

花小厨
2026-04-04 02:50:03
不对劲!女子被上海交警扣住,还惊动了外省警方

不对劲!女子被上海交警扣住,还惊动了外省警方

看看新闻Knews
2026-04-06 21:55:06
在古代,为什么不通过下毒来杀掉皇帝?溥仪:压根没吃过一顿热饭

在古代,为什么不通过下毒来杀掉皇帝?溥仪:压根没吃过一顿热饭

史之铭
2026-03-27 17:08:27
一咖啡店摆出长达700字的进店须知,“禁止乱扔丝袜”“禁止室内捞小乌龟”等规定引网友好奇,老板:实属被逼无奈,摆出后被“骂惨了”

一咖啡店摆出长达700字的进店须知,“禁止乱扔丝袜”“禁止室内捞小乌龟”等规定引网友好奇,老板:实属被逼无奈,摆出后被“骂惨了”

极目新闻
2026-04-06 16:07:42
真正的纯阳之物!隔天吃一次,脾胃好了、气血足了,浑身有劲!

真正的纯阳之物!隔天吃一次,脾胃好了、气血足了,浑身有劲!

白色得季节
2026-03-23 13:15:58
决不轻饶!军工反腐揪出大老虎,不是技不如人,而是“蛀虫”太多

决不轻饶!军工反腐揪出大老虎,不是技不如人,而是“蛀虫”太多

无悔的灿烂人生
2026-03-28 20:46:25
“这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

“这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

妍妍教育日记
2026-03-21 10:05:03
每天被活取胆汁,疼到咬烂自己手掌!曾轰动一时的胆熊怎么样了?

每天被活取胆汁,疼到咬烂自己手掌!曾轰动一时的胆熊怎么样了?

蜉蝣说
2026-04-03 16:26:35
伊朗发出最后通牒!俄通告全球将参战,法国上将:中估计也要到了

伊朗发出最后通牒!俄通告全球将参战,法国上将:中估计也要到了

泠泠说史
2026-04-05 16:26:13
美国取缔多名伊朗高官亲属绿卡

美国取缔多名伊朗高官亲属绿卡

名人苟或
2026-04-06 06:02:45
研究:中国全球支持率超越美国达到36%

研究:中国全球支持率超越美国达到36%

俄罗斯卫星通讯社
2026-04-05 16:06:24
中国可能在等,把3大主要问题解决了,再彻底解决台湾问题

中国可能在等,把3大主要问题解决了,再彻底解决台湾问题

南宗历史
2026-04-06 20:55:43
一汽-大众春季新品发布会厦门启幕 五车齐发全矩阵布局

一汽-大众春季新品发布会厦门启幕 五车齐发全矩阵布局

HeyCarPro
2026-03-31 23:10:32
史上最漂亮的违章,没有之一

史上最漂亮的违章,没有之一

今日搞笑分享
2026-04-06 19:36:28
全红婵回乡祭祖一个动作火遍全网!褪去冠军光环的她,圈粉无数

全红婵回乡祭祖一个动作火遍全网!褪去冠军光环的她,圈粉无数

社会日日鲜
2026-04-06 17:26:19
刘嘉玲一句话,算是把谢霆锋为啥绕不开王菲这事,给点透了。

刘嘉玲一句话,算是把谢霆锋为啥绕不开王菲这事,给点透了。

果妈聊娱乐
2026-04-06 15:29:44
没有大运护体的人,根本看不到这遍文章!这是命运专属投递

没有大运护体的人,根本看不到这遍文章!这是命运专属投递

荷兰豆爱健康
2026-04-06 01:39:15
2026-04-07 03:24:49
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
848文章数 1关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

特朗普:一夜就能拿下伊朗 可能就是周二晚上

头条要闻

特朗普:一夜就能拿下伊朗 可能就是周二晚上

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

亲子
健康
手机
数码
房产

亲子要闻

到底要不要打生长激素真是苦恼,又怕有副作用又怕不长...

干细胞抗衰4大误区,90%的人都中招

手机要闻

OPPO Find X9s Pro真机现身,还有银色哈苏专业增距镜

数码要闻

玄派玄机16 2026笔记本上架:锐龙AI Max+ 395,128GB + 2TB

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

无障碍浏览 进入关怀版