网易首页 > 网易号 > 正文 申请入驻

7000次AI故障复盘后,我们发现LLM评委被高估了

0
分享至


7000多条真实故障记录,18套生产级检测器,两套公开基准测试。结果让团队内部吵了三天——专门训练的启发式检测器,在大多数故障类型上干掉了顶级大模型评委

这事反直觉。行业里默认的解法是用AI评AI:把执行轨迹丢给GPT-4o或Claude,问"哪出错了?"灵活、通用,就是贵。但Pisama的测试数据显示,这套"金标准"在结构性故障面前集体翻车。

两套基准,一个残酷现实

Patronus AI发布的TRAIL数据集,148条真实智能体执行轨迹,841处人工标注错误,横跨21种故障类型。难点在于:系统必须找出所有问题,不是挑一个最明显的,是全部。

顶级大模型在这栽了。Gemini 2.5 Pro的联合准确率11.0%,Claude 3.7 Sonnet 4.7%,OpenAI o3 9.2%。这些模型能写代码、能推理、能通过律师考试,却在"系统性检查清单"这种任务上露怯——它们被优化的是开放式推理,不是结构化的逐项排查。

另一套Who&When更刁钻。ICML 2025的spotlight论文,任务是给定多智能体对话故障,判定哪个智能体、在哪一步出的问题。检测+归因+定位,三重难度叠加。

Pisama的启发式检测器在这套基准上的 headline 数字:比最强LLM高5.5倍,成本为零。

100%精准率的代价

但准确率不是团队最看重的。真正让产品经理拍桌子的是精准率:当Pisama报故障时,它永远是对的——TRAIL数据集上100%精准率。

代价是召回率。40%的故障会被漏掉,这些是启发式规则没覆盖到的模式盲区。换句话说,这套系统的哲学是:宁可沉默,也不误报。

漏掉的40%去哪了?LLM escalation(大模型升级机制)接手。分层架构由此成型:规则能搞定的,零成本秒级响应;规则搞不定的,再喊贵的大模型来救火。

LLM零分的领域,规则拿满分

分类数据揭示了一个尴尬事实。Context handling(上下文处理)——大模型评委在此零分——启发式检测器接近满分。循环故障、规范合规性、工具调用错误,同属此列。

这些故障的共同特征:有强烈的结构性信号。循环有明确的重复模式,工具错误有固定的返回码格式,规范合规可以拆解为可验证的约束条件。模式匹配器提取这些信号,比语义推理更可靠。

Who&When的细分数据更有意思。启发式检测器在步骤定位上击败o1:16.8% vs 14.2%。找到"故障发生在哪一步",比单纯判断"有没有故障"更难,但规则系统依然领先。

LLM还没被淘汰的战场

但故事有另一面。语义理解类故障——意图误判、隐含需求冲突、创造性任务中的质量滑坡——这些没有固定模式,启发式检测器束手无策。

团队内部曾有争论:要不要把LLM评委彻底降级为"兜底方案"?最终结论是保留混合架构。规则层负责速度和确定性,LLM层负责覆盖长尾和语义灰色地带。

校准数据集来自13个外部源:MAST-Data(NeurIPS 2025)、AgentErrorBench、SWE-bench轨迹、GAIA轨迹、真实n8n工作流故障。7,212条标注条目按难度分层交叉验证,确保规则不会过拟合到特定场景。

一个细节:n8n工作流故障的纳入是去年Q4的决定。当时团队发现,生产环境的真实故障分布与学术基准差异显著——太多"第7步应该调用API A但调成了API B"这种低级错误,在干净的研究数据里罕见。

Pisama的18个检测器类别中,有3个完全依赖LLM escalation,其余15个以启发式为主、LLM为辅。这个比例会随数据积累动态调整。上个月刚把"响应格式异常"从LLM层迁移到规则层,因为攒够了模式样本。

下一步测试方向已经确定:多模态轨迹(带截图的网页操作)、长程依赖故障(第3步的错误第50步才暴露)、以及动态工具调用场景。规则系统在这些领域的表现,将决定混合架构的边界往哪移动。

读者里有多少人在用LLM-as-judge做生产监控?你们的规则层和模型层比例是多少?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4亿美元,灰飞烟灭

4亿美元,灰飞烟灭

中国新闻周刊
2026-04-05 18:06:30
伊朗最高领袖:将继续利用封锁霍尔木兹海峡这一战略杠杆

伊朗最高领袖:将继续利用封锁霍尔木兹海峡这一战略杠杆

国际在线
2026-04-06 06:53:08
韩媒:濒临崩盘的中国乒乓球“躲过”耻辱;日媒:团体赛击败中国不是梦

韩媒:濒临崩盘的中国乒乓球“躲过”耻辱;日媒:团体赛击败中国不是梦

去山野间追风
2026-04-06 10:40:48
教师大势已定:如无意外,2026年中国教师队伍将迎来3大变化

教师大势已定:如无意外,2026年中国教师队伍将迎来3大变化

王姐懒人家常菜
2026-04-06 09:17:44
医院就诊患者惊现“某某之女”被怒斥!网友:打拳打到新生儿科了

医院就诊患者惊现“某某之女”被怒斥!网友:打拳打到新生儿科了

火山詩话
2026-04-04 17:02:01
美“最大胆搜救”代价惨烈!损失飞机价值超4亿美元

美“最大胆搜救”代价惨烈!损失飞机价值超4亿美元

看看新闻Knews
2026-04-06 00:12:24
美军跳伞飞行员身背“小金库”,步枪金条电台一应俱全,非常难捉

美军跳伞飞行员身背“小金库”,步枪金条电台一应俱全,非常难捉

利刃号
2026-04-05 23:38:07
毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

复转这些年
2026-04-05 18:00:42
毛新宇携家人到杨开慧烈士陵园祭扫

毛新宇携家人到杨开慧烈士陵园祭扫

政知新媒体
2026-04-05 08:48:13
和稀泥终于引起公愤了!

和稀泥终于引起公愤了!

胖胖说他不胖
2026-04-06 09:00:47
教育已死:你们把教师群体打趴下之后,自己正在成为受害者

教育已死:你们把教师群体打趴下之后,自己正在成为受害者

双旗镇客栈
2026-04-05 20:45:53
解放军唯一的一次乌龙,一野和二野打了一个晚上,各自伤亡多少人

解放军唯一的一次乌龙,一野和二野打了一个晚上,各自伤亡多少人

旧史新谭
2026-04-05 17:00:22
被打服?世界第1盛赞赵心童:能拿上百个冠军!高兴中国选手崛起

被打服?世界第1盛赞赵心童:能拿上百个冠军!高兴中国选手崛起

我爱英超
2026-04-06 07:51:33
NBA历史首次!41岁詹姆斯22分+19岁弗拉格26分 半场同砍20+

NBA历史首次!41岁詹姆斯22分+19岁弗拉格26分 半场同砍20+

醉卧浮生
2026-04-06 08:51:17
女子孕35周狂吃炸鸡汉堡,一周胖10斤,抽出“草莓牛奶”血,急送ICU;浙江医院:情况紧急,必须立即终止妊娠

女子孕35周狂吃炸鸡汉堡,一周胖10斤,抽出“草莓牛奶”血,急送ICU;浙江医院:情况紧急,必须立即终止妊娠

环球网资讯
2026-04-06 08:38:11
网传一高校英语专业班级22名毕业生无一找到工作,辅导员气到崩溃

网传一高校英语专业班级22名毕业生无一找到工作,辅导员气到崩溃

狐狸先森讲升学规划
2026-04-06 00:05:03
伊朗导弹击中以色列海法,致2人死亡

伊朗导弹击中以色列海法,致2人死亡

界面新闻
2026-04-06 11:48:05
连人民日报也怒批:别再讲正确的废话,群众要的是有用的真话!

连人民日报也怒批:别再讲正确的废话,群众要的是有用的真话!

细说职场
2026-04-05 15:02:32
拼命还清一亿四千万巨债,曾经的“亮剑女神”,现回浙江农家生活

拼命还清一亿四千万巨债,曾经的“亮剑女神”,现回浙江农家生活

荒野老五
2026-04-05 19:45:15
越南的恨,为何唯独留给了中国

越南的恨,为何唯独留给了中国

民间胡扯老哥
2026-04-05 21:51:40
2026-04-06 14:24:49
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
848文章数 7关注度
往期回顾 全部

科技要闻

前同事被蒸馏成Token,AI能否偷走职场经验

头条要闻

牛弹琴:特朗普两个举动很反常 美国上下都很震惊

头条要闻

牛弹琴:特朗普两个举动很反常 美国上下都很震惊

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

乔任梁离世10年 父母曝舞台光鲜的背后

财经要闻

118吨!这家央行,大幅抛售黄金!

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

本地
时尚
数码
教育
健康

本地新闻

跟着歌声游安徽,听古村回响

AI时代,辨别真相的成本变高了

数码要闻

微星泰坦18 Ultra 2026 (Titan 18 HX)游戏本上市,47999元

教育要闻

让孩子远离手机的10个方法(建议收藏)

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版