评测没问题，交接才是灾难：多智能体系统的隐藏故障|路由|大模型

评测没问题，交接才是灾难：多智能体系统的隐藏故障

2026-06-28 04:28:06　来源: Ping值焦虑

北京举报

分享至

几乎所有关于智能体的评测指南，都在悄悄假设你只有一个智能体。单一模型，单一循环，单一输出，打分就完事。你搭好干净的评测框架，追踪运行流程，卡个通过率，觉得一切尽在掌握。

问题出在系统长大之后。路由智能体决定调用哪个专家，研究员智能体把草稿交给写手，规划器生成三个工作节点再把结果合并。这时候你手里的根本不是单个智能体，而是一张智能体的组织架构图。故障点很少藏在某个智能体内部，真正的炸弹埋在交接环节——也就是一个智能体的输出变成另一个智能体输入的那个接缝。

没人把这玩意放进评测套件里，因为它不存在于任何单独智能体中。多智能体系统需要一套完全不同的评价体系和可观测性设计，如果你把单智能体工具链硬套上去，那就等着闭眼上线吧。

接缝处才是尸骨埋藏地。来看个真实案例：一个客服管道，分流智能体先把工单分类，然后路由到账单智能体或技术智能体。单独看，每个都强得离谱——分流分类评测0.94，账单解决质量0.91，技术支持0.89。

整个管道却是一场灾难。退款请求被扔给技术智能体，这个家伙开开心心地为账单问题编了套故障排查方案。每个组件都通过了各自的评测，系统整体却是废的。为什么？因为分流端输出的是 {"category": "refund_issue"}，而路由那边匹配的关键词却是 "billing"。两个人各管各的提示词，分类词汇表早就漂移了。单智能体评测抓不到这个，因为没有任何一个智能体出错——错的是它们之间的契约。

如果你只在隔离状态下评测智能体，相当于给分布式系统做单元测试，还管这叫集成覆盖。它不是。修补方案是把每次交接当作一等公民来验证，分两层：结构化契约是确定性的，生产者的输出必须匹配消费者预期的格式和值域，这玩意儿便宜又快，能完整捕获词汇漂移类缺陷；语义交接质量由模型判定，看上游产出后传给下游的上下文够不够干活，写手拿到的是研究员挖到的真实数据，还是有损摘要。

结构化层才是真正的护盾，也是全栈最便宜的部分。每对智能体之间我都放上这样的契约检查，契约由生产者和消费者共同持有，定义输出格式的类型枚举、数值范围和字段要求，交接本身也得明确来源、目标与载荷。成本极低，能挡住最多的事。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.