网易首页 > 网易号 > 正文 申请入驻

多智能体系统监控:200 OK背后藏着多少坑

0
分享至

你的多智能体系统返回200 OK,就意味着一切正常吗?

这是我搭建生产级AI智能体监控体系时最大的顿悟。表面上,API健康、延迟正常、用户收到了回复——但决策层正在无声崩溃。智能体把查询路由给了错误的专家?幻觉信息却没被察觉?直接忽略了专业模块的输出?传统监控完全无能为力,因为系统"技术上"没故障。


问题藏在架构深处:用户查询→多智能体调用→最终响应。这个链条里,每个环节都可能出错,但错误不会触发告警。我花了大量时间摸索,最终用Langfuse搭了一套覆盖全链路的监控方案。


核心思路是全链路可追溯。每一次智能体执行都要留下痕迹:工具调用记录、输入输出载荷、每一步的Token消耗、各环节延迟。只要智能体碰过的东西,全部可见,拒绝黑箱。

但光有trace不够,还需要确定性校验。这类验证不需要再调LLM,纯规则判断:智能体是否调用了正确领域的工具?是否调用了不该碰的工具?预期工作流是否被遵循?结果只有0和1,又快又便宜。

针对幻觉问题,我设计了忠实度检查。把最终回复与各专业模块的输出做比对,如果最终层引入了源输出中不存在的论断,直接标红。这招抓住了大量"听起来很自信但毫无根据"的案例。

确定性检查覆盖不了的地方,上LLM裁判。我用Azure OpenAI担任评委,评估四个维度:路由正确性、回复质量、归因准确性、冲突处理能力。每条多智能体响应都跑一遍。贵吗?贵。有用吗?非常有用。


我坚持100%流量监控,不做采样。因为边缘案例恰恰是采样最容易漏掉的东西。同时紧盯成本与延迟:每个智能体的Token消耗、每步延迟、昂贵的执行路径,优化起来有的放矢。

这套系统抓到了传统监控完全漏掉的问题:错误归因——正确的洞察被算到了错误的专家头上;输出被忽略——智能体直接无视专业模块的回复;路由失误——查询偶尔被发给错误的智能体。这些在常规仪表盘上一切正常。

技术栈很简单:可观测性用Langfuse,LLM评估用Azure OpenAI,确定性检查用TypeScript。最终结论:多智能体系统里,可用性监控远远不够,你需要决策监控。因为一次"成功"的响应,可能错得离谱。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东招远一矿业公司基建矿区发生事故,造成3人死亡、2人受伤

山东招远一矿业公司基建矿区发生事故,造成3人死亡、2人受伤

界面新闻
2026-05-14 09:48:55
骑士有望4-2晋级东决!拆解骑士晋级四要素,活塞已经打光子弹

骑士有望4-2晋级东决!拆解骑士晋级四要素,活塞已经打光子弹

老梁体育漫谈
2026-05-15 00:03:35
没想到,斯诺克世锦赛结束8天,29岁赵心童传来三大好消息

没想到,斯诺克世锦赛结束8天,29岁赵心童传来三大好消息

章幃户外
2026-05-13 20:15:27
中美会晤有无谈台湾不同调!江启臣示警:观察美中后续1动作

中美会晤有无谈台湾不同调!江启臣示警:观察美中后续1动作

新时光点滴
2026-05-15 00:04:37
90岁钟南山公开6个长寿秘诀:第一条就很多人做不到,看完就明白

90岁钟南山公开6个长寿秘诀:第一条就很多人做不到,看完就明白

医学科普汇
2026-05-14 17:41:18
砸了个寂寞!特朗普最愚蠢之处,就是把中美平起平坐的真相说出来

砸了个寂寞!特朗普最愚蠢之处,就是把中美平起平坐的真相说出来

小嵩
2026-03-28 18:44:22
王楚钦风波升级!官媒发文批评,言辞犀利,难怪国家体育总局出手

王楚钦风波升级!官媒发文批评,言辞犀利,难怪国家体育总局出手

阿凫爱吐槽
2026-05-14 21:26:37
4只皮皮虾1035元,官方回应是否“带客吃回扣”

4只皮皮虾1035元,官方回应是否“带客吃回扣”

中国新闻周刊
2026-05-09 19:38:06
中美元首会晤,世界吃下一颗“定心丸”

中美元首会晤,世界吃下一颗“定心丸”

环球时报国际
2026-05-14 13:37:25
菲律宾万万没想到,精心安排的"仁爱礁"破船,反倒帮了中国大忙

菲律宾万万没想到,精心安排的"仁爱礁"破船,反倒帮了中国大忙

孤城落叶
2026-05-14 08:39:29
给近两年收视最好的10部年代剧排名:《主角》第3,第1没争议

给近两年收视最好的10部年代剧排名:《主角》第3,第1没争议

八斗小先生
2026-05-14 18:36:03
热依扎39岁未婚生子,非首次离谱行为

热依扎39岁未婚生子,非首次离谱行为

仙味少女心
2026-05-13 22:34:13
44岁范冰冰近照判若两人!与妈妈同框身形暴肥,这次是真怀孕了?

44岁范冰冰近照判若两人!与妈妈同框身形暴肥,这次是真怀孕了?

八卦王者
2026-05-12 15:27:14
特朗普没想到,中美韩国谈判还没开始,中国手里又多了一张王牌

特朗普没想到,中美韩国谈判还没开始,中国手里又多了一张王牌

流年顛簸
2026-05-15 00:01:32
反转来了!美国批准向10家中国公司出售英伟达H200芯片,引发关注

反转来了!美国批准向10家中国公司出售英伟达H200芯片,引发关注

科技处长
2026-05-14 22:46:44
骆家辉警告中国:最好不要自主生产尖端芯片,这不是美国想看到的

骆家辉警告中国:最好不要自主生产尖端芯片,这不是美国想看到的

冷夜说
2026-04-20 22:21:56
54岁马斯克现身人民大会堂前,拿手机拍不停,“像个小孩儿”

54岁马斯克现身人民大会堂前,拿手机拍不停,“像个小孩儿”

译言
2026-05-14 11:48:24
郑强翻车,翻得一点也不冤!

郑强翻车,翻得一点也不冤!

梳子姐
2026-05-13 12:19:44
黄先生,捐赠1亿元

黄先生,捐赠1亿元

都市快报橙柿互动
2026-05-13 10:23:21
宁夏恶魔,白天在谢晋电影里演好人,晚上回家当阎王,杀人喂狗!

宁夏恶魔,白天在谢晋电影里演好人,晚上回家当阎王,杀人喂狗!

莫地方
2026-05-14 00:55:03
2026-05-15 00:43:00
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
2742文章数 26关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

时尚
教育
本地
房产
健康

白色上衣+彩色下装:今年夏天最火搭配,时髦又减龄!

教育要闻

老师的绩效也随工资发了,领导好像不太能拿捏老师们了!

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

专家揭秘干细胞回输的安全风险

无障碍浏览 进入关怀版