传统软件那套监控指标,在Agent面前像个失灵的体温计——能测出"发烧",但说不清病因。
4月16日至18日,QCon全球软件开发大会北京站,阿里云技术专家蔡健准备摊开一本"错题集"。不是讲PPT里光鲜的架构图,而是复盘把Agent从Demo推到核心生产系统时,那些传统软件体系根本接不住的难题。
Agent的非确定性推理、动态工具调用,凑成了一个"语义黑盒"。故障来了找不到决策断层,优化时缺细粒度数据,多Agent一协同复杂度直接失控。更尴尬的是,QPS、延迟这些老指标,回答不了最朴素的问题:这任务到底能不能成?
![]()
蔡健团队踩过三个实打实的坑。低代码和高代码混着用,长周期多轮交互的状态管理乱成一锅粥;线上服务首包响应慢、成本不可控,传统监控却看不到完整执行链路;Agent上线后质量悄悄退化,新功能一发布部分场景直接挂掉。
他们的解法是把可观测和评估拧成一股绳。可观测侧,要穿透Agent的执行黑箱;评估侧,LLM-as-Judge、Code-as-Judge、人工标注得混着用,还得搞置信度交叉验证。关键是把评估嵌入"开发→测试→上线→运维"的每个关节,设一道质量准入门槛。
Multi-Agent场景更麻烦。跨智能体的链路追踪、执行轨迹观测,长上下文里用户意图漂移导致评估指标失效,这些都没现成答案。蔡健团队正在试一件事:让系统基于业务特征自动推荐评估策略,省点人工。
![]()
技术债也很具体。不同语言栈和AI框架(LangChain、LlamaIndex等)迭代太快,埋点适配成本高、数据格式碎片化;全链路追踪里,客户端和服务端缺统一的语义元信息,session_id、user_id、Agent_id对不上号,根本串不起来。
这场分享的核心就一句话:全程基于真实生产场景,复盘"踩坑→解决→迭代"的完整过程。不是讲原理,是讲怎么把Agent从"能跑"变成"敢用"。
同期QCon北京站还有20多个专题,覆盖Agentic Engineering、具身智能、AI原生基础设施等方向,100多位来自腾讯、阿里、百度、华为、蚂蚁、小米、网易的技术专家到场。详情可联系票务经理18514549229。
蔡健团队在多个业务场景里验证过:Agent上线只是开始,没有观测和评估的闭环,质量漂移和成本超支是迟早的事。有个细节他们印象很深——早期某次上线后,用户反馈"有时好用有时抽风",传统监控显示一切正常,直到把推理链路逐层剥开,才发现某个工具调用在特定上下文里会触发异常分支。这种"薛定谔的Bug",正是Agent时代的新常态。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.