去年有个数据:Gartner预测到2026年,80%的企业AI项目会因可观测性不足而搁浅。不是模型不够聪明,是工程师根本不知道代理在产线里干了什么——像给自动驾驶装了个黑匣子,但匣子焊死了。
OpenTelemetry社区最近推了一套方案,专门给AI代理做"手术灯"。不是另起炉灶造工具,而是用现成的分布式追踪协议,把LLM调用、工具执行、推理链条全串成一条时间线。微软、LangChain、CrewAI已经跟进。
代理崩了,传统日志像看天书
传统微服务的调试逻辑在AI代理面前基本失效。一个用户请求进来,代理可能调用3次大模型、5个外部API、中间还做了两轮自我修正——这些动作散落在不同服务里,日志各自为政。
某电商平台的技术负责人跟我说过个真事:他们的客服代理偶尔会给用户推荐竞争对手的商品,复现概率不到0.3%。团队花了两周翻日志,最后发现是某个工具返回的库存数据格式变了,代理的容错逻辑没兜住。但日志里只记了"工具调用成功",没记返回内容长什么样。
代理的决策链是动态的,传统监控的"请求-响应"模型根本追不上。
OpenTelemetry的解法是把每次LLM调用、每次工具执行、每次代理状态变更都变成标准化的Span(跨度)。Span之间用父子关系串联,形成完整的追踪树。工程师看到的不是孤立的日志条目,而是一条带时间戳的因果链。
三处埋点,把黑箱变玻璃房
具体怎么埋?OpenTelemetry定了三个层级的观测点。
最上层是应用框架。LangChain、LlamaIndex这类框架现在内置了OTel SDK,自动给Chain(链式调用)、Agent(代理)、Tool(工具)打标。开发者不用改业务代码,开几个环境变量就能出图。
中间层是模型调用。无论调OpenAI、Anthropic还是本地模型,SDK会把请求的prompt(提示词)、token消耗、响应延迟、甚至生成的完整输出都打包进Span属性。这里有个细节:prompt和response默认是可选的,怕数据敏感,但企业可以自行开启。
最底层是基础设施。GPU利用率、推理服务队列长度、向量数据库查询耗时——这些原本分散在Prometheus、Grafana里的指标,现在能和上层的业务追踪做关联分析。代理卡了,一眼看出是模型推理慢还是向量检索堵了。
LangChain的负责人Harrison Chase在文档里写过:「我们早期试过自己造观测工具,后来发现每家企业的监控栈都不一样,重复造轮子没意义。OTel成了事实标准,拥抱它比对抗它便宜十倍。」
生产环境的真实用法
这套东西不是Demo漂亮,是有人在负重训练了。
微软的Semantic Kernel团队把OTel集成进了企业级代理平台。他们的场景更复杂:一个代理可能同时 orchestrate(编排)多个子代理,每个子代理又有自己的工具集。OTel的上下文传播机制让跨代理的追踪不断链,像给每个子任务发了张"行程单",走到哪都能被父任务定位。
CrewAI的做法更激进。他们的多代理协作框架把每个Agent的"思考过程"——包括角色设定、任务分配、中间结论——都序列化成Span事件。调试时能看到代理A为什么把任务转给代理B,而不是自己硬扛。
有个金融风控团队的案例:他们的审批代理偶尔会出现"幻觉",给客户批了明显超额的额度。用OTel追踪后发现,问题出在RAG(检索增强生成)环节——向量数据库返回了过期的政策文档,代理没做时效校验。他们在Span里加了文档版本号属性,问题定位时间从小时级降到分钟级。
关键不是数据多,是数据能串成故事。
还没解决的硬骨头
OTel这套方案也有明显的边界。
Prompt和Response的采集是个敏感点。大模型的输入输出可能含PII(个人身份信息),全量采集等于给自己埋合规雷。目前的做法是支持采样和脱敏规则,但配置复杂度不低。
成本是另一个。一个活跃的代理系统每天可能产生千万级Span,存储和查询的开销比传统微服务高一个数量级。Jaeger、Tempo这些后端都在推新的存储引擎,但企业还没形成最佳实践。
最麻烦的是异步场景。代理经常需要等人——等用户确认、等外部回调、等长时任务完成。OTel的上下文在异步边界容易丢失,需要框架层做额外处理。CrewAI和LangGraph都在这上面踩过坑。
OpenTelemetry的AI Working Group负责人Ted Young在最近的社区会议上说:「我们不是在解决AI的可解释性问题,那是学术界的战场。我们要解决的是工程师的'我现在该看哪'问题。」
这句话挺实在的。代理的决策逻辑可能永远是个灰箱,但至少能让工程师知道它什么时候、在哪个环节、因为什么数据做了决定。
如果你的团队已经在用LangChain或CrewAI,开OTel大概只需要半天。但如果你的代理是自己手搓的,埋点的工作量可能和重写差不多——这时候你会怎么选?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.