Datadog报告：AI“静默失败”问题即将冲击企业系统|数据源|智能体|工作流|datadog|复杂性|观测性

Datadog报告：AI“静默失败”问题即将冲击企业系统

2026-04-28 08:13:17　来源: Ai时代前沿

北京举报

分享至

Datadog最新发布的《AI工程现状报告》指出，企业AI系统存在可量化的失败问题。约每20个请求中就有1个在生产环境中失败，但系统仍在继续运行并返回看似正确的输出，这使得这些失败难以被检测。按工程标准来看，生产环境AI系统5%的失败率已经非常高。

除了失败率上升，报告还强调了复杂性增加以及生产环境的不稳定性。这并非系统宕机的问题，而是系统在运行中逐渐变得不再可信的问题。

报告中最引人注目的是多个趋势正在同时碰撞：AI正快速进入生产环境，失败率开始更清晰地显现，系统设计变得更加复杂——因为团队将多个模型、数据源和工具组合到单一管道中。Datadog指出，约70%的组织已在生产环境中使用三个或更多模型，这增加了另一层协调难度。在某些情况下，基于智能体（Agent）的工作流叠加其上，引入了更多变数。每一层都增加了能力，但也增加了出现问题却不立即显现的概率，这正是静默失败问题开始生根的地方。

"AI开始看起来很像云计算的早期阶段，"Datadog首席产品官Yanbing Li表示，"云让系统变得可编程，但管理起来复杂得多。AI现在正在应用层做同样的事情。获胜的公司不仅会构建更好的模型，还会围绕模型建立运营控制。在这个新时代，AI可观测性变得像十年前的云可观测性一样重要。"

这些发现的意义还在于数据来源。Datadog并非调查开发者或收集意见，而是在分析数千家公司运行AI系统的生产遥测数据。其中包括越来越多的基于智能体的环境，在这些环境中，模型不仅生成输出，还驱动多步骤工作流。在这些系统中，报告指出运营复杂性是可靠扩展AI的主要障碍，大多数组织已在生产环境中运行多个模型。随着这些系统扩展，挑战不再是如何让它们工作，而是在部署后如何保持它们可理解和可控。

"下一波智能体失败不会是关于智能体不能做什么，而是关于团队无法观察到什么，"Vercel（Next.js背后公司，构建AI驱动Web应用的领先平台）CEO Guillermo Rauch表示，"我们在Vercel构建了智能体基础设施，因为智能体需要与优秀软件相同的生产反馈循环。与传统软件不同，智能体的控制流由LLM本身驱动，这使得可观测性不仅有用，而且必不可少。"

报告中的另一个情况是，许多失败并非由模型质量驱动，而是由基础设施限制导致。很大一部分错误来自速率限制，生产系统中记录了数百万次此类事件。随着使用量增长，系统更频繁地触及提供商容量上限，这造成了难以预测的失败爆发。在实践中，可靠性既取决于团队如何管理负载、重试和并发，也取决于模型本身的表现如何。

据Datadog的发现，成本和延迟正变得更难控制。典型工作负载的Token使用量增加了一倍多，重度用户的增长更快。推动这一增长的因素不仅是用户输入，还包括系统提示、策略和工具指令的扩展层——这些内容在每个请求中被重复处理。这些后台Token现在占总使用量的很大一部分，这意味着即使用户需求看似稳定，成本也可能上升。

尽管如此，基本的效率提升往往被忽视。报告显示，提示缓存仍被低估使用，大多数系统在跨调用时重新处理相同的上下文。这暴露了AI系统构建方式与生产环境优化方式之间的差距。随着上下文窗口扩大和提示变大，挑战正从向模型中塞入更多数据，转变为决定哪些信息真正重要。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.