Datadog最新发布的《AI工程现状报告》指出,企业AI系统存在可量化的失败问题。约每20个请求中就有1个在生产环境中失败,但系统仍在继续运行并返回看似正确的输出,这使得这些失败难以被检测。按工程标准来看,生产环境AI系统5%的失败率已经非常高。
![]()
除了失败率上升,报告还强调了复杂性增加以及生产环境的不稳定性。这并非系统宕机的问题,而是系统在运行中逐渐变得不再可信的问题。
报告中最引人注目的是多个趋势正在同时碰撞:AI正快速进入生产环境,失败率开始更清晰地显现,系统设计变得更加复杂——因为团队将多个模型、数据源和工具组合到单一管道中。Datadog指出,约70%的组织已在生产环境中使用三个或更多模型,这增加了另一层协调难度。在某些情况下,基于智能体(Agent)的工作流叠加其上,引入了更多变数。每一层都增加了能力,但也增加了出现问题却不立即显现的概率,这正是静默失败问题开始生根的地方。
"AI开始看起来很像云计算的早期阶段,"Datadog首席产品官Yanbing Li表示,"云让系统变得可编程,但管理起来复杂得多。AI现在正在应用层做同样的事情。获胜的公司不仅会构建更好的模型,还会围绕模型建立运营控制。在这个新时代,AI可观测性变得像十年前的云可观测性一样重要。"
![]()
这些发现的意义还在于数据来源。Datadog并非调查开发者或收集意见,而是在分析数千家公司运行AI系统的生产遥测数据。其中包括越来越多的基于智能体的环境,在这些环境中,模型不仅生成输出,还驱动多步骤工作流。在这些系统中,报告指出运营复杂性是可靠扩展AI的主要障碍,大多数组织已在生产环境中运行多个模型。随着这些系统扩展,挑战不再是如何让它们工作,而是在部署后如何保持它们可理解和可控。
"下一波智能体失败不会是关于智能体不能做什么,而是关于团队无法观察到什么,"Vercel(Next.js背后公司,构建AI驱动Web应用的领先平台)CEO Guillermo Rauch表示,"我们在Vercel构建了智能体基础设施,因为智能体需要与优秀软件相同的生产反馈循环。与传统软件不同,智能体的控制流由LLM本身驱动,这使得可观测性不仅有用,而且必不可少。"
报告中的另一个情况是,许多失败并非由模型质量驱动,而是由基础设施限制导致。很大一部分错误来自速率限制,生产系统中记录了数百万次此类事件。随着使用量增长,系统更频繁地触及提供商容量上限,这造成了难以预测的失败爆发。在实践中,可靠性既取决于团队如何管理负载、重试和并发,也取决于模型本身的表现如何。
![]()
据Datadog的发现,成本和延迟正变得更难控制。典型工作负载的Token使用量增加了一倍多,重度用户的增长更快。推动这一增长的因素不仅是用户输入,还包括系统提示、策略和工具指令的扩展层——这些内容在每个请求中被重复处理。这些后台Token现在占总使用量的很大一部分,这意味着即使用户需求看似稳定,成本也可能上升。
尽管如此,基本的效率提升往往被忽视。报告显示,提示缓存仍被低估使用,大多数系统在跨调用时重新处理相同的上下文。这暴露了AI系统构建方式与生产环境优化方式之间的差距。随着上下文窗口扩大和提示变大,挑战正从向模型中塞入更多数据,转变为决定哪些信息真正重要。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.