所有人都在造AI智能体。能推理、能规划、能自主行动的自动化系统,写代码、管流程、做分析、下决策。演示效果惊艳,市场热度空前。
但没人说的是:91%的智能体没能成功投产。演示里跑得通,真实环境里垮掉。而原因几乎从来都不是模型本身。
![]()
真正的问题不是智能,是基建
多数团队把90%精力花在智能体本身——提示词、推理链、工具选择、架构设计。上线后两周就崩,却想不明白为什么。
问题出在智能体周围的一切。那些会议上没人愿意聊的、枯燥无味的系统工程。这些东西做不出好演示,却决定了智能体在第30天、第90天、第365天还能不能跑。
这就是MLOps,或者说,让AI系统在生产环境稳定运行的那门学问。
而智能体AI是MLOps领域最难的问题。原因如下。
传统ML vs 智能体AI:系统工程鸿沟
传统ML系统相对简单:输入进,模型预测,输出出。监控预测质量,漂移发生时重训练,完事。
智能体系统完全不同。不是单个模型做单次预测,而是多个模型链式循环。智能体推理、规划、行动、观察结果、再推理。每一步依赖前一步,错误会累积。
实际意味着什么?
故障模式倍增。传统ML里一个错误预测就是一次坏输出。智能体的一个错误行动会级联——走错一步,观察到错误结果,基于错误上下文推理,再走错一步。等你发现时,它已经自信地错了好几个小时。
监控难度飙升。传统模型监控预测分布和准确率。智能体需要监控行动质量、循环检测、单次任务成本、工具故障率,以及它是否还在追求正确目标。
版本管理爆炸。传统模型只有一套权重。智能体涉及多个模型版本、提示词版本、工具配置、编排逻辑,全部需要统一版本追踪。
漂移变得不可预测。传统数据漂移是渐进的——输入分布缓慢变化。智能体漂移可能是突发的——工具API变更、新边界情况出现、运行环境演化。
这就是为什么智能体AI需要更多而非更少的MLOps纪律。而大多数团队的基础设施根本撑不起他们正在造的东西。
投产即死亡的五种故障模式
我研究过生产环境的ML故障——自己的和别人的。智能体失败的规律高度一致。
1. 工具链脆弱性
智能体依赖外部工具——API、数据库、代码执行环境。一个工具超时或返回格式异常,整个任务链断裂。多数团队只在理想条件下测试工具集成,没处理过真实世界的网络抖动、限流、语义变更。
2. 上下文窗口污染
智能体靠上下文记忆维持状态。但上下文会累积错误:工具返回的脏数据、之前推理的偏差、过时的环境信息。没有清理机制的话,智能体会越来越偏离正确轨道。
3. 成本失控
智能体的循环结构意味着成本不可预测。一个任务可能3步完成,也可能陷入30步的无效循环。没有实时成本监控和熔断机制,账单能吓死人。
4. 目标漂移
智能体被赋予目标,但缺乏持续校验。它可能"完成"了任务,却误解了真实意图。或者环境变化后,原目标已不适用,它仍在机械执行。
5. 可观测性黑洞
当智能体出错,你很难定位是哪一环。是提示词?工具?推理链?还是环境变化?多数团队没有端到端的追踪系统,调试靠猜。
那9%做对了什么
成功投产的团队没有更聪明的模型,但有更扎实的工程。
他们把MLOps当作一等公民,而非事后补丁。每个智能体组件都有监控、有回滚、有熔断。他们假设工具会失败,上下文会污染,成本会爆炸——并提前设计应对。
他们不把智能体当作"更聪明的API",而是当作"需要运维的分布式系统"。
演示看的是智能上限。投产拼的是工程下限。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.