凌晨2:17,监控告警:数据库延迟飙升。值班工程师还没读完邮件,三个AI代理已经行动了。
性能代理扩容数据库。成本代理发现资源过剩,开始合并实例。路由代理把流量导向数据库层。每个决策都有日志记录,每个决策单独看都正确,每个代理都在按设计运行。
![]()
2:19,数据库宕机。不是因为某个环节出错,而是因为一切正常。没有任何代理报错。要还原这两分钟里"每个决策都对、组合起来却灾难"的链条,花了三天。
这是下一代基础设施故障的样子。
这种故障模式未必始于AI。去年三起重大事故已经证明:AWS、Azure、Cloudflare的故障,共同点是——从任何单一系统内部都看不到问题。现在把同样的模式放到几十个代理以机器速度并发决策的场景里。
自动化管理基础设施并不新鲜。自动扩缩容、Kubernetes调度、AIOps重启服务,这些都在预设规则内运行,边界清晰。但代理定义的基础设施不同:它观察环境、权衡利弊、以机器速度做判断。而且企业部署的不是一两个,而是几十个并发代理,共享基础设施,秒级决策。
AWS、Azure、Cloudflare的交互故障模式不会消失,而是以三种方式倍增。凌晨2:17的场景同时触发全部三种,而日志里什么都看不出来。共同点是:这些故障在发生前不可见,除非你监控对了东西。
代理越多,潜在交互模式不是线性增长,而是随代理数量和权限范围扩张而复合爆炸。
传统监控为另一种问题而建。CPU、内存、延迟、错误率告诉你单一系统何时崩溃。它们无法展示多个正常系统如何交互出集体故障。
需求本质变了。问题不再是服务A是否健康,而是它的变更如何触发服务B、C、D的动作。重要的不只是代理做了什么,而是它决策时在看什么。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.