![]()
Cloudflare 最近和苏黎世联邦理工学院联手,给 AI 爬虫的流量算了一笔账——每周超过 100 亿次请求。这数字听起来像某种天文观测数据,但对运维工程师来说,是实打实的噩梦。
Cloudflare 的工程师发现,AI 机器人的行为模式跟人类完全是两码事。人类上网像逛超市,顺手把常买的东西记在心里;AI 爬虫像一群同时冲进仓库的采购员,每人拿一张完全不同的清单,把货架翻得乱七八糟。
具体有多乱?Cloudflare 三分之一的流量来自自动化程序,包括搜索引擎、状态检测工具和 AI 助手。其中 AI 爬虫最活跃,占了所有自报机器人请求的 80%。它们的特点是:并行请求量大、专挑冷门页面、按顺序扫描全站——全是为了给 RAG(检索增强生成)这类服务喂数据。
关键差异在于缓存友好度。人类用户会复用浏览器缓存,保持会话连续性;AI 爬虫则是多个独立实例重复请求同一内容,而且 70% 到 100% 的 URL 都是唯一的。系统工程师 Erika S 在 X 上吐槽:RAG 循环的高唯一访问率直接导致了缓存翻转,LRU 算法在 AI 负载下形同虚设,德国主机的运行变得难以预测。
这种流量模式把 CDN 的"最近最少使用"淘汰策略、缓存预测和预取机制逐个击破。模拟显示,单个节点的缓存命中率会明显下降,源服务器负载增加,响应时间拉长。Aerospike 的 CFO Amy Lee 在 LinkedIn 上补充:AI 流量正在系统性消除数据库的优化条件——当绝大多数请求都是全新的,缓存就成了摆设。
Cloudflare 和 ETH Zurich 提出的解法是把人类和 AI 流量分层处理,测试"最不常使用"或"先入先出"等替代算法,甚至引入机器学习动态调整。结构化数据源、按爬取付费等配套措施也在考虑范围内。
说到底,给 AI 服务做缓存和给人做缓存,已经是两门手艺了。网站运营者要么重构架构,要么等着被这每周 100 亿次的"采购员大军"拖垮。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.