每周100亿次请求，AI爬虫把CDN缓存"洗"成了摆设|算法|流量|cdn|服务器|数据源

每周100亿次请求，AI爬虫把CDN缓存"洗"成了摆设

2026-04-13 08:44:47　来源: 灰度测试中

北京举报

分享至

Cloudflare 最近和苏黎世联邦理工学院联手，给 AI 爬虫的流量算了一笔账——每周超过 100 亿次请求。这数字听起来像某种天文观测数据，但对运维工程师来说，是实打实的噩梦。

Cloudflare 的工程师发现，AI 机器人的行为模式跟人类完全是两码事。人类上网像逛超市，顺手把常买的东西记在心里；AI 爬虫像一群同时冲进仓库的采购员，每人拿一张完全不同的清单，把货架翻得乱七八糟。

具体有多乱？Cloudflare 三分之一的流量来自自动化程序，包括搜索引擎、状态检测工具和 AI 助手。其中 AI 爬虫最活跃，占了所有自报机器人请求的 80%。它们的特点是：并行请求量大、专挑冷门页面、按顺序扫描全站——全是为了给 RAG（检索增强生成）这类服务喂数据。

关键差异在于缓存友好度。人类用户会复用浏览器缓存，保持会话连续性；AI 爬虫则是多个独立实例重复请求同一内容，而且 70% 到 100% 的 URL 都是唯一的。系统工程师 Erika S 在 X 上吐槽：RAG 循环的高唯一访问率直接导致了缓存翻转，LRU 算法在 AI 负载下形同虚设，德国主机的运行变得难以预测。

这种流量模式把 CDN 的"最近最少使用"淘汰策略、缓存预测和预取机制逐个击破。模拟显示，单个节点的缓存命中率会明显下降，源服务器负载增加，响应时间拉长。Aerospike 的 CFO Amy Lee 在 LinkedIn 上补充：AI 流量正在系统性消除数据库的优化条件——当绝大多数请求都是全新的，缓存就成了摆设。

Cloudflare 和 ETH Zurich 提出的解法是把人类和 AI 流量分层处理，测试"最不常使用"或"先入先出"等替代算法，甚至引入机器学习动态调整。结构化数据源、按爬取付费等配套措施也在考虑范围内。

说到底，给 AI 服务做缓存和给人做缓存，已经是两门手艺了。网站运营者要么重构架构，要么等着被这每周 100 亿次的"采购员大军"拖垮。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.