网易首页 > 网易号 > 正文 申请入驻

一分钟3.9万次请求!网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬「武器」

0
分享至


整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

“我的网站被爬崩了,自己要付流量费,人家却用我的内容训练出 AI 模型,还赚足了眼球。”

自从 AI 机器人开始流行,很多网站开发者叫苦不堪。而近日,云服务巨头 Fastly 发布的一份报告让人看完直呼“现实往往我们仅听到的部分更为残酷。”

报告显示,现在 AI 爬虫正疯狂冲击互联网,它们抓取网站的速度极快,占了 AI 机器人流量的 80%,剩下的 20% 是按需抓取。

这些 AI 机器人对没有设立防护的网站而言,可不是闹着玩的——其峰值流量甚至能达到每分钟 39,000 个请求!换句话说,一个普通网站可能在一分钟之内被 AI 爬虫和抓取程序“轰炸”上千次,每秒都在承受超负荷压力。

而报告还揭露了罪魁祸首们还是如今众人所知的 Meta、OpenAI 等主流 AI 大厂,为此,开发者也正在蓄力开启「反击之战」。



AI 爬虫正在摧毁网站,Meta、Google、OpenAI 是“主谋”?

在这份报告里,Fastly 把 AI 机器人分成两类,按它们的行为和用途来区分:爬虫(Crawlers)和抓取(Fetchers)

所谓爬虫机器人,它的工作方式像搜索引擎,它们会系统地扫描网站,把内容收集起来,用于建立可搜索的索引或者用来训练语言模型。这一步是 AI 模型“训练阶段”的前提。

数据上看,爬虫机器人占了 AI 机器人请求量的近 80%,抓取机器人占剩下的 20%。


爬虫机器人通常会去抓取公开可访问、有权威的网站内容,比如新闻网站、教育资源、政府页面、技术文档或者公开数据集。

报告显示,AI 爬虫流量几乎全部被几家公司瓜分:Meta、Google 和 OpenAI 三家加起来就已经占了 95%,其中 Meta 占 52%,Google 23%,OpenAI 20%。


抓取机器人就像模型的“小助理”,当 AI 回答问题时,它们会马上去找相关的网页或资料,让模型能引用权威、最新的信息来支撑答案。也就是说,模型在生成回答的时候,不只是凭自己记忆里的内容,还能实时参考外部数据,这个过程就叫做“推理阶段”。

数据显示,几乎所有抓取请求里,ChatGPT-User 和 OpenAI SearchBot 共计占 98%,也就是说 OpenAI 主要靠 ChatGPT,对网站带来的抓取流量影响最大。其次,Perplexity 的抓取请求量只有 1.53%,不过它的影响力在慢慢上升。


报告进一步指出,排名前四的爬虫公司——Meta、Google、OpenAI 和 Claude——似乎对商业网站特别感兴趣,总爱“盯着”这类内容。


再来看一看 AI 爬虫的流量趋势。数据显示,近几个月以来,Meta 的爬虫明显在慢慢“加速”。

同时,大多数爬虫的频次都挺随性的,有时候会悄悄爬,流量平平,这也导致很多网站可能都没有意识到自己的网站被爬取了。

不过,有时候这些 AI 机器人流量也会爬得过分,连续几天甚至几周,流量可能直接飙到平常的 2–3 倍。


宏观数据背后,其实有不少真实的案例。比如我们乌克兰一家专注于人体 3D 模型的网站Trilegangers。

作为一家销售 3D 扫描数据的网站,Trilegangers 的七名员工花了十多年时间,建立了网络上最大的“人体数字替身”数据库。殊不知,今年年初,这个一直运行良好的网站突然崩了。CEOOleksandr Tomchuk赶紧召集工程师排查,结果发现——在网站已经更新了 robots.txt 的情况下,OpenAI 使用 600 个 IP 来抓取数据,直接把网站爬崩了。

Tomchuk 自述,如果爬虫抓得再温和一些,他可能永远都不会注意到这个问题。为此,Tomchuk 公开怒斥道:“他们的爬虫程序正在摧毁我们的网站!这基本上是一次 DDoS 攻击。”



看不见的成本只能由网站管理员及公司自行承担

确实,AI 机器人如果设计得不合理,会无意中给很多网站服务器带来巨大压力,导致网站慢、服务中断,甚至增加运营成本。尤其是大规模 AI 机器人流量飙升的时候,更让人头疼。

Fastly 也在报告中分享了他们的一些真实案例:

有个爬虫峰值能达到每分钟 1,000 次请求,虽然听起来不算“过”,但对依赖数据库查询或者像 Gitea 这种提供 Git 仓库浏览的系统来说,短时间的高峰就可能让网站卡顿、超时或者出问题。

按需抓取的情况就更夸张了:有一次,一个抓取器峰值竟然达到每分钟 39,000 次请求!这样的流量就算没有恶意,也能把服务器压得喘不过气来,消耗带宽,甚至产生类似 DDoS 攻击的效果。


过量的机器人流量不仅影响用户体验,还会推高基础设施成本,让网站数据分析失真。

遗憾的是,Fastly 的高级安全研究员 Arun Kumar 在报告里说,AI 机器人正在改变人们访问和体验互联网的方式,同时给数字平台带来了新的复杂问题。不管是为了训练 AI 收集数据,还是为了实时提供答案,这些机器人都会带来可见性、控制和成本上的新挑战。“看不到的东西就没法保护,没有明确的验证标准,AI 自动化的风险就会成为数字团队的盲点。


开发者反击,自制陷阱:工作量证明、zip 炸弹、迷宫

随着 AI 的使用越来越广泛,以及相关工具的发展加速,AI 爬虫事件似乎只会越来越多,而不是减少。面对这些“无视规则”的爬虫,开发者们开始主动反击,用各种奇招保护自己的网站。

用“工作量证明”工具 Anubis

一位名为 Xe Iaso 的 FOSS 开发者曾于今年一月公开怒斥亚马逊的 AI 爬虫工具,称其疯狂抓取自己的 Git 代码托管服务,导致网站频繁崩溃,几乎无法正常运行。


然而,公开喊话并没有起到任何震慑作用, 反而有时爬虫行为愈演愈烈。

忍无可忍的 Xe Iaso 自己开发了一套叫( https://git.xeserv.us/ )。

这是一个基于工作量证明(Proof-of-Work)的反爬虫机制。当用户访问启用了 Anubis 的网站时,Anubis 会要求浏览器完成一个基于 SHA-256 的 PoW 挑战。

这一挑战需要消耗一定的计算资源,普通用户几乎察觉不到延迟,但对于大规模爬虫而言,这种额外的计算开销会显著增加抓取成本,从而起到抑制作用。

程序员自制“ZIP 炸弹”反击内容窃取

还有一些开发者则采取了更“激烈”的手段。有一天,Ibrahim Diallo偶然发现,有个网站在实时偷他的博客内容:每当有人访问他们的页面,他们就立刻爬取他最新的文章,把名字和品牌标识删掉,然后假装是自己写的。

一开始,Ibrahim 尝试“手动反击”,故意喂爬虫一些假数据,让对方搬错内容。但没过多久,他觉得这种方式太麻烦,于是决定使用自己的秘密武器——。

这个“炸弹”的工作原理是:当爬虫访问他的网站时,他返回一个看起来没问题的小压缩文件。爬虫的服务器会自动下载并尝试解压,结果几 GB 的“垃圾”文件瞬间释放,直接让系统崩溃。

网站访问的验证码变成“DOOM 挑战”,三杀通关才算人类

验证码也被赋予了游戏化的新玩法。云服务平台 Vercel 的 CEO Guillermo Rauch 不久前结合 AI 推出了一种《毁灭战士》。用户要证明自己是人类,必须在“噩梦模式”下击败三个敌人才能进入网站。


不过,这种方法虽然有效挡住了爬虫,但也让普通用户体验变得耗时繁琐。

基础设施公司也在出招

大型网络基础设施公司也在行动。之前 Cloudflare 发布了AI迷宫(AI Labyrinth),专门对付未经允许的爬虫。系统检测到异常行为时,会把爬虫引入一个充满虚假页面的迷宫,让爬虫消耗资源、迷失方向。Cloudflare 透露,每天 AI 爬虫在其网络上发起的请求超过 500 亿次,占总流量近 1%。


通过以上这些“反爬虫机制”,这样一来,那些靠爬虫到处薅内容的 AI 公司就得多掏钱了。因为流量被拖慢、资源被消耗,他们不得不增加服务器和硬件投入。简单讲,就是让爬虫想干同样的活儿,成本变得更高、不划算。

Fastly 的高级安全研究员 Arun Kumar 对此建议道,小网站尤其是动态内容丰富的网站,首先可以配置 robots.txt 来减少守规矩爬虫流量;若有技术能力,还可以部署像 Anubis 这样的系统来进一步控制爬虫。

然而现实来看,这些手段若使用不当,也可能误伤正常用户,降低用户体验。

同时,也正如 Arun Kumar 所言,「 这场猫捉老鼠的游戏永远不会结束,爬虫总会进化,想办法绕过各种陷阱。」

参考:

完整报告:https://learn.fastly.com/rs/025-XKO-469/images/Fastly-Threat-Insights-Report.pdf

https://www.theregister.com/2025/08/21/ai_crawler_traffic/

【活动分享】2025 全球机器学习技术大会(ML-Summit)北京站将于 2025 年 10 月 16-17 日在北京威斯汀酒店举办。大会共 12 大主题、50+ 海内外专家,聚焦大模型技术和应用变革。详情参考官网:https://ml-summit.org (或点击原文链接)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台湾教授带学生首登大陆实地调查,走出机场众人愣住:这是大陆?

台湾教授带学生首登大陆实地调查,走出机场众人愣住:这是大陆?

雅俗共赏1
2025-07-25 11:08:55
蕉内品牌代言人 赵露思

蕉内品牌代言人 赵露思

喜欢历史的阿繁
2025-09-14 12:57:01
广州的廖一帆爸爸火了,因为他揭开了家委会的真相

广州的廖一帆爸爸火了,因为他揭开了家委会的真相

清晖有墨
2025-09-05 19:24:18
以色列胆子真大!导弹落在中国使馆800米外,中方这次直接点名了

以色列胆子真大!导弹落在中国使馆800米外,中方这次直接点名了

阿七说史
2025-09-12 17:51:20
“武大女生都怎么了?”新生开学典礼演讲,内容被批:毫无格局!

“武大女生都怎么了?”新生开学典礼演讲,内容被批:毫无格局!

妍妍教育日记
2025-09-12 20:19:31
15:0!全票通过,中俄美三国罕见一致,以色列正沦为“国际弃儿”

15:0!全票通过,中俄美三国罕见一致,以色列正沦为“国际弃儿”

阿芒娱乐说
2025-09-13 10:15:48
炸了!超60%投资者“押注”A股冲上3900点!这两大行业最火

炸了!超60%投资者“押注”A股冲上3900点!这两大行业最火

数据宝
2025-09-14 18:17:22
家委会变“官委会”?广州廖爸爸火了,正面硬刚揭开家委会的真相

家委会变“官委会”?广州廖爸爸火了,正面硬刚揭开家委会的真相

恪守原则和底线
2025-09-12 12:55:45
媒体人:陈将双解约回中国台湾打球 CBA里宝岛球员剩陈盈骏等6人

媒体人:陈将双解约回中国台湾打球 CBA里宝岛球员剩陈盈骏等6人

直播吧
2025-09-14 12:38:05
乔任梁父母:当年他们没有放过我儿子,现在也不想放过我们夫妻俩

乔任梁父母:当年他们没有放过我儿子,现在也不想放过我们夫妻俩

杜鱂手工制作
2025-09-14 06:00:41
王楚钦4-0战胜韩国选手张禹珍,挺进WTT澳门冠军赛男单决赛

王楚钦4-0战胜韩国选手张禹珍,挺进WTT澳门冠军赛男单决赛

懂球帝
2025-09-14 14:56:07
实习女幼师凌晨点外卖,餐送达后女子收到商家短信:千万不要去拿

实习女幼师凌晨点外卖,餐送达后女子收到商家短信:千万不要去拿

罪案洞察者
2025-09-12 14:41:34
哈尔滨地铁二期规划:环线将闭环,机场线 40 分钟直达

哈尔滨地铁二期规划:环线将闭环,机场线 40 分钟直达

西莫的艺术宫殿
2025-09-14 13:22:22
古人讲“兵不厌诈”,为何吕蒙白衣渡江,却被后人所不齿?

古人讲“兵不厌诈”,为何吕蒙白衣渡江,却被后人所不齿?

爆史君带你读历史
2025-09-13 18:46:02
美国恢复援乌?万斯暗示:让出顿巴斯、放弃安全保障就能“和平”

美国恢复援乌?万斯暗示:让出顿巴斯、放弃安全保障就能“和平”

鹰眼Defence
2025-09-12 18:24:27
德约科维奇已经不想超越费德勒纪录,前职业球员揭示关键原因

德约科维奇已经不想超越费德勒纪录,前职业球员揭示关键原因

网球之家
2025-09-14 13:52:37
生于1990年,周忠泽拟任处级新职

生于1990年,周忠泽拟任处级新职

新京报政事儿
2025-09-14 15:47:02
直降500元,苹果新机官宣:9月12日,全面开售!

直降500元,苹果新机官宣:9月12日,全面开售!

科技堡垒
2025-09-12 10:25:52
被3亿彩票砸中的38岁日本社畜,不辞职也不告诉家人,20年后他怎么样了?

被3亿彩票砸中的38岁日本社畜,不辞职也不告诉家人,20年后他怎么样了?

今日日本
2025-08-02 14:05:58
重大喜讯!中国发现世界级金矿,耗资4500亿,国际金价要“变天”?

重大喜讯!中国发现世界级金矿,耗资4500亿,国际金价要“变天”?

王二哥老搞笑
2025-09-13 18:00:29
2025-09-14 19:55:00
CSDN incentive-icons
CSDN
成就一亿技术人
25936文章数 242144关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

美政府突袭抓人后 韩企表示将延迟投产:缺人缺设备

头条要闻

美政府突袭抓人后 韩企表示将延迟投产:缺人缺设备

体育要闻

3次遭争议判罚!皇马向FIFA投诉西甲裁判

娱乐要闻

彪悍那英,大女人与旧妻子

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

艺术
亲子
家居
旅游
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

宝蓝大家长监督并照顾叔叔起居饮食

家居要闻

原木风格 温馨舒适氛围

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

军事要闻

俄无人机飞入波兰 美国务卿:不可接受

无障碍浏览 进入关怀版