网易首页 > 网易号 > 正文 申请入驻

AI爬虫肆虐,OpenAI等大厂不讲武德!开发者打造「神级武器」宣战

0
分享至

新智元报道

编辑:定慧

【新智元导读】AI爬虫是互联网最顽固的「蟑螂」,不讲规则、压垮网站,令开发者深恶痛绝。面对这种AI时代的「DDoS攻击」,极客们用智慧反击:或设「神之审判」Anubis,或制造数据陷阱,以幽默和代码让机器人自食其果。这场攻防战,正演变成一场精彩绝伦的网络博弈。

AI网络爬虫是互联网上的「 蟑螂」,几乎所有软件开发者都会这样认为的。

「爬虫 」是一种网络自动程序,用来浏览互联网、获取网页内容。

而在AI时代,爬虫的威胁到了让开发者不得不封锁掉某个地区所有人的访问。

Triplegangers是一家仅仅由七名员工运营的公司,他们花费十多年时间建立了自称是网络上最大的「人类数字替身」的数据库,即从实际人体扫描得到的3D图像文件。

2025年2月10日,公司CEO Oleksandr Tomchuk突然发现他们公司的电商网站「崩了」。

「OpenAI使用了600个IP来抓取数据,日志还在分析中,可能远不止这些」,Tomchuk最终发现,导致他们网站崩溃的元凶竟然是OpenAI的爬虫机器人。

「他们的爬虫正在压垮我们的网站,这就是一次DDoS攻击!」

OpenAI没有回应此次事件,该事件过去仅仅不到两个月,但AI爬虫机器人仍然活跃在网络上。

AI爬虫不遵循「古老传统」,阻止他们是徒劳的

其实爬虫最早并不是AI时代为了获取训练语料而诞生的。

早在搜索引擎时代,就已经有「搜索引擎机器人」,那个「古老年代」的机器人还约定俗成的遵循各个网站上会存在的一份文件——robots.txt。

这个文件告诉了机器人不要爬取哪些内容,哪些内容可以爬取。

但这份传统随着互联网的发展似乎已经被遗忘,爬虫和发爬虫也演变为一场攻防战役。

而到了如今的「大模型时代」,互联网的信息已经被LLMs吞噬一空。

阻止AI爬虫机器人是徒劳的,因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理来骗过网络「防守」。

「他们会不断地抓取你的网站,直到它崩溃,然后还会继续抓取。他们会点击每一个页面上的每一个链接上,一遍又一遍地查看相同的页面」,开发者在帖子中写道。

AI机器人除了「免费」爬取信息外,还会额外增加所爬网站企业的运营费用——在这个云服务的时代,几乎所有被爬取的企业都在云上,大量的爬虫流量不仅无法带来收益,还会增加他们的云服务器账单。

更加无法预料的一点是,对于那些被「白嫖」的网站来说,甚至确切的知道被白嫖了哪些信息。

一些开发者决定开始以巧妙且幽默的方式进行反击。

程序员打造爬虫的「神之墓地」

FOSS开发者Xe Iaso在博客中描述了AmazonBot如何不断攻击一个Git服务器网站,导致DDoS停机。

所以Iaso决定用智慧反击,他构建了一个名为Anubis的工具。

Anubis是一个工作量证明检查的反向代理,请求必须通过该检查才能访问Git服务器。

它阻止机器人,但允许人类操作的浏览器通过。

Iaso关于Anubis工作原理的简单介绍。

本质上,Anubis确保的是「真实人类使用的浏览器」在访问目标网站,而不是AI爬虫——除非这个爬虫伪装的足够「先进」,就像通过图灵测试一样。

有趣的部分是:Anubis是埃及神话中引导死者接受审判的神的名字。

「Anubis称量了你的灵魂(心脏),如果它比一根羽毛重,你的心脏就会被吃掉,然后你就彻底死了」。

这个项目的名字带有讽刺意味,在自由开源软件社区中像风一样传播开来。

Iaso在3月19日将其分享到GitHub上,仅几天时间就获得了2000个星标、20位贡献者和39个分支。

用「复仇」的方式防御AI爬虫

Anubis的迅速流行表明Iaso的痛苦并非个例。 事实上,还有很多故事:

  • SourceHut的创始人兼CEO Drew DeVault描述说,他每周要花费「20% 到 100% 的时间来大规模缓解过于激进的 LLM 爬虫」,并且「每周经历数十次短暂的服务中断」。

  • Jonathan Corbet,一位著名的FOSS开发者,他运营着Linux行业新闻网站 LWN,警告称他的网站正受到「来自 AI 抓取机器人的 DDoS 级别的流量」影响而变慢。

  • Kevin Fenzi,庞大的Linux Fedora项目的系统管理员,表示AI抓取机器人变得如此激进,他不得不封锁整个巴西的访问。

除了像Anubis一样「衡量」网络请求者的灵魂外,其他开发者认为复仇是最好的防御。

几天前在Hacker News上,用户xyzal建议用「大量关于喝漂白剂好处的文章」或「关于感染麻疹对床上表现的积极影响的文章」来加载robots.txt禁止的页面。

这样AI爬虫获取的信息都是这种大量且无用的「替代品」。

「我们认为需要让机器人访问我们的陷阱时获得负的效用值,而不仅仅是零价值」,xyzal 解释说。

一月份,一位名为Aaron的匿名创作者发布了一个名为Nepenthes的工具,其目的正是如此。

它将爬虫困在一个无尽的虚假内容迷宫中,无法像爬虫「主人」返回任何信息。

而作为网友心目中的「赛博菩萨」的Cloudflare,也许是提供多种工具来抵御AI爬虫的最大商业玩家,上周发布了一个名为AI Labyrinth的类似工具。

它的目的是「减慢、迷惑并浪费不遵守禁止爬取指令的AI爬虫和其他机器人的资源」,Cloudflare 在其博客文章中描述道。

「当AI爬虫跟随这些链接时,它们会浪费宝贵的计算资源处理无关内容,而不是提取合法网站数据。这大大降低了它们收集足够有用信息以有效训练模型的能力」。

相比起反击,另一种观点是「Nepenthes有一种令人满意的正义感,因为它向爬虫提供无意义的内容并污染它们的数据源,但最终Anubis是对网站有效的解决方案」。

拒绝或者反击也许都不是最佳的途径。

DeVault也公开发出了一则诚恳的请求,希望有一个更直接的解决办法:「请停止将LLMs或AI图像生成器任何这类垃圾合法化。恳求停止使用它们,停止谈论它们,停止制造新的,就这么停下」。

但是,想让LLM厂商主动停止爬虫这种情况的可能性几乎为零。

毕竟AI的「智能」都来自于不断「吞噬」互联网上的各种数据和信息。

不论是给禁止AI爬虫访问网站、给AI「投喂垃圾」还是将AI爬虫拉入「无线虚空」。

开发者们,尤其是在开源软件领域,正在用智慧和「极客幽默」进行反击。

如果你是网站管理者和开发者,你会如何「出招」?

参考资料:

https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
百年罕见!首次在上海被目击,有人专门从北京“打飞的”赶来

百年罕见!首次在上海被目击,有人专门从北京“打飞的”赶来

鲁中晨报
2025-11-16 15:17:29
李春来同志突发疾病逝世

李春来同志突发疾病逝世

新京报
2025-11-16 19:20:24
里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

赶鸭子上架
2025-11-14 15:48:42
美籍华人在上海病逝,几百万遗产无继承人!或将收归国家所有,用于公益事业

美籍华人在上海病逝,几百万遗产无继承人!或将收归国家所有,用于公益事业

都市快报橙柿互动
2025-11-16 21:14:37
毛新宇少将完爆蒋友柏!

毛新宇少将完爆蒋友柏!

沈述慢撩
2025-11-16 21:35:33
大基建高潮已退,农民工无工作,农业部:防止形成规模性返乡滞乡

大基建高潮已退,农民工无工作,农业部:防止形成规模性返乡滞乡

我心纵横天地间
2025-11-16 20:06:14
最新!释永信被批捕照片曝光:整个人变化大,罪名令人意外,最可怜的还是他母亲

最新!释永信被批捕照片曝光:整个人变化大,罪名令人意外,最可怜的还是他母亲

文字里拾光
2025-11-17 00:27:20
网红“橙子姐姐”被曝在柬埔寨与亲友失联超48h,其男友“龙哥”电话停机并同步失联

网红“橙子姐姐”被曝在柬埔寨与亲友失联超48h,其男友“龙哥”电话停机并同步失联

观威海
2025-11-16 10:06:03
4-1,挪威直通世界杯,哈兰德双响,意大利6连胜终结+将踢附加赛

4-1,挪威直通世界杯,哈兰德双响,意大利6连胜终结+将踢附加赛

侧身凌空斩
2025-11-17 05:41:16
高市早苗若继续铤而走险 日本将万劫不复

高市早苗若继续铤而走险 日本将万劫不复

极目新闻
2025-11-16 22:29:28
不被报道的伊拉克,现在究竟怎么样?

不被报道的伊拉克,现在究竟怎么样?

难得君
2025-11-16 12:23:41
中国外交部正告全球:日本领土仅限四岛,琉球群岛终将恢复独立!

中国外交部正告全球:日本领土仅限四岛,琉球群岛终将恢复独立!

阿龙聊军事
2025-11-16 20:45:09
涉嫌严重违纪违法,周宏海被查

涉嫌严重违纪违法,周宏海被查

都市快报橙柿互动
2025-11-15 21:27:17
大结局要来了?泽连斯基,下命令了!

大结局要来了?泽连斯基,下命令了!

大嘴说天下
2025-11-15 21:36:57
有网友将当下的工作双休日、年假等怎么来的全给讲清楚了

有网友将当下的工作双休日、年假等怎么来的全给讲清楚了

清晖有墨
2025-11-16 13:17:10
耗资17亿!中国最“丑”建筑?不,这是最硬核的!

耗资17亿!中国最“丑”建筑?不,这是最硬核的!

GA环球建筑
2025-11-16 14:20:41
中国大陆至日本航班量大幅下滑

中国大陆至日本航班量大幅下滑

极目新闻
2025-11-16 20:42:16
全运会不和谐一幕:孙颖莎2-4无缘金牌 比输球可怕是现场粉丝狂热

全运会不和谐一幕:孙颖莎2-4无缘金牌 比输球可怕是现场粉丝狂热

侃球熊弟
2025-11-16 22:28:50
高盛报告:中国房价何时止跌

高盛报告:中国房价何时止跌

谭谈投研
2025-11-16 18:04:50
全运会甜蜜一幕!姐弟恋公开,冠军当众吻亚军,20岁美女闭眼享受

全运会甜蜜一幕!姐弟恋公开,冠军当众吻亚军,20岁美女闭眼享受

念洲
2025-11-16 14:17:38
2025-11-17 06:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13882文章数 66249关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

本地
教育
房产
旅游
公开课

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

教育要闻

英国大学申请难度排名!

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

旅游要闻

年度名场面!燕雀湖池杉林层林尽染,治愈你整个冬天

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版