网易首页 > 网易号 > 正文 申请入驻

AI爬虫肆虐,OpenAI等大厂不讲武德!开发者打造「神级武器」宣战

0
分享至

新智元报道

编辑:定慧

【新智元导读】AI爬虫是互联网最顽固的「蟑螂」,不讲规则、压垮网站,令开发者深恶痛绝。面对这种AI时代的「DDoS攻击」,极客们用智慧反击:或设「神之审判」Anubis,或制造数据陷阱,以幽默和代码让机器人自食其果。这场攻防战,正演变成一场精彩绝伦的网络博弈。

AI网络爬虫是互联网上的「 蟑螂」,几乎所有软件开发者都会这样认为的。

「爬虫 」是一种网络自动程序,用来浏览互联网、获取网页内容。

而在AI时代,爬虫的威胁到了让开发者不得不封锁掉某个地区所有人的访问。

Triplegangers是一家仅仅由七名员工运营的公司,他们花费十多年时间建立了自称是网络上最大的「人类数字替身」的数据库,即从实际人体扫描得到的3D图像文件。

2025年2月10日,公司CEO Oleksandr Tomchuk突然发现他们公司的电商网站「崩了」。

「OpenAI使用了600个IP来抓取数据,日志还在分析中,可能远不止这些」,Tomchuk最终发现,导致他们网站崩溃的元凶竟然是OpenAI的爬虫机器人。

「他们的爬虫正在压垮我们的网站,这就是一次DDoS攻击!」

OpenAI没有回应此次事件,该事件过去仅仅不到两个月,但AI爬虫机器人仍然活跃在网络上。

AI爬虫不遵循「古老传统」,阻止他们是徒劳的

其实爬虫最早并不是AI时代为了获取训练语料而诞生的。

早在搜索引擎时代,就已经有「搜索引擎机器人」,那个「古老年代」的机器人还约定俗成的遵循各个网站上会存在的一份文件——robots.txt。

这个文件告诉了机器人不要爬取哪些内容,哪些内容可以爬取。

但这份传统随着互联网的发展似乎已经被遗忘,爬虫和发爬虫也演变为一场攻防战役。

而到了如今的「大模型时代」,互联网的信息已经被LLMs吞噬一空。

阻止AI爬虫机器人是徒劳的,因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理来骗过网络「防守」。

「他们会不断地抓取你的网站,直到它崩溃,然后还会继续抓取。他们会点击每一个页面上的每一个链接上,一遍又一遍地查看相同的页面」,开发者在帖子中写道。

AI机器人除了「免费」爬取信息外,还会额外增加所爬网站企业的运营费用——在这个云服务的时代,几乎所有被爬取的企业都在云上,大量的爬虫流量不仅无法带来收益,还会增加他们的云服务器账单。

更加无法预料的一点是,对于那些被「白嫖」的网站来说,甚至确切的知道被白嫖了哪些信息。

一些开发者决定开始以巧妙且幽默的方式进行反击。

程序员打造爬虫的「神之墓地」

FOSS开发者Xe Iaso在博客中描述了AmazonBot如何不断攻击一个Git服务器网站,导致DDoS停机。

所以Iaso决定用智慧反击,他构建了一个名为Anubis的工具。

Anubis是一个工作量证明检查的反向代理,请求必须通过该检查才能访问Git服务器。

它阻止机器人,但允许人类操作的浏览器通过。

Iaso关于Anubis工作原理的简单介绍。

本质上,Anubis确保的是「真实人类使用的浏览器」在访问目标网站,而不是AI爬虫——除非这个爬虫伪装的足够「先进」,就像通过图灵测试一样。

有趣的部分是:Anubis是埃及神话中引导死者接受审判的神的名字。

「Anubis称量了你的灵魂(心脏),如果它比一根羽毛重,你的心脏就会被吃掉,然后你就彻底死了」。

这个项目的名字带有讽刺意味,在自由开源软件社区中像风一样传播开来。

Iaso在3月19日将其分享到GitHub上,仅几天时间就获得了2000个星标、20位贡献者和39个分支。

用「复仇」的方式防御AI爬虫

Anubis的迅速流行表明Iaso的痛苦并非个例。 事实上,还有很多故事:

  • SourceHut的创始人兼CEO Drew DeVault描述说,他每周要花费「20% 到 100% 的时间来大规模缓解过于激进的 LLM 爬虫」,并且「每周经历数十次短暂的服务中断」。

  • Jonathan Corbet,一位著名的FOSS开发者,他运营着Linux行业新闻网站 LWN,警告称他的网站正受到「来自 AI 抓取机器人的 DDoS 级别的流量」影响而变慢。

  • Kevin Fenzi,庞大的Linux Fedora项目的系统管理员,表示AI抓取机器人变得如此激进,他不得不封锁整个巴西的访问。

除了像Anubis一样「衡量」网络请求者的灵魂外,其他开发者认为复仇是最好的防御。

几天前在Hacker News上,用户xyzal建议用「大量关于喝漂白剂好处的文章」或「关于感染麻疹对床上表现的积极影响的文章」来加载robots.txt禁止的页面。

这样AI爬虫获取的信息都是这种大量且无用的「替代品」。

「我们认为需要让机器人访问我们的陷阱时获得负的效用值,而不仅仅是零价值」,xyzal 解释说。

一月份,一位名为Aaron的匿名创作者发布了一个名为Nepenthes的工具,其目的正是如此。

它将爬虫困在一个无尽的虚假内容迷宫中,无法像爬虫「主人」返回任何信息。

而作为网友心目中的「赛博菩萨」的Cloudflare,也许是提供多种工具来抵御AI爬虫的最大商业玩家,上周发布了一个名为AI Labyrinth的类似工具。

它的目的是「减慢、迷惑并浪费不遵守禁止爬取指令的AI爬虫和其他机器人的资源」,Cloudflare 在其博客文章中描述道。

「当AI爬虫跟随这些链接时,它们会浪费宝贵的计算资源处理无关内容,而不是提取合法网站数据。这大大降低了它们收集足够有用信息以有效训练模型的能力」。

相比起反击,另一种观点是「Nepenthes有一种令人满意的正义感,因为它向爬虫提供无意义的内容并污染它们的数据源,但最终Anubis是对网站有效的解决方案」。

拒绝或者反击也许都不是最佳的途径。

DeVault也公开发出了一则诚恳的请求,希望有一个更直接的解决办法:「请停止将LLMs或AI图像生成器任何这类垃圾合法化。恳求停止使用它们,停止谈论它们,停止制造新的,就这么停下」。

但是,想让LLM厂商主动停止爬虫这种情况的可能性几乎为零。

毕竟AI的「智能」都来自于不断「吞噬」互联网上的各种数据和信息。

不论是给禁止AI爬虫访问网站、给AI「投喂垃圾」还是将AI爬虫拉入「无线虚空」。

开发者们,尤其是在开源软件领域,正在用智慧和「极客幽默」进行反击。

如果你是网站管理者和开发者,你会如何「出招」?

参考资料:

https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗军方:美以“相当一部分雷达和防空能力 已被摧毁”

伊朗军方:美以“相当一部分雷达和防空能力 已被摧毁”

每日经济新闻
2026-03-12 07:17:51
两会新华社快讯:十四届全国人大四次会议表决通过了国家发展规划法

两会新华社快讯:十四届全国人大四次会议表决通过了国家发展规划法

新华社
2026-03-12 15:16:18
第40波打击!伊朗强援参战,以色列恼羞成怒,特朗普发现不对劲

第40波打击!伊朗强援参战,以色列恼羞成怒,特朗普发现不对劲

林子说事
2026-03-12 15:34:15
亚足联官宣!中国女足进球功臣落选,韩国队2人入选,球迷不服

亚足联官宣!中国女足进球功臣落选,韩国队2人入选,球迷不服

何老师呀
2026-03-12 14:38:19
暴露了!伊朗女足6人从安全屋撤离 1人反悔将地点告知伊朗大使馆

暴露了!伊朗女足6人从安全屋撤离 1人反悔将地点告知伊朗大使馆

念洲
2026-03-12 06:44:25
现场画面!特朗普宣称:我们赢了,在第一个小时一切就结束了,但需要“完成最后的工作”

现场画面!特朗普宣称:我们赢了,在第一个小时一切就结束了,但需要“完成最后的工作”

极目新闻
2026-03-12 10:33:45
朱元璋去拜佛,问方丈:朕要下跪吗?方丈回答8字救了全寺的人

朱元璋去拜佛,问方丈:朕要下跪吗?方丈回答8字救了全寺的人

掠影后有感
2026-03-12 11:42:19
收盘,大家看不懂了!不出意外的话,A股要历史重演

收盘,大家看不懂了!不出意外的话,A股要历史重演

郭小凡财经
2026-03-12 14:55:04
特朗普计划落空?黄仁勋失望承认,没有一家中国客户下单H200芯片

特朗普计划落空?黄仁勋失望承认,没有一家中国客户下单H200芯片

生活魔术专家
2026-03-12 11:33:07
台湾黄征辉:台湾可以和平回归,但大陆要答应2个条件!

台湾黄征辉:台湾可以和平回归,但大陆要答应2个条件!

混沌录
2026-03-10 21:18:10
女子飞上海看病被拒载,登机口被拦急得直跺脚,地勤称可赔400元

女子飞上海看病被拒载,登机口被拦急得直跺脚,地勤称可赔400元

离离言几许
2026-03-11 16:04:48
谁给的胆子?巴铁派战舰闯入波斯湾,居然是用中国武器叫板美伊!

谁给的胆子?巴铁派战舰闯入波斯湾,居然是用中国武器叫板美伊!

浯江孤舟
2026-03-12 15:30:32
气质不符别尬演!《逐玉》31岁邓凯仅凭一个眼神,啥是强制爱

气质不符别尬演!《逐玉》31岁邓凯仅凭一个眼神,啥是强制爱

亦暖追剧随笔
2026-03-11 19:05:17
快船大胜森林狼:小卡45+5+5+6三分迎里程碑 华子36分

快船大胜森林狼:小卡45+5+5+6三分迎里程碑 华子36分

醉卧浮生
2026-03-12 13:02:27
注意!C1驾照迎来大调整,2026年3月20日起全国执行

注意!C1驾照迎来大调整,2026年3月20日起全国执行

娱乐圈的笔娱君
2026-03-12 01:04:54
中国女篮多惨:最多落后24分吞首败 被轰17-0+全队仅一人上双

中国女篮多惨:最多落后24分吞首败 被轰17-0+全队仅一人上双

醉卧浮生
2026-03-12 21:06:32
两会还没结束,央媒对霍启刚称呼变了,四字之差释放两大强烈信号

两会还没结束,央媒对霍启刚称呼变了,四字之差释放两大强烈信号

以茶带书
2026-03-10 13:33:47
蔚来血亏1300亿大结局,李斌彻底翻身

蔚来血亏1300亿大结局,李斌彻底翻身

新行情
2026-03-12 15:09:33
宋江是押司,武松是都头,林冲是教头,鲁智深是提辖,谁官职最高

宋江是押司,武松是都头,林冲是教头,鲁智深是提辖,谁官职最高

掠影后有感
2026-03-07 11:48:17
古代上朝时间那么早,上朝的文武百官住在哪?上完朝又去哪工作?

古代上朝时间那么早,上朝的文武百官住在哪?上完朝又去哪工作?

铭记历史呀
2026-03-12 15:59:27
2026-03-12 21:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14705文章数 66687关注度
往期回顾 全部

科技要闻

当养虾人开始卸载,大厂的战争才真正开始

头条要闻

男子做核磁被遗忘在机器上6小时 涉事医生:交接失误

头条要闻

男子做核磁被遗忘在机器上6小时 涉事医生:交接失误

体育要闻

建议将“出球型门将”纳入反诈app

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

卢锋:从特朗普团队群演看时代变局

汽车要闻

大众2025财报:转型虽有阵痛 "大象"已然起跑

态度原创

本地
教育
数码
公开课
军事航空

本地新闻

坐标北京,过敏季反向迁徒

教育要闻

速看!2026考研复试时间陆续公布,最早今天复试!

数码要闻

OLED时代终结者!RGB-Mini LED电视海信E8S评测:这才是好画质

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普自行宣布对伊朗战争胜利

无障碍浏览 进入关怀版