网易首页 > 网易号 > 正文 申请入驻

GitHub 469星项目:给AI爬虫挖了个无限循环的坑

0
分享至


一个Rust写的开源工具,两周内攒了469个Star。它的功能简单粗暴:给AI爬虫喂垃圾数据,让它们在自己的迷宫里打转,直到服务器资源耗尽。

开发者Austin Weeks把这叫作"毒雾"(Miasma)。名字来自中世纪对瘟疫空气的想象——看不见,但致命。

爬虫怎么偷走你的网站

AI公司训练大模型需要海量数据。OpenAI、Anthropic、Google的爬虫每天扫描数十亿网页,把文字、图片、代码一股脑卷走。你的博客、文档、评论区,只要公开访问,就是它们的免费饲料。

这些爬虫通常遵守robots.txt,但"遵守"是个灰色地带。它们会读规则,也会试探边界。更麻烦的是,新的爬虫不断出现,名单永远更新不完。

传统防御是封IP、限频率、加验证码。但AI公司的IP池庞大,验证码对自动化爬虫的识别率也在下降。这是一场不对称战争:你花真金白银买服务器,它们用脚本批量收割。

Miasma的思路是反向利用爬虫的贪婪。

毒雾的工作原理

工具核心就两件事:生成假数据,制造死循环。

第一步,在你的网页里埋隐形链接。代码长这样:

` Amazing high quality data here! `

display: none让链接不可见,aria-hidden="true"跳过屏幕阅读器,tabindex="1"避开键盘导航。人类用户完全感知不到,但爬虫会老老实实爬进去。

第二步,把这些流量导向Miasma服务器。配置Nginx反向代理,把/bots路径指向本地9855端口。


爬虫一旦踏入,就会收到两样东西:一堆垃圾训练数据,以及更多指向/bots的自引用链接。数据来自Miasma内置的"毒泉"(poison fountain),内容是自动生成的无意义文本,混杂着真实语料库的常见模式——足够像真的,能让模型学歪。

链接设计更狠。每个页面包含多个指向自身的变体URL:/bots/123、/bots/abc、/bots/xyz。爬虫以为是新页面,其实是同一个陷阱的不同入口。

结果是无限递归。爬虫在迷宫里打转,下载、解析、再跟随链接,CPU和带宽被持续消耗。

为什么用Rust写

Weeks在README里强调"极小的内存占用"。实测数据没给,但Rust的零成本抽象确实适合这种高并发场景。

单个Miasma实例默认限制50个并发连接。这个数可以调,但开发者显然不想让你为了防爬虫而买更贵的服务器。对比Cloudflare的Bot Management或Akamai的爬虫防护,Miasma的成本接近于零——一台树莓派就能跑。

安装也极简。有Rust工具链的用cargo install miasma,没有的直接下预编译二进制文件。启动命令就一个单词:miasma。

配置项包括链接前缀、并发限制、监听端口。没有仪表盘,没有日志分析,没有机器学习模型判断"这是不是恶意爬虫"。Weeks的假设很直接:走进/bots的,没有一个好人。

这算攻击吗

法律灰色地带。Miasma本身不主动扫描、不伪造请求,只是对来访流量做响应。但"响应"包含刻意设计的欺骗性内容,目的明确是消耗对方资源。

2023年,互联网档案馆起诉某AI公司未经授权抓取数据。同年,Reddit、Twitter(现X)开始收费API,实质是对爬虫征税。2024年,Cloudflare推出AI爬虫拦截工具,但默认关闭,需要手动开启。

Miasma代表另一种态度:不谈判,不设墙,直接反击。它的GitHub描述把AI公司叫作"互联网的水蛭"(leeches),把大模型产出称为" slop "——这个词在AI批评者圈子里流行,指低质量、同质化的生成内容。

「给 slop 机器喂无尽的 slop 自助餐」,Weeks这样写。


谁在用

469个Star里,大部分是观望者。真正部署的人不会公开说——毕竟暴露了/bots路径,攻击者就能绕过。

潜在用户画像清晰:独立开发者、小型内容站、对AI公司有敌意的创作者。这些人没有Reddit的谈判筹码,也付不起Cloudflare的企业版费用。

一个细节:Miasma的LICENSE是MIT,但README里没提贡献指南。Weeks似乎没打算把它做成社区项目,更像是一个概念验证,一个技术宣言。

代码结构也简单。src目录下不到10个文件,核心逻辑在handler.rs和poison.rs里。没有测试套件,没有CI配置,.github文件夹里只有基础的Issue模板。

这符合Rust开源生态的某种典型:一个人,一个周末,一个精准解决问题的工具。

但Miasma的"问题"本身有争议。AI爬虫确实过度抓取,但它们也驱动了搜索引擎、学术索引、存档服务。一棍子打死,可能误伤。

Weeks的回应藏在设计里:只有走进隐形链接的才会触发陷阱。正常用户、合规爬虫(比如Googlebot遵循robots.txt不点display:none链接),理论上不会中招。

问题是,爬虫的行为在进化。OpenAI的GPTBot文档声称遵守robots.txt,但2024年有多起报告指其抓取频率远超声明。Anthropic的Claude爬虫被观察到忽略某些Disallow规则。这些公司的透明度,和他们的模型一样,是黑箱。

技术对抗的下一步

Miasma不是第一个反爬虫工具。2023年的Nepenthes用类似思路困住扫描器,2024年初的Glaze给图片加不可见噪声, poison 扩散模型。但Miasma针对的是特定威胁:AI训练爬虫,而非通用恶意流量。

这种细分反映了一个趋势。内容创作者和AI公司的关系,从"被忽视的版权争议"变成"直接的资源战争"。你的电费、你的带宽、你的服务器响应时间,都是战场。

Weeks在README末尾留了配置示例,没写"未来路线图",没放捐赠链接。项目会更新吗?取决于AI爬虫的进化速度,以及GitHub Issue区的反馈。

目前最新的commit是两周前,修复了一个路径匹配的边界情况。活跃度中等,但Star数在涨。

如果Miasma被广泛部署,AI公司会如何应对?更聪明的爬虫识别、更激进的IP轮换、或者直接起诉"干扰计算机系统"?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白岩松正面发声,一句话击碎全红婵最大谣言

白岩松正面发声,一句话击碎全红婵最大谣言

乡野小珥
2026-04-06 09:28:36
今年最传奇的游戏开发者,是这个从不用引擎的狠人。

今年最传奇的游戏开发者,是这个从不用引擎的狠人。

差评XPIN
2026-04-06 00:08:45
米切尔38+6+6!骑士逆转横扫步行者 哈登28+7一壮举联盟第一

米切尔38+6+6!骑士逆转横扫步行者 哈登28+7一壮举联盟第一

醉卧浮生
2026-04-06 08:22:50
加盟广东队成首选!麦考伊被曝将空降CBA,或被朱芳雨捡漏签下?

加盟广东队成首选!麦考伊被曝将空降CBA,或被朱芳雨捡漏签下?

绯雨儿
2026-04-06 11:05:05
4月6日最后通牒到期,特朗普突然认怂,美伊战争的死结解不开了

4月6日最后通牒到期,特朗普突然认怂,美伊战争的死结解不开了

荷兰豆爱健康
2026-04-06 13:09:11
哇塞,这才叫真正的倾国倾城的美,脸型大气,标准的东方美

哇塞,这才叫真正的倾国倾城的美,脸型大气,标准的东方美

TVB的四小花
2026-04-06 14:30:25
国米5-2打爆罗马!“新本泽马”独造3球,皇马快买他搭档姆巴佩

国米5-2打爆罗马!“新本泽马”独造3球,皇马快买他搭档姆巴佩

仰卧撑FTUer
2026-04-06 08:12:13
里子面子都丢了,森林北自曝身体出了问题,汪峰的体面被撕碎

里子面子都丢了,森林北自曝身体出了问题,汪峰的体面被撕碎

素衣读史
2025-11-19 16:09:14
大批印度人开始入侵日本!素质极低遭人嫌弃,当地百姓要遭殃了

大批印度人开始入侵日本!素质极低遭人嫌弃,当地百姓要遭殃了

小嵩
2026-04-06 14:28:17
为男闺蜜关机四次后,老公发来与别人拥吻照:以后没人打扰我们了

为男闺蜜关机四次后,老公发来与别人拥吻照:以后没人打扰我们了

晓艾故事汇
2026-04-04 09:13:14
安徽6岁女童已丢4天,亲属发声曝猛料,难怪搜救犬闻不到气味

安徽6岁女童已丢4天,亲属发声曝猛料,难怪搜救犬闻不到气味

奇思妙想草叶君
2026-04-04 23:58:32
几十个家庭垄断一座城:县城婆罗门的闭环游戏,正在逼走年轻人

几十个家庭垄断一座城:县城婆罗门的闭环游戏,正在逼走年轻人

黑噪音
2026-03-21 19:33:08
《镖人》夺得全球冠军,吴京打败周润发,成中国武侠第一人

《镖人》夺得全球冠军,吴京打败周润发,成中国武侠第一人

影视高原说
2026-04-05 08:52:11
1950 年川农妇报案,劈柴丈夫竟是失踪国军中将王凌云

1950 年川农妇报案,劈柴丈夫竟是失踪国军中将王凌云

唠叨说历史
2026-01-21 16:28:08
油车换电车1年真实感受:普通人别跟风!买车前没人告诉你的真相

油车换电车1年真实感受:普通人别跟风!买车前没人告诉你的真相

华庭讲美食
2026-03-28 17:08:13
古代小妾除了满足丈夫的生理需求和生孩子以外,还有另一个变态的作用,

古代小妾除了满足丈夫的生理需求和生孩子以外,还有另一个变态的作用,

网络易不易
2026-03-31 11:07:46
50岁李小冉被赞像30岁!自曝洗脸用26块钱的香皂,还熬夜打游戏

50岁李小冉被赞像30岁!自曝洗脸用26块钱的香皂,还熬夜打游戏

韩小娱
2026-04-06 06:16:00
直接返回欧洲!东契奇真的拼了,还不想放弃本赛季

直接返回欧洲!东契奇真的拼了,还不想放弃本赛季

德译洋洋
2026-04-06 12:15:51
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

共工之锚
2026-03-31 00:27:37
起内讧了?伊朗总统反对再这样打下去,要求革命卫队交出战时大权

起内讧了?伊朗总统反对再这样打下去,要求革命卫队交出战时大权

知法而形
2026-04-01 18:49:55
2026-04-06 15:12:49
Ping值焦虑
Ping值焦虑
有态度网友ytd
783文章数 17关注度
往期回顾 全部

科技要闻

前同事被蒸馏成Token,AI能否偷走职场经验

头条要闻

特朗普希望7日前与伊朗达成协议 专家:实现可能性较低

头条要闻

特朗普希望7日前与伊朗达成协议 专家:实现可能性较低

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

乔任梁离世10年 父母曝舞台光鲜的背后

财经要闻

118吨!这家央行,大幅抛售黄金!

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

艺术
时尚
家居
本地
亲子

艺术要闻

20位中国当代名家的25幅油画

AI时代,辨别真相的成本变高了

家居要闻

温馨多元 爱的具象化

本地新闻

跟着歌声游安徽,听古村回响

亲子要闻

一定要让孩子刻在脑子里

无障碍浏览 进入关怀版