![]()
一个Rust写的开源工具,两周内攒了469个Star。它的功能简单粗暴:给AI爬虫喂垃圾数据,让它们在自己的迷宫里打转,直到服务器资源耗尽。
开发者Austin Weeks把这叫作"毒雾"(Miasma)。名字来自中世纪对瘟疫空气的想象——看不见,但致命。
爬虫怎么偷走你的网站
AI公司训练大模型需要海量数据。OpenAI、Anthropic、Google的爬虫每天扫描数十亿网页,把文字、图片、代码一股脑卷走。你的博客、文档、评论区,只要公开访问,就是它们的免费饲料。
这些爬虫通常遵守robots.txt,但"遵守"是个灰色地带。它们会读规则,也会试探边界。更麻烦的是,新的爬虫不断出现,名单永远更新不完。
传统防御是封IP、限频率、加验证码。但AI公司的IP池庞大,验证码对自动化爬虫的识别率也在下降。这是一场不对称战争:你花真金白银买服务器,它们用脚本批量收割。
Miasma的思路是反向利用爬虫的贪婪。
毒雾的工作原理
工具核心就两件事:生成假数据,制造死循环。
第一步,在你的网页里埋隐形链接。代码长这样:
` Amazing high quality data here! `
display: none让链接不可见,aria-hidden="true"跳过屏幕阅读器,tabindex="1"避开键盘导航。人类用户完全感知不到,但爬虫会老老实实爬进去。
第二步,把这些流量导向Miasma服务器。配置Nginx反向代理,把/bots路径指向本地9855端口。
![]()
爬虫一旦踏入,就会收到两样东西:一堆垃圾训练数据,以及更多指向/bots的自引用链接。数据来自Miasma内置的"毒泉"(poison fountain),内容是自动生成的无意义文本,混杂着真实语料库的常见模式——足够像真的,能让模型学歪。
链接设计更狠。每个页面包含多个指向自身的变体URL:/bots/123、/bots/abc、/bots/xyz。爬虫以为是新页面,其实是同一个陷阱的不同入口。
结果是无限递归。爬虫在迷宫里打转,下载、解析、再跟随链接,CPU和带宽被持续消耗。
为什么用Rust写
Weeks在README里强调"极小的内存占用"。实测数据没给,但Rust的零成本抽象确实适合这种高并发场景。
单个Miasma实例默认限制50个并发连接。这个数可以调,但开发者显然不想让你为了防爬虫而买更贵的服务器。对比Cloudflare的Bot Management或Akamai的爬虫防护,Miasma的成本接近于零——一台树莓派就能跑。
安装也极简。有Rust工具链的用cargo install miasma,没有的直接下预编译二进制文件。启动命令就一个单词:miasma。
配置项包括链接前缀、并发限制、监听端口。没有仪表盘,没有日志分析,没有机器学习模型判断"这是不是恶意爬虫"。Weeks的假设很直接:走进/bots的,没有一个好人。
这算攻击吗
法律灰色地带。Miasma本身不主动扫描、不伪造请求,只是对来访流量做响应。但"响应"包含刻意设计的欺骗性内容,目的明确是消耗对方资源。
2023年,互联网档案馆起诉某AI公司未经授权抓取数据。同年,Reddit、Twitter(现X)开始收费API,实质是对爬虫征税。2024年,Cloudflare推出AI爬虫拦截工具,但默认关闭,需要手动开启。
Miasma代表另一种态度:不谈判,不设墙,直接反击。它的GitHub描述把AI公司叫作"互联网的水蛭"(leeches),把大模型产出称为" slop "——这个词在AI批评者圈子里流行,指低质量、同质化的生成内容。
「给 slop 机器喂无尽的 slop 自助餐」,Weeks这样写。
![]()
谁在用
469个Star里,大部分是观望者。真正部署的人不会公开说——毕竟暴露了/bots路径,攻击者就能绕过。
潜在用户画像清晰:独立开发者、小型内容站、对AI公司有敌意的创作者。这些人没有Reddit的谈判筹码,也付不起Cloudflare的企业版费用。
一个细节:Miasma的LICENSE是MIT,但README里没提贡献指南。Weeks似乎没打算把它做成社区项目,更像是一个概念验证,一个技术宣言。
代码结构也简单。src目录下不到10个文件,核心逻辑在handler.rs和poison.rs里。没有测试套件,没有CI配置,.github文件夹里只有基础的Issue模板。
这符合Rust开源生态的某种典型:一个人,一个周末,一个精准解决问题的工具。
但Miasma的"问题"本身有争议。AI爬虫确实过度抓取,但它们也驱动了搜索引擎、学术索引、存档服务。一棍子打死,可能误伤。
Weeks的回应藏在设计里:只有走进隐形链接的才会触发陷阱。正常用户、合规爬虫(比如Googlebot遵循robots.txt不点display:none链接),理论上不会中招。
问题是,爬虫的行为在进化。OpenAI的GPTBot文档声称遵守robots.txt,但2024年有多起报告指其抓取频率远超声明。Anthropic的Claude爬虫被观察到忽略某些Disallow规则。这些公司的透明度,和他们的模型一样,是黑箱。
技术对抗的下一步
Miasma不是第一个反爬虫工具。2023年的Nepenthes用类似思路困住扫描器,2024年初的Glaze给图片加不可见噪声, poison 扩散模型。但Miasma针对的是特定威胁:AI训练爬虫,而非通用恶意流量。
这种细分反映了一个趋势。内容创作者和AI公司的关系,从"被忽视的版权争议"变成"直接的资源战争"。你的电费、你的带宽、你的服务器响应时间,都是战场。
Weeks在README末尾留了配置示例,没写"未来路线图",没放捐赠链接。项目会更新吗?取决于AI爬虫的进化速度,以及GitHub Issue区的反馈。
目前最新的commit是两周前,修复了一个路径匹配的边界情况。活跃度中等,但Star数在涨。
如果Miasma被广泛部署,AI公司会如何应对?更聪明的爬虫识别、更激进的IP轮换、或者直接起诉"干扰计算机系统"?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.