GitHub 469星项目：给AI爬虫挖了个无限循环的坑|服务器|bots

GitHub 469星项目：给AI爬虫挖了个无限循环的坑

2026-03-30 12:45:54　来源: Ping值焦虑

北京举报

分享至

一个Rust写的开源工具，两周内攒了469个Star。它的功能简单粗暴：给AI爬虫喂垃圾数据，让它们在自己的迷宫里打转，直到服务器资源耗尽。

开发者Austin Weeks把这叫作"毒雾"（Miasma）。名字来自中世纪对瘟疫空气的想象——看不见，但致命。

爬虫怎么偷走你的网站

AI公司训练大模型需要海量数据。OpenAI、Anthropic、Google的爬虫每天扫描数十亿网页，把文字、图片、代码一股脑卷走。你的博客、文档、评论区，只要公开访问，就是它们的免费饲料。

这些爬虫通常遵守robots.txt，但"遵守"是个灰色地带。它们会读规则，也会试探边界。更麻烦的是，新的爬虫不断出现，名单永远更新不完。

传统防御是封IP、限频率、加验证码。但AI公司的IP池庞大，验证码对自动化爬虫的识别率也在下降。这是一场不对称战争：你花真金白银买服务器，它们用脚本批量收割。

Miasma的思路是反向利用爬虫的贪婪。

毒雾的工作原理

工具核心就两件事：生成假数据，制造死循环。

第一步，在你的网页里埋隐形链接。代码长这样：

` Amazing high quality data here! `

display: none让链接不可见，aria-hidden="true"跳过屏幕阅读器，tabindex="1"避开键盘导航。人类用户完全感知不到，但爬虫会老老实实爬进去。

第二步，把这些流量导向Miasma服务器。配置Nginx反向代理，把/bots路径指向本地9855端口。

爬虫一旦踏入，就会收到两样东西：一堆垃圾训练数据，以及更多指向/bots的自引用链接。数据来自Miasma内置的"毒泉"（poison fountain），内容是自动生成的无意义文本，混杂着真实语料库的常见模式——足够像真的，能让模型学歪。

链接设计更狠。每个页面包含多个指向自身的变体URL：/bots/123、/bots/abc、/bots/xyz。爬虫以为是新页面，其实是同一个陷阱的不同入口。

结果是无限递归。爬虫在迷宫里打转，下载、解析、再跟随链接，CPU和带宽被持续消耗。

为什么用Rust写

Weeks在README里强调"极小的内存占用"。实测数据没给，但Rust的零成本抽象确实适合这种高并发场景。

单个Miasma实例默认限制50个并发连接。这个数可以调，但开发者显然不想让你为了防爬虫而买更贵的服务器。对比Cloudflare的Bot Management或Akamai的爬虫防护，Miasma的成本接近于零——一台树莓派就能跑。

安装也极简。有Rust工具链的用cargo install miasma，没有的直接下预编译二进制文件。启动命令就一个单词：miasma。

配置项包括链接前缀、并发限制、监听端口。没有仪表盘，没有日志分析，没有机器学习模型判断"这是不是恶意爬虫"。Weeks的假设很直接：走进/bots的，没有一个好人。

这算攻击吗

法律灰色地带。Miasma本身不主动扫描、不伪造请求，只是对来访流量做响应。但"响应"包含刻意设计的欺骗性内容，目的明确是消耗对方资源。

2023年，互联网档案馆起诉某AI公司未经授权抓取数据。同年，Reddit、Twitter（现X）开始收费API，实质是对爬虫征税。2024年，Cloudflare推出AI爬虫拦截工具，但默认关闭，需要手动开启。

Miasma代表另一种态度：不谈判，不设墙，直接反击。它的GitHub描述把AI公司叫作"互联网的水蛭"（leeches），把大模型产出称为" slop "——这个词在AI批评者圈子里流行，指低质量、同质化的生成内容。

「给 slop 机器喂无尽的 slop 自助餐」，Weeks这样写。

谁在用

469个Star里，大部分是观望者。真正部署的人不会公开说——毕竟暴露了/bots路径，攻击者就能绕过。

潜在用户画像清晰：独立开发者、小型内容站、对AI公司有敌意的创作者。这些人没有Reddit的谈判筹码，也付不起Cloudflare的企业版费用。

一个细节：Miasma的LICENSE是MIT，但README里没提贡献指南。Weeks似乎没打算把它做成社区项目，更像是一个概念验证，一个技术宣言。

代码结构也简单。src目录下不到10个文件，核心逻辑在handler.rs和poison.rs里。没有测试套件，没有CI配置，.github文件夹里只有基础的Issue模板。

这符合Rust开源生态的某种典型：一个人，一个周末，一个精准解决问题的工具。

但Miasma的"问题"本身有争议。AI爬虫确实过度抓取，但它们也驱动了搜索引擎、学术索引、存档服务。一棍子打死，可能误伤。

Weeks的回应藏在设计里：只有走进隐形链接的才会触发陷阱。正常用户、合规爬虫（比如Googlebot遵循robots.txt不点display:none链接），理论上不会中招。

问题是，爬虫的行为在进化。OpenAI的GPTBot文档声称遵守robots.txt，但2024年有多起报告指其抓取频率远超声明。Anthropic的Claude爬虫被观察到忽略某些Disallow规则。这些公司的透明度，和他们的模型一样，是黑箱。

技术对抗的下一步

Miasma不是第一个反爬虫工具。2023年的Nepenthes用类似思路困住扫描器，2024年初的Glaze给图片加不可见噪声， poison 扩散模型。但Miasma针对的是特定威胁：AI训练爬虫，而非通用恶意流量。

这种细分反映了一个趋势。内容创作者和AI公司的关系，从"被忽视的版权争议"变成"直接的资源战争"。你的电费、你的带宽、你的服务器响应时间，都是战场。

Weeks在README末尾留了配置示例，没写"未来路线图"，没放捐赠链接。项目会更新吗？取决于AI爬虫的进化速度，以及GitHub Issue区的反馈。

目前最新的commit是两周前，修复了一个路径匹配的边界情况。活跃度中等，但Star数在涨。

如果Miasma被广泛部署，AI公司会如何应对？更聪明的爬虫识别、更激进的IP轮换、或者直接起诉"干扰计算机系统"？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

GitHub 469星项目：给AI爬虫挖了个无限循环的坑

爬虫怎么偷走你的网站

毒雾的工作原理

为什么用Rust写

这算攻击吗

谁在用

技术对抗的下一步

前同事被蒸馏成Token，AI能否偷走职场经验

特朗普希望7日前与伊朗达成协议 专家:实现可能性较低

特朗普希望7日前与伊朗达成协议 专家:实现可能性较低

球员系列赛大满贯！赵心童10-3世界第一 加冕赛季第4冠

乔任梁离世10年 父母曝舞台光鲜的背后

118吨！这家央行，大幅抛售黄金！

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

20位中国当代名家的25幅油画

AI时代，辨别真相的成本变高了

温馨多元 爱的具象化

跟着歌声游安徽，听古村回响

一定要让孩子刻在脑子里

特朗普希望7日前与伊朗达成协议专家:实现可能性较低

特朗普希望7日前与伊朗达成协议专家:实现可能性较低

球员系列赛大满贯！赵心童10-3世界第一加冕赛季第4冠

乔任梁离世10年父母曝舞台光鲜的背后

温馨多元爱的具象化