Anubis把AI爬虫逼到墙角：1行代码让服务器成本暴涨47倍|插件|爬取

Anubis把AI爬虫逼到墙角：1行代码让服务器成本暴涨47倍

2026-03-28 10:48:38　来源: 碳基打工人

北京举报

分享至

2024年，一个GitHub项目的Star数从0涨到8000，不是靠功能多炫酷，而是因为它让AI公司的服务器账单开始燃烧。

这个项目叫Anubis，名字取自埃及死神。开发者用了一个20年前的老技术——工作量证明（Proof-of-Work），把网站防爬战从"猫鼠游戏"变成了"算力对赌"。

1. 为什么正经网站开始"挖矿"防身

AI爬虫的破坏力被严重低估。Cloudflare 2024年报告显示，全球40%的互联网流量来自机器人，其中"善意爬虫"（搜索引擎索引）占比不足15%。剩下的，大部分是AI公司训练大模型的数据采集器。

这些爬虫的共同点：不讲武德。它们会同时开上千个连接，无视robots.txt，把服务器CPU压到100%，直接导致正常用户无法访问。某独立博客作者记录，一次未防护的爬虫攻击让他的VPS在3小时内产生47美元流量费——相当于平时半个月的开销。

Anubis的解法很粗暴：想访问页面？先算一道哈希题。单个用户耗时不到0.3秒，但爬虫如果并行开1000个线程，算力成本会指数级膨胀。开发者Eevee在README里写得很直白："这不是为了挡住所有人，是为了让大规模爬取变得不划算。"

工作量证明在这里不是区块链噱头，而是精确的成本杠杆。

2. Hashcash复活：一个被垃圾邮件逼出来的老方案

1997年，密码学家Adam Back提出Hashcash，初衷是解决邮件垃圾问题。核心逻辑：发邮件前，你的电脑先花几秒算一道题，把结果附在邮件头里。正常用户发几封邮件无感，但垃圾邮件发送者要发百万级邮件，算力成本直接爆炸。

Hashcash没能在邮件领域普及——Gmail选择了更粗暴的机器学习过滤。但27年后，它的精神继承者Anubis在Web防护领域找到了位置。

技术实现上，Anubis用WebAssembly在浏览器端跑SHA-256计算。用户访问被保护的网站时，页面会弹出一个"正在验证"的提示，后台默默完成约20万次哈希迭代。现代笔记本耗时50-200毫秒，老旧手机可能到1秒，但仍在可接受范围。

真正的杀招在经济学层面。假设某AI公司要爬取100万页面，原本的成本主要是带宽和存储；加入Anubis后，需要先完成100万次工作量证明。按AWS p3.2xlarge实例的算力成本估算，这部分新增支出可能让单次爬取成本从200美元跳到9400美元——47倍的差距。

3. "临时方案"背后的长期博弈

Anubis开发者承认这是"hack"（权宜之计）。真正的防线在更深处：通过字体渲染、Canvas指纹、WebGL行为等特征，识别出无头浏览器（Headless Browser）——AI爬虫的主流形态。

这像极了冷战时期的军备竞赛。爬虫方不断升级伪装：用真实Chrome内核、模拟鼠标轨迹、甚至接入第三方打码平台解决验证码。防御方则在收集"人类行为"的细粒度特征：你滚动页面的加速度曲线，鼠标悬停时的微抖动，字体抗锯齿的像素级差异。

「最终目标是让合法用户无感知通过，而机器需要付出不成比例的成本。」Anubis维护者在Issue区回复用户提问时写道。

但这场博弈有个尴尬的第三方：隐私工具用户。JShelter、NoScript等浏览器插件会阻断Anubis所需的JavaScript执行，导致正常用户被误拦。项目文档不得不专门提示："请为本站禁用JShelter"——一个反追踪工具，在反爬虫战场成了 collateral damage（附带损伤）。

4. 没有JavaScript的互联网正在消失

Anubis的README里有句话被很多人忽略："无JS方案正在开发中。"这句话的潜台词是：在当前技术条件下，没有JavaScript就无法区分人类和机器。

这指向一个更深层的变化。早期的Web是文档的互联，HTML足以承载一切。现在的Web是应用的互联，JavaScript是运行时的基础设施。当AI爬虫可以完美解析HTML、CSS，甚至执行基础JS时，"人机验证"被迫上移到了更复杂的执行层。

对普通用户的影响是实实在在的。2024年，W3C的Web无障碍倡议组织收到多份投诉，称这类防护机制对使用屏幕阅读器的视障用户不友好。Anubis团队回应称正在优化ARIA标签支持，但优先级低于"挡住当前这波爬虫潮"。

技术债务在转移：AI公司省下的数据标注成本，正在变成全社会的验证负担。

5. 当每个网站都成为收费站

Anubis不是孤例。Cloudflare的Turnstile、Google的reCAPTCHA v3、甚至Cloudflare的"托管质询"页面，都在做类似的事：用某种成本不对称，过滤掉机器流量。区别在于，Anubis是开源的、自托管的、不需要把用户数据交给第三方。

这契合了2024年的一种情绪：平台不信任。开发者宁愿自己维护一套防爬系统，也不愿意把访问日志送给Google分析。Anubis的Docker镜像下载量在三个月内突破50万次，其中相当一部分来自欧洲的独立站长——GDPR合规压力下，他们比任何时候都更在意数据主权。

但自托管意味着责任自担。GitHub Issues区里，最常见的求助是"配置后网站变慢了"或"移动端验证失败"。没有SLA（服务等级协议），没有7×24客服，只有一份还在完善的文档和志愿者的碎片时间。

「我们是在用90年代的互联网精神，解决2020年代的平台问题。」一位贡献者在讨论区写道。

回到那个核心问题：Anubis能赢吗？

技术层面，工作量证明只是延迟了爬虫的适应速度。已经有用户在测试用WebGPU并行计算，把验证时间压缩到原来的1/20。经济层面，AI公司的算力预算仍在膨胀，9400美元的爬取成本对OpenAI或Anthropic可能只是 rounding error（舍入误差）。

但Anubis的真正价值或许不在技术本身，而在它示范了一种姿态：网站运营者开始拒绝默认承担AI训练的外部性成本。当足够多的站点部署类似机制，AI公司的数据获取策略将被迫调整——从野蛮抓取，转向授权协议和合成数据。

那个"无JS方案"的承诺，至今仍在开发中。而依赖屏幕阅读器的用户、使用隐私插件的访客、以及所有相信Web应该对机器和人类同等开放的人，正在等待一个答案：当验证成为基础设施，谁有权定义"合法访问"的门槛？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.