几十年来,网站依赖简单的 robots.txt 文件与网络爬虫进行沟通。这个文件充当了守门人,指示哪些内容是可以访问的,哪些是禁止的。然而,这在很大程度上是一种礼貌,而不是强制性的规则。专家指出,robots.txt 并没有实际的执行机制,只是一个礼貌请求。像谷歌这样的主要参与者由于公众的审查而尊重这一标准。然而,较小的专用爬虫往往完全忽视它。开发简单爬虫的开发者发现,绕过该文件比编写代码来尊重它更简单,工作量也更少。
这种缺乏执行力引发了一个新问题:第三方抓取工具。当出版商明确试图阻止人工智能公司时,他们实际上创造了一个市场,供那些以窃取内容为荣的第三方服务所用,通常绕过付费墙。这使得大型人工智能模型能够使用从未同意的出版物中提取的信息来回答“实时”新闻查询。这种做法正在增长,导致主要报纸出版商之间关于日益严重的威胁引发了更多讨论。
新的版权战争:出版商用陷阱和代码与人工智能网络爬虫作斗争
不断的、未经授权的人工智能爬虫对出版商造成的损失是显著且可以量化的。对许多人来说,结果是直接网站流量大幅下降。毕竟,人工智能模型合成内容,减少了用户点击源网站的必要。此外,出版商面临着不断上升的运营成本。
例如,维基百科报告称,在短时间内带宽消耗增加了50%。维基媒体基金会将此直接归因于自动化程序爬取其庞大的开放许可图像目录。这种压力迫使技术团队不断应对涌入的爬虫流量。
作为回应,行业正在协调努力建立新规则。互联网工程任务组(IETF)成立了人工智能偏好工作组(AIPREF)。该小组旨在为出版商创建一个统一的术语,以清楚地表明他们对使用其内容进行人工智能训练的偏好。最终目标是将 robots.txt 中的软性‘请不要’变成技术上的‘禁止’。
反抓取武器的新策略
由于缺乏明确的监管,一些出版商开始采取主动的反制措施:
人工智能陷阱:这种网络安全策略通过把人工智能爬虫引导到一个“无限迷宫”的静态文件中,让它们无法找到出口,从而将其困住。爬虫被困住,浪费自己的资源试图在这个无尽的循环中徘徊。一些开发者甚至利用这些成功的陷阱来“毒化”被困的人工智能抓取工具,向它们提供无意义的‘胡言乱语数据’,以破坏人工智能模型。
工作量证明机制:其他防御措施,例如阿努比斯挑战机制,类似于反向 CAPTCHA。它们不是检查访客是否为人类,而是要求访客的机器完成一个加密的工作量证明任务。对于运营大型机器人农场的人工智能公司来说,这些计算需要大量的处理能力,使得扫描网站的成本变得非常高昂。
Cloudflare 参与这场斗争
在一次重大的行业变动中,主要互联网基础设施提供商 Cloudflare 最近改变了其政策,默认自动阻止人工智能机器人。此前,该公司提供了一种可选的“选择退出”模式。这一决定得到了十多家主要媒体的支持,支持的媒体包括美联社、《大西洋月刊》和康泰纳仕。Cloudflare 还提供了一种更强大的工具,称为 AI Labyrinth,它可以检测恶意机器人行为,并将不需要的爬虫引诱到一个由 AI 生成的诱饵页面的陷阱里,来浪费它们的资源。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.