人工智能模型对数据有着旺盛的需求。保持信息更新以呈现给用户是一项挑战。因此,走在人工智能前沿的公司似乎找到了一个解决办法:不断爬取网络。
但网站所有者越来越不愿意让人工智能公司随意使用他们的数据。因此,他们通过限制爬虫来重新获得控制权。
为此,他们使用robots.txt,这是许多网站上保存的一个文件,用来指导网络爬虫是否被允许抓取其内容。最初设计为向搜索引擎发出信号,表明网站是否希望其页面被索引,但在人工智能时代,由于一些公司据称违反指令,它的重要性日益增加。
在一项新研究中,萨尔大学的研究员尼古拉斯·斯坦阿克-奥尔什廷及其同事分析了不同网站如何处理robots.txt,以及在声誉良好的网站和不良网站之间是否存在差异,特别是在它们是否允许爬取方面。斯坦阿克-奥尔什廷表示,对于许多人工智能公司来说,“这就像是‘先做了再说’的做法。”
在这项研究中,对超过4000个网站对63种与人工智能相关的用户代理的响应进行了检查,包括GPTBot、ClaudeBot、CCBot和Google-Extended——这些工具都是人工智能公司在获取信息时使用的。
这些网站随后被分为信誉良好的新闻媒体或虚假信息网站,使用由媒体偏见与事实检查组织制定的评级,该组织根据新闻来源的可信度和报道的真实性对其进行分类。
在评估的4000个网站中,约60%被认定为信誉良好的新闻网站阻止至少一个AI爬虫访问其信息;而虚假信息网站中,只有9.1%这样做。
平均来看,信誉良好的网站通过其robots.txt文件阻止超过15种不同的AI爬虫。相比之下,虚假信息网站通常根本不阻止爬虫。
“最大的收获是,信誉良好的新闻网站在与这些主要AI开发者及其做法相关的不断变化的生态系统中保持了良好的跟进,”Steinacker-Olsztyn表示。
随着时间的推移,愿意让爬虫访问自己网站的和不愿意的之间的差距正在扩大。研究发现,从2023年9月到2025年5月,锁定爬虫的平台比例从23%上升到了60%,而传播虚假信息的网站份额保持不变。
斯坦阿克-奥尔什丁表示,结果是,信誉较低的内容被数亿人日常使用的AI模型吸收并吐出。“这些模型越来越多地被用于信息检索,取代了传统的搜索方式,如搜索引擎或谷歌,”斯坦阿克-奥尔什丁补充道。
关于合法数据的问题
为了让AI模型跟上时事,它们需要在信誉良好的网站上进行训练,而这正是这些网站所不希望的。
AI公司和新闻网站之间关于版权和训练数据访问的争斗正越来越多地进入法庭——例如,《纽约时报》对ChatGPT的制造商OpenAI的诉讼,上周仍在进行中。
这些诉讼是由于对人工智能公司非法抓取新闻网站数据的指控而引发的,这些数据被用作其人工智能聊天机器人定期更新的、基于真实情况的训练数据。除了进行诉讼外,信誉良好的新闻网站还在阻止人工智能爬虫的访问。
这对他们的商业利益和权利是有利的。但斯坦纳克-奥尔什丁对更广泛的影响感到担忧。“如果信誉良好的新闻越来越多地使这些信息不可用,那么这就有理由相信这会影响这些模型的可靠性,”他解释道。“往后看,这正在改变他们能够获取的合法数据比例。”
本质上:对于人工智能爬虫来说,无论它是在查看纽约时报,还是在浏览霍博肯的虚假信息网站,都没有关系。它们都是训练数据,如果其中一个比另一个更容易被访问,那才是最重要的。
并不是每个人都对阻止爬虫的负面影响感到如此确定。牛津大学路透社新闻研究所的人工智能和数字新闻研究员费利克斯·西蒙表示,他并不感到惊讶,得知传播虚假信息的网站希望被爬取,“而传统出版商此时则有动机阻止这种抓取。”他补充说,这些传统出版商中有些仍然允许某种抓取,“出于多种原因。”
西蒙还警告说,仅仅因为错误信息网站更有可能向人工智能爬虫开放,并不意味着它们在信息空间中造成的污染有我们想象的那么严重。
“人工智能开发者在系统训练过程的各个阶段以及推理阶段都会过滤和权衡数据,”他说。“我们希望,人工智能开发者能像作者识别不可信网站那样,过滤掉这些数据。”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.