![]()
23家主流新闻网站正在屏蔽同一个工具,但他们的记者却每天都在偷偷使用它。
这个月,USA Today发了一篇调查报道,扒出了美国移民与海关执法局(ICE)如何拖延公开拘留政策的关键数据。记者团队用互联网档案馆的Wayback Machine抓取了ICE官网的历史快照,对比特朗普政府上台前后的数据变化,发现了明显的信息篡改痕迹。
Wayback Machine的负责人Mark Graham看到这篇报道时,心情有点复杂。「他们能完成这项调查,正是因为Wayback Machine存在。但与此同时,他们又在阻止我们存档他们的内容。」
这种矛盾不止USA Today一家。《纽约时报》《卫报》、Reddit平台,都在用不同方式限制这个「互联网时光机」。Originality AI的检测数据显示,目前至少有23家主要新闻网站屏蔽了ia_archiverbot——这是Wayback Machine用来抓取网页的核心爬虫程序。
一边是媒体机构忙着筑墙,一边是自家记者翻墙找资料。
封杀工具的人,最依赖工具
USA Today的母公司USA Today Co.(原Gannett集团)旗下运营着200多家媒体 outlet。公司发言人Lark-Marie Anton的回应很标准:「这不是针对互联网档案馆,而是全面阻止所有爬虫程序。」
《卫报》的做法更隐蔽——他们不屏蔽爬虫,但把内容从互联网档案馆API里撤掉,还在Wayback Machine的搜索界面做了过滤。普通用户想找《卫报》的历史文章,难度直接翻倍。
《卫报》商业事务与授权总监Robert Hahn的解释指向了AI:「我们在跟档案馆沟通,担心为存档目的抓取的內容集被AI公司滥用。」
这个担忧不是空穴来风。生成式AI爆发这两年,内容抓取成了敏感词。媒体机构一边被OpenAI、谷歌等公司「白嫖」内容训练模型,一边把气撒在公开存档项目上。Wayback Machine成了池鱼之殃。
但讽刺的是,当USA Today的记者调查ICE时,他们依赖的正是这个被自己公司封禁的工具。没有历史快照,就无法证明「数据被修改过」——这是调查报道的核心证据链。
Mark Graham点破了这层窗户纸:「他们用了我们的服务,却不让我们存档他们的内容。这种循环有点意思。」
100多名记者联名「造反」
本周,事情有了反转。电子前沿基金会(EFF)和Fight for the Future等倡导组织发起了一场记者联署行动,超过100名在职记者签名支持Wayback Machine。
签名人从MSNBC当家主播Rachel Maddow到独立记者Kat Tenbarge、Taylor Lorenz,跨度很大。他们给互联网档案馆递交了一封公开信,核心论点很直接:
「上一代记者会翻查本地报纸的实体档案,或去公共图书馆追溯历史报道。现在大量报纸倒闭,如果没有Wayback Machine这样的数字存档工具,当代记者根本没法完成同样的工作。」
这封信没提USA Today的矛盾,但每个签名者都心知肚明:他们抗议的,正是自己雇主的决策。
这种「员工反水」在媒体行业并不常见。通常记者对公司的商业策略保持沉默,但这次涉及的是他们的核心生产工具。一位参与联署的独立记者私下表示:「没有Wayback Machine,我至少三分之一的选题根本做不了。」
具体能做什么?举个例子:政客突然删除了一条推文,记者需要证明「这条内容存在过」;公司官网悄悄修改了服务条款,需要对比版本差异;政府报告在舆论发酵后「被消失」,需要原始存档作为证据。
这些场景每天都在发生。2023年,Wayback Machine存档了超过8600亿个网页快照。它不是完美的——有些网站抓取不全,有些动态内容存不下来——但在「证明历史版本存在」这件事上,没有替代品。
AI恐慌下的误伤
媒体机构的防御姿态,根源是对生成式AI的恐惧。这个逻辑链条很清晰:
OpenAI用Common Crawl等公开数据集训练GPT模型 → Common Crawl包含大量新闻网站内容 → 媒体发现自己的内容被用于训练却拿不到钱 → 开始全面封锁爬虫 → Wayback Machine的ia_archiverbot被一并屏蔽。
问题在于,Wayback Machine和AI公司的爬虫根本不是一回事。
ia_archiverbot的抓取规则很保守:尊重robots.txt,抓取频率受限,存档内容公开可查且支持删除请求。它的目的是「保存」,而非「榨取」。AI公司的爬虫则相反——高频抓取、隐藏身份、数据用于封闭的商业模型。
但媒体机构的IT部门没精力做精细区分。一刀切最简单,Wayback Machine成了 collateral damage(附带损害)。
《卫报》的Hahn提到「与档案馆沟通」,说明双方还在谈判。但USA Today Co.的态度更硬——发言人强调「全面阻止所有爬虫」,没有例外空间。
这种僵硬姿态背后,是媒体行业的集体焦虑。2023年以来,News Corp、Axel Springer、美联社等机构陆续与OpenAI签订内容授权协议,价格从数百万到上亿美元不等。但更多中小媒体没谈判筹码,只能选择「全部屏蔽」作为防御。
Wayback Machine夹在中间,左右不是人。
它既不是商业AI公司,能付钱买内容;也不是完全中立的公共基础设施,可以要求豁免。互联网档案馆是非营利组织,靠捐赠和有限拨款运营。它没有法律团队去跟200多家媒体逐一谈判robots.txt的豁免条款。
当「记忆」变成特权
这场冲突的深层问题,是谁有权决定互联网的记忆方式。
USA Today Co.屏蔽Wayback Machine后,他们的历史报道不会完全消失——公司自己的付费档案库还在运行。想查2008年的某篇调查?可以,按篇付费或订阅套餐。
这创造了一种分层访问:机构记者可能有内部权限,普通研究者只能付费,而没预算的人被挡在门外。Wayback Machine提供的「平等访问」被打破了。
Mark Graham没有直接批评这种模式,但他的类比很说明问题:「以前的记者去公共图书馆查资料,现在图书馆关门了,我们试图建一个数字替代品。但有些出版商希望你自己买书。」
这个类比省略了一部分:USA Today的记者可以「借书」,同时阻止别人「借书」。
调查报道的特殊性加剧了这种不对称。USA Today那篇ICE报道的价值,恰恰在于「用公开数据揭露隐藏的变化」。如果ICE官网的历史版本只有付费用户能查,这个选题可能根本不会诞生——记者发现异常的成本太高了。
换句话说,Wayback Machine降低的是「监督权力」的门槛。屏蔽它,等于把这项权力重新收回到有资源的人手中。
参与联署的记者们意识到了这一点。他们的公开信强调「本地报纸倒闭」的背景,暗示了一个正在消失的公共领域。Wayback Machine不是完美的替代品,但它是目前唯一在规模上匹配互联网体量的存档尝试。
技术方案 vs 商业决策
有没有技术层面的解决方案?部分有。
互联网档案馆已经在测试区分「存档爬虫」和「AI爬虫」的标识机制。比如,ia_archiverbot的User-Agent字符串可以被识别,robots.txt可以针对性地允许它而屏蔽其他爬虫。但媒体机构需要配合更新规则,而目前响应者寥寥。
更根本的问题是商业信任。即使技术上可以区分,出版商是否相信互联网档案馆不会「转卖」数据给AI公司?Hahn的「担忧」指向这个方向。互联网档案馆需要更透明的治理结构,或者与媒体机构签订具有约束力的数据使用协议。
但这需要资源。互联网档案馆2023年的运营预算约为3600万美元,对比OpenAI的数十亿融资,差距悬殊。它没能力雇佣大量商务和法律人员去逐个谈判。
另一个方向是政策干预。EFF等组织推动的联署,某种程度上是在制造舆论压力,为可能的立法或监管行动铺路。欧盟的《数字服务法》已经要求大型平台提供研究者数据访问权限,类似的逻辑能否延伸到网络存档领域?
目前看,美国国会对这个议题兴趣有限。共和党议员更关注社交媒体的内容审核偏见,民主党侧重大科技平台的反垄断,Wayback Machine的处境处于两党的交叉盲区。
记者们的最后防线
回到USA Today那篇ICE报道。它揭示了一个官僚机构如何系统性地隐瞒信息——延迟发布、修改历史数据、删除不利记录。这种「记忆篡改」如果没有外部存档,几乎无法被证明。
Wayback Machine的价值,在于它创造了一个「不可被单方面修改」的平行记录。即使原始网站删除内容,快照仍然存在。这种「抗删除性」对监督报道至关重要。
现在,创造这种价值的工具本身受到威胁。23家媒体的屏蔽名单还在增长,AI公司的爬虫军备竞赛没有停下来的迹象,互联网档案馆的运营压力持续累积。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.