互联网档案馆遭23家媒体集体封杀，记者们却靠它写完了调查报道|快照|爬虫|图书馆

互联网档案馆遭23家媒体集体封杀，记者们却靠它写完了调查报道

2026-04-14 09:37:30　来源: 摸鱼算法

北京举报

分享至

23家主流新闻网站正在屏蔽同一个工具，但他们的记者却每天都在偷偷使用它。

这个月，USA Today发了一篇调查报道，扒出了美国移民与海关执法局（ICE）如何拖延公开拘留政策的关键数据。记者团队用互联网档案馆的Wayback Machine抓取了ICE官网的历史快照，对比特朗普政府上台前后的数据变化，发现了明显的信息篡改痕迹。

Wayback Machine的负责人Mark Graham看到这篇报道时，心情有点复杂。「他们能完成这项调查，正是因为Wayback Machine存在。但与此同时，他们又在阻止我们存档他们的内容。」

这种矛盾不止USA Today一家。《纽约时报》《卫报》、Reddit平台，都在用不同方式限制这个「互联网时光机」。Originality AI的检测数据显示，目前至少有23家主要新闻网站屏蔽了ia_archiverbot——这是Wayback Machine用来抓取网页的核心爬虫程序。

一边是媒体机构忙着筑墙，一边是自家记者翻墙找资料。

封杀工具的人，最依赖工具

USA Today的母公司USA Today Co.（原Gannett集团）旗下运营着200多家媒体 outlet。公司发言人Lark-Marie Anton的回应很标准：「这不是针对互联网档案馆，而是全面阻止所有爬虫程序。」

《卫报》的做法更隐蔽——他们不屏蔽爬虫，但把内容从互联网档案馆API里撤掉，还在Wayback Machine的搜索界面做了过滤。普通用户想找《卫报》的历史文章，难度直接翻倍。

《卫报》商业事务与授权总监Robert Hahn的解释指向了AI：「我们在跟档案馆沟通，担心为存档目的抓取的內容集被AI公司滥用。」

这个担忧不是空穴来风。生成式AI爆发这两年，内容抓取成了敏感词。媒体机构一边被OpenAI、谷歌等公司「白嫖」内容训练模型，一边把气撒在公开存档项目上。Wayback Machine成了池鱼之殃。

但讽刺的是，当USA Today的记者调查ICE时，他们依赖的正是这个被自己公司封禁的工具。没有历史快照，就无法证明「数据被修改过」——这是调查报道的核心证据链。

Mark Graham点破了这层窗户纸：「他们用了我们的服务，却不让我们存档他们的内容。这种循环有点意思。」

100多名记者联名「造反」

本周，事情有了反转。电子前沿基金会（EFF）和Fight for the Future等倡导组织发起了一场记者联署行动，超过100名在职记者签名支持Wayback Machine。

签名人从MSNBC当家主播Rachel Maddow到独立记者Kat Tenbarge、Taylor Lorenz，跨度很大。他们给互联网档案馆递交了一封公开信，核心论点很直接：

「上一代记者会翻查本地报纸的实体档案，或去公共图书馆追溯历史报道。现在大量报纸倒闭，如果没有Wayback Machine这样的数字存档工具，当代记者根本没法完成同样的工作。」

这封信没提USA Today的矛盾，但每个签名者都心知肚明：他们抗议的，正是自己雇主的决策。

这种「员工反水」在媒体行业并不常见。通常记者对公司的商业策略保持沉默，但这次涉及的是他们的核心生产工具。一位参与联署的独立记者私下表示：「没有Wayback Machine，我至少三分之一的选题根本做不了。」

具体能做什么？举个例子：政客突然删除了一条推文，记者需要证明「这条内容存在过」；公司官网悄悄修改了服务条款，需要对比版本差异；政府报告在舆论发酵后「被消失」，需要原始存档作为证据。

这些场景每天都在发生。2023年，Wayback Machine存档了超过8600亿个网页快照。它不是完美的——有些网站抓取不全，有些动态内容存不下来——但在「证明历史版本存在」这件事上，没有替代品。

AI恐慌下的误伤

媒体机构的防御姿态，根源是对生成式AI的恐惧。这个逻辑链条很清晰：

OpenAI用Common Crawl等公开数据集训练GPT模型 → Common Crawl包含大量新闻网站内容 → 媒体发现自己的内容被用于训练却拿不到钱 → 开始全面封锁爬虫 → Wayback Machine的ia_archiverbot被一并屏蔽。

问题在于，Wayback Machine和AI公司的爬虫根本不是一回事。

ia_archiverbot的抓取规则很保守：尊重robots.txt，抓取频率受限，存档内容公开可查且支持删除请求。它的目的是「保存」，而非「榨取」。AI公司的爬虫则相反——高频抓取、隐藏身份、数据用于封闭的商业模型。

但媒体机构的IT部门没精力做精细区分。一刀切最简单，Wayback Machine成了 collateral damage（附带损害）。

《卫报》的Hahn提到「与档案馆沟通」，说明双方还在谈判。但USA Today Co.的态度更硬——发言人强调「全面阻止所有爬虫」，没有例外空间。

这种僵硬姿态背后，是媒体行业的集体焦虑。2023年以来，News Corp、Axel Springer、美联社等机构陆续与OpenAI签订内容授权协议，价格从数百万到上亿美元不等。但更多中小媒体没谈判筹码，只能选择「全部屏蔽」作为防御。

Wayback Machine夹在中间，左右不是人。

它既不是商业AI公司，能付钱买内容；也不是完全中立的公共基础设施，可以要求豁免。互联网档案馆是非营利组织，靠捐赠和有限拨款运营。它没有法律团队去跟200多家媒体逐一谈判robots.txt的豁免条款。

当「记忆」变成特权

这场冲突的深层问题，是谁有权决定互联网的记忆方式。

USA Today Co.屏蔽Wayback Machine后，他们的历史报道不会完全消失——公司自己的付费档案库还在运行。想查2008年的某篇调查？可以，按篇付费或订阅套餐。

这创造了一种分层访问：机构记者可能有内部权限，普通研究者只能付费，而没预算的人被挡在门外。Wayback Machine提供的「平等访问」被打破了。

Mark Graham没有直接批评这种模式，但他的类比很说明问题：「以前的记者去公共图书馆查资料，现在图书馆关门了，我们试图建一个数字替代品。但有些出版商希望你自己买书。」

这个类比省略了一部分：USA Today的记者可以「借书」，同时阻止别人「借书」。

调查报道的特殊性加剧了这种不对称。USA Today那篇ICE报道的价值，恰恰在于「用公开数据揭露隐藏的变化」。如果ICE官网的历史版本只有付费用户能查，这个选题可能根本不会诞生——记者发现异常的成本太高了。

换句话说，Wayback Machine降低的是「监督权力」的门槛。屏蔽它，等于把这项权力重新收回到有资源的人手中。

参与联署的记者们意识到了这一点。他们的公开信强调「本地报纸倒闭」的背景，暗示了一个正在消失的公共领域。Wayback Machine不是完美的替代品，但它是目前唯一在规模上匹配互联网体量的存档尝试。

技术方案 vs 商业决策

有没有技术层面的解决方案？部分有。

互联网档案馆已经在测试区分「存档爬虫」和「AI爬虫」的标识机制。比如，ia_archiverbot的User-Agent字符串可以被识别，robots.txt可以针对性地允许它而屏蔽其他爬虫。但媒体机构需要配合更新规则，而目前响应者寥寥。

更根本的问题是商业信任。即使技术上可以区分，出版商是否相信互联网档案馆不会「转卖」数据给AI公司？Hahn的「担忧」指向这个方向。互联网档案馆需要更透明的治理结构，或者与媒体机构签订具有约束力的数据使用协议。

但这需要资源。互联网档案馆2023年的运营预算约为3600万美元，对比OpenAI的数十亿融资，差距悬殊。它没能力雇佣大量商务和法律人员去逐个谈判。

另一个方向是政策干预。EFF等组织推动的联署，某种程度上是在制造舆论压力，为可能的立法或监管行动铺路。欧盟的《数字服务法》已经要求大型平台提供研究者数据访问权限，类似的逻辑能否延伸到网络存档领域？

目前看，美国国会对这个议题兴趣有限。共和党议员更关注社交媒体的内容审核偏见，民主党侧重大科技平台的反垄断，Wayback Machine的处境处于两党的交叉盲区。

记者们的最后防线

回到USA Today那篇ICE报道。它揭示了一个官僚机构如何系统性地隐瞒信息——延迟发布、修改历史数据、删除不利记录。这种「记忆篡改」如果没有外部存档，几乎无法被证明。

Wayback Machine的价值，在于它创造了一个「不可被单方面修改」的平行记录。即使原始网站删除内容，快照仍然存在。这种「抗删除性」对监督报道至关重要。

现在，创造这种价值的工具本身受到威胁。23家媒体的屏蔽名单还在增长，AI公司的爬虫军备竞赛没有停下来的迹象，互联网档案馆的运营压力持续累积。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

互联网档案馆遭23家媒体集体封杀，记者们却靠它写完了调查报道

封杀工具的人，最依赖工具

100多名记者联名「造反」

AI恐慌下的误伤

当「记忆」变成特权

技术方案 vs 商业决策

记者们的最后防线

离职同事"炼化"成AI?这届公司不需要活人了

24岁准新娘诊所输液昏迷近3个月未醒 涉事诊所变超市

24岁准新娘诊所输液昏迷近3个月未醒 涉事诊所变超市

他做对了所有事，却被整个职业网坛放逐了八年

宋祖儿刘宇宁恋情大反转 正主火速辟谣

伊朗要求五个中东国家赔偿战争损失

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

东环公园：3000余株牡丹花开倾城

12吨巧克力有难，全网化身超级侦探添乱

远近都有戏：华为Pura 90 Pro Max手机搭载超大底2亿长焦

特朗普：今晚10点封锁伊朗 对北约非常失望

24岁准新娘诊所输液昏迷近3个月未醒涉事诊所变超市

24岁准新娘诊所输液昏迷近3个月未醒涉事诊所变超市

宋祖儿刘宇宁恋情大反转正主火速辟谣

长城欧拉5限定版纯电版上市限量99台售价13.38万元

特朗普：今晚10点封锁伊朗对北约非常失望