大英百科全书的反击：一场被低估的AI版权战|文章|词典|条目|出版商

大英百科全书的反击：一场被低估的AI版权战

2026-03-19 15:37:42　来源: 硅屿手记

北京举报

分享至

当ChatGPT能流畅回答"什么是黑洞"时，你有没有想过——这些答案是从哪来的？

2025年3月，两个名字突然联手把OpenAI告上法庭：大英百科全书（Encyclopedia Britannica）和韦氏词典（Merriam-Webster）。不是科技公司，不是媒体集团，而是两家加起来超过400岁的"知识老字号"。

它们指控ChatGPT在训练中使用了近10万篇受版权保护的文章，且未获授权。这场诉讼的微妙之处在于：原告不是追着要钱的版权流氓，而是本身就代表"权威知识"的建制派。它们的出手，可能预示着AI内容战争进入了新阶段。

为什么是这两家？时间线里的信号

要理解这场诉讼的分量，得先看清原告的特殊身份。

大英百科全书创立于1768年，纸质时代的人类知识图腾。2012年停止印刷版后，它成功转型为数字订阅服务，靠高质量内容和教育机构授权活着。韦氏词典更老，1828年创刊，至今仍是美国最权威的英语词典品牌，其在线版每月有数千万访问量。

这两家的共同点：它们的内容不是新闻，是"结构化知识"——经过专业编辑整理、事实核查、持续更新的条目。这种内容的制作成本极高，但一旦被AI模型消化，就变成了ChatGPT回答用户提问的"原材料"。

诉讼文件的核心指控很具体：OpenAI在训练大语言模型（Large Language Model，一种通过海量文本学习语言规律的AI系统）时，抓取了它们网站上的条目内容。更麻烦的是，ChatGPT生成的回答有时会"复述"这些条目的独特表述，甚至包含只有原文才有的错误——这成了"实质性相似"的证据。

原告的诉求也很实际：经济赔偿，外加禁令阻止进一步侵权。但它们真正在意的，恐怕是更深层的问题——当用户直接问AI就能得到答案，谁还会去订阅百科全书？

2023-2025：AI版权诉讼的升级曲线

这场诉讼不是孤立事件。把时间线拉长，能看到一条清晰的升级轨迹。

2023年，第一波诉讼潮针对的是"训练数据"本身。美国作家Sarah Silverman、Michael Chabon等起诉OpenAI，指控其用盗版书库训练模型。《纽约时报》同年11月的诉讼更轰动，声称ChatGPT能生成与其文章几乎一致的段落。

这些案件的共同点是：原告多为内容生产者，诉求集中在"训练阶段"的侵权。但法律争议极大——"合理使用"（Fair Use）原则是否覆盖AI训练？业界争论至今没有定论。

2024年，战场开始转移。一些出版商选择与AI公司达成授权协议——美联社、Axel Springer、新闻集团（News Corp）先后与OpenAI签约，换取现金和流量分成。这被部分人解读为"妥协模式"：既然拦不住，不如收点钱。

但大英百科全书和韦氏词典选择了另一条路。它们的诉讼发生在2025年3月，时机耐人寻味：此时OpenAI已与多家出版商达成协议，但显然没有覆盖所有"知识型"内容提供者。这两家的联手，暗示着"授权谈判"并非万能解药。

更关键的是诉讼策略的变化。它们不仅指控训练阶段的抓取，还强调"输出阶段"的损害——ChatGPT的回答直接替代了用户访问原网站的需求。这种"市场替代"论证，比单纯的版权侵权更难辩护，也更贴近商业现实。

技术细节：AI如何"吃掉"百科全书

要理解原告的愤怒，需要拆解大语言模型的工作方式。

这类模型的核心能力是"预测下一个词"。通过分析海量文本中的统计规律，它学会什么词通常跟在什么词后面。当你问"黑洞是什么"，模型并非去"查资料"，而是基于训练时见过的无数相关文本，生成最可能的回答序列。

问题在于，这种生成有时会越过"学习"的边界，进入"复制"的领地。如果训练数据中某段文本出现频率极高、结构独特，模型可能将其"记住"并在特定提示下原样输出。

大英百科全书的条目恰好是这种"高风险内容"：表述精确、结构固定、在训练数据中被大量引用。原告声称发现ChatGPT的回答包含其条目的"独特措辞和错误"——这是版权诉讼中的经典证据，证明被告接触并复制了原告作品。

另一个技术细节是"检索增强生成"（Retrieval-Augmented Generation，一种让AI在回答时实时查询外部数据库的技术）的缺席。OpenAI的GPT-4等模型主要依赖预训练知识，而非实时检索权威来源。这意味着它们的回答可能基于过时的训练数据，却无法指向原始出处——对依赖准确性和可溯源性的百科全书业务，这是双重打击。

商业模式的生死局

这场诉讼的真正赌注，不是赔偿金额，而是两种知识分发模式的未来。

大英百科全书的商业模式很清晰：专业团队生产高质量内容→用户付费订阅→机构客户（学校、图书馆）购买授权。它的护城河是"权威性"和"可信赖性"，代价是高昂的生产成本和相对封闭的访问。

ChatGPT的模式完全相反：用爬虫抓取公开内容训练模型→免费或低价向终端用户提供答案→通过API和企业服务变现。它的护城河是"便利性"和"覆盖广度"，代价是内容来源不透明、事实准确性不稳定。

原告的核心论点是：OpenAI的模式是寄生性的。它用别人的内容训练模型，再用模型输出抢走别人的用户。更微妙的是，ChatGPT的回答往往不注明来源，切断了用户回溯原始内容的路径——这对依赖品牌认知和直接流量的出版商是致命伤。

数据支撑这一焦虑。2023年以来，多个研究显示"零点击搜索"（用户直接在搜索结果页获得答案，无需访问网站）的比例持续上升。AI聊天机器人将这种趋势推向极致：用户甚至不需要看到搜索结果的链接列表，直接获得整合后的答案。

对于大英百科全书这类垂直内容提供者，这意味着它们精心维护的"权威入口"地位正在被架空。一个中学生写论文时，更可能直接问ChatGPT"解释量子纠缠"，而非去 Britannica.com 查阅条目。

OpenAI的防御困境

面对诉讼，OpenAI的标准辩护策略有三层，但在这起案件中都可能遭遇挑战。

第一层是"合理使用"。美国版权法允许为"转化性目的"（如评论、研究、教学）有限使用受保护作品。OpenAI主张AI训练属于"转化性学习"，模型提取的是统计规律而非表达形式。但大英百科全书案的微妙在于：原告的内容是"事实性"的（词典定义、百科条目），而版权法对"事实"的保护本就弱于创造性表达。如果法院认定AI复制的是"事实的组织方式"而非事实本身，合理使用的天平可能倾斜。

第二层是"技术中立"。OpenAI可能辩称，模型只是工具，具体输出取决于用户提示。但原告已经展示了ChatGPT主动生成与其条目高度相似的回答，这削弱了"工具中立"的论证。

第三层是"市场替代不成立"——即AI回答并未真正替代原始内容，因为用户需求不同。但大英百科全书和韦氏词典的内容属性让这一辩护尤为困难：用户查询"某个词的定义"或"某个概念的解释"，ChatGPT的回答与原始条目的功能完全重叠。

更深层的问题是：如果OpenAI选择和解或赔偿，会开创什么先例？目前它与新闻集团的授权协议金额未公开，但据行业传闻在数千万美元级别。大英百科全书的内容体量虽小于大型新闻机构，但其"知识基础设施"的独特地位可能让要价更高。

而如果OpenAI选择硬抗诉讼，风险在于法院可能做出不利判决，不仅影响本案，还会为其他AI公司的类似诉讼树立判例。美国版权局目前正在研究AI训练的法律地位，任何司法判决都可能影响最终的立法走向。

行业连锁反应：谁会是下一个？

这起诉讼的涟漪效应，可能远超案件本身。

首先是对"知识型"内容行业的唤醒。维基百科（Wikipedia）虽然采用开放授权，但其内容被商业AI大量使用却从未获得补偿，社区内部早有不满。专业数据库如JSTOR、LexisNexis，医学资源如UpToDate，都可能重新评估与AI公司的关系。

其次是授权模式的复杂化。目前已有的出版商-AI协议多针对"新闻内容"，即时效性强、更新频繁的文字。但大英百科全书代表的是"常青内容"——经过时间检验、持续维护的知识条目。这类内容的授权谈判需要不同的定价逻辑：不是按文章数量，而是按"知识单元"的价值和替代风险。

第三是对AI产品设计的倒逼。如果法院要求AI公司披露训练数据来源，或强制在输出中标注引用来源，现有的大语言模型架构将面临重构。OpenAI已经在测试"浏览"功能（让模型实时检索网页并引用），但这会增加延迟和成本，与"即时回答"的核心卖点冲突。

最深远的影响可能是对"开放网络"的重新定义。过去三十年，互联网的精神是信息自由流动、搜索引擎索引一切。但AI时代，内容生产者开始质疑这种"流动"的公平性——如果我的内容被用来训练替代我的机器，我是否应该有权拒绝？

判决之前：我们能观察什么

这起案件目前处于早期阶段，关键时间节点值得追踪。

首先是"证据开示"（Discovery）阶段，双方将就训练数据来源展开博弈。OpenAI是否会披露完整的爬虫日志和训练数据集？这将揭示AI公司实际使用了哪些内容，以及这些内容在模型中的权重。

其次是"集体诉讼"的可能性。如果法院认定原告的主张成立，其他百科全书、词典、专业数据库可能加入诉讼，形成针对AI训练数据的集体行动。这将大幅增加OpenAI的法律风险和和解压力。

第三是立法动态。美国国会正在审议多项AI相关法案，包括要求透明度报告和建立内容使用补偿机制。司法判决与立法进程的互动，将塑造未来十年的AI内容生态。

对于科技从业者，这起案件提供了一个观察窗口：技术能力与法律框架的摩擦点在哪里？当"学习"与"复制"的边界被技术模糊，社会如何重新协商知识产权的规则？

大英百科全书和韦氏词典的联手，或许标志着AI内容战争从"创意产业"向"知识基础设施"的蔓延。它们的特殊身份——既是内容生产者，也是"权威"的象征——让这场诉讼超越了单纯的商业纠纷，触及更深层的命题：在AI时代，谁拥有定义"知识"的权力？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.