当ChatGPT能流畅回答"什么是黑洞"时,你有没有想过——这些答案是从哪来的?
2025年3月,两个名字突然联手把OpenAI告上法庭:大英百科全书(Encyclopedia Britannica)和韦氏词典(Merriam-Webster)。不是科技公司,不是媒体集团,而是两家加起来超过400岁的"知识老字号"。
![]()
它们指控ChatGPT在训练中使用了近10万篇受版权保护的文章,且未获授权。这场诉讼的微妙之处在于:原告不是追着要钱的版权流氓,而是本身就代表"权威知识"的建制派。它们的出手,可能预示着AI内容战争进入了新阶段。
为什么是这两家?时间线里的信号
要理解这场诉讼的分量,得先看清原告的特殊身份。
大英百科全书创立于1768年,纸质时代的人类知识图腾。2012年停止印刷版后,它成功转型为数字订阅服务,靠高质量内容和教育机构授权活着。韦氏词典更老,1828年创刊,至今仍是美国最权威的英语词典品牌,其在线版每月有数千万访问量。
这两家的共同点:它们的内容不是新闻,是"结构化知识"——经过专业编辑整理、事实核查、持续更新的条目。这种内容的制作成本极高,但一旦被AI模型消化,就变成了ChatGPT回答用户提问的"原材料"。
诉讼文件的核心指控很具体:OpenAI在训练大语言模型(Large Language Model,一种通过海量文本学习语言规律的AI系统)时,抓取了它们网站上的条目内容。更麻烦的是,ChatGPT生成的回答有时会"复述"这些条目的独特表述,甚至包含只有原文才有的错误——这成了"实质性相似"的证据。
原告的诉求也很实际:经济赔偿,外加禁令阻止进一步侵权。但它们真正在意的,恐怕是更深层的问题——当用户直接问AI就能得到答案,谁还会去订阅百科全书?
2023-2025:AI版权诉讼的升级曲线
这场诉讼不是孤立事件。把时间线拉长,能看到一条清晰的升级轨迹。
2023年,第一波诉讼潮针对的是"训练数据"本身。美国作家Sarah Silverman、Michael Chabon等起诉OpenAI,指控其用盗版书库训练模型。《纽约时报》同年11月的诉讼更轰动,声称ChatGPT能生成与其文章几乎一致的段落。
这些案件的共同点是:原告多为内容生产者,诉求集中在"训练阶段"的侵权。但法律争议极大——"合理使用"(Fair Use)原则是否覆盖AI训练?业界争论至今没有定论。
2024年,战场开始转移。一些出版商选择与AI公司达成授权协议——美联社、Axel Springer、新闻集团(News Corp)先后与OpenAI签约,换取现金和流量分成。这被部分人解读为"妥协模式":既然拦不住,不如收点钱。
但大英百科全书和韦氏词典选择了另一条路。它们的诉讼发生在2025年3月,时机耐人寻味:此时OpenAI已与多家出版商达成协议,但显然没有覆盖所有"知识型"内容提供者。这两家的联手,暗示着"授权谈判"并非万能解药。
更关键的是诉讼策略的变化。它们不仅指控训练阶段的抓取,还强调"输出阶段"的损害——ChatGPT的回答直接替代了用户访问原网站的需求。这种"市场替代"论证,比单纯的版权侵权更难辩护,也更贴近商业现实。
技术细节:AI如何"吃掉"百科全书
要理解原告的愤怒,需要拆解大语言模型的工作方式。
这类模型的核心能力是"预测下一个词"。通过分析海量文本中的统计规律,它学会什么词通常跟在什么词后面。当你问"黑洞是什么",模型并非去"查资料",而是基于训练时见过的无数相关文本,生成最可能的回答序列。
问题在于,这种生成有时会越过"学习"的边界,进入"复制"的领地。如果训练数据中某段文本出现频率极高、结构独特,模型可能将其"记住"并在特定提示下原样输出。
大英百科全书的条目恰好是这种"高风险内容":表述精确、结构固定、在训练数据中被大量引用。原告声称发现ChatGPT的回答包含其条目的"独特措辞和错误"——这是版权诉讼中的经典证据,证明被告接触并复制了原告作品。
另一个技术细节是"检索增强生成"(Retrieval-Augmented Generation,一种让AI在回答时实时查询外部数据库的技术)的缺席。OpenAI的GPT-4等模型主要依赖预训练知识,而非实时检索权威来源。这意味着它们的回答可能基于过时的训练数据,却无法指向原始出处——对依赖准确性和可溯源性的百科全书业务,这是双重打击。
商业模式的生死局
这场诉讼的真正赌注,不是赔偿金额,而是两种知识分发模式的未来。
大英百科全书的商业模式很清晰:专业团队生产高质量内容→用户付费订阅→机构客户(学校、图书馆)购买授权。它的护城河是"权威性"和"可信赖性",代价是高昂的生产成本和相对封闭的访问。
ChatGPT的模式完全相反:用爬虫抓取公开内容训练模型→免费或低价向终端用户提供答案→通过API和企业服务变现。它的护城河是"便利性"和"覆盖广度",代价是内容来源不透明、事实准确性不稳定。
原告的核心论点是:OpenAI的模式是寄生性的。它用别人的内容训练模型,再用模型输出抢走别人的用户。更微妙的是,ChatGPT的回答往往不注明来源,切断了用户回溯原始内容的路径——这对依赖品牌认知和直接流量的出版商是致命伤。
数据支撑这一焦虑。2023年以来,多个研究显示"零点击搜索"(用户直接在搜索结果页获得答案,无需访问网站)的比例持续上升。AI聊天机器人将这种趋势推向极致:用户甚至不需要看到搜索结果的链接列表,直接获得整合后的答案。
对于大英百科全书这类垂直内容提供者,这意味着它们精心维护的"权威入口"地位正在被架空。一个中学生写论文时,更可能直接问ChatGPT"解释量子纠缠",而非去 Britannica.com 查阅条目。
OpenAI的防御困境
面对诉讼,OpenAI的标准辩护策略有三层,但在这起案件中都可能遭遇挑战。
第一层是"合理使用"。美国版权法允许为"转化性目的"(如评论、研究、教学)有限使用受保护作品。OpenAI主张AI训练属于"转化性学习",模型提取的是统计规律而非表达形式。但大英百科全书案的微妙在于:原告的内容是"事实性"的(词典定义、百科条目),而版权法对"事实"的保护本就弱于创造性表达。如果法院认定AI复制的是"事实的组织方式"而非事实本身,合理使用的天平可能倾斜。
第二层是"技术中立"。OpenAI可能辩称,模型只是工具,具体输出取决于用户提示。但原告已经展示了ChatGPT主动生成与其条目高度相似的回答,这削弱了"工具中立"的论证。
第三层是"市场替代不成立"——即AI回答并未真正替代原始内容,因为用户需求不同。但大英百科全书和韦氏词典的内容属性让这一辩护尤为困难:用户查询"某个词的定义"或"某个概念的解释",ChatGPT的回答与原始条目的功能完全重叠。
更深层的问题是:如果OpenAI选择和解或赔偿,会开创什么先例?目前它与新闻集团的授权协议金额未公开,但据行业传闻在数千万美元级别。大英百科全书的内容体量虽小于大型新闻机构,但其"知识基础设施"的独特地位可能让要价更高。
而如果OpenAI选择硬抗诉讼,风险在于法院可能做出不利判决,不仅影响本案,还会为其他AI公司的类似诉讼树立判例。美国版权局目前正在研究AI训练的法律地位,任何司法判决都可能影响最终的立法走向。
行业连锁反应:谁会是下一个?
这起诉讼的涟漪效应,可能远超案件本身。
首先是对"知识型"内容行业的唤醒。维基百科(Wikipedia)虽然采用开放授权,但其内容被商业AI大量使用却从未获得补偿,社区内部早有不满。专业数据库如JSTOR、LexisNexis,医学资源如UpToDate,都可能重新评估与AI公司的关系。
其次是授权模式的复杂化。目前已有的出版商-AI协议多针对"新闻内容",即时效性强、更新频繁的文字。但大英百科全书代表的是"常青内容"——经过时间检验、持续维护的知识条目。这类内容的授权谈判需要不同的定价逻辑:不是按文章数量,而是按"知识单元"的价值和替代风险。
第三是对AI产品设计的倒逼。如果法院要求AI公司披露训练数据来源,或强制在输出中标注引用来源,现有的大语言模型架构将面临重构。OpenAI已经在测试"浏览"功能(让模型实时检索网页并引用),但这会增加延迟和成本,与"即时回答"的核心卖点冲突。
最深远的影响可能是对"开放网络"的重新定义。过去三十年,互联网的精神是信息自由流动、搜索引擎索引一切。但AI时代,内容生产者开始质疑这种"流动"的公平性——如果我的内容被用来训练替代我的机器,我是否应该有权拒绝?
判决之前:我们能观察什么
这起案件目前处于早期阶段,关键时间节点值得追踪。
首先是"证据开示"(Discovery)阶段,双方将就训练数据来源展开博弈。OpenAI是否会披露完整的爬虫日志和训练数据集?这将揭示AI公司实际使用了哪些内容,以及这些内容在模型中的权重。
其次是"集体诉讼"的可能性。如果法院认定原告的主张成立,其他百科全书、词典、专业数据库可能加入诉讼,形成针对AI训练数据的集体行动。这将大幅增加OpenAI的法律风险和和解压力。
第三是立法动态。美国国会正在审议多项AI相关法案,包括要求透明度报告和建立内容使用补偿机制。司法判决与立法进程的互动,将塑造未来十年的AI内容生态。
对于科技从业者,这起案件提供了一个观察窗口:技术能力与法律框架的摩擦点在哪里?当"学习"与"复制"的边界被技术模糊,社会如何重新协商知识产权的规则?
大英百科全书和韦氏词典的联手,或许标志着AI内容战争从"创意产业"向"知识基础设施"的蔓延。它们的特殊身份——既是内容生产者,也是"权威"的象征——让这场诉讼超越了单纯的商业纠纷,触及更深层的命题:在AI时代,谁拥有定义"知识"的权力?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.