五大出版商联合起诉Meta 指控其使用数百万盗版书训练AI|侵权|法院|版权|meta

五大出版商联合起诉Meta 指控其使用数百万盗版书训练AI

分享至

2026年5月5日，爱思唯尔（Elsevier）、圣智（Cengage）、阿歇特（Hachette）、麦克米伦（Macmillan）和麦格劳希尔（McGraw Hill）五家全球主要出版集团联合知名作家斯科特·图罗（Scott Turow），在纽约曼哈顿联邦法院对Meta及其CEO马克·扎克伯格提起集体诉讼，指控其“有史以来最大规模的版权侵权行为之一”，将数百万部受版权保护的作品用于训练大型语言模型Llama。

指控扎克伯格绕过许可获取盗版数据

诉状称，Meta为赶在AI“军备竞赛”中领先，秉持“快速行动，打破常规”的信条，故意规避正常的版权许可流程——事实上，Meta曾短暂考虑通过“数据集授权”方式支付数亿美元获得许可，在内部将相关预算从1700万美元提升至2亿美元，但最终该方案被搁置，转而从LibGen、Anna‘s Archive、Sci-Hub等“臭名昭著的盗版网站”盗取了数百万部受版权保护的作品，并以内部数据训练，即便是内部员工也承认“在任何情况下都不会公开我们曾在LibGen上训练过”。

诉状特别将矛头指向扎克伯格本人，称其“亲自授权并积极鼓励了侵权行为”，并具体指出Meta在2023年1月至4月期间在扎克伯格本人的指示下叫停了许可谈判、转而选择盗版路线。另有内部资料显示，Meta员工曾明确以“此举不会受律师欢迎”合理化自身行为，甚至将Llama设计为在收到用户提示时否认其接触过盗版或版权数据。

原告方阵容强大：五家出版集团覆盖了从学术期刊到畅销小说的全面版权，旗下作者包括普利策奖得主、詹姆斯·帕特森、唐娜·塔特等。图罗本人以《假定无罪》系列闻名，并曾担任美国作家协会主席。诉状详述了六项具体指控，包括：通过BT下载复制作品、从网络抓取数据集中复制、训练过程中的复制、通过BT传播作品、针对扎克伯格个人的帮助侵权指控，以及依据《数字千年版权法》第1202(b)条移除版权管理信息。

Meta回应：坚决抗辩，援引“合理使用”

Meta发言人回应称：“人工智能正在为个人和企业推动变革性创新、生产力和创造力，法院已有正当裁决，在受版权保护的材料上训练AI可以构成合理使用。我们将积极应诉。”

动因：抢占AI“军备竞赛”中的时间窗口

诉状详细描述了Meta内部围绕“许可vs盗版”的博弈过程：2023年初，Meta曾认真考虑与多家出版商达成授权协议，并一度将数据集授权预算从1700万美元提升至2亿美元。但这一方案在汇报给扎克伯格后遭到否决，公司高层明确指示终止所有许可谈判，转而依靠“合理使用”辩护。一位Meta员工在内部通讯中直言该决定的真实考量——“如果我们授权了一本书，就无法再依靠‘合理使用’策略了。”

此举的根本动因在于时间窗口。在生成式AI的激烈竞争中，谁先完成模型训练、谁先推出产品，往往决定了市场格局。商业谈判意味着数月乃至数年的博弈与磨合，而盗版网站则提供了“一键下载、即取即用”的便捷替代方案。

诉状称，Meta内部评估认为，盗版路线可将数据获取周期从一年以上压缩至数周——这种“时间窗口价值”在AI“军备竞赛”中被认为超越了许可成本本身。与此同时，诉状强调了市场损害的核心论点：Llama不仅复制了受保护的作品，还能“逐字逐句”输出教科书内容，并通过模仿特定作者的写作风格生成竞争性材料，直接侵蚀了版权作品的许可市场。

美国出版商协会主席玛丽亚·帕兰特对此强硬表态：“Meta的大规模侵权不是公共进步。如果科技公司将盗版网站置于学术和想象力之上，人工智能永远无法真正实现。”

首个“出版商-作者”联合集体版权诉讼

这是首次由出版商——而非作者——发起的针对AI公司的版权集体诉讼，也是首次将出版商和作者同时列为共同原告的AI版权诉讼。

在先前多数AI版权诉讼中，原告均为作者个人（如喜剧演员莎拉·西尔弗曼诉Meta案），且法官已对这些作者个人案作出有利于Meta的裁决，认定AI训练可构成合理使用。

本次诉讼将出版商和作者并列为共同原告——尤其是将学术出版商纳入原告阵容，可能绕过此前判决中“作者未能证明实质性市场损害”的裁判难点，从“许可市场被系统性地规避”角度重新组织法律逻辑，迫使法院直面商业AI模型未经许可使用大规模版权内容是否构成侵权的根本问题。

上述五家出版集团的高层在声明中立场高度一致：麦克米伦CEO Jon Yaged指责Meta“世界上最富有的公司之一竟然选择从创作者那里窃取数百万部作品”；麦格劳希尔CEO Philip Moyer则强调“AI公司可以通过许可知识产权构建模型，而不必侵犯权利”。诉状还指出，当用户向Llama输入简短提示时，模型能够逐字续写出教科书中的完整章节——例如，当输入Cengage畅销教材《微积分》中的两句话时，模型开始逐字重现教材后续内容。原告方要求法院认定Meta构成故意侵权，判令其支付赔偿金并销毁所有侵权副本。

连锁效应：版权诉讼格局加速演变

本案的开庭恰逢此前AI版权诉讼格局的微妙变化之际。2025年，另一家AI公司Anthropic同意以15亿美元的天价和解一起由数万名作者提起的集体诉讼——这起诉讼同样是围绕该公司使用盗版书刊训练Claude模型而展开的。

此前Anthropic与版权持有人的法律博弈中，加州北区联邦法院已裁定该公司在合法购买书籍后数字化用于AI训练的行为构成“合理使用”，但认定其从盗版网站批量下载并将作品储存于“中央库”这一行为违反了版权法。

Anthropic的和解使得Meta一案的外部法律参照系更加复杂——它在“合理使用”抗辩与“盗版来源侵权”责任之间划出了一条更清晰的界线。这恰恰是原告方在此次诉状中着力强化的关键区别。

而Meta虽然曾在2025年的一场作者诉讼中获得有利裁决，旧金山联邦法官Vince Chhabria当时认定AI模型训练可构成合理使用，但也在裁决末尾留下了一句极其尖锐的警告：“这并不意味着Meta使用版权材料训练语言模型的行为就是合法的”。该法官同时指出，“如果人工创作的言情小说或间谍小说市场因AI生成作品的泛滥而大幅缩水，那将是完全不同的局面”——这恰恰是原告方试图在本次诉讼中证明的。

结合Anthropic和解案中对“批量下载盗版内容构成侵权”的认定，出版商在本诉中极力证明Meta“从盗版来源获取作品”的事实已为侵权成立扫清了关键障碍。当前正值全球监管机构加紧对大型科技公司的审查之际，本案作为出版商与作者联合起诉AI公司的首例集体诉讼，其结果可能对AI训练数据的合规路径产生结构性影响。

此前在Anthropic和解案中代表作者获得15亿美元和解的律师团队已公开表示，高达91%的受版权保护作品版权持有人已提交索赔申请，这一“创纪录的申索率”证明了市场对版权保护诉求的强烈支持。

随着AI模型从“生成内容”走向“直接替代受版权保护作品”，法院是否会在“促进技术创新”和“保护创意产业市场”之间重新划定边界，已成为当前美国版权诉讼最核心的悬念。

关注至美通研究院，获取更多AI与版权法律前沿动态。

本文为至美通原创文章，未经授权不得转载、改编或建立镜像。如需转载，请在文末留言申请并获取授权。本文内容仅限一般情况讨论，并非构成任何商业或法律意见或服务。本文中所使用，引用的商标及图片如备注来自网络，版权归原作者所有，不用于商业目的。

至美通旗下官方账号：

公众号：至美通研究院、至美通跨境物流
视频号：至美通研究院
知乎/网易/搜狐号/百家号：至美通研究院
微博/AMZ123：至美通海外仓
抖音：至美通供应链
小红书：至美通研究院、至美通海外仓

其他账户均为非官方账户

转载/业务合作官方微信：Zipto2015

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.