《细胞》《柳叶刀》出版方爱思唯尔，指控AI训练侵权|巴克|学术|meta|死亡细胞

《细胞》《柳叶刀》出版方爱思唯尔，指控AI训练侵权

分享至

近日，《细胞》和《柳叶刀》等学术期刊的出版方爱思唯尔（Elsevier）已加入针对Meta科技公司的一项集体诉讼，指控后者在开发大语言模型过程中复制受版权保护的作品。这也是首次有大型学术出版机构就AI训练数据问题起诉科技公司。

图片来自爱思唯尔（Elsevier）官方网站。

编译丨李永博

据《自然》杂志报道，当地时间5月5日，美国纽约南区法院受理了这项诉讼。被告包括Meta科技公司及其首席执行官马克·扎克伯格（Mark Zuckerberg）。与爱思唯尔一同作为原告方的还有阿歇特（Hachette）出版集团、麦克米伦（Macmillan）出版社，以及美国小说家兼律师斯科特·图罗（Scott Turow）。

原告方称，Meta科技公司在开发大语言模型时，获取并复制了受版权保护的内容。目前，美国已有多起类似诉讼，不过，尽管部分案件已经达成和解，美国法院尚未就“使用版权内容训练大型语言模型是否合法”形成明确司法先例。

尽管AI科技企业通常不会公开训练数据来源，但外界普遍认为，大量用于训练模型的网络数据中，既包括开放获取的学术论文，也包括付费墙内的研究文章。

原告方认为，Meta科技公司在训练大语言模型时使用了“Common Crawl”数据集。该数据集通过互联网爬虫收集形成，包含数十亿网页样本。原告方认为，其中很可能包括未经授权复制的版权内容，例如科学论文摘要以及付费论文。

这份诉状还称，Meta科技公司从多个网站下载并通过BitTorrent文件共享方式获取作品，其中包括Library Genesis（LibGen）和Sci-Hub。LibGen收录大量图书、研究论文和教材；Sci-Hub则提供数百万篇科研论文和书籍的免费访问服务。这两个网站均长期涉及版权争议和法律诉讼。

Meta科技公司暗示，将在这起诉讼中主张“合理使用”，这种抗辩认为使用版权材料训练AI属于美国版权法中的豁免情形。Meta发言人称：“AI正在推动具有变革性的创新、生产力与创造力，法院也已认定，使用版权材料训练AI可以构成合理使用。”

目前，美国法院整体上较倾向于支持AI企业关于“转化性使用”的主张，而这正是判断合理使用的重要标准之一。但在2025年的两项重要裁决中，法官同时指出，获取并存储盗版内容本身可能构成侵权；如果版权持有人能够证明，AI模型输出已经实质性影响其产品的商业市场，那么反对“合理使用”的论点也可能成立。

德国独立研究学者斯特凡·巴克（Stefan Baack）表示，学术文本对于AI企业而言是极有价值的训练资源，因为其内容质量高、由人类撰写而且信息密集。此外，这些文本还能提高AI模型在科学领域的准确性。

巴克还指出，一些学者或许并不反对自己的论文被用于训练AI模型，只要这能够提升模型的准确性。根据他的观察，研究人员通常更关心生成式AI产品如何使用这些内容，而非训练过程本身，例如是否模仿作者写作风格，或是否在引用研究成果时缺乏适当署名。

与此同时，越来越多出版商开始与科技公司签署协议，出售或授权自家数据。这种趋势可能会进一步强化大型AI科技公司的优势，同时使尝试开发开源模型的研究者更难获取高质量内容。巴克认为，在理想情况下，应当存在一种机制，既能尊重创作者对于作品被AI系统使用的意愿，又不只依赖于出版商与AI科技公司之间的独家交易。

参考资料：

（1）Elsevier vs Meta: first science publisher sues over scraped research papers

https://www.nature.com/articles/d41586-026-01481-0

本文为编译内容。编译：李永博；编辑：西西；校对：穆祥桐。欢迎转发至朋友圈。

购买合订本~

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.