近日,《细胞》和《柳叶刀》等学术期刊的出版方爱思唯尔(Elsevier)已加入针对Meta科技公司的一项集体诉讼,指控后者在开发大语言模型过程中复制受版权保护的作品。这也是首次有大型学术出版机构就AI训练数据问题起诉科技公司。
![]()
图片来自爱思唯尔(Elsevier)官方网站。
编译丨李永博
据《自然》杂志报道,当地时间5月5日,美国纽约南区法院受理了这项诉讼。被告包括Meta科技公司及其首席执行官马克·扎克伯格(Mark Zuckerberg)。与爱思唯尔一同作为原告方的还有阿歇特(Hachette)出版集团、麦克米伦(Macmillan)出版社,以及美国小说家兼律师斯科特·图罗(Scott Turow)。
原告方称,Meta科技公司在开发大语言模型时,获取并复制了受版权保护的内容。目前,美国已有多起类似诉讼,不过,尽管部分案件已经达成和解,美国法院尚未就“使用版权内容训练大型语言模型是否合法”形成明确司法先例。
尽管AI科技企业通常不会公开训练数据来源,但外界普遍认为,大量用于训练模型的网络数据中,既包括开放获取的学术论文,也包括付费墙内的研究文章。
原告方认为,Meta科技公司在训练大语言模型时使用了“Common Crawl”数据集。该数据集通过互联网爬虫收集形成,包含数十亿网页样本。原告方认为,其中很可能包括未经授权复制的版权内容,例如科学论文摘要以及付费论文。
这份诉状还称,Meta科技公司从多个网站下载并通过BitTorrent文件共享方式获取作品,其中包括Library Genesis(LibGen)和Sci-Hub。LibGen收录大量图书、研究论文和教材;Sci-Hub则提供数百万篇科研论文和书籍的免费访问服务。这两个网站均长期涉及版权争议和法律诉讼。
Meta科技公司暗示,将在这起诉讼中主张“合理使用”,这种抗辩认为使用版权材料训练AI属于美国版权法中的豁免情形。Meta发言人称:“AI正在推动具有变革性的创新、生产力与创造力,法院也已认定,使用版权材料训练AI可以构成合理使用。”
目前,美国法院整体上较倾向于支持AI企业关于“转化性使用”的主张,而这正是判断合理使用的重要标准之一。但在2025年的两项重要裁决中,法官同时指出,获取并存储盗版内容本身可能构成侵权;如果版权持有人能够证明,AI模型输出已经实质性影响其产品的商业市场,那么反对“合理使用”的论点也可能成立。
德国独立研究学者斯特凡·巴克(Stefan Baack)表示,学术文本对于AI企业而言是极有价值的训练资源,因为其内容质量高、由人类撰写而且信息密集。此外,这些文本还能提高AI模型在科学领域的准确性。
巴克还指出,一些学者或许并不反对自己的论文被用于训练AI模型,只要这能够提升模型的准确性。根据他的观察,研究人员通常更关心生成式AI产品如何使用这些内容,而非训练过程本身,例如是否模仿作者写作风格,或是否在引用研究成果时缺乏适当署名。
与此同时,越来越多出版商开始与科技公司签署协议,出售或授权自家数据。这种趋势可能会进一步强化大型AI科技公司的优势,同时使尝试开发开源模型的研究者更难获取高质量内容。巴克认为,在理想情况下,应当存在一种机制,既能尊重创作者对于作品被AI系统使用的意愿,又不只依赖于出版商与AI科技公司之间的独家交易。
参考资料:
(1)Elsevier vs Meta: first science publisher sues over scraped research papers
https://www.nature.com/articles/d41586-026-01481-0
本文为编译内容。编译:李永博;编辑:西西;校对:穆祥桐。欢迎转发至朋友圈。
![]()
购买合订本~
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.