AI大语言模型可逐字复制训练数据中的小说|计算机|新论文

AI大语言模型可逐字复制训练数据中的小说

2026-02-24 15:46:06　来源: 至顶头条

北京举报

分享至

全球顶尖的AI模型可以被诱导生成畅销小说的近似逐字复制内容，这给AI行业声称其系统不存储版权作品的说法带来了新的质疑。

最近的一系列研究显示，来自OpenAI、谷歌、Meta、Anthropic和xAI的大语言模型对训练数据的记忆程度远超此前预期。

AI和法律专家向《金融时报》表示，这种"记忆"能力可能对AI集团在全球数十起版权诉讼中的抗辩产生严重影响，因为它削弱了他们的核心防御论点——大语言模型从版权作品中"学习"但不存储副本。

"越来越多的证据表明，记忆现象比此前认为的更为普遍，"伦敦帝国理工学院应用数学和计算机科学教授伊夫-亚历山大·德·蒙乔伊说。

AI集团长期以来一直声称不会发生记忆现象。在2023年致美国版权局的信件中，谷歌表示"模型本身不存在训练数据的副本——无论是文本、图像还是其他格式"。

AI行业还声称，使用版权书籍训练模型属于"合理使用"，认为该技术将原始作品转化为有意义的新内容。

但上个月发表的一项研究显示，斯坦福大学和耶鲁大学的研究人员能够策略性地诱导来自OpenAI、谷歌、Anthropic和xAI的大语言模型生成13本书中的数千个单词，包括《权力的游戏》、《饥饿游戏》和《霍比特人》。

通过要求模型完成书中的句子，Gemini 2.5以高度准确性复制了《哈利波特与魔法石》的76.8%，而Grok 3生成了70.3%。

他们还能够通过"越狱"Anthropic的Claude 3.7 Sonnet模型，几乎完整地"近似逐字"提取整部小说，越狱是指用户可以诱导大语言模型无视其安全防护。

这项研究建立在去年一项研究的基础上，该研究发现Meta的Llama等"开放"模型会记忆训练数据中特定书籍的大部分内容。

AI专家此前不确定通常具有更多安全防护以防止模型生成不当内容的封闭模型是否也容易出现大规模记忆现象。

"令人惊讶的是，尽管有防护措施，它们仍能记忆整个文本，"参与该研究的耶鲁大学研究员A·费德·库珀说。

研究人员尚未弄清楚大语言模型为什么会记忆出现在训练数据中的内容。目前也不清楚有多少训练数据在其生成的输出中显现。

这种记忆特性在医疗保健和教育等其他领域也可能产生严重影响，因为任何训练数据的泄露都可能导致隐私和保密问题。

法律专家表示，这可能给AI集团在版权侵权方面造成重大责任，以及对AI公司如何训练模型和开发成本产生影响。

律师事务所Pinsent Masons的知识产权合伙人塞瑞丝·温·戴维斯表示，研究发现"可能对那些声称AI模型不存储或复制任何版权作品的人构成挑战"。

AI模型是否记忆其训练数据在最近的版权法律战中发挥了重要作用。

美国法院去年裁定，Anthropic在一些版权内容上训练大语言模型可能被视为合理使用，因为它被认为具有"变革性"。

但法院认定存储盗版作品是"本质上、不可挽回的侵权行为"，这导致该AI集团支付15亿美元和解诉讼。

在德国，去年11月的一项裁决发现OpenAI侵犯了版权，因为其模型记忆了歌词。这起由代表作曲家、作词家和出版商的协会GEMA提起的案件被认为是欧盟的里程碑式裁决。

律师事务所Husch Blackwell的合伙人鲁迪·特尔舍尔表示，在不越狱的情况下复制整本书"明显是版权侵犯"。但"关键是这种情况是否发生得足够频繁，以至于[AI模型]可能对侵权承担连带责任，"他补充说。

Anthropic表示，斯坦福和耶鲁研究中使用的越狱技术对普通用户不实用，提取文本所需的努力比直接购买内容更多。

该公司还补充说，其模型不存储特定数据集的副本，而是从训练数据中单词和字符串之间的模式和关系中学习。

xAI、OpenAI和谷歌未回应置评请求。

帝国理工学院的德·蒙乔伊表示，AI实验室已经建立防护措施来防止训练数据被提取，这表明他们意识到了这个问题。

芝加哥大学计算机科学教授本·赵质疑AI实验室是否真的需要在训练数据中使用版权内容来创建尖端模型。

"无论技术结果能否实现，这仍然是一个我们是否应该这样做的问题，"赵说。"法律方面最终应该坚持立场，真正成为整个过程的仲裁者。"

Q&A

Q1：大语言模型的记忆现象是什么？有多严重？

A：大语言模型的记忆现象是指AI模型能够近乎逐字地复制其训练数据中的内容。研究显示，Gemini 2.5能够以高度准确性复制《哈利波特与魔法石》的76.8%，Grok 3能生成70.3%。通过越狱技术，甚至能从Claude 3.7 Sonnet中提取几乎完整的小说内容。

Q2：AI公司之前是如何为使用版权作品训练模型辩护的？

A：AI公司长期声称模型不会记忆训练数据，谷歌在2023年表示"模型本身不存在训练数据的副本"。他们还声称使用版权书籍训练模型属于"合理使用"，认为技术将原始作品转化为有意义的新内容，模型是从作品中"学习"而非存储副本。

Q3：记忆现象对AI行业版权诉讼有什么影响？

A：这种记忆能力削弱了AI公司的核心防御论点，可能在全球数十起版权诉讼中造成重大责任。德国法院已裁定OpenAI因模型记忆歌词而侵犯版权，美国法院也认定存储盗版作品是"本质上的侵权行为"，导致Anthropic支付15亿美元和解。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

AI大语言模型可逐字复制训练数据中的小说

宇树科技发布四足机器人Unitree As2

男子搂住继女强吻动作亲密 当地妇联介入

男子搂住继女强吻动作亲密 当地妇联介入

苏翊鸣总结米兰征程：我仍是那个热爱单板滑雪的少年

汪小菲官宣三胎出生：承诺会照顾好3个孩子

县城消费「限时繁荣」了十天

态度原创

投资95亿，高428米！海南第一高楼最新进展

秋田满满的破局之道：升级品类、捕捉喂养痛点，并提供“更优解”

《死亡搁浅2》PC版推荐配置RTX 3060可FHD 60帧，Steam国区298元

阔腿裤失宠了？这4条裤子承包你整个春天的时髦！

家长求大家不要举报了，让高三初三的孩子顺利提前开学吧！

男子搂住继女强吻动作亲密当地妇联介入

男子搂住继女强吻动作亲密当地妇联介入