网易首页 > 网易号 > 正文 申请入驻

AI大语言模型可逐字复制训练数据中的小说

0
分享至


全球顶尖的AI模型可以被诱导生成畅销小说的近似逐字复制内容,这给AI行业声称其系统不存储版权作品的说法带来了新的质疑。

最近的一系列研究显示,来自OpenAI、谷歌、Meta、Anthropic和xAI的大语言模型对训练数据的记忆程度远超此前预期。

AI和法律专家向《金融时报》表示,这种"记忆"能力可能对AI集团在全球数十起版权诉讼中的抗辩产生严重影响,因为它削弱了他们的核心防御论点——大语言模型从版权作品中"学习"但不存储副本。

"越来越多的证据表明,记忆现象比此前认为的更为普遍,"伦敦帝国理工学院应用数学和计算机科学教授伊夫-亚历山大·德·蒙乔伊说。

AI集团长期以来一直声称不会发生记忆现象。在2023年致美国版权局的信件中,谷歌表示"模型本身不存在训练数据的副本——无论是文本、图像还是其他格式"。

AI行业还声称,使用版权书籍训练模型属于"合理使用",认为该技术将原始作品转化为有意义的新内容。

但上个月发表的一项研究显示,斯坦福大学和耶鲁大学的研究人员能够策略性地诱导来自OpenAI、谷歌、Anthropic和xAI的大语言模型生成13本书中的数千个单词,包括《权力的游戏》、《饥饿游戏》和《霍比特人》。

通过要求模型完成书中的句子,Gemini 2.5以高度准确性复制了《哈利波特与魔法石》的76.8%,而Grok 3生成了70.3%。

他们还能够通过"越狱"Anthropic的Claude 3.7 Sonnet模型,几乎完整地"近似逐字"提取整部小说,越狱是指用户可以诱导大语言模型无视其安全防护。

这项研究建立在去年一项研究的基础上,该研究发现Meta的Llama等"开放"模型会记忆训练数据中特定书籍的大部分内容。

AI专家此前不确定通常具有更多安全防护以防止模型生成不当内容的封闭模型是否也容易出现大规模记忆现象。

"令人惊讶的是,尽管有防护措施,它们仍能记忆整个文本,"参与该研究的耶鲁大学研究员A·费德·库珀说。

研究人员尚未弄清楚大语言模型为什么会记忆出现在训练数据中的内容。目前也不清楚有多少训练数据在其生成的输出中显现。

这种记忆特性在医疗保健和教育等其他领域也可能产生严重影响,因为任何训练数据的泄露都可能导致隐私和保密问题。

法律专家表示,这可能给AI集团在版权侵权方面造成重大责任,以及对AI公司如何训练模型和开发成本产生影响。

律师事务所Pinsent Masons的知识产权合伙人塞瑞丝·温·戴维斯表示,研究发现"可能对那些声称AI模型不存储或复制任何版权作品的人构成挑战"。

AI模型是否记忆其训练数据在最近的版权法律战中发挥了重要作用。

美国法院去年裁定,Anthropic在一些版权内容上训练大语言模型可能被视为合理使用,因为它被认为具有"变革性"。

但法院认定存储盗版作品是"本质上、不可挽回的侵权行为",这导致该AI集团支付15亿美元和解诉讼。

在德国,去年11月的一项裁决发现OpenAI侵犯了版权,因为其模型记忆了歌词。这起由代表作曲家、作词家和出版商的协会GEMA提起的案件被认为是欧盟的里程碑式裁决。

律师事务所Husch Blackwell的合伙人鲁迪·特尔舍尔表示,在不越狱的情况下复制整本书"明显是版权侵犯"。但"关键是这种情况是否发生得足够频繁,以至于[AI模型]可能对侵权承担连带责任,"他补充说。

Anthropic表示,斯坦福和耶鲁研究中使用的越狱技术对普通用户不实用,提取文本所需的努力比直接购买内容更多。

该公司还补充说,其模型不存储特定数据集的副本,而是从训练数据中单词和字符串之间的模式和关系中学习。

xAI、OpenAI和谷歌未回应置评请求。

帝国理工学院的德·蒙乔伊表示,AI实验室已经建立防护措施来防止训练数据被提取,这表明他们意识到了这个问题。

芝加哥大学计算机科学教授本·赵质疑AI实验室是否真的需要在训练数据中使用版权内容来创建尖端模型。

"无论技术结果能否实现,这仍然是一个我们是否应该这样做的问题,"赵说。"法律方面最终应该坚持立场,真正成为整个过程的仲裁者。"

Q&A

Q1:大语言模型的记忆现象是什么?有多严重?

A:大语言模型的记忆现象是指AI模型能够近乎逐字地复制其训练数据中的内容。研究显示,Gemini 2.5能够以高度准确性复制《哈利波特与魔法石》的76.8%,Grok 3能生成70.3%。通过越狱技术,甚至能从Claude 3.7 Sonnet中提取几乎完整的小说内容。

Q2:AI公司之前是如何为使用版权作品训练模型辩护的?

A:AI公司长期声称模型不会记忆训练数据,谷歌在2023年表示"模型本身不存在训练数据的副本"。他们还声称使用版权书籍训练模型属于"合理使用",认为技术将原始作品转化为有意义的新内容,模型是从作品中"学习"而非存储副本。

Q3:记忆现象对AI行业版权诉讼有什么影响?

A:这种记忆能力削弱了AI公司的核心防御论点,可能在全球数十起版权诉讼中造成重大责任。德国法院已裁定OpenAI因模型记忆歌词而侵犯版权,美国法院也认定存储盗版作品是"本质上的侵权行为",导致Anthropic支付15亿美元和解。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东将迎今年首次大范围降雨!省三防办要求应转尽转不漏一户

广东将迎今年首次大范围降雨!省三防办要求应转尽转不漏一户

南方都市报
2026-02-24 21:03:11
巴塞罗那就拉什福德永久转会做出最终决策

巴塞罗那就拉什福德永久转会做出最终决策

本泽体育
2026-02-24 18:19:41
中戏的招生丑闻,彻底震惊了整个艺术圈!

中戏的招生丑闻,彻底震惊了整个艺术圈!

南权先生
2026-02-24 15:52:36
开年亮剑!中国精准反制日本40家企业,一场掐住军工命脉战略反击

开年亮剑!中国精准反制日本40家企业,一场掐住军工命脉战略反击

Ck的蜜糖
2026-02-25 04:15:11
“日本以为中方会软化立场,等来的却是当头一棒”

“日本以为中方会软化立场,等来的却是当头一棒”

观察者网
2026-02-24 19:31:04
美称中国一人工智能企业违反美出口管制,外交部:中方已多次表明原则立场

美称中国一人工智能企业违反美出口管制,外交部:中方已多次表明原则立场

澎湃新闻
2026-02-24 15:34:26
韩国要求俄使馆撤下宣传条幅,俄方:此为全体俄罗斯人所熟知,无意冒犯任何人

韩国要求俄使馆撤下宣传条幅,俄方:此为全体俄罗斯人所熟知,无意冒犯任何人

文汇报
2026-02-24 04:20:05
女子误转69万元公款,对方拒绝退款!警方介入,收款人:管得着吗

女子误转69万元公款,对方拒绝退款!警方介入,收款人:管得着吗

环球网资讯
2026-02-24 22:05:24
新加坡大满贯女单16强:欧洲亚军陈熠0-3落败

新加坡大满贯女单16强:欧洲亚军陈熠0-3落败

凡人说体育
2026-02-24 21:41:54
刚刚 | 黄金大跌!

刚刚 | 黄金大跌!

天津广播
2026-02-24 22:33:41
近5次姆巴佩没有首发或缺席的欧冠比赛,所在球队全部告负

近5次姆巴佩没有首发或缺席的欧冠比赛,所在球队全部告负

懂球帝
2026-02-25 04:15:08
Deepseek深度分析:黄金还能跌到800以下吗?答案超出很多人预期

Deepseek深度分析:黄金还能跌到800以下吗?答案超出很多人预期

王二哥老搞笑
2026-02-24 08:48:36
李一桐,让人不敢相信的身材!

李一桐,让人不敢相信的身材!

东方不败然多多
2026-02-24 16:50:20
0-4惨败石洵瑶!大藤沙月被打崩,对我们连败还敢嚣张?

0-4惨败石洵瑶!大藤沙月被打崩,对我们连败还敢嚣张?

卿子书
2026-02-24 09:17:46
中国十大老字号餐馆,吃过一半算你厉害

中国十大老字号餐馆,吃过一半算你厉害

马蹄烫嘴说美食
2026-02-25 00:43:32
奥运冠军“拉拉链露胸”,让耐克绷不住了!

奥运冠军“拉拉链露胸”,让耐克绷不住了!

品牌营销报
2026-02-23 11:31:10
最高法机关报:十年前彭宇案的真相是什么?

最高法机关报:十年前彭宇案的真相是什么?

萧十一郎1993
2026-02-23 21:28:33
伊朗退了,叙利亚退了,巴勒斯坦退了,黎巴嫩退了,塞尔维亚退了

伊朗退了,叙利亚退了,巴勒斯坦退了,黎巴嫩退了,塞尔维亚退了

南权先生
2026-01-29 15:57:27
斯洛伐克:乌克兰将恢复“友谊”管道石油输送

斯洛伐克:乌克兰将恢复“友谊”管道石油输送

新华社
2026-02-25 04:00:04
道歉,火箭队伊森因恶犯导致文斯·威廉姆斯膝盖前交叉韧带撕裂

道歉,火箭队伊森因恶犯导致文斯·威廉姆斯膝盖前交叉韧带撕裂

好火子
2026-02-25 01:25:29
2026-02-25 05:12:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16259文章数 49691关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

艺术
亲子
数码
时尚
教育

艺术要闻

投资95亿,高428米!海南第一高楼最新进展

亲子要闻

秋田满满的破局之道:升级品类、捕捉喂养痛点,并提供“更优解”

数码要闻

《死亡搁浅2》PC版推荐配置RTX 3060可FHD 60帧,Steam国区298元

阔腿裤失宠了?这4条裤子承包你整个春天的时髦!

教育要闻

家长求大家不要举报了,让高三初三的孩子顺利提前开学吧!

无障碍浏览 进入关怀版