网易首页 > 网易号 > 正文 申请入驻

Anthropic天价赔款?大模型“盗版”的100000种花样

0
分享至


作者 | 黄小艺
邮箱 | huangxiaoyi@pingwest.com

AI大模型的秘密配方是什么?答案可能很简单:海量的“盗版内容”。

这几乎是行业内公开的秘密。2023年,《纽约时报》一纸诉状将OpenAI和微软告上法庭,正式拉开了这场战争的序幕。很快,战火烧遍了整个硅谷。Meta因其Llama模型涉嫌使用盗版书籍而面临集体诉讼;Anthropic同样因其模型Claude的训练数据而被告,一时间,几乎所有头部玩家都被推上了被告席。


这场大模型与版权方的核心争议是:在未经授权的情况下,将海量的受版权保护作品用作AI训练数据,究竟是合法的“变革性使用”,还是“侵权盗用”?

在众多悬而未决的案件中,进展最快是Anthropic案,在2025年6月的里程碑式裁决中,法院给出了一个极其重要的参考信号:模型训练这一行为本身,因其能够创造出功能完全不同的新事物,具有高度的“变革性”,可能不构成侵权;然而,获取训练数据的方式,如果涉及盗版网站或未经授权的复制,则几乎无法被“合理使用”原则所豁免。

根据计算,Anthropic或将因此面临着7500亿美元的天价诉讼赔款。这个信号,让所有AI公司都捏了一把汗。大模型厂商们“先污染,后治理”的野蛮生长,或许要到头了。

1

大模型的N种数据“盗取”路径

为了满足无止境的数据需求,各大模型厂商各自走出了一条充满争议甚至堪称“脑洞大开”的野路子,每一种都游走在法律边缘。


一、从公开抓取到蓄意“清洗”

这是AI数据积累最原始、最普遍的方式。AI公司利用强大的网络爬虫,像撒下一张覆盖全球互联网的巨网,不加区分地将新闻网站、专业博客、学术论坛、社交媒体上的公开内容尽数捕捞,构建起初期的训练数据集。

例如,OpenAI在构建其著名的WebText数据集时,就抓取了社交新闻网站Reddit上用户分享的数百万个外部链接,间接将海量受版权保护的内容纳入囊中,《纽约时报》的文章赫然在列。

除了抓取,更致命的是清洗行为。

在《纽约时报》和Daily News等媒体的诉讼中,原告指出,OpenAI在抓取新闻内容时,主动并系统性地移除了版权声明、作者署名、页脚等关键的版权管理信息(CMI)。这一行为被判定为数据获取行为的性质发生了根本性的转变——从可能无意的“顺手牵羊”,升级为具有明确规避意图的“数据清洗”。


二、格式转换:从视频和纸书中提取文本

随着高质量的公开文本数据日益枯竭,厂商们将目光投向了其他格式的内容载体,通过技术手段,将其转换为可供模型训练的纯文本,这种做法更为隐蔽。

一种典型手法是OpenAI对其语音识别工具Whisper的“妙用”。据称,OpenAI利用Whisper转录了超过一百万小时的YouTube视频内容。这意味着,无论是深度访谈、专业课程还是纪录片解说,这些视频中最核心的“语言资产”,在未经视频创作者许可的情况下,被悄然提取出来,直接“喂”给了GPT-4,绕过了视频本身的视听版权。

Anthropic也采用了一种戏剧性的手法。在意识到直接使用盗版书库的巨大法律风险后,Anthropic专门聘请了前谷歌图书扫描项目的负责人Tom Turvey,启动了一项成本高昂、操作复杂的“物理世界洗白计划”:

第一步,批量采购:斥巨资从图书分销商和零售商处,购买数百万本纸质书,其中不乏二手书。

第二步,物理转化:将这些书运至服务商处,由机器拆掉装订、裁切书页,然后逐页进行高速扫描,生成包含图像和可机读文本的PDF数字文件。

第三步,销毁原件:扫描完成后,纸质原件被直接丢弃。此举的核心目的,是在法律上论证这是一种“格式转换”,而非创造了“额外的副本”,从而规避侵权指控。

第四步,数据建库:为这些数字化的图书建立详细的书目信息数据库,并进行分词、清理等一系列复杂的预处理,最终形成一个来源上看似“合法”的高质量训练数据集。

但这一行为,恰恰证明了:第一,AI公司已充分认识到高质量数据的版权价值;第二,获取合规数据的成本,远比想象中要惊人得多。

三、“影子图书馆”

在争分夺秒的技术竞赛和巨大的性能压力下,部分公司选择了一条最高效,也最高风险的捷径——直接拥抱明确的盗版资源库。

Meta在训练其开源模型Llama时,就被直接指控使用了来自“影子图书馆”(如Library Genesis、Books3)的非法书籍副本。无独有偶,Anthropic的内部文件也显示,其联合创始人在公司创立初期,就下载了包含近20万本书的盗版库Books3,并对这些资源的盗版性质心知肚明。


四、平台借助隐私协议获取数据

与上述几种“硬核”盗版方式不同,巨头们展示了一种更具平台特色的“阳谋”。它不依赖于外部抓取或盗版,而是利用其庞大的用户生态系统,通过服务条款来“合法”地将用户数据内化为自己的训练资源。

谷歌的隐私政策中,明确表示可能会使用用户公开分享的信息来训练其AI模型。这意味着,当一个普通用户在Google Docs上协作一份文档,在Google Maps上写下一段评论,或是在Blogger上发布一篇文章时,这些内容都可能在用户不经意间,被纳入谷歌的AI训练数据池,由此谷歌也构建起了一道竞争对手难以逾越的数据护城河。

这些五花八门、游走在法律边缘的数据获取方式,显示出在AI发展的“圈地”阶段,大模型们都在以最低的成本、最快的速度,获取最大规模的数据,数据来源的合规风险置于次要位置。然而,版权方的一系列诉讼彻底打破了这种默契,他们将攻击焦点精准地对准了最脆弱的一环:数据的原始获取路径。

1

一个更昂贵的AI时代来了

AI版权战争的真正转折点,是诉讼焦点的变化:不再纠缠AI“如何使用”数据,而是直击它“从何获取”数据。

最初,双方的法律攻防主要围绕AI“使用”数据的性质展开。

AI公司认为,它们的行为并非传统意义的“复制”,而是“学习”,模型在内化数据中的模式、语法和知识,就像一个学生阅读海量书籍以形成自己的写作风格,其目的是创造全新的东西,因此是一种高度“变革性”的使用。版权方则反驳,AI的商业化产品会直接与原作形成市场竞争,替代用户对新闻订阅和书籍购买的需求,从而损害其核心商业利益。

然而,在这两个战场上,版权方都打得异常艰难。在这种胶着状态下,版权方的诉讼策略发生了一次决定性的转向,他们找到了一个更根本、也更致命的攻击点——数据的来源合法性。

法院的阶段性审理,也给出了一个极其微妙且影响深远的信号:一方面,初步裁决认为AI的输出内容和训练行为本身,因其“变革性”,或许不构成直接侵权,这在某种程度上为大模型的发展留下了空间,避免了技术创新被彻底扼杀;但另一方面,法院对“来源合法性”划出了明确的红线,严厉打击了使用盗版资源的行为。

而面对如雪片般飞来的诉讼,大模型厂商中的激进派也在向保守派转变。

保守派的代表就是苹果,它从一开始就将用户隐私和规则置于更重要的位置,宁愿在AI竞赛中起步较晚,也要通过明确授权许可(如与图片库Shutterstock的合作)和自有数据来规避法律风险。

而激进派的Meta和早期的OpenAI,则是信奉“移动快,打破规则”的硅谷信条,将潜在的法律诉讼视为一种可以计算和承受的商业成本。但在诉讼缠身后,OpenAI迅速转变为积极的数据“购买者”,斥巨资与美联社、金融时报等数十家媒体签署内容许可协议;Anthropic则上演了从使用盗版书库,到斥巨资购买、扫描、销毁实体书的“苦力式洗白”。


这些都意味着,“数据免费”的黄金时代已一去不复返,数据将成为AI公司财报上一个明确且高昂的成本项。

从整个行业来看,手握优质内容的内容出版商、新闻机构,将从被动的受害者,转变为AI产业链上游一个手握筹码、拥有强大议价权的关键参与者;这反过来又会急剧抬高行业的竞争壁垒,拥有强大现金流和顶尖法务团队的科技巨头相比AI创业公司将有着更强的竞争优势。AI行业的竞争,已从单纯的算法和算力竞赛,扩展到了一场关于数据供应链管理、商业谈判和法务合规能力的全面战争。

当那些充满争议的盗版“野路子”被一条条堵死,一个更加昂贵的AI时代,已经来了。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谷爱凌爱上币圈诈骗犯孙宇晨?

谷爱凌爱上币圈诈骗犯孙宇晨?

爆角追踪
2026-02-01 17:28:46
跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

阿器谈史
2026-01-31 23:19:36
一觉醒来微信群炸了!腾讯开撒10亿现金红包,已有16人翻出万元奖励“小马卡”!网友:群聊已被刷屏

一觉醒来微信群炸了!腾讯开撒10亿现金红包,已有16人翻出万元奖励“小马卡”!网友:群聊已被刷屏

每日经济新闻
2026-02-01 16:10:05
台湾GDP靓眼   跃居亚洲第三

台湾GDP靓眼 跃居亚洲第三

跟着老李看世界
2026-02-01 11:44:55
“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

上观新闻
2026-02-01 21:39:09
令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

令人发指!前英国王子安德鲁四肢着地跪爬在女子身上!爱泼斯坦文件持续公开,英首相呼吁安德鲁向美国会做证

纵相新闻
2026-02-01 19:09:12
中国对委内瑞拉下禁令,特朗普一看形势不对,立即向中方发出邀请

中国对委内瑞拉下禁令,特朗普一看形势不对,立即向中方发出邀请

荐史
2026-02-01 18:00:12
卡里克豪取3连胜!英超5战获13分,曼联队史首人,阿莫林下课不冤

卡里克豪取3连胜!英超5战获13分,曼联队史首人,阿莫林下课不冤

奥拜尔
2026-02-02 00:03:35
国外网络基本互通,中国为何限制访问外网?17年前的教训刻骨铭心

国外网络基本互通,中国为何限制访问外网?17年前的教训刻骨铭心

和平声浪
2026-02-01 09:30:41
俄罗斯间谍卫星被毁!马斯克对俄罗斯非法“星链”动手了

俄罗斯间谍卫星被毁!马斯克对俄罗斯非法“星链”动手了

鹰眼Defence
2026-02-01 17:11:51
深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

每日经济新闻
2026-02-01 17:45:18
员工刘某一个月内11次长时间滞留卫生间,单日最长达6小时21分钟,被公司解雇,法院:超出合理生理需求,属变相旷工,被解雇合法

员工刘某一个月内11次长时间滞留卫生间,单日最长达6小时21分钟,被公司解雇,法院:超出合理生理需求,属变相旷工,被解雇合法

极目新闻
2026-02-01 09:11:11
2月1日俄乌:马斯克终于出手了

2月1日俄乌:马斯克终于出手了

山河路口
2026-02-01 18:23:05
联赛第二!上海34分狂胜同曦 偰李永炜26+8三分生涯新高

联赛第二!上海34分狂胜同曦 偰李永炜26+8三分生涯新高

醉卧浮生
2026-02-01 21:35:48
杨紫这身材是真实存在的吗,薄薄的一片好瘦呀,极致自律太牛了!

杨紫这身材是真实存在的吗,薄薄的一片好瘦呀,极致自律太牛了!

TVB的四小花
2026-01-31 16:00:58
德约大度祝贺阿卡:未来10年内还会多次相遇!幽默互动逗笑纳达尔

德约大度祝贺阿卡:未来10年内还会多次相遇!幽默互动逗笑纳达尔

我爱英超
2026-02-01 20:37:19
15万个AI建了个朋友圈吐槽人类,100万人围观Moltbook后傻眼了:原来我们对AI一无所知

15万个AI建了个朋友圈吐槽人类,100万人围观Moltbook后傻眼了:原来我们对AI一无所知

AppSo
2026-01-31 20:13:22
以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

极目新闻
2026-02-01 16:43:12
朝鲜宣布:这是建国以来首次重大决策!

朝鲜宣布:这是建国以来首次重大决策!

IN朝鲜
2026-02-01 15:23:30
突发 | 知名女歌手于文文,被紧急送医!舞台上直接倒地!

突发 | 知名女歌手于文文,被紧急送医!舞台上直接倒地!

天津广播
2026-02-01 22:25:19
2026-02-02 00:31:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2834文章数 10435关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

数码
旅游
艺术
本地
公开课

数码要闻

极摩客已在海外市场推出新款高端迷你主机NucBox K13

旅游要闻

豫园灯会“扩容”至外滩!今晚六大灯区首次全景点亮,BFC联合泡泡玛特打造新春游园会

艺术要闻

意大利画家尼古拉·辛巴里,色块之美震撼人心!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版