![]()
一家靠扫描盗版书训练AI的公司,突然对版权法产生了近乎虔诚的敬畏。
《华尔街日报》披露,Anthropic正疯狂提交数字千年版权法案(DMCA)下架请求,目标锁定GitHub上超过8000份泄露的Claude Code源代码副本。这家公司去年刚因盗版书籍被作者集体诉讼,最终以15亿美元和解收场。
讽刺的闭环就此完成:用侵权数据喂出来的模型,现在要借法律铁拳保护自己的"知识产权"。
泄露了什么:不是核心机密,是"驯服AI的缰绳"
这次泄露的并非Claude的"大脑"——那些决定AI如何学习的内部数学权重(weights)安然无恙,用户数据也未波及。但泄露的代码揭示了Anthropic工程师如何让AI以"自主智能体"(AI Agent)模式运行的技术细节,业内称为harness(驾驭框架)。
简单说,这是教AI如何自己上网查资料、写代码、调试程序的"操作手册"。竞争对手拿到这些,能缩短数月研发周期。
Anthropic最初的下架请求覆盖8000多份副本,随后紧急收缩至96份,声称"首次请求误伤了过多账户"。这种精准度堪比用霰弹枪打蚊子,先扫射再道歉。
15亿美元的前科:Project Panama与"海盗图书馆"
要理解这份"版权洁癖"的荒诞,得倒带回2024年。
当时法庭文件显示,Anthropic为训练早期Claude模型,从LibGen和"Pirate Library Mirror"下载了数百万本盗版书籍。LibGen是知名的"影子图书馆",而另一个站点的名字干脆直白的叫"海盗图书馆镜像"—— cofounder Ben Mann在内部群聊里欢呼:"来得正是时候!!!",附上网址链接。
更魔幻的是Project Panama:Anthropic秘密收购数百万本二手实体书,用工业切割机拆页扫描,完事直接送回收站。法官认定此举不违法,但公司内部邮件显示他们清楚"观感极差"。
作者集体诉讼最终以15亿美元和解告终。法官明确裁定:使用盗版书籍训练属违法行为。
双标现场:谁的知识产权算知识产权?
Anthropic的公关话术始终围绕"AI伦理的成年人"展开——比OpenAI更谨慎、更透明、更负责任。但版权法的调用逻辑暴露了一套灵活的道德标准:
别人的内容可以批量抓取、切割、喂给模型;自己的代码泄露0.1%,立即启动法律武器全网追杀。
这种分裂并非Anthropic独有。整个AI行业对版权的态度呈现奇妙的单向阀特征:训练数据环节主张"合理使用"的宽泛解释,输出环节则对模型权重、架构细节严防死守。OpenAI、Meta、Google莫不如此,只是Anthropic的"伦理人设"让反差更显刺眼。
GitHub上的开发者社区反应微妙。部分用户质疑Anthropic滥用DMCA机制——该法案本为打击盗版影视音乐设计,用于保护AI模型的"驯化技巧"是否属于立法原意?更多人则在评论区贴出LibGen的镜像地址,配文"来得正是时候"。
行业隐喻:AI公司的"版权薛定谔态"
这件事的真正价值在于揭示了一个结构性悖论。
生成式AI的商业模式建立在双重假设上:输入端,海量版权内容可以被"转化性使用"而不构成侵权;输出端,模型本身必须作为商业秘密严格保护。两个假设都指向同一个终点——最大化数据摄取,最小化外部审查。
Anthropic的15亿美元和解并未改变这一逻辑,只是抬高了违法成本。现在他们用DMCA下架请求证明:当利益方向反转时,版权法依然是好用的工具。
一位参与过开源AI项目的工程师在Hacker News评论:"他们不是在保护知识产权,是在保护护城河。训练数据的来源?那是'行业惯例'。"
GitHub上那96份(或8000份)代码副本的命运尚未终结。Anthropic的法务团队仍在逐条追踪,而开源社区的镜像站点已经开始自动同步。这场猫鼠游戏的终局或许早已写定:代码会扩散,就像当年那些盗版书籍一样。
唯一的问题是——当下一批创业者用"合理使用"的名义抓取Claude的输出内容训练竞品时,Anthropic会想起自己此刻的愤怒,还是当年Ben Mann那句"来得正是时候"?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.