网易首页 > 网易号 > 正文 申请入驻

Anthropic「蒸馏」了人类最大的知识库

0
分享至

来源:市场资讯

(来源:爱范儿)

2024 年初,在美国某处的一座仓库里,工人们正在做一件看起来有些奇怪的事:把书一本本送进机器,切掉书脊,扫描,然后把剩下的纸送去回收。

这些书是刚买来的,有些甚至是新的。没有人会读它们,它们存在的唯一目的,就是被销毁。

下令做这件事的,是一家叫 Anthropic 的 AI 公司。


在他们的内部文件里,这项计划有个代号:「巴拿马项目」。一份规划文件写得很直白:「这是我们以破坏性方式扫描全球所有书籍的计划,我们不希望外界知道我们正在做这件事。」

这件事最终还是被人知道了。

去年,一名联邦法官解封了一批与版权诉讼相关的文件,总计超过 4000 页。外界由此看到的,不只是一家公司的秘密,而是整个 AI 行业在数据争夺战中的真实面目。

被大模型「吃」掉的实体书

为什么这些处于技术前沿的科技巨头,会用如此原始甚至粗暴的方式对待纸质书?答案其实藏在 AI 对高质量数据的极度渴求里。

Anthropic 内部很早就意识到,训练 AI 模型光靠网络上的内容不够用。

根据《华盛顿邮报》报道,一位Anthropic 联合创始人在 2023 年 1 月的文件中写道,用书籍训练模型,可以让 AI 学会「如何写得更好」,而不是只会模仿质量参差不齐的网络语言。

书籍经过严格编辑和校对,内容结构清晰,是网络文本难以替代的高质量语料。

这个逻辑本身并不难理解,但问题是,既然承认书籍有价值,为什么不付钱?究其原因,挨个找出版社和作者谈授权,费时费力,成本也高。于是 Anthropic 启动了「巴拿马项目」。一句「不希望外界知道」,说明它也清楚这件事站不住脚。

甚至「巴拿马项目」还没启动的时候,Anthropic 已经尝试通过另一种方式获取书籍。


法院文件显示,公司联合创始人 Ben Mann 曾在 2021 年 6 月的 11 天里,从一个叫 LibGen 的网站下载了大量小说和非小说类书籍。LibGen 是个「影子图书馆」,上面的资源大多涉嫌侵权,文件中附带的浏览器截图显示,他使用文件共享软件完成了这些下载。

一年后,另一个网站 Pirate Library Mirror 于 2022 年 7 月上线,该网站公开宣称「在大多数国家故意违反版权法」。Mann 把这个网站的链接发给了其他 Anthropic 员工,并留言写道:「来得正是时候!!!」

这句感叹号背后,是一位公司高管对一个公开承认违法的盗版网站表达的真实态度。

Anthropic 事后表示,公司从未用这些数据训练过正式发布的商业模型。但这种解释多少有些勉强,下载了,存着,只是「没有用在正式模型上」,这条线究竟划在哪里,恐怕连 Anthropic 自己也说不清楚。

为了「巴拿马项目」,Anthropic 还专门聘请了 Tom Turvey 来主持这项工作。Turvey 曾参与创建谷歌图书项目,那个项目同样因大规模扫描书籍引发了长达多年的版权争议。Anthropic 选择这个人来主导这件事,很难说是一种巧合。


最终,Anthropic 主要依赖两家书商批量供货:

美国二手书零售商 Better World Books,以及总部位于英国的 World of Books,每次采购动辄数万册。内部文件还显示,员工曾讨论接洽纽约公共图书馆,甚至提到可以找某家长期资金不足的新图书馆。

采购完之后,整个扫描过程,就像一条工业流水线。


供应商用液压切割机把书脊整齐切掉,散开的书页随即被送进高速工业扫描仪,扫完之后,剩下的纸张交给回收公司处理。一家参与报价的扫描服务商在提案中写道,Anthropic 希望在六个月内完成 50 万到 200 万册书的数字化工作。

Anthropic 副总法律顾问 Aparna Sridhar 回应称,法院已裁定 AI 训练「本质上具有转化性」,Anthropic 选择和解的问题在于「部分材料的获取方式,而不是我们是否可以使用这些材料」。

这套说辞在法律上也许站得住脚,但它同时也揭示了一件事:这家公司从未认为自己做错了什么,只是某些手段不够干净。

拿你的书训练,再抢你的饭碗

同样的事情,也在其他公司身上发生着,而且有些细节更为戏剧性。

针对 Meta 的诉讼文件显示,有员工在 2023 年直接写道:「用公司笔记本进行种子下载感觉不太对劲。」他后来还专门向法务团队反映,称使用种子网站可能意味着向他人分发盗版作品,「这在法律上可能行不通。」

但这些顾虑最终没有改变任何事情。

2023 年 12 月的一封内部邮件显示,使用 LibGen 已在「上报至 MZ」之后获批,MZ 指的是 CEO 马克·扎克伯格。邮件还坦率地写明了他们自己都清楚的风险:「如果媒体报道暗示我们使用了已知为盗版的数据集,这可能会削弱我们在监管问题上的谈判立场。」


换句话说,他们不是不知道这样做不对,只是在权衡被抓包的代价。为了降低这个风险,员工们特意租用亚马逊的服务器来做种子下载,而不是用 Meta 自己的服务器,原因是避免被追踪到 Meta 公司。

OpenAI 和微软同样面临图书作者的版权指控。OpenAI 甚至承认曾下载过 LibGen,但称在 ChatGPT 发布前已删除相关文件。

而 AI 公司与创作者之间的版权冲突,并非从 Anthropic 才开始。

早在 2000 年代初,Google 就曾大规模扫描图书馆馆藏,同样引发了长达十年的诉讼。最终法院认定Google 的做法属于「合理使用」,因为它只提供片段摘要,目的是引导读者找到书,而不是取代书本身。

这个判决在当时看来合情合理,却在二十年后为整个 AI 行业提供了一块挡箭牌。

Google 图书是个索引工具,而生成式 AI 直接消化书籍内容,然后输出文字,在某些情况下与作者产生直接竞争。性质变了,但援引的法律逻辑还是同一套,这本身就值得思考。


去年 6 月,联邦法官 William Alsup 裁定,Anthropic 用书籍训练 AI 属于合法行为,他将这个过程比作教师「训练学生写好文章」。这个比喻听起来温和,但现实中的老师不会同时训练几百万个学生,也不会靠这些学生赚几十亿美元。

最终,Anthropic 选择支付 15 亿美元和解金,在 AI 版权诉讼史上创下纪录,但细看之下,账算得并不亏。按照美国版权法,每件作品的法定赔偿上限可达 15 万美元,而此次和解折算下来,每本书约赔 3000 美元,仅为上限的 2%。

赔偿金由作者和出版商平分,只是,这一安排在创作者群体内部引发了争议。

不少作者认为,出版商在保护作品不被 AI 滥用这件事上没有尽力,却拿走了一半赔偿。更关键的是,和解协议并不要求 Anthropic 承认任何违法行为,法院对「AI 训练属于合理使用」的认定照样有效。


换句话说,Anthropic 用 15 亿美元买到的,不只是和解,还有一份背书:我们可以继续这么做。有分析人士指出,随着这个先例确立,版权侵权对 AI 公司来说已经不再是一条红线,而是一笔可以提前计入成本的「过路费」。

对许多写书的人来说,这件事意味着的远不止一张支票。美国作家的年收入中位数约为 2 万美元,而市值数千亿的 AI 公司在未获授权的情况下大量使用他们的作品,事后折算的赔偿标准远低于法律上限。

更让人忧虑的是,AI 正在批量生成文字内容,这些低成本的文本涌入市场,让原本就艰难的写作谋生变得更难。训练 AI 用的是人写的书,而 AI 产出的内容,正在挤压人继续写书的空间,循环往复。

支持者自有另一套逻辑:AI 并不储存书里的内容,而是从中提取语言规律,这更像是一个人博览群书之后形成自己的表达。这个类比并非毫无道理,但却省略了一个关键差异:


人读了一本书,不会同时读一百万本;而 AI 在几个月内消化了人类几十年的写作积累,随后以极低的边际成本无限复制输出,规模改变了性质,把两件事等同起来其实并不合理。

数百万册书被切开、扫描、回收,最后换来一份和解协议。那些书,早已不在了。而 AI 还在继续写作,且会越来越快。这大概就是这件事最让人不安的地方:对于书被销毁,被肆意用来训练 AI 这件事,没有人真正付出了代价。

附上参考地址:

https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林彪坦言邓华是个危险人物,必须赶出军队,邓小平:让他当副省长

林彪坦言邓华是个危险人物,必须赶出军队,邓小平:让他当副省长

扬平说史
2026-05-01 23:02:31
56岁王菲独自一人看话剧,眼神清澈状态好,和谢霆锋相处太惬意!

56岁王菲独自一人看话剧,眼神清澈状态好,和谢霆锋相处太惬意!

娱乐团长
2026-05-02 10:02:02
人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

另子维爱读史
2026-01-23 20:28:44
骑士3-3猛龙!哈登谈抢七把话挑明,米切尔毫无退路,2点也成关键

骑士3-3猛龙!哈登谈抢七把话挑明,米切尔毫无退路,2点也成关键

鱼崖大话篮球
2026-05-02 16:31:09
电磁炉为啥悄无声息退出中国家庭?内行人透底玄机,看完彻底懂了

电磁炉为啥悄无声息退出中国家庭?内行人透底玄机,看完彻底懂了

老特有话说
2026-04-30 11:36:13
中国军工巨头迎喜讯,营收高达754亿,歼10卖爆后,沙特送来大礼

中国军工巨头迎喜讯,营收高达754亿,歼10卖爆后,沙特送来大礼

史行途
2026-05-02 23:45:40
海航推出6万6“天价随心飞”,网友:这是卖机票还是搞传销?

海航推出6万6“天价随心飞”,网友:这是卖机票还是搞传销?

天涯社区
2026-05-02 16:34:34
“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

妍妍教育日记
2026-04-15 09:30:09
49岁女主播直播中宣布患癌:一场打破行业惯例的告别

49岁女主播直播中宣布患癌:一场打破行业惯例的告别

热搜摘要官
2026-05-01 22:05:04
荷兰发达到什么程度了?人口仅1700万,却拥有12个世界五百强!

荷兰发达到什么程度了?人口仅1700万,却拥有12个世界五百强!

抽象派大师
2026-04-30 00:16:18
连球都没碰!孙继海3遍“太可怕了”,戳破中国足球30年的骗局

连球都没碰!孙继海3遍“太可怕了”,戳破中国足球30年的骗局

圣西罗的太阳
2026-05-02 13:37:34
盖伊刚在申花受重伤!球迷就看好三人顶替他,留洋西乙的王牌领衔

盖伊刚在申花受重伤!球迷就看好三人顶替他,留洋西乙的王牌领衔

振刚说足球
2026-05-02 15:50:05
斯诺克赛程:半决赛完结,吴宜泽或复刻赵心童成就,巫师冲纪录?

斯诺克赛程:半决赛完结,吴宜泽或复刻赵心童成就,巫师冲纪录?

刘姚尧的文字城堡
2026-05-02 08:59:06
A股牛市还能走多久?30年规律总结,4个信号提前预警见顶风险

A股牛市还能走多久?30年规律总结,4个信号提前预警见顶风险

秘密即将揭晓
2026-05-02 19:43:58
中超积分榜:蓉城7分领跑,铜梁龙、英博紧随其后,海牛逃离降级区

中超积分榜:蓉城7分领跑,铜梁龙、英博紧随其后,海牛逃离降级区

懂球帝
2026-05-02 22:04:18
中组部人社部规定:公职人员违纪后待遇一文讲清

中组部人社部规定:公职人员违纪后待遇一文讲清

笑熬浆糊111
2026-04-23 00:05:18
世界第二!山东号航母卫星图曝光,歼35可能要上舰了!

世界第二!山东号航母卫星图曝光,歼35可能要上舰了!

阿龙聊军事
2026-05-02 19:55:58
俄罗斯副部长被查前成功出逃美国,跨三国离境

俄罗斯副部长被查前成功出逃美国,跨三国离境

桂系007
2026-05-01 23:48:19
青岛一小区门头字体“多处写反”,居委会:建成20多年一直这样

青岛一小区门头字体“多处写反”,居委会:建成20多年一直这样

大风新闻
2026-05-02 11:57:06
广东一男子在楼梯铺满100张粘鼠板“硬核灭鼠”:半年前用过这招,一次黏住了28只

广东一男子在楼梯铺满100张粘鼠板“硬核灭鼠”:半年前用过这招,一次黏住了28只

大象新闻
2026-05-02 23:14:08
2026-05-03 00:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3096665文章数 7080关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

媒体:美国突然"翻脸" 对欧洲连打"三拳"一气呵成

头条要闻

媒体:美国突然"翻脸" 对欧洲连打"三拳"一气呵成

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

家居
教育
亲子
艺术
军事航空

家居要闻

灵动实用 生活艺术场

教育要闻

跨考生最大的优势,就是不被旧框架束缚|一战上岸重庆大学新传考研经验贴

亲子要闻

过分!女童就餐区就地大便,爸妈别再以“孩子还小”当借口了

艺术要闻

看!海夫兰笔下的美女,令人惊艳的艺术之美!

军事要闻

特朗普:对伊战事结束 无限期延长停火

无障碍浏览 进入关怀版