网易首页 > 网易号 > 正文 申请入驻

AI机器人需要更多书籍来学习 这些图书馆正在开放书库

0
分享至

科技公司正在挖掘一个更古老的知识宝库:图书馆书库。哈佛大学藏书将于周四向人工智能研究人员开放,其中包括近百万本早在15世纪出版的书籍,涵盖254种语言。此外,波士顿公共图书馆收藏的大量旧报纸和政府文件也即将开放。


对于正在应对在世小说家、视觉艺术家和其他人的诉讼的科技公司来说,打开拥有数百年历史的古籍宝库可能会带来巨大的数据财富,这些人的创意作品在未经同意的情况下被盗用,用于训练人工智能聊天机器人。

微软副总法律顾问伯顿戴维斯 (Burton Davis) 表示:“从公共领域数据开始是一个谨慎的决定,因为目前与仍受版权保护的内容相比,公共领域数据引发的争议较少。”

戴维斯表示,图书馆还保存着“大量有趣的文化、历史和语言数据”,而这些数据在过去几十年的在线评论中缺失,而人工智能聊天机器人主要从这些评论中学习。对数据耗尽的担忧也促使人工智能开发者转向使用聊天机器人自己生成的、质量较低的“合成”数据。

在微软和 ChatGPT 制造商 OpenAI 的“无限制捐赠”支持下,总部位于哈佛大学的机构数据计划正在与世界各地的图书馆和博物馆合作,研究如何使其历史藏品能够适应人工智能,同时也使其服务的社区受益。

“我们正试图将当前人工智能时代赋予的部分权力重新赋予这些机构,”哈佛法学院图书馆创新实验室研究主管阿里斯塔纳·斯库尔塔斯(Aristana Scourtas)说道。“图书馆员一直以来都是数据和信息的守护者。”

哈佛大学最新发布的数据库“机构图书1.0”(Institutional Books 1.0)包含超过3.94亿页扫描纸质文献。其中一件较早的作品来自15世纪,是一位韩国画家手写并记录的关于栽培花草树木的感悟。其中最集中的作品来自19世纪,涵盖文学、哲学、法律和农业等主题,所有这些作品都由一代又一代的图书馆员精心保存和整理。

这对于试图提高系统准确性和可靠性的人工智能开发人员来说是一个福音。

“很多用于人工智能训练的数据并非来自原始来源,”该数据计划的执行董事、哈佛大学伯克曼克莱因互联网与社会研究中心首席技术专家格雷格·莱珀特(Greg Leppert)说道。他表示,这套藏书“可以追溯到实际收藏这些书籍的机构扫描的纸质版”。

在 ChatGPT 引发商业 AI 热潮之前,大多数 AI 研究人员并不太在意他们从维基百科、Reddit 等社交媒体论坛,甚至有时从盗版书籍的深层存储库中提取的文本段落的来源。他们只需要大量计算机科学家称之为“token”(标记)的东西——数据单元,每个标记都可以代表一个单词的一部分。

哈佛大学新推出的人工智能训练数据集估计拥有 2420 亿个标记,这个数字人类难以想象,但与输入最先进人工智能系统的数据相比,这仍然只是九牛一毛。例如,Facebook 母公司 Meta 表示,其最新版本的人工智能大型语言模型是基于从文本、图像和视频中提取的超过 30 万亿个标记进行训练的。

Meta 还面临着喜剧演员萨拉·西尔弗曼 (Sarah Silverman) 和其他出版作家的诉讼,他们指控该公司从盗版“影子图书馆”窃取他们的书籍。

如今,尽管存在一些保留意见,但真正的图书馆正在崛起。

OpenAI 也正在应对一系列版权诉讼,今年它向包括牛津大学拥有 400 年历史的博德利图书馆在内的一些研究机构捐赠了 5000 万美元,该图书馆正在将稀有文本数字化,并利用人工智能帮助转录它们。

波士顿公共图书馆是美国最大的图书馆之一,当该公司首次与该图书馆联系时,该图书馆明确表示,其数字化的任何信息都将面向所有人,该图书馆的数字和在线服务主管杰西卡·查佩尔 (Jessica Chapel) 表示。

“OpenAI 对海量训练数据很感兴趣。我们对海量数字对象感兴趣。所以这只是双方正在协调一致的例子,”Chapel 说。

数字化成本高昂。例如,波士顿图书馆扫描并整理数十份新英格兰法语报纸是一项艰巨的工作,这些报纸在19世纪末20世纪初被来自魁北克的加拿大移民群体广泛阅读。如今,这些文本可以用作训练数据,从而为图书馆员想要开展的项目提供资金。

哈佛大学的藏书早在 2006 年就已开始为另一家科技巨头Google进行数字化,这是一个颇具争议的项目,旨在创建一个拥有超过 2000 万本书籍的可搜索在线图书馆。

Google多年来一直在击退作者对其在线图书馆的法律挑战,该图书馆收录了许多较新的受版权保护的作品。最终,在2016年,美国最高法院维持了下级法院驳回版权侵权索赔的裁决,案件得以解决。

现在,Google首次与哈佛大学合作,从Google图书中检索公共领域的书籍,并为向人工智能开发者发布这些书籍铺平道路。美国的版权保护通常为95年,录音的保护期更长。

这一新举措周四受到了同一作家团体的赞扬,该团体曾就Google的图书项目起诉Google,最近还将人工智能公司告上法庭。

美国作家协会首席执行官玛丽·拉森伯格在周四的一份声明中表示:“许多此类书籍仅存在于各大图书馆的书架中,而该数据集的创建和使用将扩大对这些书籍及其内容知识的访问。” “重要的是,创建一个合法的大型训练数据集,将使新型人工智能模型的创建更加民主化。”

这些数据对于下一代人工智能工具有多大用处还有待观察,因为这些数据将于周四在 Hugging Face 平台上共享,该平台托管着任何人都可以下载的数据集和开源人工智能模型。

与典型的人工智能数据源相比,该藏书的语言多样性更高。不到一半的藏书是英文的,但欧洲语言仍然占主导地位,尤其是德语、法语、意大利语、西班牙语和拉丁语。

莱珀特表示,这套蕴含 19 世纪思想的书籍对于科技行业打造能够像人类一样进行规划和推理的人工智能代理也具有“极其重要的意义”。

“在大学里,你会学到很多关于推理的教学方法,”莱珀特说,“你会学到很多关于如何运行流程和如何进行分析的科学信息。”

与此同时,也存在大量过时的数据,从被揭穿的科学和医学理论到种族主义和殖民主义的叙述。

哈佛大学图书馆创新实验室协调员克里斯蒂·穆克 (Kristi Mukk) 表示:“当处理如此庞大的数据集时,有害内容和语言方面会存在一些棘手的问题。”她表示,该计划正试图提供有关如何降低使用数据风险的指导,以“帮助他们做出明智的决定并负责任地使用人工智能”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
燃油车主请注意!10月1日车船税新政来袭,你的用车成本要变了

燃油车主请注意!10月1日车船税新政来袭,你的用车成本要变了

慧眼看世界哈哈
2025-09-17 05:19:02
中波双方谈完,波兰当着全球公布重大喜讯,欧盟:为何运气如此好

中波双方谈完,波兰当着全球公布重大喜讯,欧盟:为何运气如此好

墨兰史书
2025-09-18 06:10:07
大清已亡了111年,清东陵为啥还有守陵人,是谁给他们支付薪酬

大清已亡了111年,清东陵为啥还有守陵人,是谁给他们支付薪酬

老谢谈史
2025-09-17 20:14:26
彻底放权?国乒新主帅不选自己人,王励勤态度明朗,马琳终于有戏

彻底放权?国乒新主帅不选自己人,王励勤态度明朗,马琳终于有戏

忠橙家族
2025-09-18 19:06:57
女儿患恶性肿瘤,夫妻诉至法院欲离婚 法院判决:不准离婚!艰难时刻应聚焦于子女治疗

女儿患恶性肿瘤,夫妻诉至法院欲离婚 法院判决:不准离婚!艰难时刻应聚焦于子女治疗

红星新闻
2025-09-18 18:55:09
“三傻女政客”之一,刚上任就逼中国复交,中方:先拿点诚意再说

“三傻女政客”之一,刚上任就逼中国复交,中方:先拿点诚意再说

猫眼观史
2025-09-17 23:16:35
空铺、撤出、冷清!上海又一“巨型”商场沦为“鬼城”?

空铺、撤出、冷清!上海又一“巨型”商场沦为“鬼城”?

品牌观察官
2025-09-18 19:54:27
48:47,美国投票结果出炉,特朗普收到噩耗,他要支付351亿巨款

48:47,美国投票结果出炉,特朗普收到噩耗,他要支付351亿巨款

标体
2025-09-18 18:35:12
多地将从今秋起试行中小学“春秋假”

多地将从今秋起试行中小学“春秋假”

澎湃新闻
2025-09-18 10:04:08
太唏嘘!于朦胧母亲证实儿子意外坠亡,疑似表哥发声直言不能接受

太唏嘘!于朦胧母亲证实儿子意外坠亡,疑似表哥发声直言不能接受

萌神木木
2025-09-16 23:33:22
金正恩能力有多强?创造5个政界记录,有望成为世界级伟大人物

金正恩能力有多强?创造5个政界记录,有望成为世界级伟大人物

文史旺旺旺
2025-09-16 16:18:23
第80分钟,国安和河内球员爆发激烈冲突!

第80分钟,国安和河内球员爆发激烈冲突!

直播吧
2025-09-18 22:04:02
你身边有哪些经典的现世报?网友:总欺负我的一个同事把手机丢了

你身边有哪些经典的现世报?网友:总欺负我的一个同事把手机丢了

解读热点事件
2025-09-17 00:05:08
苹果首批iPhone 17 Pro做工感人:拼接缝隙宽度竟差了一倍

苹果首批iPhone 17 Pro做工感人:拼接缝隙宽度竟差了一倍

快科技
2025-09-18 08:50:53
明明有着大好前途,却毁在一句话上,周炜的消失并不无辜

明明有着大好前途,却毁在一句话上,周炜的消失并不无辜

吴东升成
2025-09-18 16:08:42
韩国釜山电影节红毯:有人似仙女下凡,有人拼命吸腹,有人成怪物

韩国釜山电影节红毯:有人似仙女下凡,有人拼命吸腹,有人成怪物

崽下愚乐圈
2025-09-18 14:04:55
“全球最佳降压药”已被纳入医保,除了可以报销,还有3大优势!

“全球最佳降压药”已被纳入医保,除了可以报销,还有3大优势!

深析古今
2025-09-16 08:31:14
缝纫自习室爆满!27岁杭州姑娘:一晚上就坐在缝纫机前,特别治愈

缝纫自习室爆满!27岁杭州姑娘:一晚上就坐在缝纫机前,特别治愈

极目新闻
2025-09-17 17:52:41
四小时连射1000箭,一张弓阻挡上万骑兵,中国最牛弓箭手如何练成

四小时连射1000箭,一张弓阻挡上万骑兵,中国最牛弓箭手如何练成

悦悦侃历史
2025-09-16 17:36:31
95后UCLA女留学生张晓宁在联合国大楼前举牌并失控杀人

95后UCLA女留学生张晓宁在联合国大楼前举牌并失控杀人

霹雳炮
2025-09-17 22:55:12
2025-09-18 23:27:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
64359文章数 69843关注度
往期回顾 全部

科技要闻

英伟达50亿美元投资英特尔,但代工免谈

头条要闻

重庆一家七口误食蘑菇中毒 60岁老人住进ICU

头条要闻

重庆一家七口误食蘑菇中毒 60岁老人住进ICU

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

手机
健康
亲子
家居
军事航空

手机要闻

iQOO 15发布时间曝光,性能屏幕全升级

内分泌科专家破解身高八大谣言

亲子要闻

免费学前教育落地观察:家长的减负与园长的烦恼

家居要闻

多维交集 简意雅情结合

军事要闻

哈马斯高层在多哈遇袭后首次现身

无障碍浏览 进入关怀版