网易首页 > 网易号 > 正文 申请入驻

AI机器人需要更多书籍来学习 这些图书馆正在开放书库

0
分享至

科技公司正在挖掘一个更古老的知识宝库:图书馆书库。哈佛大学藏书将于周四向人工智能研究人员开放,其中包括近百万本早在15世纪出版的书籍,涵盖254种语言。此外,波士顿公共图书馆收藏的大量旧报纸和政府文件也即将开放。

对于正在应对在世小说家、视觉艺术家和其他人的诉讼的科技公司来说,打开拥有数百年历史的古籍宝库可能会带来巨大的数据财富,这些人的创意作品在未经同意的情况下被盗用,用于训练人工智能聊天机器人。

微软副总法律顾问伯顿戴维斯 (Burton Davis) 表示:“从公共领域数据开始是一个谨慎的决定,因为目前与仍受版权保护的内容相比,公共领域数据引发的争议较少。”

戴维斯表示,图书馆还保存着“大量有趣的文化、历史和语言数据”,而这些数据在过去几十年的在线评论中缺失,而人工智能聊天机器人主要从这些评论中学习。对数据耗尽的担忧也促使人工智能开发者转向使用聊天机器人自己生成的、质量较低的“合成”数据。

在微软和 ChatGPT 制造商 OpenAI 的“无限制捐赠”支持下,总部位于哈佛大学的机构数据计划正在与世界各地的图书馆和博物馆合作,研究如何使其历史藏品能够适应人工智能,同时也使其服务的社区受益。

“我们正试图将当前人工智能时代赋予的部分权力重新赋予这些机构,”哈佛法学院图书馆创新实验室研究主管阿里斯塔纳·斯库尔塔斯(Aristana Scourtas)说道。“图书馆员一直以来都是数据和信息的守护者。”

哈佛大学最新发布的数据库“机构图书1.0”(Institutional Books 1.0)包含超过3.94亿页扫描纸质文献。其中一件较早的作品来自15世纪,是一位韩国画家手写并记录的关于栽培花草树木的感悟。其中最集中的作品来自19世纪,涵盖文学、哲学、法律和农业等主题,所有这些作品都由一代又一代的图书馆员精心保存和整理。

这对于试图提高系统准确性和可靠性的人工智能开发人员来说是一个福音。

“很多用于人工智能训练的数据并非来自原始来源,”该数据计划的执行董事、哈佛大学伯克曼克莱因互联网与社会研究中心首席技术专家格雷格·莱珀特(Greg Leppert)说道。他表示,这套藏书“可以追溯到实际收藏这些书籍的机构扫描的纸质版”。

在 ChatGPT 引发商业 AI 热潮之前,大多数 AI 研究人员并不太在意他们从维基百科、Reddit 等社交媒体论坛,甚至有时从盗版书籍的深层存储库中提取的文本段落的来源。他们只需要大量计算机科学家称之为“token”(标记)的东西——数据单元,每个标记都可以代表一个单词的一部分。

哈佛大学新推出的人工智能训练数据集估计拥有 2420 亿个标记,这个数字人类难以想象,但与输入最先进人工智能系统的数据相比,这仍然只是九牛一毛。例如,Facebook 母公司 Meta 表示,其最新版本的人工智能大型语言模型是基于从文本、图像和视频中提取的超过 30 万亿个标记进行训练的。

Meta 还面临着喜剧演员萨拉·西尔弗曼 (Sarah Silverman) 和其他出版作家的诉讼,他们指控该公司从盗版“影子图书馆”窃取他们的书籍。

如今,尽管存在一些保留意见,但真正的图书馆正在崛起。

OpenAI 也正在应对一系列版权诉讼,今年它向包括牛津大学拥有 400 年历史的博德利图书馆在内的一些研究机构捐赠了 5000 万美元,该图书馆正在将稀有文本数字化,并利用人工智能帮助转录它们。

波士顿公共图书馆是美国最大的图书馆之一,当该公司首次与该图书馆联系时,该图书馆明确表示,其数字化的任何信息都将面向所有人,该图书馆的数字和在线服务主管杰西卡·查佩尔 (Jessica Chapel) 表示。

“OpenAI 对海量训练数据很感兴趣。我们对海量数字对象感兴趣。所以这只是双方正在协调一致的例子,”Chapel 说。

数字化成本高昂。例如,波士顿图书馆扫描并整理数十份新英格兰法语报纸是一项艰巨的工作,这些报纸在19世纪末20世纪初被来自魁北克的加拿大移民群体广泛阅读。如今,这些文本可以用作训练数据,从而为图书馆员想要开展的项目提供资金。

哈佛大学的藏书早在 2006 年就已开始为另一家科技巨头Google进行数字化,这是一个颇具争议的项目,旨在创建一个拥有超过 2000 万本书籍的可搜索在线图书馆。

Google多年来一直在击退作者对其在线图书馆的法律挑战,该图书馆收录了许多较新的受版权保护的作品。最终,在2016年,美国最高法院维持了下级法院驳回版权侵权索赔的裁决,案件得以解决。

现在,Google首次与哈佛大学合作,从Google图书中检索公共领域的书籍,并为向人工智能开发者发布这些书籍铺平道路。美国的版权保护通常为95年,录音的保护期更长。

这一新举措周四受到了同一作家团体的赞扬,该团体曾就Google的图书项目起诉Google,最近还将人工智能公司告上法庭。

美国作家协会首席执行官玛丽·拉森伯格在周四的一份声明中表示:“许多此类书籍仅存在于各大图书馆的书架中,而该数据集的创建和使用将扩大对这些书籍及其内容知识的访问。” “重要的是,创建一个合法的大型训练数据集,将使新型人工智能模型的创建更加民主化。”

这些数据对于下一代人工智能工具有多大用处还有待观察,因为这些数据将于周四在 Hugging Face 平台上共享,该平台托管着任何人都可以下载的数据集和开源人工智能模型。

与典型的人工智能数据源相比,该藏书的语言多样性更高。不到一半的藏书是英文的,但欧洲语言仍然占主导地位,尤其是德语、法语、意大利语、西班牙语和拉丁语。

莱珀特表示,这套蕴含 19 世纪思想的书籍对于科技行业打造能够像人类一样进行规划和推理的人工智能代理也具有“极其重要的意义”。

“在大学里,你会学到很多关于推理的教学方法,”莱珀特说,“你会学到很多关于如何运行流程和如何进行分析的科学信息。”

与此同时,也存在大量过时的数据,从被揭穿的科学和医学理论到种族主义和殖民主义的叙述。

哈佛大学图书馆创新实验室协调员克里斯蒂·穆克 (Kristi Mukk) 表示:“当处理如此庞大的数据集时,有害内容和语言方面会存在一些棘手的问题。”她表示,该计划正试图提供有关如何降低使用数据风险的指导,以“帮助他们做出明智的决定并负责任地使用人工智能”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越来越猖狂的早餐店“铝包子”,我们应提高警惕,该如何辨别呢?

越来越猖狂的早餐店“铝包子”,我们应提高警惕,该如何辨别呢?

心中的麦田
2026-05-04 18:47:55
俄副部长叛逃美国,俄军每天最低伤亡千人,仍在组织新攻势!

俄副部长叛逃美国,俄军每天最低伤亡千人,仍在组织新攻势!

知兵
2026-05-04 16:06:33
妻子和情夫私通35年,丈夫不吵不闹不离婚,直到丈夫退休他作出反击

妻子和情夫私通35年,丈夫不吵不闹不离婚,直到丈夫退休他作出反击

麦子情感故事
2026-05-04 23:24:12
奥尼尔开喷!37岁场均20+5+6!这年纪这表现还不够?

奥尼尔开喷!37岁场均20+5+6!这年纪这表现还不够?

篮球大图
2026-05-05 11:26:40
以穆斯林占99%的土耳其,性交易为何合法140年?

以穆斯林占99%的土耳其,性交易为何合法140年?

石辰搞笑日常
2026-05-04 08:45:17
曝曼联6250万先生赛季提前结束,休养备战世界杯!仨队友竞争首发

曝曼联6250万先生赛季提前结束,休养备战世界杯!仨队友竞争首发

罗米的曼联博客
2026-05-05 10:00:22
中美放下电话,不到24小时,联合国传来重要消息,中方身份变了

中美放下电话,不到24小时,联合国传来重要消息,中方身份变了

健身狂人
2026-05-04 20:03:17
斯威士兰国王有15个老婆,为了避免女人间的争风吃醋,买19辆豪车

斯威士兰国王有15个老婆,为了避免女人间的争风吃醋,买19辆豪车

魔都姐姐杂谈
2026-05-04 16:14:24
7年前,那个婚前抛弃女友,卖房卖车救妹妹的山西小伙,如今怎样

7年前,那个婚前抛弃女友,卖房卖车救妹妹的山西小伙,如今怎样

李橑在北漂
2026-05-04 09:33:44
公安部提醒:换身份证后别急着走!这3个关键步骤多数人忽略

公安部提醒:换身份证后别急着走!这3个关键步骤多数人忽略

老特有话说
2026-05-04 16:04:22
事业没了,婚也离了!封杀5年后赵薇罕见露面,原来她早留好退路

事业没了,婚也离了!封杀5年后赵薇罕见露面,原来她早留好退路

仙味少女心
2026-05-05 08:41:44
伊朗媒体:美军袭击民用船只致5人死亡

伊朗媒体:美军袭击民用船只致5人死亡

界面新闻
2026-05-05 09:18:08
人到中年后,为什么很难快乐起来?网友:都是陈塘关村民罢了!

人到中年后,为什么很难快乐起来?网友:都是陈塘关村民罢了!

夜深爱杂谈
2026-05-05 10:24:06
普京签署法令将长城汽车工厂投资合同延长至2034年

普京签署法令将长城汽车工厂投资合同延长至2034年

俄罗斯卫星通讯社
2026-05-04 15:09:10
戴手套!“72小时可夺命”,又有人中招了

戴手套!“72小时可夺命”,又有人中招了

番禺台
2026-05-04 11:37:55
权志龙穿涉种族歧视T恤登台!公司火速道歉

权志龙穿涉种族歧视T恤登台!公司火速道歉

喜欢历史的阿繁
2026-05-04 20:04:49
他若不死必是十大元帅之首?毛主席:他比我厉害十倍

他若不死必是十大元帅之首?毛主席:他比我厉害十倍

小豫讲故事
2026-05-04 06:00:15
官方:东契奇因左腿筋伤势缺席与雷霆西部半决赛G1

官方:东契奇因左腿筋伤势缺席与雷霆西部半决赛G1

懂球帝
2026-05-05 12:16:03
浏阳烟花厂爆炸已造成21人死亡

浏阳烟花厂爆炸已造成21人死亡

上峰视点
2026-05-05 09:16:31
马克龙时代将画上句号,梅朗雄宣布竞选法国总统,对华态度已曝光

马克龙时代将画上句号,梅朗雄宣布竞选法国总统,对华态度已曝光

达文西看世界
2026-05-05 09:47:35
2026-05-05 14:15:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
67749文章数 70181关注度
往期回顾 全部

科技要闻

OpenAI/Anthropic同日被曝拉拢华尔街建合资公司

头条要闻

吴宜泽18-17夺冠:1家3口"兵分两路"10年 已押上一切

头条要闻

吴宜泽18-17夺冠:1家3口"兵分两路"10年 已押上一切

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

英皇25周年演唱会 张敬轩被救护车拉走

财经要闻

五一假期,中国年轻人的“首尔病”犯了

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

健康
亲子
教育
游戏
公开课

干细胞治烧烫伤面临这些“瓶颈”

亲子要闻

为什么古代育儿总离不开这两样东西?

教育要闻

听课猛如虎,做题二百五

索尼大招藏不住了!PS6自研帧生成技术曝光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版