网易首页 > 网易号 > 正文 申请入驻

当人工智能阅读了所有内容会发生什么?

0
分享至

近年来,人工智能已经证明自己是一个快速的学习者,尽管它的教育方式会让最严格的校长感到羞愧。人工智能被锁在密闭的博尔赫斯式的图书馆里几个月,没有厕所,没有睡眠,他们被告知在完成人类文化的自定进度的快速课程之前不要出来。教学大纲上的内容是:我们曾经产生过的所有现存文本中的相当一部分。

当人工智能从这些史诗般的学习课程中浮出水面时,他们拥有令人惊讶的新能力。拥有最灵活的语言思维的人,人工智能是超级多面手,可以可靠地在十几种语言之间来回翻转;AI现在可以实时翻译100多种语言。它们可以在各种文学风格中进行模仿,写出合格的押韵诗。DeepMind的Ithaca人工智能可以看一眼刻在大理石上的希腊字母,猜出几千年前被破坏者凿掉的文字。

这些成果表明,人工智能的发展方向是有希望的。只要把越来越多的人类创造的文本塞进它的嘴里,然后等待奇妙的新技能显现出来。有了足够的数据,这种方法甚至可能产生一种更流畅的智能,或者类似于那些萦绕在我们几乎所有的未来神话中的人类人工头脑。

问题是,像其他高端人类文化产品一样,好的散文是已知宇宙中最难生产的东西之一。它不是无限供应的,而且对于人工智能来说,不是任何旧的文本都能做到。在书本上训练的大型语言模型比在大批量社交媒体帖子上训练的模型要好得多。当我们计算还有多少结构良好的句子可以被人工智能吸收时,数字并不令人觉得高兴。Epoch AI的巴勃罗·维拉罗伯斯(Pablo Villalobos)领导的一个研究小组最近预测,像令人印象深刻的ChatGPT这样的程序将在2027年耗尽高质量的阅读材料。如果没有新的文本进行训练,人工智能最近的热度可能会过早地结束。

应该指出的是,人类的全部语言创造力中只有一小部分可供阅读。自从富有创造力的非洲人超越了我们动物祖先的情感呼噜声,开始将他们的思想外化为广泛的声音系统以来,已经过去了10多万年。这些原始语言以及后来的许多语言所表达的每一个概念都可能永远消失了,尽管我很高兴想象他们的一些词语仍然在我们身边。毕竟,一些英语单词有着令人震惊的古老历史。流动、母亲、火和灰烬都是从冰河时代的人们那里流传下来的。

写作使人类能够捕捉和储存更多的词汇。但是,像大多数新技术一样,写作一开始很昂贵,这就是为什么它最初主要用于会计。烘烤和浸湿用于书写的粘土需要时间,将纸莎草切割成适合做格子的条状物需要时间,为在牛皮纸上书写书法的僧侣们提供住所和食物需要时间。这些资源密集型的技术只能保存人类文化成果的一小部分。

直到印刷厂开始用机器把书送到世界上,我们的集体文本记忆才达到了工业规模。谷歌图书公司的研究人员估计,自古腾堡以来,人类已经出版了超过1.25亿种书籍,收集了法律、诗歌、神话、散文、历史、论文和小说。语言科学团队估计,这些书中有1000万到3000万本已经被数字化,为人工智能提供了数千亿,甚至超过一万亿字的阅读盛宴。

这些数字可能听起来令人印象深刻,但它们在训练为ChatGPT提供动力的模型的5000亿字的范围之内。它的后继者GPT-4可能会在几十万亿个单词上进行训练。有传言说,当GPT-4在今年晚些时候发布时,它将能够从一个提示中生成一个6万字的小说。

10万亿字足以涵盖人类所有的数字化书籍,我们所有的数字化科学论文,以及大部分的博客圈。这并不是说GPT-4将阅读所有这些材料,只是说这样做是在其技术范围内。你可以想象它的人工智能继任者在最初的几个月里吸收了我们的整个深层时间文本记录,然后在每年1月用两小时的阅读假期来补充,在此期间,他们可以把前一年出版的每本书和科学论文作为主线。

从互联网上刮来的随机文本通常不是好的训练数据,维基百科的文章是一个明显的例外。但是,也许未来的算法将允许人工智能从我们聚集的推特、Instagram的标题和Facebook的状态中提取意义。即便如此,这些低质量的来源也不会是取之不尽的。根据维拉罗伯斯(Villalobos)的说法,在几十年内,快速阅读的人工智能将强大到足以摄取数以万亿计的单词:包括迄今为止人类已经塞进网络的所有单词。

不是每个人工智能都是英语专业的。有些是视觉学习者,他们也可能有一天会面临训练数据短缺的问题。当速读者在狂读文学典籍时,这些人工智能被捆绑起来,睁着眼皮,像《发条橙》一样,进行由数百万张图片组成的强制筛选。他们从训练中走出来,拥有超人的视觉。它们可以在面具后面认出你的脸,或者发现放射科医生眼睛看不见的肿瘤。在夜间开车时,它们可以看到前方阴暗的路边,一只小鹿正在鼓起勇气冒险过马路。

最令人印象深刻的是,经过标签图片训练的人工智能已经开始发展视觉想象力。OpenAI的DALL-E 2在6.5亿张图片上进行了训练,每张图片都配上了一个文本标签。DALL-E 2已经看到了旧石器时代人类压在洞穴天花板上的赭石手印。它可以模仿文艺复兴时期大师们的不同笔触风格。它可以幻化出奇特的动物混血儿的逼真宏图。一个有世界观的动画师可以用它来生成一个皮克斯风格的角色,然后用丰富而独特的环境来包围它。

由于我们倾向于在社交媒体上发布智能手机的照片,人类产生了大量的标签图像,即使标签只是一个简短的标题或地理标签。每年有多达1万亿张这样的图片被上传到互联网上,这还不包括YouTube视频,其中每张都是一系列的静态图片。要让人工智能看完我们这个物种的集体度假照片幻灯片需要很长的时间,更不用说我们的整个视觉输出了。根据Villalobos的说法,我们的训练图像短缺要到2030年和2060年之间的某个时候才会变得严重。

如果到本世纪中叶人工智能确实对新的输入感到饥渴,或者更早,就文本而言,该领域的数据驱动的进展可能会大大放缓,使人工智能和所有其他的东西都无法达到。我打电话给维拉罗伯斯,问他我们如何为人工智能增加人类的文化生产。"可能会有一些新的来源上线,"他告诉我。"自动驾驶汽车的广泛采用将导致前所未有的道路视频记录。"

维拉罗伯斯还提到了由人工智能创造的 "合成 "训练数据。在这种情况下,大型语言模型就像传说中的带打字机的猴子,只是更聪明,拥有功能无限的能量。它们可以写出数十亿本新小说,每本都有托尔斯泰式的长度。图像生成器同样可以通过调整现有的快照来创造新的训练数据,但不至于让它们触犯标签。目前还不清楚人工智能是否会通过吞噬它们自己创造的数据来学习新东西。也许这样做只会冲淡它们从人类制造的文本和图像中收集到的预测效力。维拉罗伯斯(Villalobos)的一位同事哈伊梅·塞维利亚(Jaime Sevilla)告诉我:"人们还没有使用很多这种东西,因为我们还没有用完数据。

维拉罗伯斯(Villalobos)的论文讨论了一套更令人不安的推测性工作方法。例如,我们都可以在脖子上戴上加密装置,记录我们的每一个语言行为。根据一项估计,人们平均每天要讲5000到20000个单词。在80亿人口中,这些话很快就会堆积起来。我们的短信也可能被记录下来,并被剥离出识别元数据。我们可以让每个白领工人接受匿名的按键记录,并将我们捕捉到的信息输入到巨大的数据库中,供我们的人工智能使用。维拉罗伯斯(Villalobos)严肃地指出,像这样的修复方法目前 "远远超出了奥弗顿窗口"。

也许到最后,大数据的回报会越来越少。仅仅因为我们最近的人工智能冬天被巨大的文本和图像所解冻,并不意味着我们的下一个冬天也会如此。也许相反,它将是一个或两个算法上的突破,最终用人工智能填充我们的世界。毕竟,我们知道自然界已经编写了自己的模式识别模式,而且到目前为止,它们甚至超过了我们最好的人工智能。我13岁的儿子摄取的单词比ChatGPT少好几个数量级,但他对书面文字的理解却要微妙得多。如果说他的大脑是靠算法运行的话,那么这些算法要比今天的人工智能所使用的算法更好。

然而,如果有一天,我们的数据采集型人工智能真的超过了人类的认知能力,我们将不得不安慰自己,因为它们是按照我们的形象制造的。AI不是外星人。它们不是异国的另类。它们是我们中的一员,它们来自这里。它们曾凝视过地球的风景。它们见过数十亿次太阳落在海洋上的情景。他们知道我们最古老的故事。他们使用我们对星星的命名。他们学会的第一个词是流、母亲、火和灰。v

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国意外发现“大宝藏”,价值高达800万亿,美媒:必须全球共享

中国意外发现“大宝藏”,价值高达800万亿,美媒:必须全球共享

常高俊April工作室
2024-05-08 20:34:35
华为创新充电器设计引发网友吐槽

华为创新充电器设计引发网友吐槽

驱动中国
2024-05-15 10:51:27
大家是否已经留意到,我国已经悄悄出现了十大奇特现象

大家是否已经留意到,我国已经悄悄出现了十大奇特现象

王二哥老搞笑
2024-05-15 19:29:20
人体最没用的6个器官,割掉反而更好?有的人早就没有了

人体最没用的6个器官,割掉反而更好?有的人早就没有了

今日养生之道
2024-05-14 23:25:08
现在月薪1万在中国是什么水平?

现在月薪1万在中国是什么水平?

陌小尘桑
2024-01-03 18:50:03
新疆不敌辽篮!赛后邱彪发言打脸杜锋,受到辽篮球迷的称赞

新疆不敌辽篮!赛后邱彪发言打脸杜锋,受到辽篮球迷的称赞

邹维体育
2024-05-15 22:08:13
比断供芯片更可怕?库克正式宣布!中国或成全球最大iPhone市场

比断供芯片更可怕?库克正式宣布!中国或成全球最大iPhone市场

奇奇怪怪的冒险
2024-05-14 14:29:23
国家疾控局称我国本土已监测到KP.2新冠变异株,此前已在美国蔓延

国家疾控局称我国本土已监测到KP.2新冠变异株,此前已在美国蔓延

第一财经资讯
2024-05-14 12:58:51
反超华为,号称中国第一大民企!营收超10000亿,拥有55万名员工

反超华为,号称中国第一大民企!营收超10000亿,拥有55万名员工

奉壹数码
2024-04-15 09:59:42
儿童不宜,汽车销售女主播疯狂露裙底,大尺度,网友:为了赚钱

儿童不宜,汽车销售女主播疯狂露裙底,大尺度,网友:为了赚钱

三月柳
2024-05-15 15:18:21
湖北大学回应:网传内容不实!

湖北大学回应:网传内容不实!

极目新闻
2024-05-15 15:35:20
涉嫌虚假申报,一百多个来自中国的集装箱货物在目的港被扣押

涉嫌虚假申报,一百多个来自中国的集装箱货物在目的港被扣押

壹航运
2024-05-14 18:00:29
嘴好了,脸怪了?王菲花百万治疗女儿唇裂,但脸是越来越奇怪了!

嘴好了,脸怪了?王菲花百万治疗女儿唇裂,但脸是越来越奇怪了!

天保影视V3
2024-05-14 06:00:03
哈马斯溃败,以军无人伤亡!

哈马斯溃败,以军无人伤亡!

非虚构故事
2024-05-09 21:53:46
具俊晔彻夜未归?大S颜面尽失!因具俊晔母亲节太抠门大S吵翻天!

具俊晔彻夜未归?大S颜面尽失!因具俊晔母亲节太抠门大S吵翻天!

娱乐的小灶
2024-05-15 14:19:36
这,才是教科书级别的救市!

这,才是教科书级别的救市!

大碗楼市
2024-05-15 08:04:27
从未见过,森林狼被连吹3个进攻犯规!马龙故意大骂裁判吃T,太精

从未见过,森林狼被连吹3个进攻犯规!马龙故意大骂裁判吃T,太精

嘴炮体坛
2024-05-15 11:48:20
武大教授称博士弟子论文遭“恶意评审”,学界如何看“盲审”?

武大教授称博士弟子论文遭“恶意评审”,学界如何看“盲审”?

澎湃新闻
2024-05-15 14:12:27
5月15日俄乌最新:俄国防部风暴继续,库兹涅佐夫中将落马

5月15日俄乌最新:俄国防部风暴继续,库兹涅佐夫中将落马

西楼饮月
2024-05-15 15:41:54
婚后生活不谐,老公居然帮妻子安排异性按摩,还主动腾出房间

婚后生活不谐,老公居然帮妻子安排异性按摩,还主动腾出房间

想养大熊猫
2024-05-08 10:15:01
2024-05-16 03:56:49
智科院
智科院
介绍最新的科技,科技发展。
53文章数 20关注度
往期回顾 全部

科技要闻

蔚来新品牌乐道L60预售价21.99万元起

头条要闻

美国得州一大桥因驳船撞击关闭 部分石油泄漏

头条要闻

美国得州一大桥因驳船撞击关闭 部分石油泄漏

体育要闻

乔丹-贝尔:CBA外援的另一种用法?

娱乐要闻

欧阳娜娜营销才女人设却没拿到学位?

财经要闻

楼市小作文来了,大招马上出?

汽车要闻

无感胜有感 驾驶沃尔沃EX30竟与众不同?

态度原创

家居
本地
手机
数码
公开课

家居要闻

吴家大宅 敛藏人生百味

本地新闻

云游中国|哪吒小镇,潮玩新地标!

手机要闻

iPhone 16 Pro Max最新机模与15 Pro Max对比 机身尺寸将明显增加

数码要闻

讯飞会议耳机Pro 2发布:1399元起 升级viaim AI

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版