网易首页 > 网易号 > 正文 申请入驻

吵翻天!ChatGPT到底懂不懂语言?PNAS:先研究什么是「理解」吧

0
分享至

新智元报道

编辑:LRS

【新智元导读】语言模型理解了人类语言吗?谁赞成,谁反对?

机器会不会思考这个问题就像问潜水艇会不会游泳一样。——Dijkstra

早在ChatGPT发布之前,业界就已经嗅到了大模型带来的变革。

去年10月14日,圣塔菲研究所(Santa Fe Institute)的教授Melanie Mitchell和David C. Krakauer在arXiv发布了一篇综述,全面调研了所有关于「大规模预训练语言模型是否可以理解语言」的相关争论,文中描述了「正方」和「反方」的论点,以及根据这些论点衍生的更广泛的智力科学的关键问题。

论文链接:https://arxiv.org/pdf/2210.13966.pdf

发表期刊:《美国科学院院报》(PNAS)

太长不看版:

  • 支持「理解」的主要论点是大型语言模型能够完成许多似乎需要理解后才能完成的任务。

  • 反对「理解」的主要论点是,以人类的角度来看,大型语言模型的理解力非常脆弱,比如无法理解prompt间的微妙变化;并且语言模型也没有现实世界的生活经验来验证他们的知识,多模态的语言模型可能会缓解这个问题。

最关键的问题在于,目前还没有人对「什么是理解」有一个可靠的定义,并且也不知道如何测试语言模型的理解能力,用于人类的测试不一定适用于测试大型语言模型的理解能力。

总之,大型语言模型能够理解语言,但可能是以一种不同于人类的理解方式。

研究人员认为,可以开发一种新的智力科学,深入研究不同的理解类型,找出不同理解模式的优势和局限性,同时整合不同理解形式产生的认知差异。

论文的第一作者Melanie Mitchell是Santa Fe研究所的教授,她于1990年博士毕业于密歇根大学,导师为侯世达(《哥德尔、艾舍尔、巴赫:集异璧之大成》的作者)和约翰霍兰德,她的主要研究方向为类比推理、复杂系统、遗传算法和细胞自动机。

到底什么叫做「理解」?

「何为理解」一直困扰着哲学家、认知科学家和教育家,研究人员经常以人类或其他动物作为「理解能力」的参照物。

直到最近,随着大规模人工智能系统的兴起,特别是大型语言模型(LLM)的出现,在人工智能界掀起了一场激烈的辩论,即现在是否可以说机器已经能够理解自然语言,从而理解语言所描述的物理和社会情况。

这不是一场单纯的学术辩论,机器理解世界的程度和方式对于人类能在多大程度上信任AI能够执行驾驶汽车、诊断疾病、照顾老人、教育儿童等任务,以便在人类有关的任务中采取有力且透明的行动。

目前的辩论表明,学术界在如何思考智能系统中的理解方面存在着一些分歧,特别是在依靠「统计相关性」和「因果机制」的心智模型(mental models)中,分歧更加明显。

不过,人工智能研究界对机器理解仍然达成了普遍共识,即,虽然人工智能系统在许多特定任务中表现出看似智能的行为,但它们并不像人类那样理解它们所处理的数据。

比如说,面部识别软件并不能理解面部是身体的一部分,也不理解面部表情在社会互动中的作用,更不能理解人类是如何以近乎无穷种方式来使用面部概念的。

同样,语音转文字和机器翻译程序也并不理解它们所处理的语言,自动驾驶系统也不理解司机和行人用来避免事故的微妙眼神接触或肢体语言的含义。

事实上,这些人工智能系统经常被提及的脆性(brittleness),即不可预测的错误和缺乏稳健的泛化能力,是评估AI理解力的关键指标。

在过去的几年里,大型语言模型(LLMs)在人工智能领域的受众和影响力激增,也改变了一些人对机器理解语言前景的看法。

大型预训练模型,也可以叫做基础模型(Foundation Models)是具有数十亿到上万亿个参数(权重)的深度神经网络,在海量自然语言语料库(包括网络文本、在线图书等)上进行「预训练」后得到。

模型在训练期间的任务是预测输入句子中的缺失部分,所以这种方法也叫做「自监督学习」,由此产生的网络是一个复杂的统计模型,可以得到训练数据中的单词和短语之间是如何相互关联的。

这种模型可以用来生成自然语言,并为特定的自然语言任务进行微调,或者进一步训练以更好地匹配「用户意图」,不过对于非专业人士和科学家来说,语言模型到底如何完成这些任务的,仍然是个谜。

神经网络的内部运行原理在很大程度上是不透明的,即使是构建这些网络的研究人员对这种规模的系统的直觉也是有限的。

神经科学家Terrence Sejnowski这样描述LLMs的涌现能力(emergence):

突破了某个阈值后,就好像外星人一下子出现了,可以用一种可怕的、人类交流的方式与我们交流。目前只有一件事是清楚的,大型语言模型并非人类,它们行为的某些方面似乎是智能的,但如果不是人类的智能,它们的智能的本质是什么?

支持理解派VS反对理解派

尽管大型语言模型展现出的性能让人震撼,但最先进的LLMs仍然容易受到脆性和非人类错误的影响。

不过可以观察到,网络性能随着其参数数量和训练语料规模的扩大而有明显改善,这也使得该领域的一些研究者声称,只要有足够大的网络和训练数据集,语言模型(多模态版本)也许是多模式版本--将导致人类水平的智能和理解。

一个新的人工智能口号已经出现:唯一要做的就是提升模型规模(Scale is all you need)!

这种说法也体现了人工智能研究界关于大型语言模型的争论:

一派认为,语言模型能够真正理解语言,并能以通用的方式进行推理(尽管还没有达到人类的水平)。

例如,谷歌的LaMDA系统在文本上进行了预训练,然后在对话任务上进行了微调,能够在非常广泛的领域内与用户进行对话。

另一派认为,像GPT-3或LaMDA这样的大型预训练模型,无论它们的语言输出多么流畅,都不能拥有理解力,因为这些模型没有实践经验,也没有世界的心智模型。

语言模型只是在预测大量文本集合中的单词方面的训练让它们学会了语言的形式,远远没有学会语言背后的意义。

仅靠语言训练的系统永远不会接近人类的智慧,即使从现在起一直训练到宇宙消亡为止。很明显,这些系统注定只能是浅层次的理解,永远无法接近我们在人类身上看到的全身心的思考。

另一位学者认为,在谈论这些系统时,智能、智能体以及推而广之的理解是错误的,语言模型实际上是人类知识的压缩库,更类似于图书馆或百科全书,而不是智能体。

例如,人类知道「痒」让我们发笑是什么意思,因为我们有身体;语言模型可以使用「痒」这个词,但它显然没有过这种感觉,理解「痒」是将一个词映射到一种感觉上,而不是映射到另一个词。

那些站「LLMs没有理解能力」一派的人认为,虽然大型语言模型的流畅性令人惊讶,但我们的惊讶反映了我们对统计相关性在这些模型的规模上能生成什么缺乏直觉。

2022年对自然语言处理社区的活跃研究人员进行的一项调查报告显示了这场辩论中的明显分歧。

当询问480名受访者是否同意关于LLMs是否能在原理上理解语言的说法,即「只对文本进行训练的生成式语言模型,只要有足够的数据和计算资源,就能在某种意义上理解自然语言」

调查结果五五开,一半(51%)同意,另一半(49%)不同意。

机器的理解不同于人类

虽然参与「LLM理解能力」辩论的双方都有充分的直觉来支持各自的观点,但目前可用来深入了解理解力的且基于认知科学的方法并不足以回答关于LLM的这类问题。

事实上,一些研究人员已经将心理测试(最初是为了评估人类的理解和推理机制)应用于LLMs,发现在某些情况下,LLMs确实在思想理论测试中表现出类似人类的反应,以及在推理评估中表现出类似人类的能力和偏见。

虽然这些测试被认为是评估人类泛化能力的可靠智能体,但对于人工智能系统来说可能不是这样。

大型语言模型有一种特别的能力来学习其训练数据和输入中的token之间的相关性,并且可以使用这种相关性来解决问题;相反,人类使用反映其现实世界经验的压缩概念。

当把为人类设计的测试应用于LLMs时,对结果的解释可能依赖于对人类认知的假设,而这些假设对这些模型来说可能根本不真实。

为了取得进展,科学家们将需要开发新的基准和探测方法,以了解不同类型的智能和理解的机制,包括我们所创造的新形式的「奇异的、类似心灵的实体」,目前也已经有了一些相关工作。

随着模型规模越来越大,能力更强的系统被开发出来后,关于LLMs中的理解能力的争论强调了我们需要「扩展我们的智能科学」,以便使得「理解」是有意义的,无论是对人还是机器都是如此。

神经科学家Terrence Sejnowski指出,专家们对LLMs智能的不同意见表明,我们基于自然智能的旧观念是不够的。

如果LLMs和相关模型通过利用前所未有的规模的统计相关性就能获得成功,也许可以被认为是一种「新的理解形式」, 一种能够实现非凡的、超人的预测能力的形式,例如DeepMind的AlphaZero和AlphaFold系统,它们分别给下棋和蛋白质结构预测领域带来了一种「外来」的直觉形式。

因此可以说,近年来,人工智能领域创造了具有新的理解模式的机器,很可能是一个全新的概念,随着我们在追求智能的难以捉摸的本质方面取得进展,这些新概念将继续得到丰富。

那些需要大量编码的知识、对性能要求很高的问题将会继续促进大规模统计模型的开发,而那些拥有有限知识和强大因果机制的问题将有利于理解人类智能。

未来的挑战是开发新的科学方法,以揭示不同形式的智能的详细理解机制,辨别它们的优势和局限,并学习如何整合这些真正不同的认知模式。

参考资料:

https://www.pnas.org/doi/10.1073/pnas.2215907120

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
关了关了就关了!没有没有就没有!超长高温日,沪上老人屡遭“极度尴尬”

关了关了就关了!没有没有就没有!超长高温日,沪上老人屡遭“极度尴尬”

新民晚报
2025-09-15 18:55:20
某音嘲讽泽连斯基,这风气对吗?

某音嘲讽泽连斯基,这风气对吗?

看看说说
2025-09-14 21:16:22
墨西哥女孩不听亲友劝阻远嫁中国,断了往来,5年后全家求援助

墨西哥女孩不听亲友劝阻远嫁中国,断了往来,5年后全家求援助

雅俗共赏1
2025-09-03 14:00:28
未来几年,将是微利世界,凯文凯利建议普通人,要守住松鼠法则

未来几年,将是微利世界,凯文凯利建议普通人,要守住松鼠法则

阿胖读书
2025-09-14 14:42:38
视频丨中美经贸马德里谈判最新结果公布

视频丨中美经贸马德里谈判最新结果公布

环球网资讯
2025-09-16 00:26:46
西贝合伙人回应西蓝花争议,怼罗永浩损人不利己:跟撒尿男孩没有太大区别

西贝合伙人回应西蓝花争议,怼罗永浩损人不利己:跟撒尿男孩没有太大区别

鞭牛士
2025-09-15 10:20:09
世锦赛男子跳远:中国选手两人晋级,石雨豪张溟鲲携手入围决赛

世锦赛男子跳远:中国选手两人晋级,石雨豪张溟鲲携手入围决赛

全景体育V
2025-09-15 20:43:43
月薪5万却留不住人,三年流失近19万,香港人为何纷纷逃离?

月薪5万却留不住人,三年流失近19万,香港人为何纷纷逃离?

青眼财经
2025-09-13 18:50:09
新婚夜妻子拒绝发生关系,隔天我就去办离婚手续,她瞬间慌了神

新婚夜妻子拒绝发生关系,隔天我就去办离婚手续,她瞬间慌了神

星宇共鸣
2025-09-10 17:22:18
梁晓声:中国富豪家庭92%将子女送往英美私校,既规避教育内卷...

梁晓声:中国富豪家庭92%将子女送往英美私校,既规避教育内卷...

清风拂心
2025-09-14 13:15:08
苹果发布包含全新液态玻璃设计的iOS 26和iPadOS 26

苹果发布包含全新液态玻璃设计的iOS 26和iPadOS 26

cnBeta.COM
2025-09-16 02:08:04
以色列打遍中东无敌手,唯一吓不倒的“硬骨头”,买了中国红旗-9

以色列打遍中东无敌手,唯一吓不倒的“硬骨头”,买了中国红旗-9

博览历史
2025-09-15 20:19:15
美国“星链”网络服务再次中断,乌克兰军方已无法使用

美国“星链”网络服务再次中断,乌克兰军方已无法使用

每日经济新闻
2025-09-15 18:38:10
18分惨败!广东男篮被新疆淘汰无缘8强:11冠王未来堪忧?

18分惨败!广东男篮被新疆淘汰无缘8强:11冠王未来堪忧?

篮球快餐车
2025-09-16 00:17:07
中国军团6胜2负!丁俊晖轰130分大胜,斯佳辉赢内战,雷佩凡爆冷

中国军团6胜2负!丁俊晖轰130分大胜,斯佳辉赢内战,雷佩凡爆冷

小李子爱体育
2025-09-16 03:19:21
罗永浩20年前简历曝光!吊打当下90%应届生...

罗永浩20年前简历曝光!吊打当下90%应届生...

实习僧
2025-09-15 13:47:07
清华博士庞众望拒绝2500万年薪的那一刻,顶尖的科技公司都沉默了

清华博士庞众望拒绝2500万年薪的那一刻,顶尖的科技公司都沉默了

玉辞心
2025-09-15 06:18:55
巴特尔女儿在新疆结婚!婚宴奢华,全家福曝光,郭士强吴庆龙到场

巴特尔女儿在新疆结婚!婚宴奢华,全家福曝光,郭士强吴庆龙到场

老吴说体育
2025-09-16 00:05:26
买房人快被逼疯了!

买房人快被逼疯了!

地产观点
2025-09-15 07:32:42
柯克死了,虽然特朗普给了他荣光,但他的模特媳妇和一双儿女谁管

柯克死了,虽然特朗普给了他荣光,但他的模特媳妇和一双儿女谁管

史书无明
2025-09-15 08:21:43
2025-09-16 05:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13452文章数 66154关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

本地
时尚
房产
健康
亲子

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

日常穿衣其实一点都不难,看看这些气质女性,穿得大方高级

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

内分泌科专家破解身高八大谣言

亲子要闻

我该怎么办呢?

无障碍浏览 进入关怀版