网易首页 > 网易号 > 正文 申请入驻

AI模型首次实现与人类专家等同的语言分析能力

0
分享至


摘要

当 OpenAI 的 o1 模型在无训练语料的虚构语言中,表现出精准绘制句法树、破解中心递归、厘清单句歧义并自主发现音系规则的能力后,语言学家不得不重新回答那个古老问题:如果语言曾被视为人类最后的“专属领地”,人类再次追问语言的独特性究竟还剩多少?

关键词:LLMs;语言能力;递归;句法树;音系推理

Steve Nadis丨作者

任筱芃丨译者

赵思怡丨审校


如果语言是人之所以为人的特性,那么当大语言模型获得了“元语言”能力,这又意味着什么?

在人类拥有的无穷多量的能力中,哪些是人类独有的?至少从亚里士多德开始,语言就一直是首要的备选答案。他曾写道,人类是“拥有语言的动物”。尽管像 ChatGPT 这样的大语言模型在表面上复制了日常言谈,但研究人员想知道,人类语言的某些特定方面是否独特到在其他动物或人工智能设备的通信系统中根本不存在对应物。


Noam Chomsky,语言学家

研究人员尤其一直在探索语言模型在多大程度上能够对语言本身进行推理。对于语言学界的一些人来说,语言模型不仅没有推理能力,而且也没有对应的潜力。著名语言学家诺姆·乔姆斯基(Noam Chomsky)与伊恩·罗伯茨(Ian Roberts)、杰弗里·瓦图穆尔(Jeffrey Watmull)在 2023 年声明了这一观点,他们当时在《纽约时报》上写道:“对语言的正确解释是复杂的,不能仅仅通过沉浸在大数据中就学会。”这些研究人员认为,人工智能模型或许擅长使用语言,但它们没有能力以复杂的方式分析语言。


Gašper Beguš, 加州大学伯克利分校语言学家

这一观点在最近的一篇论文——《Large linguistic models: Investigating LLMs’ metalinguistic abilities》——中受到了挑战,该论文由加州大学伯克利分校的语言学家 Gašper Beguš、最近在伯克利获得语言学博士学位的 Maksymilian Dąbkowski 以及罗格斯大学的 Ryan Rhodes 共同撰写。研究人员让多个大语言模型接受了一系列语言学测试——其中一项测试是让大语言模型归纳一种虚构语言的规则。虽然大多数大语言模型未能像人类那样解析语言规则,但其中一个模型展现出了令人印象深刻的能力,远远超出了预期。它能够像语言学专业的研究生一样分析语言——绘制句子结构图、解析多种歧义,并利用像递归recursion)这样的复杂语言特性。Beguš 说,这一发现“挑战了我们对人工智能潜力的理解”。


Tom McCoy, 耶鲁大学计算语言学家

“这项新工作既及时又‘非常重要’,”耶鲁大学计算语言学家 Tom McCoy 说道(他并未参与这项研究)“随着社会对这项技术的依赖程度越来越高,了解它在哪些方面可能成功以及在哪些方面可能失败变得日益重要。”他补充说,语言分析是评估这些语言模型在多大程度上能像人类一样推理的理想试验台。

无限的复杂性

对语言模型进行严格的语言学测试,挑战的一部分是确保它们事先并不知道答案。这些系统通常在海量的书面信息上进行训练——不仅包括互联网上的大量内容(涵盖几十甚至上百种语言),还包括语言学教科书。理论上,模型可能只是死记硬背了训练时见过的内容,然后在测试中原样输出。

为了避免这种情况,Beguš 和他的同事设计了一个分为四个部分的语言学测试。其中三个部分要求模型使用树状图来分析特制的句子,这种图表最早由乔姆斯基在其 1957 年的里程碑式著作《句法结构》(Syntactic Structures)中引入。这些图表将句子分解为名词短语和动词短语,然后再进一步细分为名词、动词、形容词、副词、介词、连词等。

测试的另一部分则聚焦于递归——也就是把短语嵌套进其他短语的能力。比如,“The sky is blue”(天空是蓝色的)是一个简单的英语句子。“Jane said that the sky is blue”(简说天空是蓝色的)则把原句嵌套进了一个更复杂的结构中。重要的是,这种递归过程可以无限进行。“Maria wondered if Sam knew that Omar heard that Jane said that the sky is blue”(玛丽亚想知道萨姆是否知道奥马尔听说简说天空是蓝色的)虽然听起来有点拗口,但在语法上仍然是正确的递归句。

递归不仅是语言的关键要素,也是自然界的一个特征。例如,在加拿大北部的维多利亚岛上,人们可以找到一个位于岛上湖泊中的小岛。但那个小岛本身又位于一个更大的岛上的湖泊中。这个最里面的无名岛是已知最大的“三阶”岛屿,它有时被开玩笑地称为“盗梦岛”(Inception Island),源于 2010 年克里斯托弗·诺兰执导的电影《盗梦空间》(Inception),影片中角色们会进入梦中梦的梦中世界。

递归一直被乔姆斯基等人称为人类语言的决定性特征之一。实际上,它或许也是人类思维的决定性特征。语言学家认为,正是递归的无限潜力,使得人类语言能够用有限的词汇和有限的规则,生成无限多的可能句子。到目前为止,还没有令人信服的证据表明其他动物能够以复杂的方式使用递归。

递归可以发生在句首或句尾,但最难掌握的形式是发生在句中的中心嵌入center embedding)。例如,从“the cat died(猫死了)”变成“the cat the dog bit died(狗咬了的那只猫死了)”。

Beguš 的测试向语言模型输入了 30 个包含复杂递归例子的原创句子。例如:“The astronomy the ancients we revere studied was not separate from astrology。”(我们崇敬的古人所研究的天文学与占星术并非泾渭分明。)使用句法树,其中一个语言模型——OpenAI 的 o1——能够确定该句子的结构如下:

The astronomy [the ancients [we revere] studied] was not separate from astrology. 我们崇敬的古人所研究的天文学与占星术并非泾渭分明。

该模型随后更进一步,为该句子添加了另一层递归:

The astronomy [the ancients [we revere [who lived in lands we cherish]] studied] was not separate from astrology. 我们所尊敬的那些生活在我们珍视的土地上的古人所研究的天文学与占星术并非泾渭分明。

Beguš 和其他一些人没有预料到,这项研究会发现一个具有更高层次“元语言”(metalinguistic)能力的 AI 模型——正如他所说,这“不仅是使用语言的能力,更是思考语言的能力”。


David Mortensen, 卡内基梅隆大学计算语言学家

“这是他们论文中‘引人注目’的方面之一,”卡内基梅隆大学的计算语言学家 David Mortensen 说道。关于语言模型是否只是在预测句子中的下一个词或语言学上的标记 (token)一直存在争议。这种能力与人类对语言的深刻理解有着本质区别。“语言学界的一些人曾说,大语言模型并不是真的在‘处理’语言,”他说。“这项研究看起来像是否定了那些说法。”

你什么意思?

McCoy 对 o1 模型的整体表现感到惊讶,尤其是它识别歧义的能力,他说,这是众所周知的计算语言模型难以捕捉的东西。人类“拥有大量的常识知识,使我们能够排除歧义。但计算机很难拥有那种程度的常识知识。”

例如“Rowan fed his pet chicken”这样的句子,既可以描述罗文(Rowan)喂了他当宠物养的鸡,也可以描述他喂了他的(大概是更传统的意义上的)动物伴侣一顿鸡肉。o1 模型正确地生成了两棵不同的句法树,一棵对应句子的第一种解释,另一棵对应第二种解释。

研究人员还进行了一些与音系学(phonology)相关的实验。该学科研究声音的模式以及最小声音单位——称为音位 (phonemes) ——的组织方式。为了像母语者一样流利地说话,人们会遵循一些音系规则,这些规则可能是通过练习习得的,而从未被明确教授过。例如,在英语中,在以“g”结尾的单词后添加“s”会产生“z”音,如“dogs”。但是,在以“t”结尾的单词后添加“s”,发音则更接近标准的“s”,如“cats”。

在音系学任务中,研究小组创造了 30 种新的“迷你语言”(Beguš 称之为),以测试大语言模型是否能在没有任何先验知识的情况下正确推断出音系规则。每种语言包含 40 个虚构词。以下是其中一种语言的示例词:

θalp ʃebre ði̤zṳ ga̤rbo̤nda̤ ʒi̤zṳðe̤jo

然后,他们要求语言模型分析每种语言的音系过程。对于上面这种语言,o1模型正确地写出:“当一个元音紧接在一个既是浊音又是阻碍音(obstruent)的辅音之后时,它就会变成一个气声元音(breathy vowel)”—— 阻碍音是一种通过限制气流形成的音,比如“top”中的“t”。

这些语言是新发明的,所以 o1 不可能在训练期间接触过它们。“我没想到结果会如此出色,如此令人印象深刻,”Mortensen 说。

非得是人类吗?

这些语言模型能走多远?它们会仅仅通过变得更大——叠加更多的计算能力、更复杂的结构和更多的训练数据——就无限地变得更好吗?还是说,人类语言的某些特征是我们物种独有的进化过程的结果?

最近的研究结果表明,这些模型原则上可以进行复杂的语言学分析。但是,目前还没有一个模型能提出任何原创性的东西,也没有教会我们任何关于语言的、我们以前不知道的知识。

如果模型的改进真的只是增加计算能力和训练数据的问题,那么 Beguš 认为语言模型最终将在语言技能上超越我们。Mortensen 则表示,当前的模型有一定局限性。“它们被训练来做一件非常具体的事情:给定一个标记(tokens)或单词的历史,预测下一个标记,”他说。“由于它们被训练的方式,它们在概括方面存在一些困难。”

但考虑到最近的进展,Mortensen 表示,他看不出任何理由语言模型最终不会表现出超越人类的语言理解能力。“用不了多久,我们就能打造出用更少数据做出更好泛化、且更具创造力的模型。”

Beguš 指出,新结果正一步步“削平”那些曾被视为人类语言专属领地的特性。“看起来,我们并没有我们以为的那么独一无二。”

参考文献

https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

因果科学第五季

集智俱乐部联合北京大学大数据科学研究中心博士研究生李昊轩、伦敦大学学院计算机博士研究生杨梦月,卡耐基梅隆大学和穆罕默德·本·扎耶德人工智能大学博士后研究员陈广义共同发起。这是我们因果科学系列读书会的第五季,旨在探讨在大模型之后为何仍需“因果科学”?大模型如何推动因果科学的研究进展?因果科学能否在推理能力、可解释性和可信性等方面启发更优大模型的设计?以及因果科学的最新进展如何在实际领域中应用和落地?希望汇聚相关领域的学者,共同探讨因果科学的发展和挑战,推动学科发展。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:

1.

2.

3.

4.

5.

6.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王毅同巴基斯坦副总理兼外长达尔举行中巴外长战略对话

王毅同巴基斯坦副总理兼外长达尔举行中巴外长战略对话

界面新闻
2026-01-04 22:41:22
马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

装甲铲史官
2026-01-04 15:14:32
这种“夺命”洗衣液别再用了,有致癌的风险!很多人中招却不知道

这种“夺命”洗衣液别再用了,有致癌的风险!很多人中招却不知道

三农老历
2026-01-03 09:51:14
84岁“中国鞋王”汪海声明与儿子、儿媳断绝关系:中国人的民族品牌,绝不能让“美国身份的人”接班

84岁“中国鞋王”汪海声明与儿子、儿媳断绝关系:中国人的民族品牌,绝不能让“美国身份的人”接班

都市快报橙柿互动
2026-01-04 20:37:08
全球焦点!新机官宣:1月6日,正式发布登场!

全球焦点!新机官宣:1月6日,正式发布登场!

科技堡垒
2026-01-04 11:28:51
《人民日报》:父母经常说这些话,孩子往往内心强大、情绪稳定

《人民日报》:父母经常说这些话,孩子往往内心强大、情绪稳定

育儿读书乐
2026-01-03 13:24:01
最低9.9!对标山姆冲刺百店,“穷鬼超市”来势汹汹,打工人狂喜

最低9.9!对标山姆冲刺百店,“穷鬼超市”来势汹汹,打工人狂喜

财经八卦
2026-01-04 17:16:59
住建部新规一出,二手房彻底“废”了?这波降维打击太狠了!

住建部新规一出,二手房彻底“废”了?这波降维打击太狠了!

悠闲葡萄
2026-01-04 17:05:00
局势失控?美国抓获马杜罗后,俄罗斯古巴强硬表态,拉美多国戒备

局势失控?美国抓获马杜罗后,俄罗斯古巴强硬表态,拉美多国戒备

荷兰豆爱健康
2026-01-03 21:51:06
中企在拉美投资“卡壳”!花22个月建成的铜矿无法投产:总统换了人,主管部门领导也换了多次

中企在拉美投资“卡壳”!花22个月建成的铜矿无法投产:总统换了人,主管部门领导也换了多次

每日经济新闻
2026-01-04 20:26:08
特朗普突然发动战争,中国代表团还在委内瑞拉!

特朗普突然发动战争,中国代表团还在委内瑞拉!

胜研集
2026-01-03 17:14:34
各大卫视跨年晚会过后,终于意识到内娱真的完了

各大卫视跨年晚会过后,终于意识到内娱真的完了

星宿影视鸭
2026-01-02 15:11:22
存储大涨价时,企业如何在云上「渡劫」?

存储大涨价时,企业如何在云上「渡劫」?

白洞计划
2025-12-30 18:06:15
42岁金莎商演3首歌35万,敬业冻红胳膊坚持挣干净钱

42岁金莎商演3首歌35万,敬业冻红胳膊坚持挣干净钱

车窗起雾q
2026-01-04 11:37:31
新年首个工作日,中纪委连打4“虎”,释放何种信号?

新年首个工作日,中纪委连打4“虎”,释放何种信号?

南方都市报
2026-01-04 17:30:14
福建籍女网红流落柬埔寨街头 中使馆回应:已找到该女子并联系其家属准备接回

福建籍女网红流落柬埔寨街头 中使馆回应:已找到该女子并联系其家属准备接回

封面新闻
2026-01-04 21:37:31
中国唯一飞往委内瑞拉航班取消,客机将空机返委,航司称12天后委内瑞拉飞中国航班正常,在委华人近日可中转回国

中国唯一飞往委内瑞拉航班取消,客机将空机返委,航司称12天后委内瑞拉飞中国航班正常,在委华人近日可中转回国

极目新闻
2026-01-04 13:50:57
委内瑞拉副总统任“代总统”,分析人士:她是政府内部一位“极具分量”的人物

委内瑞拉副总统任“代总统”,分析人士:她是政府内部一位“极具分量”的人物

红星新闻
2026-01-04 17:57:14
鲁比奥:马杜罗于2020年在美国被起诉,他不是委内瑞拉的合法总统

鲁比奥:马杜罗于2020年在美国被起诉,他不是委内瑞拉的合法总统

侦姐有料
2026-01-04 01:32:40
突发! 大批澳洲华人无法使用国内app, Optus回应: 已阻断和澳洲之间的全部联网

突发! 大批澳洲华人无法使用国内app, Optus回应: 已阻断和澳洲之间的全部联网

澳微Daily
2026-01-04 15:00:01
2026-01-04 23:28:49
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5585文章数 4661关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

委内瑞拉女副总统任"代总统" 被指是"极具分量"的人物

头条要闻

委内瑞拉女副总统任"代总统" 被指是"极具分量"的人物

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

时尚
艺术
手机
本地
军事航空

这才是中年女人该有的打扮,不扮嫩、不穿花,简约大方还显贵

艺术要闻

故宫一级文物:和珅送给乾隆的80大寿贺礼

手机要闻

联想moto Signature手机完整规格曝光

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

军事要闻

美军突袭抓获马杜罗 三个细节值得关注

无障碍浏览 进入关怀版