网易首页 > 网易号 > 正文 申请入驻

AI模型首次实现与人类专家等同的语言分析能力

0
分享至


摘要

当 OpenAI 的 o1 模型在无训练语料的虚构语言中,表现出精准绘制句法树、破解中心递归、厘清单句歧义并自主发现音系规则的能力后,语言学家不得不重新回答那个古老问题:如果语言曾被视为人类最后的“专属领地”,人类再次追问语言的独特性究竟还剩多少?

关键词:LLMs;语言能力;递归;句法树;音系推理

来源:集智俱乐部

作者:Steve Nadis

译者:任筱芃

审校:赵思怡

如果语言是人之所以为人的特性,那么当大语言模型获得了“元语言”能力,这又意味着什么?

在人类拥有的无穷多量的能力中,哪些是人类独有的?至少从亚里士多德开始,语言就一直是首要的备选答案。他曾写道,人类是“拥有语言的动物”。尽管像 ChatGPT 这样的大语言模型在表面上复制了日常言谈,但研究人员想知道,人类语言的某些特定方面是否独特到在其他动物或人工智能设备的通信系统中根本不存在对应物。


Noam Chomsky,语言学家

研究人员尤其一直在探索语言模型在多大程度上能够对语言本身进行推理。对于语言学界的一些人来说,语言模型不仅没有推理能力,而且也没有对应的潜力。著名语言学家诺姆·乔姆斯基(Noam Chomsky)与伊恩·罗伯茨(Ian Roberts)、杰弗里·瓦图穆尔(Jeffrey Watmull)在 2023 年声明了这一观点,他们当时在《纽约时报》上写道:“对语言的正确解释是复杂的,不能仅仅通过沉浸在大数据中就学会。”这些研究人员认为,人工智能模型或许擅长使用语言,但它们没有能力以复杂的方式分析语言。


Gašper Beguš, 加州大学伯克利分校语言学家

这一观点在最近的一篇论文——《Large linguistic models: Investigating LLMs’ metalinguistic abilities》——中受到了挑战,该论文由加州大学伯克利分校的语言学家 Gašper Beguš、最近在伯克利获得语言学博士学位的 Maksymilian Dąbkowski 以及罗格斯大学的 Ryan Rhodes 共同撰写。研究人员让多个大语言模型接受了一系列语言学测试——其中一项测试是让大语言模型归纳一种虚构语言的规则。虽然大多数大语言模型未能像人类那样解析语言规则,但其中一个模型展现出了令人印象深刻的能力,远远超出了预期。它能够像语言学专业的研究生一样分析语言——绘制句子结构图、解析多种歧义,并利用像递归recursion)这样的复杂语言特性。Beguš 说,这一发现“挑战了我们对人工智能潜力的理解”。


Tom McCoy, 耶鲁大学计算语言学家

“这项新工作既及时又‘非常重要’,”耶鲁大学计算语言学家 Tom McCoy 说道(他并未参与这项研究)“随着社会对这项技术的依赖程度越来越高,了解它在哪些方面可能成功以及在哪些方面可能失败变得日益重要。”他补充说,语言分析是评估这些语言模型在多大程度上能像人类一样推理的理想试验台。

无限的复杂性

对语言模型进行严格的语言学测试,挑战的一部分是确保它们事先并不知道答案。这些系统通常在海量的书面信息上进行训练——不仅包括互联网上的大量内容(涵盖几十甚至上百种语言),还包括语言学教科书。理论上,模型可能只是死记硬背了训练时见过的内容,然后在测试中原样输出。

为了避免这种情况,Beguš 和他的同事设计了一个分为四个部分的语言学测试。其中三个部分要求模型使用树状图来分析特制的句子,这种图表最早由乔姆斯基在其 1957 年的里程碑式著作《句法结构》(Syntactic Structures)中引入。这些图表将句子分解为名词短语和动词短语,然后再进一步细分为名词、动词、形容词、副词、介词、连词等。

测试的另一部分则聚焦于递归——也就是把短语嵌套进其他短语的能力。比如,“The sky is blue”(天空是蓝色的)是一个简单的英语句子。“Jane said that the sky is blue”(简说天空是蓝色的)则把原句嵌套进了一个更复杂的结构中。重要的是,这种递归过程可以无限进行。“Maria wondered if Sam knew that Omar heard that Jane said that the sky is blue”(玛丽亚想知道萨姆是否知道奥马尔听说简说天空是蓝色的)虽然听起来有点拗口,但在语法上仍然是正确的递归句。

递归不仅是语言的关键要素,也是自然界的一个特征。例如,在加拿大北部的维多利亚岛上,人们可以找到一个位于岛上湖泊中的小岛。但那个小岛本身又位于一个更大的岛上的湖泊中。这个最里面的无名岛是已知最大的“三阶”岛屿,它有时被开玩笑地称为“盗梦岛”(Inception Island),源于 2010 年克里斯托弗·诺兰执导的电影《盗梦空间》(Inception),影片中角色们会进入梦中梦的梦中世界。

递归一直被乔姆斯基等人称为人类语言的决定性特征之一。实际上,它或许也是人类思维的决定性特征。语言学家认为,正是递归的无限潜力,使得人类语言能够用有限的词汇和有限的规则,生成无限多的可能句子。到目前为止,还没有令人信服的证据表明其他动物能够以复杂的方式使用递归。

递归可以发生在句首或句尾,但最难掌握的形式是发生在句中的中心嵌入center embedding)。例如,从“the cat died(猫死了)”变成“the cat the dog bit died(狗咬了的那只猫死了)”。

Beguš 的测试向语言模型输入了 30 个包含复杂递归例子的原创句子。例如:“The astronomy the ancients we revere studied was not separate from astrology。”(我们崇敬的古人所研究的天文学与占星术并非泾渭分明。)使用句法树,其中一个语言模型——OpenAI 的 o1——能够确定该句子的结构如下:

The astronomy [the ancients [we revere] studied] was not separate from astrology. 我们崇敬的古人所研究的天文学与占星术并非泾渭分明。

该模型随后更进一步,为该句子添加了另一层递归:

The astronomy [the ancients [we revere [who lived in lands we cherish]] studied] was not separate from astrology. 我们所尊敬的那些生活在我们珍视的土地上的古人所研究的天文学与占星术并非泾渭分明。

Beguš 和其他一些人没有预料到,这项研究会发现一个具有更高层次“元语言”(metalinguistic)能力的 AI 模型——正如他所说,这“不仅是使用语言的能力,更是思考语言的能力”。


David Mortensen, 卡内基梅隆大学计算语言学家

“这是他们论文中‘引人注目’的方面之一,”卡内基梅隆大学的计算语言学家 David Mortensen 说道。关于语言模型是否只是在预测句子中的下一个词或语言学上的标记 (token)一直存在争议。这种能力与人类对语言的深刻理解有着本质区别。“语言学界的一些人曾说,大语言模型并不是真的在‘处理’语言,”他说。“这项研究看起来像是否定了那些说法。”

你什么意思?

McCoy 对 o1 模型的整体表现感到惊讶,尤其是它识别歧义的能力,他说,这是众所周知的计算语言模型难以捕捉的东西。人类“拥有大量的常识知识,使我们能够排除歧义。但计算机很难拥有那种程度的常识知识。”

例如“Rowan fed his pet chicken”这样的句子,既可以描述罗文(Rowan)喂了他当宠物养的鸡,也可以描述他喂了他的(大概是更传统的意义上的)动物伴侣一顿鸡肉。o1 模型正确地生成了两棵不同的句法树,一棵对应句子的第一种解释,另一棵对应第二种解释。

研究人员还进行了一些与音系学(phonology)相关的实验。该学科研究声音的模式以及最小声音单位——称为音位 (phonemes) ——的组织方式。为了像母语者一样流利地说话,人们会遵循一些音系规则,这些规则可能是通过练习习得的,而从未被明确教授过。例如,在英语中,在以“g”结尾的单词后添加“s”会产生“z”音,如“dogs”。但是,在以“t”结尾的单词后添加“s”,发音则更接近标准的“s”,如“cats”。

在音系学任务中,研究小组创造了 30 种新的“迷你语言”(Beguš 称之为),以测试大语言模型是否能在没有任何先验知识的情况下正确推断出音系规则。每种语言包含 40 个虚构词。以下是其中一种语言的示例词:

θalp ʃebre ði̤zṳ ga̤rbo̤nda̤ ʒi̤zṳðe̤jo

然后,他们要求语言模型分析每种语言的音系过程。对于上面这种语言,o1模型正确地写出:“当一个元音紧接在一个既是浊音又是阻碍音(obstruent)的辅音之后时,它就会变成一个气声元音(breathy vowel)”—— 阻碍音是一种通过限制气流形成的音,比如“top”中的“t”。

这些语言是新发明的,所以 o1 不可能在训练期间接触过它们。“我没想到结果会如此出色,如此令人印象深刻,”Mortensen 说。

非得是人类吗?

这些语言模型能走多远?它们会仅仅通过变得更大——叠加更多的计算能力、更复杂的结构和更多的训练数据——就无限地变得更好吗?还是说,人类语言的某些特征是我们物种独有的进化过程的结果?

最近的研究结果表明,这些模型原则上可以进行复杂的语言学分析。但是,目前还没有一个模型能提出任何原创性的东西,也没有教会我们任何关于语言的、我们以前不知道的知识。

如果模型的改进真的只是增加计算能力和训练数据的问题,那么 Beguš 认为语言模型最终将在语言技能上超越我们。Mortensen 则表示,当前的模型有一定局限性。“它们被训练来做一件非常具体的事情:给定一个标记(tokens)或单词的历史,预测下一个标记,”他说。“由于它们被训练的方式,它们在概括方面存在一些困难。”

但考虑到最近的进展,Mortensen 表示,他看不出任何理由语言模型最终不会表现出超越人类的语言理解能力。“用不了多久,我们就能打造出用更少数据做出更好泛化、且更具创造力的模型。”

Beguš 指出,新结果正一步步“削平”那些曾被视为人类语言专属领地的特性。“看起来,我们并没有我们以为的那么独一无二。”

参考文献

https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“危险的先例”,马来西亚总理发声

“危险的先例”,马来西亚总理发声

观察者网
2026-01-04 20:16:17
陈震老婆遭“骚扰”!

陈震老婆遭“骚扰”!

电动知家
2026-01-04 11:41:46
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
司晓迪给男星船上技术排名!汪峰上不了热搜!

司晓迪给男星船上技术排名!汪峰上不了热搜!

八卦疯叔
2026-01-04 11:45:00
克林根24+12!杨瀚森2+2,开拓者爆冷掀翻马刺,诞生4个不可思议

克林根24+12!杨瀚森2+2,开拓者爆冷掀翻马刺,诞生4个不可思议

球场没跑道
2026-01-04 11:35:42
傻狍子跟兄弟共用炮友

傻狍子跟兄弟共用炮友

毒舌扒姨太
2026-01-04 22:28:02
南博的风刮到国博!山东大叔捐万历鎏金佛像,20年寻踪竟查无此物

南博的风刮到国博!山东大叔捐万历鎏金佛像,20年寻踪竟查无此物

奇思妙想草叶君
2026-01-02 10:54:18
哪些事是外国人到中国后才知道的?网友:你来天朝!你就涨知识吧

哪些事是外国人到中国后才知道的?网友:你来天朝!你就涨知识吧

带你感受人间冷暖
2025-12-24 00:10:09
英媒称,继委内瑞拉之后,伊朗和丹麦可能成为美国的下一个目标

英媒称,继委内瑞拉之后,伊朗和丹麦可能成为美国的下一个目标

山河路口
2026-01-04 23:06:00
中国有可能迎来巨大机遇,美国对委内瑞拉出手,就是在给中...

中国有可能迎来巨大机遇,美国对委内瑞拉出手,就是在给中...

砚底沉香
2026-01-04 12:02:23
内塔尼亚胡:支持美国对委内瑞拉的行动,祝贺特朗普,并向执行的美军致意

内塔尼亚胡:支持美国对委内瑞拉的行动,祝贺特朗普,并向执行的美军致意

扬子晚报
2026-01-04 21:42:52
官媒下场点名!“皇子”登基观众不买账,内娱世袭制为何惹众怒

官媒下场点名!“皇子”登基观众不买账,内娱世袭制为何惹众怒

以茶带书
2025-12-11 12:36:49
2025年北京机动车结构达到全国最优

2025年北京机动车结构达到全国最优

中国能源网
2026-01-04 15:45:11
古巨基也没想到,官宣二胎不到24小时,让人恶心的一幕就发生了

古巨基也没想到,官宣二胎不到24小时,让人恶心的一幕就发生了

无心小姐姐
2026-01-04 23:02:52
狐狸尾巴藏不住了!以为能"毁掉"樊振东,不料自己先被扒个底朝天

狐狸尾巴藏不住了!以为能"毁掉"樊振东,不料自己先被扒个底朝天

观察鉴娱
2025-12-27 10:02:21
袁世凯10个老婆有多美?3个来自青楼,3个来自朝鲜,个个貌美如花

袁世凯10个老婆有多美?3个来自青楼,3个来自朝鲜,个个貌美如花

瑶卿文史
2026-01-04 00:16:54
年薪50万带公司牛奶回家被妻子指责:知情人曝内情,果然有情况

年薪50万带公司牛奶回家被妻子指责:知情人曝内情,果然有情况

奇思妙想草叶君
2026-01-04 15:13:33
历史上根本不存在的10个人物,个个家喻户晓,骗了我们数百年

历史上根本不存在的10个人物,个个家喻户晓,骗了我们数百年

七号说三国
2026-01-04 17:41:57
孕31周女子被打后续:坚持离婚不妥协,官方介入,男子正脸曝光

孕31周女子被打后续:坚持离婚不妥协,官方介入,男子正脸曝光

阿讯说天下
2026-01-04 11:11:24
马卡:FIFA或修改伤停规则以减少拖延时间,今年世界杯或试行

马卡:FIFA或修改伤停规则以减少拖延时间,今年世界杯或试行

懂球帝
2026-01-04 21:00:22
2026-01-05 00:36:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4445文章数 37360关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

特朗普为什么还要掳走马杜罗夫人 美媒分析

头条要闻

特朗普为什么还要掳走马杜罗夫人 美媒分析

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

艺术
亲子
旅游
本地
公开课

艺术要闻

故宫一级文物:和珅送给乾隆的80大寿贺礼

亲子要闻

孩子游玩快乐简短美句

旅游要闻

地铁直达!深圳这一片花海刷屏!

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版