网易首页 > 网易号 > 正文 申请入驻

AI模型首次实现与人类专家等同的语言分析能力

0
分享至


摘要

当 OpenAI 的 o1 模型在无训练语料的虚构语言中,表现出精准绘制句法树、破解中心递归、厘清单句歧义并自主发现音系规则的能力后,语言学家不得不重新回答那个古老问题:如果语言曾被视为人类最后的“专属领地”,人类再次追问语言的独特性究竟还剩多少?

关键词:LLMs;语言能力;递归;句法树;音系推理

来源:集智俱乐部

作者:Steve Nadis

译者:任筱芃

审校:赵思怡

如果语言是人之所以为人的特性,那么当大语言模型获得了“元语言”能力,这又意味着什么?

在人类拥有的无穷多量的能力中,哪些是人类独有的?至少从亚里士多德开始,语言就一直是首要的备选答案。他曾写道,人类是“拥有语言的动物”。尽管像 ChatGPT 这样的大语言模型在表面上复制了日常言谈,但研究人员想知道,人类语言的某些特定方面是否独特到在其他动物或人工智能设备的通信系统中根本不存在对应物。


Noam Chomsky,语言学家

研究人员尤其一直在探索语言模型在多大程度上能够对语言本身进行推理。对于语言学界的一些人来说,语言模型不仅没有推理能力,而且也没有对应的潜力。著名语言学家诺姆·乔姆斯基(Noam Chomsky)与伊恩·罗伯茨(Ian Roberts)、杰弗里·瓦图穆尔(Jeffrey Watmull)在 2023 年声明了这一观点,他们当时在《纽约时报》上写道:“对语言的正确解释是复杂的,不能仅仅通过沉浸在大数据中就学会。”这些研究人员认为,人工智能模型或许擅长使用语言,但它们没有能力以复杂的方式分析语言。


Gašper Beguš, 加州大学伯克利分校语言学家

这一观点在最近的一篇论文——《Large linguistic models: Investigating LLMs’ metalinguistic abilities》——中受到了挑战,该论文由加州大学伯克利分校的语言学家 Gašper Beguš、最近在伯克利获得语言学博士学位的 Maksymilian Dąbkowski 以及罗格斯大学的 Ryan Rhodes 共同撰写。研究人员让多个大语言模型接受了一系列语言学测试——其中一项测试是让大语言模型归纳一种虚构语言的规则。虽然大多数大语言模型未能像人类那样解析语言规则,但其中一个模型展现出了令人印象深刻的能力,远远超出了预期。它能够像语言学专业的研究生一样分析语言——绘制句子结构图、解析多种歧义,并利用像递归recursion)这样的复杂语言特性。Beguš 说,这一发现“挑战了我们对人工智能潜力的理解”。


Tom McCoy, 耶鲁大学计算语言学家

“这项新工作既及时又‘非常重要’,”耶鲁大学计算语言学家 Tom McCoy 说道(他并未参与这项研究)“随着社会对这项技术的依赖程度越来越高,了解它在哪些方面可能成功以及在哪些方面可能失败变得日益重要。”他补充说,语言分析是评估这些语言模型在多大程度上能像人类一样推理的理想试验台。

无限的复杂性

对语言模型进行严格的语言学测试,挑战的一部分是确保它们事先并不知道答案。这些系统通常在海量的书面信息上进行训练——不仅包括互联网上的大量内容(涵盖几十甚至上百种语言),还包括语言学教科书。理论上,模型可能只是死记硬背了训练时见过的内容,然后在测试中原样输出。

为了避免这种情况,Beguš 和他的同事设计了一个分为四个部分的语言学测试。其中三个部分要求模型使用树状图来分析特制的句子,这种图表最早由乔姆斯基在其 1957 年的里程碑式著作《句法结构》(Syntactic Structures)中引入。这些图表将句子分解为名词短语和动词短语,然后再进一步细分为名词、动词、形容词、副词、介词、连词等。

测试的另一部分则聚焦于递归——也就是把短语嵌套进其他短语的能力。比如,“The sky is blue”(天空是蓝色的)是一个简单的英语句子。“Jane said that the sky is blue”(简说天空是蓝色的)则把原句嵌套进了一个更复杂的结构中。重要的是,这种递归过程可以无限进行。“Maria wondered if Sam knew that Omar heard that Jane said that the sky is blue”(玛丽亚想知道萨姆是否知道奥马尔听说简说天空是蓝色的)虽然听起来有点拗口,但在语法上仍然是正确的递归句。

递归不仅是语言的关键要素,也是自然界的一个特征。例如,在加拿大北部的维多利亚岛上,人们可以找到一个位于岛上湖泊中的小岛。但那个小岛本身又位于一个更大的岛上的湖泊中。这个最里面的无名岛是已知最大的“三阶”岛屿,它有时被开玩笑地称为“盗梦岛”(Inception Island),源于 2010 年克里斯托弗·诺兰执导的电影《盗梦空间》(Inception),影片中角色们会进入梦中梦的梦中世界。

递归一直被乔姆斯基等人称为人类语言的决定性特征之一。实际上,它或许也是人类思维的决定性特征。语言学家认为,正是递归的无限潜力,使得人类语言能够用有限的词汇和有限的规则,生成无限多的可能句子。到目前为止,还没有令人信服的证据表明其他动物能够以复杂的方式使用递归。

递归可以发生在句首或句尾,但最难掌握的形式是发生在句中的中心嵌入center embedding)。例如,从“the cat died(猫死了)”变成“the cat the dog bit died(狗咬了的那只猫死了)”。

Beguš 的测试向语言模型输入了 30 个包含复杂递归例子的原创句子。例如:“The astronomy the ancients we revere studied was not separate from astrology。”(我们崇敬的古人所研究的天文学与占星术并非泾渭分明。)使用句法树,其中一个语言模型——OpenAI 的 o1——能够确定该句子的结构如下:

The astronomy [the ancients [we revere] studied] was not separate from astrology. 我们崇敬的古人所研究的天文学与占星术并非泾渭分明。

该模型随后更进一步,为该句子添加了另一层递归:

The astronomy [the ancients [we revere [who lived in lands we cherish]] studied] was not separate from astrology. 我们所尊敬的那些生活在我们珍视的土地上的古人所研究的天文学与占星术并非泾渭分明。

Beguš 和其他一些人没有预料到,这项研究会发现一个具有更高层次“元语言”(metalinguistic)能力的 AI 模型——正如他所说,这“不仅是使用语言的能力,更是思考语言的能力”。


David Mortensen, 卡内基梅隆大学计算语言学家

“这是他们论文中‘引人注目’的方面之一,”卡内基梅隆大学的计算语言学家 David Mortensen 说道。关于语言模型是否只是在预测句子中的下一个词或语言学上的标记 (token)一直存在争议。这种能力与人类对语言的深刻理解有着本质区别。“语言学界的一些人曾说,大语言模型并不是真的在‘处理’语言,”他说。“这项研究看起来像是否定了那些说法。”

你什么意思?

McCoy 对 o1 模型的整体表现感到惊讶,尤其是它识别歧义的能力,他说,这是众所周知的计算语言模型难以捕捉的东西。人类“拥有大量的常识知识,使我们能够排除歧义。但计算机很难拥有那种程度的常识知识。”

例如“Rowan fed his pet chicken”这样的句子,既可以描述罗文(Rowan)喂了他当宠物养的鸡,也可以描述他喂了他的(大概是更传统的意义上的)动物伴侣一顿鸡肉。o1 模型正确地生成了两棵不同的句法树,一棵对应句子的第一种解释,另一棵对应第二种解释。

研究人员还进行了一些与音系学(phonology)相关的实验。该学科研究声音的模式以及最小声音单位——称为音位 (phonemes) ——的组织方式。为了像母语者一样流利地说话,人们会遵循一些音系规则,这些规则可能是通过练习习得的,而从未被明确教授过。例如,在英语中,在以“g”结尾的单词后添加“s”会产生“z”音,如“dogs”。但是,在以“t”结尾的单词后添加“s”,发音则更接近标准的“s”,如“cats”。

在音系学任务中,研究小组创造了 30 种新的“迷你语言”(Beguš 称之为),以测试大语言模型是否能在没有任何先验知识的情况下正确推断出音系规则。每种语言包含 40 个虚构词。以下是其中一种语言的示例词:

θalp ʃebre ði̤zṳ ga̤rbo̤nda̤ ʒi̤zṳðe̤jo

然后,他们要求语言模型分析每种语言的音系过程。对于上面这种语言,o1模型正确地写出:“当一个元音紧接在一个既是浊音又是阻碍音(obstruent)的辅音之后时,它就会变成一个气声元音(breathy vowel)”—— 阻碍音是一种通过限制气流形成的音,比如“top”中的“t”。

这些语言是新发明的,所以 o1 不可能在训练期间接触过它们。“我没想到结果会如此出色,如此令人印象深刻,”Mortensen 说。

非得是人类吗?

这些语言模型能走多远?它们会仅仅通过变得更大——叠加更多的计算能力、更复杂的结构和更多的训练数据——就无限地变得更好吗?还是说,人类语言的某些特征是我们物种独有的进化过程的结果?

最近的研究结果表明,这些模型原则上可以进行复杂的语言学分析。但是,目前还没有一个模型能提出任何原创性的东西,也没有教会我们任何关于语言的、我们以前不知道的知识。

如果模型的改进真的只是增加计算能力和训练数据的问题,那么 Beguš 认为语言模型最终将在语言技能上超越我们。Mortensen 则表示,当前的模型有一定局限性。“它们被训练来做一件非常具体的事情:给定一个标记(tokens)或单词的历史,预测下一个标记,”他说。“由于它们被训练的方式,它们在概括方面存在一些困难。”

但考虑到最近的进展,Mortensen 表示,他看不出任何理由语言模型最终不会表现出超越人类的语言理解能力。“用不了多久,我们就能打造出用更少数据做出更好泛化、且更具创造力的模型。”

Beguš 指出,新结果正一步步“削平”那些曾被视为人类语言专属领地的特性。“看起来,我们并没有我们以为的那么独一无二。”

参考文献

https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“摘帽”首日!603268,盘中涨停

“摘帽”首日!603268,盘中涨停

大众证券报
2026-04-20 11:00:52
不止Pura 90系列和Pura X Max 余承东公布新品发布会更多强大阵容

不止Pura 90系列和Pura X Max 余承东公布新品发布会更多强大阵容

机智万象
2026-04-19 20:46:27
李修贤谈万梓良现状:酒吧驻场不丢人,为人仗义,事业婚姻都不顺

李修贤谈万梓良现状:酒吧驻场不丢人,为人仗义,事业婚姻都不顺

以茶带书
2026-04-14 16:39:49
事关房贷,最新公布!

事关房贷,最新公布!

业翔民安
2026-04-20 18:29:30
马斯克再放狠话:能造出超级高铁,比中国任何公共交通系统都要好

马斯克再放狠话:能造出超级高铁,比中国任何公共交通系统都要好

通文知史
2026-04-19 19:00:08
德媒:德国太天真了,我们最大的幻想,就是信了中国是个现代强国

德媒:德国太天真了,我们最大的幻想,就是信了中国是个现代强国

吃货的分享
2026-04-20 18:31:42
华为Pura X两款新色开售 16GB+512GB售价7999元

华为Pura X两款新色开售 16GB+512GB售价7999元

CNMO科技
2026-04-20 18:09:39
自然资源部:日本地震引发海啸,不会影响我国沿岸

自然资源部:日本地震引发海啸,不会影响我国沿岸

澎湃新闻
2026-04-20 22:08:05
爆料!全红婵网暴案真正的目的,原来是这个!

爆料!全红婵网暴案真正的目的,原来是这个!

艺利森
2026-04-18 09:19:15
建议中老年:生活别太节俭,这3种“软黄金”该吃就吃,体力足

建议中老年:生活别太节俭,这3种“软黄金”该吃就吃,体力足

阿龙美食记
2026-04-10 10:30:57
澳华人美女网红走光照疯传!靠成人平台吸粉百万,怒买数十套房,实现“经济自由”!

澳华人美女网红走光照疯传!靠成人平台吸粉百万,怒买数十套房,实现“经济自由”!

澳洲红领巾
2026-04-20 13:44:46
双箭齐发!长征十号乙、朱雀三号将验证可回收技术

双箭齐发!长征十号乙、朱雀三号将验证可回收技术

每日经济新闻
2026-04-20 14:52:54
何润东:我已经51岁了,摔下来的话,会破坏大家对项羽的感受

何润东:我已经51岁了,摔下来的话,会破坏大家对项羽的感受

懂球帝
2026-04-19 12:31:08
刘亦菲.竟也有这么汹涌的照片,太奔放了微信朋友圈

刘亦菲.竟也有这么汹涌的照片,太奔放了微信朋友圈

可乐谈情感
2026-04-20 00:30:40
【重大突破】续航破1200!比亚迪全固态电池通过车规验证

【重大突破】续航破1200!比亚迪全固态电池通过车规验证

新浪财经
2026-04-20 17:44:40
天齐锂业:一季度净利润同比预增1530.31%—1818.01%

天齐锂业:一季度净利润同比预增1530.31%—1818.01%

证券时报
2026-04-20 18:44:04
十大起义总指挥都是谁

十大起义总指挥都是谁

祁州校尉
2026-04-17 11:00:28
王一博綦美合官宣恋情!?

王一博綦美合官宣恋情!?

八卦疯叔
2026-04-20 10:05:17
42岁吕一近况曝光!嫁钱泳辰10年没生孩子,如今尽情享受丁克生活

42岁吕一近况曝光!嫁钱泳辰10年没生孩子,如今尽情享受丁克生活

民宿体验志
2026-04-18 18:20:39
倘若湖人本赛季冲冠失败,这5人下赛季或遭球队大清洗!

倘若湖人本赛季冲冠失败,这5人下赛季或遭球队大清洗!

田先生篮球
2026-04-19 21:33:00
2026-04-20 22:32:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4673文章数 37451关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

保价2000元机盖运输中损坏 德邦仅愿以1300元回购

头条要闻

保价2000元机盖运输中损坏 德邦仅愿以1300元回购

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

时尚
家居
旅游
教育
军事航空

春天就该这样穿!裙子选彩色、白色T恤作内搭,舒适优雅简约

家居要闻

自然慢调 慢享时光

旅游要闻

京城春日顶流!国家植物园 20 万株郁金香盛放,藏着最浪漫的四月

教育要闻

关注!海淀这所学校不再具备办学资格

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版