网易首页 > 网易号 > 正文 申请入驻

AI模型首次实现与人类专家等同的语言分析能力

0
分享至


摘要

当 OpenAI 的 o1 模型在无训练语料的虚构语言中,表现出精准绘制句法树、破解中心递归、厘清单句歧义并自主发现音系规则的能力后,语言学家不得不重新回答那个古老问题:如果语言曾被视为人类最后的“专属领地”,人类再次追问语言的独特性究竟还剩多少?

关键词:LLMs;语言能力;递归;句法树;音系推理

来源:集智俱乐部

作者:Steve Nadis

译者:任筱芃

审校:赵思怡

如果语言是人之所以为人的特性,那么当大语言模型获得了“元语言”能力,这又意味着什么?

在人类拥有的无穷多量的能力中,哪些是人类独有的?至少从亚里士多德开始,语言就一直是首要的备选答案。他曾写道,人类是“拥有语言的动物”。尽管像 ChatGPT 这样的大语言模型在表面上复制了日常言谈,但研究人员想知道,人类语言的某些特定方面是否独特到在其他动物或人工智能设备的通信系统中根本不存在对应物。


Noam Chomsky,语言学家

研究人员尤其一直在探索语言模型在多大程度上能够对语言本身进行推理。对于语言学界的一些人来说,语言模型不仅没有推理能力,而且也没有对应的潜力。著名语言学家诺姆·乔姆斯基(Noam Chomsky)与伊恩·罗伯茨(Ian Roberts)、杰弗里·瓦图穆尔(Jeffrey Watmull)在 2023 年声明了这一观点,他们当时在《纽约时报》上写道:“对语言的正确解释是复杂的,不能仅仅通过沉浸在大数据中就学会。”这些研究人员认为,人工智能模型或许擅长使用语言,但它们没有能力以复杂的方式分析语言。


Gašper Beguš, 加州大学伯克利分校语言学家

这一观点在最近的一篇论文——《Large linguistic models: Investigating LLMs’ metalinguistic abilities》——中受到了挑战,该论文由加州大学伯克利分校的语言学家 Gašper Beguš、最近在伯克利获得语言学博士学位的 Maksymilian Dąbkowski 以及罗格斯大学的 Ryan Rhodes 共同撰写。研究人员让多个大语言模型接受了一系列语言学测试——其中一项测试是让大语言模型归纳一种虚构语言的规则。虽然大多数大语言模型未能像人类那样解析语言规则,但其中一个模型展现出了令人印象深刻的能力,远远超出了预期。它能够像语言学专业的研究生一样分析语言——绘制句子结构图、解析多种歧义,并利用像递归recursion)这样的复杂语言特性。Beguš 说,这一发现“挑战了我们对人工智能潜力的理解”。


Tom McCoy, 耶鲁大学计算语言学家

“这项新工作既及时又‘非常重要’,”耶鲁大学计算语言学家 Tom McCoy 说道(他并未参与这项研究)“随着社会对这项技术的依赖程度越来越高,了解它在哪些方面可能成功以及在哪些方面可能失败变得日益重要。”他补充说,语言分析是评估这些语言模型在多大程度上能像人类一样推理的理想试验台。

无限的复杂性

对语言模型进行严格的语言学测试,挑战的一部分是确保它们事先并不知道答案。这些系统通常在海量的书面信息上进行训练——不仅包括互联网上的大量内容(涵盖几十甚至上百种语言),还包括语言学教科书。理论上,模型可能只是死记硬背了训练时见过的内容,然后在测试中原样输出。

为了避免这种情况,Beguš 和他的同事设计了一个分为四个部分的语言学测试。其中三个部分要求模型使用树状图来分析特制的句子,这种图表最早由乔姆斯基在其 1957 年的里程碑式著作《句法结构》(Syntactic Structures)中引入。这些图表将句子分解为名词短语和动词短语,然后再进一步细分为名词、动词、形容词、副词、介词、连词等。

测试的另一部分则聚焦于递归——也就是把短语嵌套进其他短语的能力。比如,“The sky is blue”(天空是蓝色的)是一个简单的英语句子。“Jane said that the sky is blue”(简说天空是蓝色的)则把原句嵌套进了一个更复杂的结构中。重要的是,这种递归过程可以无限进行。“Maria wondered if Sam knew that Omar heard that Jane said that the sky is blue”(玛丽亚想知道萨姆是否知道奥马尔听说简说天空是蓝色的)虽然听起来有点拗口,但在语法上仍然是正确的递归句。

递归不仅是语言的关键要素,也是自然界的一个特征。例如,在加拿大北部的维多利亚岛上,人们可以找到一个位于岛上湖泊中的小岛。但那个小岛本身又位于一个更大的岛上的湖泊中。这个最里面的无名岛是已知最大的“三阶”岛屿,它有时被开玩笑地称为“盗梦岛”(Inception Island),源于 2010 年克里斯托弗·诺兰执导的电影《盗梦空间》(Inception),影片中角色们会进入梦中梦的梦中世界。

递归一直被乔姆斯基等人称为人类语言的决定性特征之一。实际上,它或许也是人类思维的决定性特征。语言学家认为,正是递归的无限潜力,使得人类语言能够用有限的词汇和有限的规则,生成无限多的可能句子。到目前为止,还没有令人信服的证据表明其他动物能够以复杂的方式使用递归。

递归可以发生在句首或句尾,但最难掌握的形式是发生在句中的中心嵌入center embedding)。例如,从“the cat died(猫死了)”变成“the cat the dog bit died(狗咬了的那只猫死了)”。

Beguš 的测试向语言模型输入了 30 个包含复杂递归例子的原创句子。例如:“The astronomy the ancients we revere studied was not separate from astrology。”(我们崇敬的古人所研究的天文学与占星术并非泾渭分明。)使用句法树,其中一个语言模型——OpenAI 的 o1——能够确定该句子的结构如下:

The astronomy [the ancients [we revere] studied] was not separate from astrology. 我们崇敬的古人所研究的天文学与占星术并非泾渭分明。

该模型随后更进一步,为该句子添加了另一层递归:

The astronomy [the ancients [we revere [who lived in lands we cherish]] studied] was not separate from astrology. 我们所尊敬的那些生活在我们珍视的土地上的古人所研究的天文学与占星术并非泾渭分明。

Beguš 和其他一些人没有预料到,这项研究会发现一个具有更高层次“元语言”(metalinguistic)能力的 AI 模型——正如他所说,这“不仅是使用语言的能力,更是思考语言的能力”。


David Mortensen, 卡内基梅隆大学计算语言学家

“这是他们论文中‘引人注目’的方面之一,”卡内基梅隆大学的计算语言学家 David Mortensen 说道。关于语言模型是否只是在预测句子中的下一个词或语言学上的标记 (token)一直存在争议。这种能力与人类对语言的深刻理解有着本质区别。“语言学界的一些人曾说,大语言模型并不是真的在‘处理’语言,”他说。“这项研究看起来像是否定了那些说法。”

你什么意思?

McCoy 对 o1 模型的整体表现感到惊讶,尤其是它识别歧义的能力,他说,这是众所周知的计算语言模型难以捕捉的东西。人类“拥有大量的常识知识,使我们能够排除歧义。但计算机很难拥有那种程度的常识知识。”

例如“Rowan fed his pet chicken”这样的句子,既可以描述罗文(Rowan)喂了他当宠物养的鸡,也可以描述他喂了他的(大概是更传统的意义上的)动物伴侣一顿鸡肉。o1 模型正确地生成了两棵不同的句法树,一棵对应句子的第一种解释,另一棵对应第二种解释。

研究人员还进行了一些与音系学(phonology)相关的实验。该学科研究声音的模式以及最小声音单位——称为音位 (phonemes) ——的组织方式。为了像母语者一样流利地说话,人们会遵循一些音系规则,这些规则可能是通过练习习得的,而从未被明确教授过。例如,在英语中,在以“g”结尾的单词后添加“s”会产生“z”音,如“dogs”。但是,在以“t”结尾的单词后添加“s”,发音则更接近标准的“s”,如“cats”。

在音系学任务中,研究小组创造了 30 种新的“迷你语言”(Beguš 称之为),以测试大语言模型是否能在没有任何先验知识的情况下正确推断出音系规则。每种语言包含 40 个虚构词。以下是其中一种语言的示例词:

θalp ʃebre ði̤zṳ ga̤rbo̤nda̤ ʒi̤zṳðe̤jo

然后,他们要求语言模型分析每种语言的音系过程。对于上面这种语言,o1模型正确地写出:“当一个元音紧接在一个既是浊音又是阻碍音(obstruent)的辅音之后时,它就会变成一个气声元音(breathy vowel)”—— 阻碍音是一种通过限制气流形成的音,比如“top”中的“t”。

这些语言是新发明的,所以 o1 不可能在训练期间接触过它们。“我没想到结果会如此出色,如此令人印象深刻,”Mortensen 说。

非得是人类吗?

这些语言模型能走多远?它们会仅仅通过变得更大——叠加更多的计算能力、更复杂的结构和更多的训练数据——就无限地变得更好吗?还是说,人类语言的某些特征是我们物种独有的进化过程的结果?

最近的研究结果表明,这些模型原则上可以进行复杂的语言学分析。但是,目前还没有一个模型能提出任何原创性的东西,也没有教会我们任何关于语言的、我们以前不知道的知识。

如果模型的改进真的只是增加计算能力和训练数据的问题,那么 Beguš 认为语言模型最终将在语言技能上超越我们。Mortensen 则表示,当前的模型有一定局限性。“它们被训练来做一件非常具体的事情:给定一个标记(tokens)或单词的历史,预测下一个标记,”他说。“由于它们被训练的方式,它们在概括方面存在一些困难。”

但考虑到最近的进展,Mortensen 表示,他看不出任何理由语言模型最终不会表现出超越人类的语言理解能力。“用不了多久,我们就能打造出用更少数据做出更好泛化、且更具创造力的模型。”

Beguš 指出,新结果正一步步“削平”那些曾被视为人类语言专属领地的特性。“看起来,我们并没有我们以为的那么独一无二。”

参考文献

https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不准踏入中国市场一步?我国下达“逐客令”,三星绝望:放过我们

不准踏入中国市场一步?我国下达“逐客令”,三星绝望:放过我们

楠楠自语
2025-11-29 14:57:13
并非没有抵抗!古巴卫队血战到全员覆没,委军真实战力暴露

并非没有抵抗!古巴卫队血战到全员覆没,委军真实战力暴露

兵国大事
2026-01-05 17:59:20
向太爆料方媛三胎为郭富城生儿子,打破四大天王女儿魔咒

向太爆料方媛三胎为郭富城生儿子,打破四大天王女儿魔咒

胖子的勇气
2026-01-06 19:47:36
中国管制对日物项!高市24小时急抗议,中国拒撤管制,日本没退路了

中国管制对日物项!高市24小时急抗议,中国拒撤管制,日本没退路了

流年拾光
2026-01-08 10:49:20
中国第一个6000亿超强县,产自江苏!

中国第一个6000亿超强县,产自江苏!

创客公社-江苏第一创投媒体
2026-01-07 20:57:40
马杜罗:还好那晚跟原配睡

马杜罗:还好那晚跟原配睡

枫红染山径
2026-01-08 00:33:22
广东一男子的法式自建房,因屋顶特别而走红,网友:好看但不实用

广东一男子的法式自建房,因屋顶特别而走红,网友:好看但不实用

靓仔情感
2026-01-07 02:53:14
陈慧琳素颜现身美国超市,腮帮子鼓起来了,一笑就看出牙不整齐

陈慧琳素颜现身美国超市,腮帮子鼓起来了,一笑就看出牙不整齐

徐帮阳
2026-01-07 15:30:57
美方积极讨论“购买”格陵兰岛 鲁比奥下周或与丹麦官员会面

美方积极讨论“购买”格陵兰岛 鲁比奥下周或与丹麦官员会面

环球网资讯
2026-01-08 07:11:05
轴距3066mm 全新奥迪A6L将于1月15日首发

轴距3066mm 全新奥迪A6L将于1月15日首发

车质网
2026-01-06 09:24:08
美防长放话:采取前所未有的措施

美防长放话:采取前所未有的措施

环球时报国际
2026-01-07 00:08:45
广东早报3消息!官方下场向广东致歉,麦考尔史密斯互喷

广东早报3消息!官方下场向广东致歉,麦考尔史密斯互喷

飞克体育
2026-01-08 10:56:01
WTT多哈冠军赛:男单16强决出8席!国乒1人晋级,日本3大主力全胜

WTT多哈冠军赛:男单16强决出8席!国乒1人晋级,日本3大主力全胜

全言作品
2026-01-08 03:38:30
凌晨打车22公里收98元?乘客拒付耗到天亮,的哥委屈:是政府定价

凌晨打车22公里收98元?乘客拒付耗到天亮,的哥委屈:是政府定价

奇思妙想草叶君
2026-01-07 22:36:16
史上第一富!4.7万亿!马斯克个人财富打破人类纪录

史上第一富!4.7万亿!马斯克个人财富打破人类纪录

牛牛叨史
2025-12-22 22:53:16
2换1交易达成!特雷杨加盟奇才!CJ加盟老鹰

2换1交易达成!特雷杨加盟奇才!CJ加盟老鹰

篮球教学论坛
2026-01-08 11:27:05
杨兰兰最新:不上课、不社交、英语差,喜欢买买买,香奈儿VVIP

杨兰兰最新:不上课、不社交、英语差,喜欢买买买,香奈儿VVIP

麦大人
2025-10-09 16:23:06
靠谱?德媒:恩里克拒绝与巴黎圣日耳曼续约,寻求新挑战

靠谱?德媒:恩里克拒绝与巴黎圣日耳曼续约,寻求新挑战

星耀国际足坛
2026-01-08 00:11:10
赵露思入围VOGUE最佳着装!米色战袍下的身材,这腰臀比太绝了?

赵露思入围VOGUE最佳着装!米色战袍下的身材,这腰臀比太绝了?

娱乐领航家
2026-01-07 23:00:03
张柏芝大儿子终于“长开”了!穿西装比谢霆锋还帅,网友:像爷爷

张柏芝大儿子终于“长开”了!穿西装比谢霆锋还帅,网友:像爷爷

木子爱娱乐大号
2026-01-07 21:47:13
2026-01-08 11:39:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4453文章数 37368关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

美国高官谈对委行动:主宰世界的是实力、武力与权力

头条要闻

美国高官谈对委行动:主宰世界的是实力、武力与权力

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

不谈颠覆与奇迹,智驾企业还能聊点什么?

态度原创

艺术
手机
健康
数码
公开课

艺术要闻

颐和园金光穿洞

手机要闻

6.99mm影像旗舰!联想moto X70 Air Pro DXO评分出炉:164分并列第六

这些新疗法,让化疗不再那么痛苦

数码要闻

ROG携显示器新品超神27 二代与AR眼镜亮相CES 2026

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版