网易首页 > 网易号 > 正文 申请入驻

LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:peter东

【新智元导读】LLM再下一城!伯克利研究证明:OpenAI的o1被证明也具有匹敌人类语言学家的元分析能力。

在人类诸多才能之中,哪些才是人类所独有的?

自古希腊哲人亚里士多德以来,语言便被视为最能彰显人之本性的标志。他曾言:人类乃「具有语言的动物」。


即使当今的大语言模型如ChatGPT已能在表层上模拟人类的日常言谈,学者们依然追问:

在人类语言的深处,是否蕴藏着某些独特的结构与特质,是任何其他生物的沟通方式,乃至AI的运算体系,皆无法真正企及的?

加州大学伯克利分校语言学家、罗格斯大学的携手,让多个大语言模型经受一系列语言学测试——其中包括要求模型归纳虚构语言的规则。

虽然大多数大语言模型未能像人类那样解析语言学规则,但有一个模型展现出远超预期的惊人能力。它能像语言学研究生那样分析语言——划分句子成分、解析多重歧义,并能运用递归等复杂语言学特征。

研究者Gašper Beguš表示,这一发现「挑战了我们对人工智能能力的认知」。


AI会说话不稀奇,会解释才稀奇——

如果语言是让我们成为人类的关键,那么如今大语言模型获得了「元语言」能力,这又意味着什么呢?

LLM构建无穷递归

想象一下:你在搭一座一层套一层、像俄罗斯套娃一样的「句子塔」。


每套进一层,理解难度就指数级上升。

这种结构,在语言学里叫「中心嵌入」(center embedding),曾被知名语言学家乔姆斯基称为能定义人类语言与思维的决定性特征。

比如这句话:

The worldview that the prose Nietzsche wrote expressed was unprecedented.

(大意为:尼采所写的那篇散文所表达的世界观是前所未有的。)

表面上看平平无奇,但如果你拆开它的「语言洋葱」:

最外层:The worldview [...] was unprecedented(这个「世界观」前所未有);

套进去一层:that the prose [...] expressed(是「那篇散文所表达的」);

再往里一层:Nietzsche wrote(而这篇散文是「尼采写的」)。

这就像在一个句子中间,又塞进一个完整的句子,再在那个句子里塞进另一个句子——三层套娃,层层递归。

人类能理解这样的句子,但之前,人们认为这样的能力大模型不具备。

上述句子在真实对话中几乎从未出现过——因为大家会觉得它「太绕了!」

所以,任何语言模型如果只是靠「背书」,根本不可能见过,自然也无法识别出这种例子。

语言学家们认为,人类语言从有限词汇和有限规则中生成无限可能句子,这种能力归因于无限递归。

迄今为止,还没有令人信服的证据表明其他动物能够以复杂的方式使用递归。


图1:不同大模型识别多重递归,绘制正确语法树的比例

然而,该研究指出在众多大模型中,唯有OpenAI o1模型不仅看懂包含多重递归的句子(图1)。

o1不仅能如同语言学家那样,以接近100%的正确率画出正确的树状结构,还能将本就复杂的句子变得更多一层。


图2:该句子对应的正确语法树

当它被问:「能不能再加一层递归?」o1回复:

The worldview that the prose that the philosopher Nietzsche admired wrote expressed was unprecedented.

「那位尼采所敬仰的哲学家所撰写的散文所表达的世界观是前所未有的。」

这说明o1不仅能够使用语言,还能够思考语言,具备元语言能力(metalinguistic capacity )。

由于语言模型只是在预测句子中的下一个单词,人对语言的深层理解在质上有所不同。因此,一些语言学家表示,大模型实际上并没有在处理语言。

这项研究的结论看起来是对上述观点的否定。


大模型能区分歧义

也能深入理解句子

想象一下,你听到下面的话:「Eliza wanted her cast out.」

乍一听,好像就是「Eliza想把她的cast赶出去」?

但「cast」这个词既可以是动词(「驱逐」),也可以是名词(「石膏」)!

于是这句话就有两种不同的含义,分别是

Eliza想要她的石膏被拿出去,

Eliza想把她赶出去。

这样识别包含多义性句子的能力,之前同样被认为大模型不具备。

人类拥有很多常识知识,使我们能够排除歧义。但大模型很难具有这样的常识知识水平。

然而该研究表明,o1可正确识别两种结构,并为每种生成了符合语言学规划的句法树。其他模型(如 GPT-4、Llama 3.1)只会生成不合语法的结构,还会对语义产生误解。

该研究还考察了大模型在音韵学相关任务上的表现——

音韵学是研究声音模式以及最小的声音单位,即音素的组织方式。

例如,在英语中,给以「g」结尾的词加上「s」会发出「z」的音,就像「dogs」一样。但给以「t」结尾的词加上「s」听起来更像标准的「s」音,就像「cats」一样。

该研究一口气创建了30种新的迷你语言,以了解大模型是否能够在面对新生成的虚拟语言时,在没有任何先验知识的情况下能不能正确推断语音规则。

结果出人意料,即使是在这些虚构的语言上,o1在音韵相关的任务上表现依旧出色。


大模型比人类更好地理解语言吗?

从上述三个例子可以看出,曾经那些被认为仅仅人类能够拥有的语言理解能力,大模型如今也具备了。

2023 年著名语言学家乔姆斯基在《纽约时报》上写道:「语言的正确解释很复杂,不能仅仅通过浸泡在大数据中就能学会。」


该文认为尽管 AI 模型在运用语言方面可能很擅长,但它们并不具备以复杂方式分析语言的能力。

在此思潮影响下,即使ChatGPT在各方面上复制了自然语言,公众仍想知道大模型是否有人类语言的特定特征能不能由大模型复现。

这当然很有必要,随着社会越来越依赖大模型,了解它在哪些方面能成功以及哪些方面会失败变得越来越重要。

语言分析是评估语言模型推理能力与人类相似程度的理想测试平台。


而o1能够以与语言学家相似的方式分析语言,例如绘制句子图、解决多个歧义含义,并利用递归等复杂的语言特征

但我们发现这一现象后,人们不禁会问下面两个问题:

第一个问题是为何只有o1可行,其它大模型表现都差一大截。

回答是相比其它模型,o1 的优势很可能源于思维链(类似Deepseek的深度思考),使其能像人类语言学家一样逐步推理、验证假设、构建抽象规则。

第二个问题是当模型的性能随着规模变大而变大时,大模型是否有一天会比我们更能准确的理解语言吗?

对于这个问题的回答,目前还没有定论。

一方面,任何的大模型在语言学上还没有提出过原创性的观点,也没有教给我们关于语言的新知识。

另一方面,增加计算能力和训练数据,语言模型最终会在语言技能上超越我们,看不出有什么理由阻止语言模型展现出比我们更好的语言理解能力。

研究尚不足以宣称「机器理解语言胜于人类」,但足以改变评价口径:对模型的考察,应从「任务产出」转向「结构解释」。

当可解释性成为首要指标,AI研究、教育与应用治理将迎来同一套标准——把「为什么对」放在「对不对」之前。

参考资料:

https://ieeexplore.ieee.org/document/11022724

https://www.quantamagazine.org/in-a-first-ai-models-analyze-language-as-well-as-a-human-expert-20251031/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
商业航天恶炒?屠文斌曾川剧变脸!知名私募:商业航天已透支20年空间

商业航天恶炒?屠文斌曾川剧变脸!知名私募:商业航天已透支20年空间

金石随笔
2026-01-19 00:09:14
又一个巨头崛起!年入8715亿,超越华为,成第三民营企业!

又一个巨头崛起!年入8715亿,超越华为,成第三民营企业!

牛牛叨史
2025-12-23 23:07:38
收视破4,只是开始!胡歌、张嘉益、梅婷要掀起一波年代剧新高潮

收视破4,只是开始!胡歌、张嘉益、梅婷要掀起一波年代剧新高潮

喜欢历史的阿繁
2026-01-18 16:15:09
1979年贺子珍参观人民大会堂时,突然开口提议:我想去毛主席的休息室看看

1979年贺子珍参观人民大会堂时,突然开口提议:我想去毛主席的休息室看看

文史明鉴
2026-01-18 21:45:15
访华第三天,加拿大总理在北京突然提一个请求,中方的回应很直接

访华第三天,加拿大总理在北京突然提一个请求,中方的回应很直接

潮鹿逐梦
2026-01-17 21:28:41
为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

今朝牛马
2026-01-08 16:05:10
瞅瞅伦敦普通人的午饭,你就知道为什么他们都带便当了,挺扎心的

瞅瞅伦敦普通人的午饭,你就知道为什么他们都带便当了,挺扎心的

天下霸奇
2026-01-15 10:00:15
浓妆艳抹、蕾丝短裙,一颗子弹40万米射程!这是把观众当傻子骗?

浓妆艳抹、蕾丝短裙,一颗子弹40万米射程!这是把观众当傻子骗?

丰谭笔录
2026-01-18 07:50:04
停播7年,那个挽救无数司机的“网红交警”谭乔,却挽救不了自己

停播7年,那个挽救无数司机的“网红交警”谭乔,却挽救不了自己

以茶带书
2025-12-18 17:14:01
力压多古、姆伯莫,B费当选曼市德比一役曼联队内最佳

力压多古、姆伯莫,B费当选曼市德比一役曼联队内最佳

懂球帝
2026-01-19 00:55:42
祝贺!国乒新年首冠将诞生:18岁小将爆冷世界冠军,决赛会师队友

祝贺!国乒新年首冠将诞生:18岁小将爆冷世界冠军,决赛会师队友

全言作品
2026-01-18 19:18:37
三观炸裂!翟欣欣出轨聊天记录流出,尺度大到咂舌,判12年都嫌少

三观炸裂!翟欣欣出轨聊天记录流出,尺度大到咂舌,判12年都嫌少

有范又有料
2025-09-29 14:21:11
美国女子用1.25亿买下清朝老宅,整栋运回美国,现成华人必去景点

美国女子用1.25亿买下清朝老宅,整栋运回美国,现成华人必去景点

泠泠说史
2025-12-02 18:01:54
格陵兰岛的原住民,为什么长得像中国人?他们是华夏后裔吗?

格陵兰岛的原住民,为什么长得像中国人?他们是华夏后裔吗?

西莫的艺术宫殿
2026-01-18 10:29:02
剩6826亿,中国大幅抛美债,特朗普访华目的明显:反华同盟靠不住

剩6826亿,中国大幅抛美债,特朗普访华目的明显:反华同盟靠不住

头条爆料007
2026-01-18 11:09:11
美媒:中国发电技术超越美国打破世界纪录,先进的不像是中国发明

美媒:中国发电技术超越美国打破世界纪录,先进的不像是中国发明

快看张同学
2026-01-18 11:42:22
花费1亿请赵本山代言,成本2毛骗农户200亿,创始人被判无期徒刑

花费1亿请赵本山代言,成本2毛骗农户200亿,创始人被判无期徒刑

法老不说教
2025-12-17 20:08:06
阿斯:西班牙希望亚马尔与皇马之间关系能正常,别影响世界杯

阿斯:西班牙希望亚马尔与皇马之间关系能正常,别影响世界杯

懂球帝
2026-01-18 22:50:45
基础化工三大龙头预计2025年业绩翻倍,股价渐涨

基础化工三大龙头预计2025年业绩翻倍,股价渐涨

证券市场周刊
2026-01-18 14:03:21
前TVB男星回应拒演电影《寻秦记》传闻,称未收到剧组邀请

前TVB男星回应拒演电影《寻秦记》传闻,称未收到剧组邀请

TVB剧评社
2026-01-18 13:13:58
2026-01-19 01:15:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057573文章数 5289关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

欧盟"外长":特朗普的关税威胁分裂欧美 会让中国受益

头条要闻

欧盟"外长":特朗普的关税威胁分裂欧美 会让中国受益

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

时尚
教育
房产
本地
军事航空

美拉德过时了?今年冬天最火的4个颜色竟然是它们

教育要闻

留学期间,如何让自己更值钱?

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

军事要闻

德国军事人员突然撤离格陵兰岛 原因不详

无障碍浏览 进入关怀版