网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

LLM首次达到人类语言专家水平！OpenAI o1拿下拆解句法、识别歧义、推理音律

2025-11-08 12:34:47　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：peter东

【新智元导读】LLM再下一城！伯克利研究证明：OpenAI的o1被证明也具有匹敌人类语言学家的元分析能力。

在人类诸多才能之中，哪些才是人类所独有的？

自古希腊哲人亚里士多德以来，语言便被视为最能彰显人之本性的标志。他曾言：人类乃「具有语言的动物」。

即使当今的大语言模型如ChatGPT已能在表层上模拟人类的日常言谈，学者们依然追问：

在人类语言的深处，是否蕴藏着某些独特的结构与特质，是任何其他生物的沟通方式，乃至AI的运算体系，皆无法真正企及的？

加州大学伯克利分校语言学家、罗格斯大学的携手，让多个大语言模型经受一系列语言学测试——其中包括要求模型归纳虚构语言的规则。

虽然大多数大语言模型未能像人类那样解析语言学规则，但有一个模型展现出远超预期的惊人能力。它能像语言学研究生那样分析语言——划分句子成分、解析多重歧义，并能运用递归等复杂语言学特征。

研究者Gašper Beguš表示，这一发现「挑战了我们对人工智能能力的认知」。

AI会说话不稀奇，会解释才稀奇——

如果语言是让我们成为人类的关键，那么如今大语言模型获得了「元语言」能力，这又意味着什么呢？

LLM构建无穷递归

想象一下：你在搭一座一层套一层、像俄罗斯套娃一样的「句子塔」。

每套进一层，理解难度就指数级上升。

这种结构，在语言学里叫「中心嵌入」（center embedding），曾被知名语言学家乔姆斯基称为能定义人类语言与思维的决定性特征。

比如这句话：

The worldview that the prose Nietzsche wrote expressed was unprecedented.

（大意为：尼采所写的那篇散文所表达的世界观是前所未有的。）

表面上看平平无奇，但如果你拆开它的「语言洋葱」：

最外层：The worldview [...] was unprecedented（这个「世界观」前所未有）；

套进去一层：that the prose [...] expressed（是「那篇散文所表达的」）；

再往里一层：Nietzsche wrote（而这篇散文是「尼采写的」）。

这就像在一个句子中间，又塞进一个完整的句子，再在那个句子里塞进另一个句子——三层套娃，层层递归。

人类能理解这样的句子，但之前，人们认为这样的能力大模型不具备。

上述句子在真实对话中几乎从未出现过——因为大家会觉得它「太绕了！」

所以，任何语言模型如果只是靠「背书」，根本不可能见过，自然也无法识别出这种例子。

语言学家们认为，人类语言从有限词汇和有限规则中生成无限可能句子，这种能力归因于无限递归。

迄今为止，还没有令人信服的证据表明其他动物能够以复杂的方式使用递归。

图1：不同大模型识别多重递归，绘制正确语法树的比例

然而，该研究指出在众多大模型中，唯有OpenAI o1模型不仅看懂包含多重递归的句子（图1）。

o1不仅能如同语言学家那样，以接近100%的正确率画出正确的树状结构，还能将本就复杂的句子变得更多一层。

图2：该句子对应的正确语法树

当它被问：「能不能再加一层递归？」o1回复：

The worldview that the prose that the philosopher Nietzsche admired wrote expressed was unprecedented.

「那位尼采所敬仰的哲学家所撰写的散文所表达的世界观是前所未有的。」

这说明o1不仅能够使用语言，还能够思考语言，具备元语言能力（metalinguistic capacity ）。

由于语言模型只是在预测句子中的下一个单词，人对语言的深层理解在质上有所不同。因此，一些语言学家表示，大模型实际上并没有在处理语言。

这项研究的结论看起来是对上述观点的否定。

大模型能区分歧义

也能深入理解句子

想象一下，你听到下面的话：「Eliza wanted her cast out.」

乍一听，好像就是「Eliza想把她的cast赶出去」？

但「cast」这个词既可以是动词（「驱逐」），也可以是名词（「石膏」）！

于是这句话就有两种不同的含义，分别是

Eliza想要她的石膏被拿出去，

Eliza想把她赶出去。

这样识别包含多义性句子的能力，之前同样被认为大模型不具备。

人类拥有很多常识知识，使我们能够排除歧义。但大模型很难具有这样的常识知识水平。

然而该研究表明，o1可正确识别两种结构，并为每种生成了符合语言学规划的句法树。其他模型（如 GPT-4、Llama 3.1）只会生成不合语法的结构，还会对语义产生误解。

该研究还考察了大模型在音韵学相关任务上的表现——

音韵学是研究声音模式以及最小的声音单位，即音素的组织方式。

例如，在英语中，给以「g」结尾的词加上「s」会发出「z」的音，就像「dogs」一样。但给以「t」结尾的词加上「s」听起来更像标准的「s」音，就像「cats」一样。

该研究一口气创建了30种新的迷你语言，以了解大模型是否能够在面对新生成的虚拟语言时，在没有任何先验知识的情况下能不能正确推断语音规则。

结果出人意料，即使是在这些虚构的语言上，o1在音韵相关的任务上表现依旧出色。

大模型比人类更好地理解语言吗？

从上述三个例子可以看出，曾经那些被认为仅仅人类能够拥有的语言理解能力，大模型如今也具备了。

2023 年著名语言学家乔姆斯基在《纽约时报》上写道：「语言的正确解释很复杂，不能仅仅通过浸泡在大数据中就能学会。」

该文认为尽管 AI 模型在运用语言方面可能很擅长，但它们并不具备以复杂方式分析语言的能力。

在此思潮影响下，即使ChatGPT在各方面上复制了自然语言，公众仍想知道大模型是否有人类语言的特定特征能不能由大模型复现。

这当然很有必要，随着社会越来越依赖大模型，了解它在哪些方面能成功以及哪些方面会失败变得越来越重要。

语言分析是评估语言模型推理能力与人类相似程度的理想测试平台。

而o1能够以与语言学家相似的方式分析语言，例如绘制句子图、解决多个歧义含义，并利用递归等复杂的语言特征

但我们发现这一现象后，人们不禁会问下面两个问题：

第一个问题是为何只有o1可行，其它大模型表现都差一大截。

回答是相比其它模型，o1 的优势很可能源于思维链（类似Deepseek的深度思考），使其能像人类语言学家一样逐步推理、验证假设、构建抽象规则。

第二个问题是当模型的性能随着规模变大而变大时，大模型是否有一天会比我们更能准确的理解语言吗？

对于这个问题的回答，目前还没有定论。

一方面，任何的大模型在语言学上还没有提出过原创性的观点，也没有教给我们关于语言的新知识。

另一方面，增加计算能力和训练数据，语言模型最终会在语言技能上超越我们，看不出有什么理由阻止语言模型展现出比我们更好的语言理解能力。

研究尚不足以宣称「机器理解语言胜于人类」，但足以改变评价口径：对模型的考察，应从「任务产出」转向「结构解释」。

当可解释性成为首要指标，AI研究、教育与应用治理将迎来同一套标准——把「为什么对」放在「对不对」之前。

参考资料：

https://ieeexplore.ieee.org/document/11022724

https://www.quantamagazine.org/in-a-first-ai-models-analyze-language-as-well-as-a-human-expert-20251031/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

「不仅会想，还能准确去做」VLA-R1把「推理+行动」带进真实世界

机器之心Pro 2025-10-27 19:12:41
0 跟贴 0
视频模型假装在推理？MME-CoF新基准评估12个推理维度

新智元 2025-11-07 20:41:52
0 跟贴 0

Token经济时代，AI推理跑不快的瓶颈是“存力”？

钛媒体APP 2025-11-07 12:05:21
0 跟贴 0

77岁「AI教父」Hinton：AI早有意识！我们打造的智能，可能终结人类文明

新智元 2025-10-11 13:21:31
104 跟贴 104
终结Transformer统治！清华姚班校友出手，剑指AI「灾难性遗忘」

新智元 2025-11-08 17:13:46
0 跟贴 0

ICCV涌现自动驾驶新范式：统一世界模型VLA，用训练闭环迈向L4

量子位 2025-11-08 12:32:59
0 跟贴 0

AI六巨头罕见同台！李飞飞激辩LeCun，黄仁勋：你们都错了

新智元 2025-11-08 19:10:18
0 跟贴 0
世界模型==VQA？机器人不用想象画面，预测语义就够了

机器之心Pro 2025-10-28 10:14:22
1 跟贴 1

AI100访谈：「Get笔记」方法论｜量子位智库

量子位 2025-11-08 15:01:19
0 跟贴 0
华为云的组合新范式，引爆了Agentic AI应用革命

机器之心Pro 2025-11-07 15:20:44
2 跟贴 2
乐观者永远赢！AI产业泡沫？两轮产业浪潮启示录——极简投研

每日经济新闻 2025-11-08 17:14:58
0 跟贴 0
当“提笔忘字”成日常，谁还记得汉字曾惊艳了千年？

上观新闻 2025-11-08 07:18:05
3 跟贴 3
我们都用错了“抽象”？不，是语言自己“起义”了

朝廷心腹 2025-11-04 11:41:14
0 跟贴 0
2025重磅实测！8大英语APP口语对决，黑马「咕噜口语」逆袭登顶！

视听庆阳 2025-11-08 11:52:35
0 跟贴 0
变态女孩锯掉男友双腿，只为把他永远留在身边，悬疑犯罪片

憨哥哥电影 2025-11-06 19:29:27
1 跟贴 1
【教育观察｜家长必看】从“能听”到“会写”，孩子英语能力差距正在拉大！

鲁晓芙看欧洲 2025-11-08 06:40:15
0 跟贴 0
来上课了——高中最难语法：非谓语动词作宾补及综合训练第2段

沙中的世界 2025-11-05 14:24:58
12 跟贴 12
2025发音改正纠正发音AI应用Top4爆款真实排名!

高光资讯 2025-11-08 18:54:24
1 跟贴 1
顶刊独立一作！她从学科破壁走向交叉前沿

上观新闻 2025-11-05 09:49:09
0 跟贴 0
中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

机器之心Pro 2025-11-06 16:11:29
0 跟贴 0
孩子的数学危机，早在小学就埋下了

教育思享 2025-11-06 20:47:34
0 跟贴 0
语文的本质是一种诗在

中国教育新闻网 2025-11-05 07:59:15
0 跟贴 0
原来星期英文单词还能这么记

碰个冷知识 2025-11-07 17:00:00
12 跟贴 12
上海话经典词汇大揭秘，这些词你肯定想不到，绝对让你大开眼界

笑的牙痒痒 2025-11-07 00:00:00
1 跟贴 1
爆大冷了！日本U17世界杯遭法属新喀里多尼亚逼平，地理知识：来自南太平洋29万人口的群岛地区

咪咕体育 2025-11-07 22:25:44
3 跟贴 3
高智商游戏，悬疑影片高智商游戏，悬疑影片

秘境观影d 2025-11-05 23:56:15
0 跟贴 0
警察去调查失踪案件，竟在下水道发现女尸，悬疑犯罪片

憨哥哥电影 2025-11-06 19:23:51
9 跟贴 9
46分钟一口气看完！犯罪悬疑类神剧《真探》第四季完整版

凉爽追剧 2025-11-06 03:37:47
1 跟贴 1
男子半夜偷偷刷视频看美女，女友利用眼球反光全程监视。网友：恋爱中的女生简直堪比福尔摩斯

柚子Video 2025-11-08 00:34:57
2 跟贴 2
武契奇称"无法保证不制裁俄罗斯" 俄方回应

参考消息网 2025-11-08 01:23:28
4879 跟贴 4879
学英语单词奇怪的姿势，当你吃鸡肉时，绝对会想起来怎么读！

眯眼的少女 2025-11-06 15:02:31
1 跟贴 1
巴菲特：韩国人非常的愚蠢，他们竟然放弃了汉字，不再使用汉字

百态人间 2025-11-06 05:50:03
73 跟贴 73
有知识到哪都能得到赏识

阿娇侃剧 2025-11-06 17:56:19
1 跟贴 1
杭州市监部门：对淘宝“霸屏广告”展开调查

潇湘晨报 2025-11-08 10:19:14
1223 跟贴 1223
“人民咖啡馆”被央媒点名批评后紧急改名，记者实探：店铺已开始整改，店名被遮盖

极目新闻 2025-11-08 13:20:10
218 跟贴 218
ASML展示首款先进封装大视场光刻机

财联社 2025-11-07 20:51:05
1159 跟贴 1159
重庆北碚区划调整情况通报会举行，区委书记：实现国家战略下的“再生长”

澎湃新闻 2025-11-08 13:32:27
79 跟贴 79
变态杀人魔疯狂作案，专门对单身漂亮女孩下手，悬疑犯罪片

憨哥哥电影 2025-11-08 14:28:54
1 跟贴 1
最冷门的5部谍战剧，剧情紧凑悬疑，被严重低估了

小Q侃电影 2025-11-08 17:34:51
1 跟贴 1
哪些省份被纳入“航母命名库”？海军回应

新京报 2025-11-08 16:23:37
438 跟贴 438

房贷还有650万，市场价仅360万，深圳90后业主问“我该怎么办？”

房贷还有650万，市场价仅360万，深圳90后业主问“我该怎么办？”

恪守原则和底线

2025-11-07 11:50:03

银行批量直售房产

经济观察报

2025-11-07 21:22:29

玩不到一起真尴尬，杨迪努力搞气氛，关晓彤无视梅婷，敖瑞鹏白来

玩不到一起真尴尬，杨迪努力搞气氛，关晓彤无视梅婷，敖瑞鹏白来

洲洲影视娱评

2025-11-08 15:53:41

黄火青曾想帮助丁盛恢复军籍，事情碰壁，慨叹：谁知结果是这样！

黄火青曾想帮助丁盛恢复军籍，事情碰壁，慨叹：谁知结果是这样！

春秋砚

2025-11-08 13:30:06

女生发明“咯噔字体”，被老师0分警告：别用个性挑战考试的底线

女生发明“咯噔字体”，被老师0分警告：别用个性挑战考试的底线

妍妍教育日记

2025-11-01 12:00:56

不装了？面对解放军武力夺台，郑丽文语出惊人，喊出“武力保台”

不装了？面对解放军武力夺台，郑丽文语出惊人，喊出“武力保台”

赵钇是个热血青年

2025-11-05 17:29:23

生完孩子后孙艺珍的面相也变了！剪短发吃零食！童心爆棚

生完孩子后孙艺珍的面相也变了！剪短发吃零食！童心爆棚

农村娱乐光哥

2025-11-07 12:50:40

当年身患渐冻症，还坚持在抗疫一线的张定宇院长，如今境况如何？

当年身患渐冻症，还坚持在抗疫一线的张定宇院长，如今境况如何？

以茶带书

2025-11-06 17:14:26

走不出广东的嘉顿面包，凭什么火了近百年？

走不出广东的嘉顿面包，凭什么火了近百年？

观潮消费

2025-11-07 17:26:17

苦等一年！上海这里，终于要拆了！

苦等一年！上海这里，终于要拆了！

新浪财经

2025-11-07 20:08:21

万科的钱去哪了？

白梦日记

2025-11-05 21:36:56

800万粉网红教唆吸毒！女主播哭诉求谅解，账号全封警方核查！

800万粉网红教唆吸毒！女主播哭诉求谅解，账号全封警方核查！

你食不食油饼

2025-11-08 14:31:06

一年蒸发了10亿元，从网红白酒到狗都不喝，究竟发生了什么？

一年蒸发了10亿元，从网红白酒到狗都不喝，究竟发生了什么？

法老不说教

2025-11-06 20:45:28

网友日本机场偶遇章泽天戴着眼镜超美啊本人气质好绝人群中超亮眼

网友日本机场偶遇章泽天戴着眼镜超美啊本人气质好绝人群中超亮眼

陈意小可爱

2025-11-08 10:32:53

郑丽文：尊重2300万台湾人意愿，绝不能武统！洪秀柱：当然可以打

郑丽文：尊重2300万台湾人意愿，绝不能武统！洪秀柱：当然可以打

刚哥说法365

2025-11-01 17:15:20

“软的更软，硬的更硬”

环球网资讯

2025-11-07 19:53:14

全运会女子10米台：陈芋汐407C出现失误，仍头名晋级半决赛

全运会女子10米台：陈芋汐407C出现失误，仍头名晋级半决赛

全景体育V

2025-11-08 11:46:29

60岁以上老人的必须牢记10条宝典，第八条打死不做，否则晚景凄惨

60岁以上老人的必须牢记10条宝典，第八条打死不做，否则晚景凄惨

情感大使馆

2025-10-27 10:05:41

拿30+如喝水场均盖帽超1次亚历山大就是当代乔丹

拿30+如喝水场均盖帽超1次亚历山大就是当代乔丹

体坛周报

2025-11-08 17:05:10

全运会乒乓球：单打开赛！11月8日赛程公布，国乒世界冠军再登场

全运会乒乓球：单打开赛！11月8日赛程公布，国乒世界冠军再登场

海阔山遥YAO

2025-11-08 12:58:41

AI产业主平台领航智能+时代

13819文章数 66238关注度

往期回顾全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

张家界荒野求生赛事策划：最佩服"冷美人" 但她难夺冠

头条要闻

张家界荒野求生赛事策划：最佩服"冷美人" 但她难夺冠

体育要闻

马刺绞赢火箭，不靠文班亚马？

娱乐要闻

古二再度放料！秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线：28.85 万元

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

时尚

健康

本地

游戏

艺术要闻

书法史上四位“绝世高人”，个个有一手绝活，启功：能学到一成便是造化！

推广 || 断舍离N次也不会断了它，买过最值的冬日单品之一

超声探头会加重受伤情况吗？

本地新闻

这届干饭人，已经把博物馆吃成了食堂

玩家破译出《质量效应5》隐藏截图：暗示游戏剧情?

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版