网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

LLM首次达到人类语言专家水平！OpenAI o1拿下拆解句法、识别歧义、推理音律

2025-11-08 12:34:47　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：peter东

【新智元导读】LLM再下一城！伯克利研究证明：OpenAI的o1被证明也具有匹敌人类语言学家的元分析能力。

在人类诸多才能之中，哪些才是人类所独有的？

自古希腊哲人亚里士多德以来，语言便被视为最能彰显人之本性的标志。他曾言：人类乃「具有语言的动物」。

即使当今的大语言模型如ChatGPT已能在表层上模拟人类的日常言谈，学者们依然追问：

在人类语言的深处，是否蕴藏着某些独特的结构与特质，是任何其他生物的沟通方式，乃至AI的运算体系，皆无法真正企及的？

加州大学伯克利分校语言学家、罗格斯大学的携手，让多个大语言模型经受一系列语言学测试——其中包括要求模型归纳虚构语言的规则。

虽然大多数大语言模型未能像人类那样解析语言学规则，但有一个模型展现出远超预期的惊人能力。它能像语言学研究生那样分析语言——划分句子成分、解析多重歧义，并能运用递归等复杂语言学特征。

研究者Gašper Beguš表示，这一发现「挑战了我们对人工智能能力的认知」。

AI会说话不稀奇，会解释才稀奇——

如果语言是让我们成为人类的关键，那么如今大语言模型获得了「元语言」能力，这又意味着什么呢？

LLM构建无穷递归

想象一下：你在搭一座一层套一层、像俄罗斯套娃一样的「句子塔」。

每套进一层，理解难度就指数级上升。

这种结构，在语言学里叫「中心嵌入」（center embedding），曾被知名语言学家乔姆斯基称为能定义人类语言与思维的决定性特征。

比如这句话：

The worldview that the prose Nietzsche wrote expressed was unprecedented.

（大意为：尼采所写的那篇散文所表达的世界观是前所未有的。）

表面上看平平无奇，但如果你拆开它的「语言洋葱」：

最外层：The worldview [...] was unprecedented（这个「世界观」前所未有）；

套进去一层：that the prose [...] expressed（是「那篇散文所表达的」）；

再往里一层：Nietzsche wrote（而这篇散文是「尼采写的」）。

这就像在一个句子中间，又塞进一个完整的句子，再在那个句子里塞进另一个句子——三层套娃，层层递归。

人类能理解这样的句子，但之前，人们认为这样的能力大模型不具备。

上述句子在真实对话中几乎从未出现过——因为大家会觉得它「太绕了！」

所以，任何语言模型如果只是靠「背书」，根本不可能见过，自然也无法识别出这种例子。

语言学家们认为，人类语言从有限词汇和有限规则中生成无限可能句子，这种能力归因于无限递归。

迄今为止，还没有令人信服的证据表明其他动物能够以复杂的方式使用递归。

图1：不同大模型识别多重递归，绘制正确语法树的比例

然而，该研究指出在众多大模型中，唯有OpenAI o1模型不仅看懂包含多重递归的句子（图1）。

o1不仅能如同语言学家那样，以接近100%的正确率画出正确的树状结构，还能将本就复杂的句子变得更多一层。

图2：该句子对应的正确语法树

当它被问：「能不能再加一层递归？」o1回复：

The worldview that the prose that the philosopher Nietzsche admired wrote expressed was unprecedented.

「那位尼采所敬仰的哲学家所撰写的散文所表达的世界观是前所未有的。」

这说明o1不仅能够使用语言，还能够思考语言，具备元语言能力（metalinguistic capacity ）。

由于语言模型只是在预测句子中的下一个单词，人对语言的深层理解在质上有所不同。因此，一些语言学家表示，大模型实际上并没有在处理语言。

这项研究的结论看起来是对上述观点的否定。

大模型能区分歧义

也能深入理解句子

想象一下，你听到下面的话：「Eliza wanted her cast out.」

乍一听，好像就是「Eliza想把她的cast赶出去」？

但「cast」这个词既可以是动词（「驱逐」），也可以是名词（「石膏」）！

于是这句话就有两种不同的含义，分别是

Eliza想要她的石膏被拿出去，

Eliza想把她赶出去。

这样识别包含多义性句子的能力，之前同样被认为大模型不具备。

人类拥有很多常识知识，使我们能够排除歧义。但大模型很难具有这样的常识知识水平。

然而该研究表明，o1可正确识别两种结构，并为每种生成了符合语言学规划的句法树。其他模型（如 GPT-4、Llama 3.1）只会生成不合语法的结构，还会对语义产生误解。

该研究还考察了大模型在音韵学相关任务上的表现——

音韵学是研究声音模式以及最小的声音单位，即音素的组织方式。

例如，在英语中，给以「g」结尾的词加上「s」会发出「z」的音，就像「dogs」一样。但给以「t」结尾的词加上「s」听起来更像标准的「s」音，就像「cats」一样。

该研究一口气创建了30种新的迷你语言，以了解大模型是否能够在面对新生成的虚拟语言时，在没有任何先验知识的情况下能不能正确推断语音规则。

结果出人意料，即使是在这些虚构的语言上，o1在音韵相关的任务上表现依旧出色。

大模型比人类更好地理解语言吗？

从上述三个例子可以看出，曾经那些被认为仅仅人类能够拥有的语言理解能力，大模型如今也具备了。

2023 年著名语言学家乔姆斯基在《纽约时报》上写道：「语言的正确解释很复杂，不能仅仅通过浸泡在大数据中就能学会。」

该文认为尽管 AI 模型在运用语言方面可能很擅长，但它们并不具备以复杂方式分析语言的能力。

在此思潮影响下，即使ChatGPT在各方面上复制了自然语言，公众仍想知道大模型是否有人类语言的特定特征能不能由大模型复现。

这当然很有必要，随着社会越来越依赖大模型，了解它在哪些方面能成功以及哪些方面会失败变得越来越重要。

语言分析是评估语言模型推理能力与人类相似程度的理想测试平台。

而o1能够以与语言学家相似的方式分析语言，例如绘制句子图、解决多个歧义含义，并利用递归等复杂的语言特征

但我们发现这一现象后，人们不禁会问下面两个问题：

第一个问题是为何只有o1可行，其它大模型表现都差一大截。

回答是相比其它模型，o1 的优势很可能源于思维链（类似Deepseek的深度思考），使其能像人类语言学家一样逐步推理、验证假设、构建抽象规则。

第二个问题是当模型的性能随着规模变大而变大时，大模型是否有一天会比我们更能准确的理解语言吗？

对于这个问题的回答，目前还没有定论。

一方面，任何的大模型在语言学上还没有提出过原创性的观点，也没有教给我们关于语言的新知识。

另一方面，增加计算能力和训练数据，语言模型最终会在语言技能上超越我们，看不出有什么理由阻止语言模型展现出比我们更好的语言理解能力。

研究尚不足以宣称「机器理解语言胜于人类」，但足以改变评价口径：对模型的考察，应从「任务产出」转向「结构解释」。

当可解释性成为首要指标，AI研究、教育与应用治理将迎来同一套标准——把「为什么对」放在「对不对」之前。

参考资料：

https://ieeexplore.ieee.org/document/11022724

https://www.quantamagazine.org/in-a-first-ai-models-analyze-language-as-well-as-a-human-expert-20251031/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

ACL 2026｜块越大，推理越差？扩散语言模型的新难题被T*破解了

机器之心Pro 2026-07-05 21:04:57
0 跟贴 0
OpenAI塌房！Scaling law原作曝bug，万亿算力全白烧

新智元 2026-07-05 12:45:19
94 跟贴 94

AI 越记住你，越可能"带着偏见理解你"

钛媒体APP 2026-07-05 17:50:20
1 跟贴 1

Codex、ChatGPT为何合体？OpenAI核心leader回应一切

机器之心Pro 2026-07-05 21:10:33
5 跟贴 5
当AI从租GPU走向卖Token，谁会赚到真正的钱？

虎嗅APP 2026-05-19 00:08:10
0 跟贴 0

Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践

量子位 2026-06-13 16:08:07
18 跟贴 18

AI长文本推理省内存神器面世，省53%显存还更准

DeepTech深科技 2026-07-05 17:47:58
2 跟贴 2
Gemini核心贡献者演讲：未来会有数十亿超人级AI爱因斯坦

机器之心Pro 2026-07-05 17:07:24
4 跟贴 4

视频生成模型会「推理」吗？303道题全面揭示世界模型的推理短板

机器之心Pro 2026-06-28 18:29:07
0 跟贴 0
Claude工程师终于交出Fable 5焚诀！教你打破和模型之间的信息差

机器之心Pro 2026-07-05 20:39:00
0 跟贴 0
别问AI像不像人了，先问它在灾难里能不能逃命

虎嗅APP 2026-07-06 01:54:26
0 跟贴 0
他给自己造了个诺贝尔奖，所有人都信了！真诺贝尔得主也给他站台，10年才露馅

英国那些事儿 2026-05-08 23:22:39
81 跟贴 81
GPT-5.5突遭暗中降智，思考一到516就断！越难越翻车

新智元 2026-07-05 16:00:55
2 跟贴 2
悬疑好剧结局反转到想骂街，神片预定

看看影视屋 2026-07-04 14:52:51
3 跟贴 3
高知识儿媳悟出婆媳的相处之道，女子掏心窝子说出大实话！

沙果唠生活 2026-07-02 01:00:21
262 跟贴 262
金庸作品中一直被低估的《雪山飞狐》，其实是一部推理神作！

绝对正常兽 2026-07-04 12:51:44
6 跟贴 6
社会语言学视角下解读南京地铁站名

江西地名研究 2026-07-02 18:48:35
0 跟贴 0
马绍信仅演一次林总，成壹零壹代名词，经典演绎难超越

雨轩电影 2026-07-04 22:04:23
3 跟贴 3
知乎日报这个问题，语言学看了想骂人

地球观察日记 2026-07-03 07:06:15
0 跟贴 0
“从共同历史走向共同未来——中欧关系中的跨文化对话”系列学术活动举办

人民网 2026-07-05 10:53:52
0 跟贴 0
图形推理，学霸如何找出规律呢

公考客栈店小二 2026-07-03 09:00:00
0 跟贴 0
废除汉字50年、纠纷事故不断，韩国为何现在才醒悟恢复汉字？

飘逸语人 2026-07-05 11:01:10
4 跟贴 4
你学不会新语言，真不是因为你懒

晚风也遗憾 2026-07-05 00:50:00
0 跟贴 0
图形推理，复杂的字母能找出规律吗

公考客栈店小二 2026-07-01 18:00:00
0 跟贴 0
高速推理动作游戏《超级弹丸论破2×2》延期至2027年初发售

IT之家 2026-07-05 21:14:11
5 跟贴 5
泰山景区回应修建滚筒式刀片刺绳隔离铁丝网：与正常游览路线不交叉不重叠

北京日报客户端 2026-07-02 08:55:17
20250 跟贴 20250
张凌赫看网友弹幕给自己看爽了开始推理吧#综艺

鲸让我照顾海 2026-07-02 23:14:23
0 跟贴 0
冯德莱恩：中欧对话结果必须令人满意否则将进行报复

澎湃新闻 2026-07-05 07:08:04
10888 跟贴 10888
河南80后男子带村民养蝉，高峰期一晚上可抓1.2万只：每晚摸三轮爬叉，抓到4小时内冷冻

环球网资讯 2026-07-05 08:36:34
4133 跟贴 4133
音律革新点亮燕赵！“赵曼琴律”亮相河北引发民乐热潮

中国商报河北记者站 2026-07-05 16:33:03
0 跟贴 0
捡到这些石头还要上班吗 #科普一下 #科普#涨知识 #石头

巴勒斯坦媳妇茉莉 2026-07-04 13:27:21
1 跟贴 1
法国队主帅:安排2名强壮球员保护姆巴佩以防对手报复

红星新闻 2026-07-05 09:06:42
2949 跟贴 2949
7月15日，豆包、千问下线该功能！

济源网 2026-07-05 11:07:47
142 跟贴 142
把Agent丢入1000+文件：人大CoDA-Bench揭示Code Agent瓶颈

机器之心Pro 2026-07-05 16:28:08
0 跟贴 0
观众都说这是悬疑惊悚剧的黑马！不看肯定后悔！

盒子酸奶 2026-07-05 05:10:25
0 跟贴 0
继《繁华落尽》后，金瀚又一部悬疑力作！

小婉说剧 2026-07-05 23:13:32
0 跟贴 0
日常用词藏玄机！上厕所为何说上，下厨房偏要说下？

明天见灌装冰块 2026-07-05 22:45:46
0 跟贴 0
ECCV 2026 |悉尼大学提出Linstereo, 打通立体匹配「最后一公里」

机器之心Pro 2026-07-05 16:39:04
0 跟贴 0
中央安全考核巡查组专家现场质问：你们管理人员上去过吗？

上观新闻 2026-07-05 14:22:38
21 跟贴 21
哈兰德将标志性长发剪成利落短发，6日凌晨4点迎战巴西

极目新闻 2026-07-05 17:19:25
1995 跟贴 1995

李湘王诗龄同框瘦成闪电！这回终于穿对了，15岁气质吊打一众名媛

李湘王诗龄同框瘦成闪电！这回终于穿对了，15岁气质吊打一众名媛

今古深日报

2026-07-04 11:20:28

四大公认“最难学”大学专业！含金量极高但易挂科，报考前要知道

四大公认“最难学”大学专业！含金量极高但易挂科，报考前要知道

狐狸先森讲升学规划

2026-07-06 02:05:03

欧洲留学生为实现“空调自由”有多拼？成都女生花2000元运费给在英男友寄千元空调，有人网上寻拼单搭子立省100欧

欧洲留学生为实现“空调自由”有多拼？成都女生花2000元运费给在英男友寄千元空调，有人网上寻拼单搭子立省100欧

极目新闻

2026-07-05 13:29:12

王力宏缝了39针，事故责任人被调查

王力宏缝了39针，事故责任人被调查

第一财经资讯

2026-07-05 11:17:55

为何印度总想霸占西藏？一旦西藏丢了，中国人连喝水都要看人脸色

为何印度总想霸占西藏？一旦西藏丢了，中国人连喝水都要看人脸色

鹏飞展翅

2024-07-10 15:35:01

大量上市！夏天敞开吃？高钾低钠，健脾胃消水肿

大量上市！夏天敞开吃？高钾低钠，健脾胃消水肿

鬼菜生活

2026-07-04 13:36:34

关店800家，连亏9个亿，“中国鞋王”日薄西山，创始人已倾家荡产

关店800家，连亏9个亿，“中国鞋王”日薄西山，创始人已倾家荡产

壹只灰鸽子

2026-07-03 13:35:04

破案了！为何姆巴佩面对巴拉圭坏动作“忍气吞声”？真相浮出水面

破案了！为何姆巴佩面对巴拉圭坏动作“忍气吞声”？真相浮出水面

墨印斋

2026-07-05 15:10:28

4换2！联手弗拉格！西部最被低估的交易

4换2！联手弗拉格！西部最被低估的交易

篮球教学论坛

2026-07-05 20:42:09

内蒙古东乌珠穆沁旗硝酸铵运输车事故已致2死4伤

内蒙古东乌珠穆沁旗硝酸铵运输车事故已致2死4伤

极目新闻

2026-07-05 19:07:17

不再是120/80，“新血压标准”已公布，别再自己吓自己！

不再是120/80，“新血压标准”已公布，别再自己吓自己！

芹姐说生活

2026-04-14 23:27:03

年纪大了，性生活时“力不从心”怎么办？多数老夫妻可能都做错了

年纪大了，性生活时“力不从心”怎么办？多数老夫妻可能都做错了

开心美食白科

2026-06-23 02:06:15

戴志诚和袁茵结婚多年后的合影，二人看起来挺有夫妻相的

戴志诚和袁茵结婚多年后的合影，二人看起来挺有夫妻相的

喜文多见01

2026-06-01 07:30:43

想拦都拦不住！冯德莱恩没想到，刚准备贸易战，中国空调爆单了

想拦都拦不住！冯德莱恩没想到，刚准备贸易战，中国空调爆单了

乐趣纪史

2026-07-05 00:40:54

打车去拉萨续：当事出租车已托运回重庆，司机飞机返程，50万大奖

打车去拉萨续：当事出租车已托运回重庆，司机飞机返程，50万大奖

阿莱美食汇

2026-07-05 21:04:01

雅典海报郑钦文c位出道，网友预测会给外卡，与团队聚餐心情不错

雅典海报郑钦文c位出道，网友预测会给外卡，与团队聚餐心情不错

网球之家

2026-07-05 22:15:51

中方亲自上门提醒马科斯，不要装傻充愣，处置菲防长尽快给个交代

中方亲自上门提醒马科斯，不要装傻充愣，处置菲防长尽快给个交代

小莜读史

2026-07-06 04:48:51

我国首架，首飞成功！

环球网资讯

2026-07-04 15:50:17

网友实拍西安赛格商城，人流量暴跌，冷冷清清，实体店太艰难！

网友实拍西安赛格商城，人流量暴跌，冷冷清清，实体店太艰难！

眼光很亮

2026-07-05 13:43:12

把瑜伽裤穿成日常的松弛感美女

只要高兴就好

2026-04-13 14:30:30

AI产业主平台领航智能+时代

15614文章数 66949关注度

往期回顾全部

科技要闻

华为：逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

白宫致电FIFA后美国队球员获“特赦” 特朗普表态

头条要闻

白宫致电FIFA后美国队球员获“特赦” 特朗普表态

体育要闻

姆巴佩点走巴拉圭：巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光用上了长联屏设计/下半年上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

房产

艺术

手机

旅游

3年赚46亿，杨幂喊出一个安徽富豪

房产要闻

总裁空缺17个月、现金缺口超1000亿：金融局“局外人”入局万科

艺术要闻

伊朗超高层方案惊艳世界，曾获国际大奖！

手机要闻

2026下半年换机方向定了：大屏手机要火，华米OV耀聚齐了

旅游要闻

守着抚仙湖过日子的古村寨，两个彝语汉字，道尽祖辈渔耕一生！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版