网易首页 > 网易号 > 正文 申请入驻

LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律

0
分享至

来源:市场资讯

(来源:新智元)

新智元报道

编辑:peter东

【新智元导读】LLM再下一城!伯克利研究证明:OpenAI的o1被证明也具有匹敌人类语言学家的元分析能力。

在人类诸多才能之中,哪些才是人类所独有的?

自古希腊哲人亚里士多德以来,语言便被视为最能彰显人之本性的标志。他曾言:人类乃「具有语言的动物」。

即使当今的大语言模型如ChatGPT已能在表层上模拟人类的日常言谈,学者们依然追问:

在人类语言的深处,是否蕴藏着某些独特的结构与特质,是任何其他生物的沟通方式,乃至AI的运算体系,皆无法真正企及的?

加州大学伯克利分校语言学家、罗格斯大学的携手,让多个大语言模型经受一系列语言学测试——其中包括要求模型归纳虚构语言的规则。

虽然大多数大语言模型未能像人类那样解析语言学规则,但有一个模型展现出远超预期的惊人能力。它能像语言学研究生那样分析语言——划分句子成分、解析多重歧义,并能运用递归等复杂语言学特征。

研究者Gašper Beguš表示,这一发现「挑战了我们对人工智能能力的认知」。

AI会说话不稀奇,会解释才稀奇——

如果语言是让我们成为人类的关键,那么如今大语言模型获得了「元语言」能力,这又意味着什么呢?

LLM构建无穷递归

想象一下:你在搭一座一层套一层、像俄罗斯套娃一样的「句子塔」。

每套进一层,理解难度就指数级上升。

这种结构,在语言学里叫「中心嵌入」(center embedding),曾被知名语言学家乔姆斯基称为能定义人类语言与思维的决定性特征。

比如这句话:

The worldview that the prose Nietzsche wrote expressed was unprecedented.

(大意为:尼采所写的那篇散文所表达的世界观是前所未有的。)

表面上看平平无奇,但如果你拆开它的「语言洋葱」:

最外层:The worldview [...] was unprecedented(这个「世界观」前所未有);

套进去一层:that the prose [...] expressed(是「那篇散文所表达的」);

再往里一层:Nietzsche wrote(而这篇散文是「尼采写的」)。

这就像在一个句子中间,又塞进一个完整的句子,再在那个句子里塞进另一个句子——三层套娃,层层递归。

人类能理解这样的句子,但之前,人们认为这样的能力大模型不具备。

上述句子在真实对话中几乎从未出现过——因为大家会觉得它「太绕了!」

所以,任何语言模型如果只是靠「背书」,根本不可能见过,自然也无法识别出这种例子。

语言学家们认为,人类语言从有限词汇和有限规则中生成无限可能句子,这种能力归因于无限递归。

迄今为止,还没有令人信服的证据表明其他动物能够以复杂的方式使用递归。

然而,该研究指出在众多大模型中,唯有OpenAI o1模型不仅看懂包含多重递归的句子(图1)。

o1不仅能如同语言学家那样,以接近100%的正确率画出正确的树状结构,还能将本就复杂的句子变得更多一层。

当它被问:「能不能再加一层递归?」o1回复:

The worldview that the prose that the philosopher Nietzsche admired wrote expressed was unprecedented.

「那位尼采所敬仰的哲学家所撰写的散文所表达的世界观是前所未有的。」

这说明o1不仅能够使用语言,还能够思考语言,具备元语言能力(metalinguistic capacity )。

由于语言模型只是在预测句子中的下一个单词,人对语言的深层理解在质上有所不同。因此,一些语言学家表示,大模型实际上并没有在处理语言。

这项研究的结论看起来是对上述观点的否定。

大模型能区分歧义

也能深入理解句子

想象一下,你听到下面的话:「Eliza wanted her cast out.」

乍一听,好像就是「Eliza想把她的cast赶出去」?

但「cast」这个词既可以是动词(「驱逐」),也可以是名词(「石膏」)!

于是这句话就有两种不同的含义,分别是

Eliza想要她的石膏被拿出去,

Eliza想把她赶出去。

这样识别包含多义性句子的能力,之前同样被认为大模型不具备。

人类拥有很多常识知识,使我们能够排除歧义。但大模型很难具有这样的常识知识水平。

然而该研究表明,o1可正确识别两种结构,并为每种生成了符合语言学规划的句法树。其他模型(如 GPT-4、Llama 3.1)只会生成不合语法的结构,还会对语义产生误解。

该研究还考察了大模型在音韵学相关任务上的表现——

音韵学是研究声音模式以及最小的声音单位,即音素的组织方式。

例如,在英语中,给以「g」结尾的词加上「s」会发出「z」的音,就像「dogs」一样。但给以「t」结尾的词加上「s」听起来更像标准的「s」音,就像「cats」一样。

该研究一口气创建了30种新的迷你语言,以了解大模型是否能够在面对新生成的虚拟语言时,在没有任何先验知识的情况下能不能正确推断语音规则。

结果出人意料,即使是在这些虚构的语言上,o1在音韵相关的任务上表现依旧出色。

大模型比人类更好地理解语言吗?

从上述三个例子可以看出,曾经那些被认为仅仅人类能够拥有的语言理解能力,大模型如今也具备了。

2023 年著名语言学家乔姆斯基在《纽约时报》上写道:「语言的正确解释很复杂,不能仅仅通过浸泡在大数据中就能学会。」

该文认为尽管 AI 模型在运用语言方面可能很擅长,但它们并不具备以复杂方式分析语言的能力。

在此思潮影响下,即使ChatGPT在各方面上复制了自然语言,公众仍想知道大模型是否有人类语言的特定特征能不能由大模型复现。

这当然很有必要,随着社会越来越依赖大模型,了解它在哪些方面能成功以及哪些方面会失败变得越来越重要。

语言分析是评估语言模型推理能力与人类相似程度的理想测试平台。

而o1能够以与语言学家相似的方式分析语言,例如绘制句子图、解决多个歧义含义,并利用递归等复杂的语言特征

但我们发现这一现象后,人们不禁会问下面两个问题:

第一个问题是为何只有o1可行,其它大模型表现都差一大截。

回答是相比其它模型,o1 的优势很可能源于思维链(类似Deepseek的深度思考),使其能像人类语言学家一样逐步推理、验证假设、构建抽象规则。

第二个问题是当模型的性能随着规模变大而变大时,大模型是否有一天会比我们更能准确的理解语言吗?

对于这个问题的回答,目前还没有定论。

一方面,任何的大模型在语言学上还没有提出过原创性的观点,也没有教给我们关于语言的新知识。

另一方面,增加计算能力和训练数据,语言模型最终会在语言技能上超越我们,看不出有什么理由阻止语言模型展现出比我们更好的语言理解能力。

研究尚不足以宣称「机器理解语言胜于人类」,但足以改变评价口径:对模型的考察,应从「任务产出」转向「结构解释」。

当可解释性成为首要指标,AI研究、教育与应用治理将迎来同一套标准——把「为什么对」放在「对不对」之前。

参考资料:

https://ieeexplore.ieee.org/document/11022724

https://www.quantamagazine.org/in-a-first-ai-models-analyze-language-as-well-as-a-human-expert-20251031/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
发现了1个残酷真相:被美军抓走的马杜罗,如今已经被彻底遗忘

发现了1个残酷真相:被美军抓走的马杜罗,如今已经被彻底遗忘

小新的视界
2026-05-07 19:47:17
《教父》柯里昂临终前的顿悟:男人可以嚣张,可以蛮横,可以得罪权贵,唯独这两类人,碰了就是给自己种下祸端

《教父》柯里昂临终前的顿悟:男人可以嚣张,可以蛮横,可以得罪权贵,唯独这两类人,碰了就是给自己种下祸端

心理观察局
2026-05-08 09:32:04
凯特·贝金赛尔红毯状态碾压00后,网友:这姐是吃了防腐剂?

凯特·贝金赛尔红毯状态碾压00后,网友:这姐是吃了防腐剂?

小燕烹那鱼
2026-05-06 11:41:00
泽州4.26刑案嫌犯落网!逃亡四天后在山腰被抓,知情人披露案因

泽州4.26刑案嫌犯落网!逃亡四天后在山腰被抓,知情人披露案因

Likepres
2026-05-07 21:03:43
魏凤和案、李尚福案一审宣判

魏凤和案、李尚福案一审宣判

新京报政事儿
2026-05-07 18:28:08
队报:欧冠对阿森纳前巴黎有2周没比赛,将用于恢复球员身心

队报:欧冠对阿森纳前巴黎有2周没比赛,将用于恢复球员身心

隐于山海
2026-05-08 18:37:04
值得珍藏:未来科技七大赛道+卫星互联网+存储芯片+机器人+半导体

值得珍藏:未来科技七大赛道+卫星互联网+存储芯片+机器人+半导体

林子说事
2026-05-08 08:40:31
男大学生被狗咬了后意外离世,母亲哭诉生前已打5针疫苗

男大学生被狗咬了后意外离世,母亲哭诉生前已打5针疫苗

纸鸢奇谭
2026-02-10 11:13:06
我国首位女航天员刘洋,结婚8年未生子,临行前给丈夫留下2条遗言

我国首位女航天员刘洋,结婚8年未生子,临行前给丈夫留下2条遗言

霁寒飘雪
2026-04-01 07:40:42
德国“打工人”天塌了?1000欧免税补贴计划遭联邦参议院否决

德国“打工人”天塌了?1000欧免税补贴计划遭联邦参议院否决

道德经
2026-05-09 00:19:38
7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

拳击时空
2026-04-16 06:04:48
随着维拉4-1,英超成为本赛季欧战最大赢家:3队打入决赛

随着维拉4-1,英超成为本赛季欧战最大赢家:3队打入决赛

侧身凌空斩
2026-05-08 05:05:19
《黑袍纠察队》角色死亡戏被指剧情漏洞:太降智了!

《黑袍纠察队》角色死亡戏被指剧情漏洞:太降智了!

3DM游戏
2026-05-07 10:48:06
这跟不穿有啥区别?纽约MetGala红毯个个大胆,还有人穿的像肉球

这跟不穿有啥区别?纽约MetGala红毯个个大胆,还有人穿的像肉球

无处不风景love
2026-05-08 10:37:49
20岁时放羊吃了寡妇家的红薯,我和她在地里干架,后来我娶了她

20岁时放羊吃了寡妇家的红薯,我和她在地里干架,后来我娶了她

农村情感故事
2025-04-21 07:14:23
美女小姐姐最爱!奔驰C 260 L运动轿车经典版上市:29.99万元起

美女小姐姐最爱!奔驰C 260 L运动轿车经典版上市:29.99万元起

快科技
2026-05-08 16:29:12
忍无可忍!南海4艘中国科考船遭菲拦截,菲司令公然叫嚣气焰嚣张

忍无可忍!南海4艘中国科考船遭菲拦截,菲司令公然叫嚣气焰嚣张

策前论
2026-05-05 20:10:14
特朗普说到做到,果然对古巴动手,不料这次中方不再惯着美国了

特朗普说到做到,果然对古巴动手,不料这次中方不再惯着美国了

混沌录
2026-05-07 14:57:39
官宣!中国斯诺克2将获职业资格,王信伯本赛季夺2冠,罗泽涛圆梦

官宣!中国斯诺克2将获职业资格,王信伯本赛季夺2冠,罗泽涛圆梦

刘姚尧的文字城堡
2026-05-08 09:40:35
萧敬腾夫妇机场并肩玩手机,朴素得像普通旅客,真实得可爱

萧敬腾夫妇机场并肩玩手机,朴素得像普通旅客,真实得可爱

孤傲何妨初
2026-05-08 06:03:37
2026-05-09 02:15:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3154344文章数 7248关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

头条要闻

外籍银行高层在香港豪宅性虐及杀害两女子 内幕解密

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

艺术
手机
亲子
旅游
本地

艺术要闻

砸22亿!OPPO在东莞建了一批“O字楼”

手机要闻

小米超大屏旗舰杀回来了!小米17 Max入网配置全曝光,价格很香

亲子要闻

2026南宁儿童/青少年配眼镜推荐:科学防控是关键,专业选择很重要

旅游要闻

社评:中国的“Country Walk”何以吸引西方年轻人

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版