PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier
一键关注,点亮星标 ⭐️
不错过每日前沿资讯
认知神经科学前沿文献分享
![]()
基本信息
Title:Linguistic structure from a bottleneck on sequential information processing
发表时间:2025.11.24
发表期刊:Nature Human Behaviour
影响因子:16.0
获取原文:
添加小助手:PSY-Brain-Frontier即可获取PDF版本
![]()
![]()
研究背景
人类语言展现出一种令人着迷的“系统性”与“局部性”。当我们描述一个 “蓝色的正方形” 时,我们会使用代表颜色的词 “蓝色” 和代表形状的词 “正方形” 并将它们拼接在一起。
这种结构看似天经地义,但在逻辑上并非唯一。理论上,我们完全可以像哈夫曼编码那样,用一个无法拆分的整体符号(如 “Vek”)来表示 “蓝色的正方形”,或者用一种非线性的方式交错排列音素 。
![]()
Fig. 1 | Example utterances describing an image in English and various hypothetical languages.
为什么人类语言偏偏演化成了现在这种由离散符号组成、且结构与意义高度对应的形式?长期以来,语言学界倾向于引入特定的心理表征假设或先天的语法模块来解释这一现象,但这往往陷入“因为有语法模块,所以有语法结构”的循环论证,且难以解释为何语言必须具备“局部性”(即相关的词往往靠得很近)。
如果我们抛开复杂的语言学假设,仅从信息处理的最基本限制出发,即人类是在时间维度上处理序列信号,且认知资源(特别是用于预测未来的记忆资源)是有限的,能否推导出语言的结构规律?
近日,来自加州大学欧文分校和萨尔兰大学的研究团队在 Nature Human Behaviour 上发表重磅研究,提出语言的结构并非源于特殊的语法基因,而是为了适应大脑在序列信息处理中的“瓶颈”。
![]()
Fig. 2 | Two examples of linguistic systematicity as a homomorphism.
![]()
研究核心总结
本研究的核心假设基于信息论中的一个关键指标:预测信息(Predictive Information, 或 Excess Entropy, E)。它定义为随机过程中,“过去”的信息与“未来”的信息之间的互信息(Mutual Information),即:
![]()
这就代表了大脑为了准确预测即将出现的语言符号,必须在记忆中维持的信息量。研究者认为,人类语言的结构演化遵循最小化预测信息的原则,以适应认知系统的存储瓶颈。
![]()
Fig. 3 | Schematic calculation of predictive information as the sum of n-gram entropies hn minus the asymptotic entropy rate h.
系统性与整体性的自发涌现
通过模拟实验,研究者发现,当强制要求编码系统最小化预测信息时,系统会自动演化出类似人类自然语言的结构特性。
对于相互独立的语义特征(如“猫”和“狗”作为独立实体),最优编码是系统性(Systematic)的,即将其拆分为独立的词汇并拼接;
对于高度相关的语义特征(如“猫的头部”和“猫的身体”总是同时出现),最优编码则是整体性(Holistic)的,即将其融合为一个不可拆分的语素(Morpheme),如单词 "cat" 本身不再包含对应头部或身体的部件 。这解释了为何语言在词汇层面是任意且整体的,而在短语和句子层面是系统且组合的。
![]()
Fig. 4 | Simulations of languages for coin-flip distributions.
“Behaghel定律”的信息论本质
语言学著名的Behaghel定律指出“在心理上紧密相关的元素在物理上也靠得近”。研究表明,这一现象是最小化预测信息的数学必然结果。当编码系统将统计上相互依赖(高互信息)的元素放置在邻近位置(即保持局部性)时,预测所需的记忆负荷(E)最低。
![]()
Fig. 5 | Simulations of codes with different orders of elements.
跨语言实证证据
研究者利用大规模多语言语料库(涵盖英语、匈牙利语、土耳其语等61种语言),在音系(Phonotactics)、形态学(Morphology)和句法(Syntax)三个层面上计算了真实语言的预测信息。
![]()
Fig. 6 | Evidence that natural languages are configured in a way that reduces predictive information, in phonotactics, morphology and syntax.
结果显示,与打乱结构、破坏局部性或非自然的基线模型相比,真实的人类语言均表现出显著更低的预测信息。例如,在名词短语的词序上,跨语言中最常见的词序(如 D-N-A-n 或 n-A-N-D)恰恰是那些计算出的预测信息最低的排序 。
![]()
Fig. 7 | Examples of systematic morphology and syntax, and baselines used in experiments.
![]()
Fig. 8 | Evidence that word order and lexical semantics are configured in ways that reduce predictive information.
总的来看,该研究建立了一个强有力的理论框架,将语言的代数结构(句法树、成分组合)与统计学习机制(信息压缩、序列预测)统一起来。它揭示了语言之所以呈现出层次化和组合性,是因为这种结构是对大脑有限的序列预测能力的最优解 。这不仅挑战了生成语法关于先天语言模块的必要性假设,也为理解大语言模型(LLMs)为何能通过简单的“下一个token预测”任务习得复杂的语言结构提供了理论解释:因为人类语言本身就是为了易于序列预测而被优化的。
![]()
Abstract
Human language has a distinct systematic structure, where utterances break into individually meaningful words that are combined to form phrases. Here we show that natural-language-like systematicity arises in codes that are constrained by a statistical measure of complexity called predictive information, also known as excess entropy. Predictive information is the mutual information between the past and future of a stochastic process. In simulations, we find that codes that minimize predictive information break messages into groups of approximately independent features that are expressed systematically and locally, corresponding to words and phrases. Next, drawing on cross-linguistic text corpora, we find that actual human languages are structured in a way that yields low predictive information compared with baselines at the levels of phonology, morphology, syntax and lexical semantics. Our results establish a link between the statistical and algebraic structure of language and reinforce the idea that these structures are shaped by communication under general cognitive constraints.
前沿交流|欢迎加入认知神经科学前沿交流群!
![]()
核心图表、方法细节、统计结果与讨论见原文及其拓展数据。
分享人:饭哥
审核:PsyBrain 脑心前沿编辑部
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.