基本信息
Title:Sensory sharpening and semantic prediction errors unify competing models of predictive processing in human speech comprehension
发表时间:2025.1.9
发表期刊:PLoS Biology
影响因子:7.2
获取原文:
- 添加小助手:PSY-Brain-Frontier即可获取PDF版本
- 点击页面底部“”即可跳转论文原网页
![]()
研究背景
在日常交流中,我们的大脑其实是一个不知疲倦的“算命先生”。当我们身处嘈杂的鸡尾酒会,或者通过信号不佳的电话交谈时,往往能通过上下文毫不费力地补全听不清的单词。这种现象背后的核心机制被称为预测性处理(Predictive Processing)。大脑会构建关于世界的生成模型,不断预测即将到来的感官输入。
![]()
然而,在这个领域中存在着一个长期未决的“路线之争”:大脑到底是如何处理预测与现实的差异的?一方观点支持“锐化”(Sharpening)模型,认为大脑会增强符合预期的信号,抑制不相关的噪声,从而让感知更清晰、更符合原本的期望;另一方则支持“预测误差”(Prediction Error)模型,认为大脑更关注那些出乎意料的信息,通过计算预测与现实的差值来更新内部模型。
这两个机制看似矛盾:一个强调“我想看什么就看什么”,另一个强调“什么不一样我看什么”。尤其是在复杂的对话场景中,当我们对特定的说话者(Speaker)有着特定的语义预期时(比如某位朋友是个“吃货”,他提到“bean”的可能性远大于“dream”),大脑究竟是锐化了预期的声音,还是计算了语义上的惊奇度?以往的研究大多局限于单向聆听(如听有声书),忽略了对话中关键的说话者特异性(Speaker-specific)先验知识。本研究通过精巧的实验设计,试图调和这一矛盾,揭示大脑如何在层级结构中统筹这两种机制。
研究核心总结
研究者结合了脑电图(EEG)、刺激重构(Stimulus Reconstruction)以及预训练Transformer模型,揭示了人类在言语理解中整合预测信息的层级机制。
![]()
Fig 1. Paradigm and behaviour.
核心发现一:低级感知层面的“锐化”机制
研究结果表明,听者会根据特定说话者的语义先验(Speaker-specific semantic priors)来解决听觉模糊性。利用刺激重构模型和项目内综合表征相似性分析(Within-item composite RSA),研究发现,在早期的声学处理阶段,大脑通过锐化(Sharpening)机制运作。具体而言,当面对模糊的语音变形(Morphs,例如介于“sea”和“tea”之间的声音)时,神经表征会被主动“拉向”预期的声学信号。这意味着,如果你预期该说话者会说关于“自然”的词汇,大脑在早期听觉阶段编码的声学特征会更像“sea”而不是模糊的输入。这种锐化作用在时间上贯穿了整个词汇的处理过程,旨在稳定感知,使模糊输入更符合内部模型。
![]()
Fig 2. Sensory sharpening at the acoustic level.
核心发现二:高级语义层面的“预测误差”机制
与低级感知的锐化不同,在更高的语言层级(语义层),大脑主要计算预测误差(Prediction Error)。研究者使用预训练Transformer(Wav2Vec 2.0)作为统计代理,构建了单试次EEG编码模型。结果显示,说话者特异性的语义惊奇度(Surprisal)显著调节了神经反应。这表明,虽然大脑在听觉层面“修饰”了输入以符合预期,但在理解意义的层面,它依然敏锐地捕捉那些违反预期的信息,以便于模型的更新和学习。这一效应主要集中在刺激呈现后的150ms-630ms时间窗内,对应于音系和语义处理阶段。
![]()
Fig 3. Prediction errors at the semantic level.
核心发现三:先验应用的灵活性与双重分离
研究还发现,大脑并非盲目地应用先验知识。当输入的词汇与说话者的先验极度不符时,大脑会灵活地“丢弃”说话者特异性的先验,转而依赖更通用的语言统计规律。这种机制防止了在面对极不可能的输入时产生过大的预测误差,从而避免对内部模型造成破坏性的错误更新。
![]()
Fig 4. Double dissociation between semantic congruency and prior specificity.
总结与意义
本研究提出了一个统一的预测处理模型:锐化和预测误差并非互斥,而是共存于不同的神经层级。
- 低层级(声学):通过锐化来增强感知的鲁棒性,确保在噪声中“听到”预期的内容。
- 高层级(语义):通过预测误差来驱动学习,适应环境变化。
这一发现不仅解决了长期以来的理论争端,揭示了大脑在自然对话中如何利用“谁在说话”这一背景知识来优化理解,同时也为神经语音解码和脑机接口(BCI)的开发提供了重要启示:即在解码算法中纳入个性化的说话者模型,可能显著提升解码精度。
Abstract
The human brain makes abundant predictions in speech comprehension that, in real-world conversations, depend on conversational partners. Yet, tested models of predictive processing diverge on how such predictions are integrated with incoming speech: The brain may emphasise either expected information through sharpening or unexpected information through prediction error. We reconcile these views through direct neural evidence from electroencephalography showing that both mechanisms operate at different hierarchical levels during speech perception. Across multiple experiments, participants heard identical ambiguous speech in different speaker contexts. Using speech decoding, we show that listeners learn speaker-specific semantic priors, which sharpen sensory representations by pulling them toward expected acoustic signals. In contrast, encoding models leveraging pretrained transformers reveal that prediction errors emerge at higher linguistic levels. These findings support a unified model of predictive processing, wherein sharpening and prediction errors coexist at distinct hierarchical levels to facilitate both robust perception and adaptive world models.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.