PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier
一键关注,点亮星标 ⭐️
不错过每日前沿资讯
认知神经科学前沿文献分享
![]()
基本信息:
Title:Linguistic coupling between neural systems for speech production and comprehension during real-time dyadic conversations
发表时间:2025.12.17
Journal:Neuron
影响因子:15.0
获取原文:
添加小助手:PSY-Brain-Frontier即可获取PDF版本
![]()
![]()
研究动机与背景
人类语言的核心用途是在大脑间传递思想,在日常对话中,理解(听)与产生(说)是交织在一起的,但以往的研究通常将这两个功能隔离开来,使用受控的、非交互的任务进行观察。虽然已有证据表明两者之间存在共享的表征和机制,但由于缺乏对语言特征的显式建模以及对实时互动对话的研究,科学界一直无法精确测试这两个系统在真实沟通中的重叠程度。此外,传统的对比法或内容无关的分析方法(如ISC)无法告知我们大脑间究竟“共享了什么内容”。因此,作者试图通过结合fMRI超扫描技术与大语言模型(LLM)的显式特征建模,解决在自然互动中语言产生与理解系统如何对齐这一关键科学问题,这对于理解人类沟通的神经本质具有重要意义。
![]()
实验设计与方法逻辑
作者提出了三个核心假设:
语言产生和理解过程在语言网络的中高层区域(如STG, IFG)会在功能调谐上实质性重叠,而在早期的感知和运动区域重叠最少(Figure 1B);
虽然被动听故事与对话中的主动听存在共享的神经调谐,但实时对话会依赖于一些听故事模型无法完全捕捉的独特语言特征;
第三,在大脑间的耦合分析中,预计语言区域会出现耦合,但耦合最强的区域可能是与社会认知相关的区域。
![]()
Figure 1. Data collection and modeling framework
为了解决实时互动中的语言对齐问题,作者设计了一套基于fMRI超扫描的实验范式,同时记录30对被试(共60人)进行自由对话时的全脑活动。作者引入了GPT-2大语言模型来提取对话文本的上下文词嵌入(embeddings),将其作为显式的语言特征空间,通过带状岭回归(banded ridge regression)建立从模型特征到BOLD信号的线性映射模型(即编码模型)。这种方法的逻辑在于:通过LLM捕获的高维语言结构,可以量化语言产生和理解过程中神经调谐(functional tuning)的相似性,从而超越简单的激活区对比。此外,作者还引入了被试被动听故事的任务作为对照,用以区分“主动交互”与“被动理解”在神经表征上的异同,并利用交叉验证和方差划分(variance partitioning)等手段,确保LLM特征捕捉的是独特的语言学信息,而非声学或运动混淆项。
![]()
核心发现
语言产生与理解在全脑范围内高度重叠
Figure 2A可以看出,LLM特征在核心语言网络(STG, IFG, MFG)以及高层区域(TPJ, PMC)均表现出显著的预测性能。Figure 2B进一步量化发现,各ROI中约80%的编码性能可归因于共享的功能调谐(Shared weights),证明了两者共用一套统一的语言处理机制。
![]()
Figure 2. Within-subject speaking and listening encoding performance
对话环境能显著提升神经表征的预测力:
对比Figure 3发现,虽然从被动听故事训练的模型可以部分推广到对话任务中,但训练于对话数据的模型表现明显更优(理解提升41%,产生提升49%)。这表明实时对话中存在独特的语言处理需求,如预测、响应准备和共同基准(common ground)的建立。
![]()
Figure 3. Encoding models trained on passive listening partially generalize to neural responses during conversations
LLM上下文嵌入优于传统声学或语音特征
Figure 4的方差划分分析显示,LLM捕获的“上下文语义”在双侧大脑区域提供了超越声学(Acoustic)和音位(Phonemic)特征的独特解释力,尤其是在高阶脑区。
![]()
Figure 4. Model comparison and variance partitioning
大脑间的耦合主要由社会认知脑区驱动
Figure 5B展示了模型驱动的大脑间耦合(Speaker-Listener coupling),发现最显著的对齐出现在右侧颞下回(pSTG)、颞顶节点(TPJ)和双侧前楔叶(PMC)。这些区域通常与心理理论和社交认知相关,暗示了成功对话不仅依赖语言对齐,更依赖社交表征的对齐。
![]()
Figure 5. Model-based speaker-listener coupling
![]()
省流总结
本文探讨了实时互动对话中语言产生(说)与理解(听)在神经层面如何共存的问题。作者利用fMRI超扫描技术实时记录对话双方的脑活动,并创新性地利用大语言模型(GPT-2)作为语言中介特征空间。研究发现,说与听在人类语言网络中共享了约80%的神经调谐,证明了两者共用一套统一的内部表征。此外,研究揭示了实时对话比被动听讲更能激发深层的神经处理,且对话双方的大脑耦合主要发生在负责社交认知和意图理解的脑区。这一成果不仅深化了我们对语言神经机制的理解,也强调了社交大脑在自然沟通中的核心作用。
![]()
AI锐评
该研究的亮点在于其卓越的“生态效度”,它跳出了实验室高度受控但死板的任务范式,直接在自由对话的动态场景下捕捉大脑信号,并巧妙利用LLM解决了复杂语境下语言特征难以量化的难题。这种从“单脑受控”到“双脑互动”的跨越是神经科学的重要趋势。然而,研究也存在一定局限:fMRI较低的时间分辨率(1.5s TR)可能掩盖了对话中快速切换的微观神经动力学;此外,由于扫描环境限制,被试无法面对面交流且需按键切换麦克风,这在一定程度上削弱了对话的自然性。尽管如此,这篇论文依然是计算神经语言学领域的一项里程碑式工作。
![]()
请打分
这篇刚刚登上Neuron的研究,是否实至名归?我们邀请您作为“云审稿人”,一同品鉴。精读全文后,欢迎在匿名投票中打分,并在评论区分享您的深度见解。
前沿交流|欢迎加入认知神经科学前沿交流群!
![]()
核心图表、方法细节、统计结果与讨论见原文及其拓展数据。
分享人:天天
审核:PsyBrain 脑心前沿编辑部
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.