![]()
认知神经科学前沿文献分享
基本信息
Title:Frontal cortex organization supporting audiovisual processing during naturalistic viewing
发表时间:2026-06-22
发表期刊:Nature Communications
影响因子:18.1
获取原文:
1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本
![]()
研究背景
在真实的日常生活中,我们的大脑无时无刻不在处理多感觉信息。无论是在嘈杂的咖啡馆里与朋友交谈,还是在电影院里观看一部外语片,大脑都需要将听觉和视觉信息无缝整合,以形成统一的知觉体验。
过去几十年里,神经科学界对多感觉整合的机制进行了大量探索,并发现额叶皮层在其中扮演着关键角色。然而,这些结论大多建立在高度控制的实验室任务之上——例如让受试者判断简单的闪光和哔哔声是否同时出现。这种还原论的方法虽然精确,却留下了一个巨大的空白:在面对真实世界中连续、丰富且动态变化的视听流时,大脑(尤其是额叶皮层)究竟是如何组织和分配这些感觉信息的?
为了回答这一问题,纽约大学 Adeen Flinker 团队开展了一项基于自然范式的研究。他们让 19 名植入颅内电极(iEEG)的癫痫患者观看了一部包含多语种对话的微电影,并结合无监督聚类与基于深度学习的编码模型,以前所未有的时空分辨率,揭示了额叶皮层在自然视听处理中的空间组织规律与动态分配机制。
研究核心总结
这项研究不仅证实了额叶皮层在视听处理中的核心地位,更重要的是,它将复杂的自然视听流拆解开来,揭示了大脑在“表征信息”与“分配资源”时的具体策略。
一、 额叶皮层存在处理视听信息的“腹背侧梯度”
研究者首先根据电影的情境,提取了患者在纯英语对话、带英文字幕的外语对话、非语音环境以及静音环境下的神经高频宽带活动。通过无监督的非负矩阵分解(NMF)技术,研究团队在全脑识别出了两个功能网络:一个偏好听觉,另一个偏好视觉。
有趣的是,这两个网络在额叶皮层呈现出明显的空间分离。为了更精确地量化这种空间分布,研究者引入了多元时间响应函数(mTRF)编码模型。他们利用深度学习模型(如 wav2vec 2.0 和 Vision Transformer)提取了电影的高级视听特征,并计算了额叶电极对听觉和视觉的调谐偏好。结果证实,额叶皮层存在一个显著的腹背侧梯度(ventral-dorsal gradient):越靠近腹侧(如腹外侧前额叶,vlPFC),电极越倾向于处理听觉信息;越靠近背侧(如背外侧前额叶,dlPFC),电极越倾向于处理视觉信息。
进一步的特征拆解表明,驱动这一空间梯度的并非低级的声学或视觉像素特征,而是由 Transformer 模型提取的高级语义特征。
![]()
Fig 1. 研究团队将电影划分为英语、外语、其他声音和静音四种自然情境,以考察不同视听条件下的神经响应。
![]()
Fig 2. 无监督聚类分析揭示了大脑中存在分别偏好听觉(红色)和视觉(蓝色)的两个功能网络,且在额叶呈现空间分离。
![]()
Fig 3. 借助深度学习模型提取电影的低级与高级视听特征,并通过 mTRF 编码模型量化大脑的神经表征。
![]()
Fig 4. 额叶皮层存在显著的腹背侧梯度:越靠近腹侧越偏好听觉,越靠近背侧越偏好视觉,且该梯度主要由高级语义特征驱动。二、 视听神经资源的分配是随情境动态变化的
在明确了额叶皮层的空间分工后,研究者提出了一个更深入的问题:这种视听表征是一成不变的吗?
当受试者观看母语(英语)片段时,他们主要依赖听觉来理解剧情;而当角色开始讲外语时,受试者必须依赖屏幕上的英文字幕(视觉)来跟上故事。神经数据完美地反映了这种行为策略的转变。研究发现,在英语情境下,额叶皮层对听觉特征的编码显著增强;而在外语情境下,额叶皮层则将资源大幅倾斜给了视觉特征。
为了验证这确实是一种“资源权重分配”过程,研究者还在亚马逊 Mechanical Turk 平台上招募了健康受试者进行逐帧的行为评分。行为数据证实,观众对“当前片段哪种模态更重要”的主观评分,与额叶皮层神经权重的动态切换高度吻合。这说明,大脑在看电影时,会根据当前的理解需求,灵活地在视听模态之间重新分配神经资源。
![]()
Fig 5. 额叶皮层的视听表征并非一成不变,而是会根据语言情境(如母语对话 vs. 依赖字幕的外语)动态调整对听觉或视觉的权重。三、 “分配资源”与“表征特征”依赖不同的神经基质
既然大脑能够灵活分配视听资源,那么是谁在下达这个“分配指令”?
研究者将行为实验中获得的“模态分配指数”作为一种独立的特征,再次输入到神经编码模型中。结果发现,负责追踪“模态分配”的电极同样主要集中在额叶皮层,但它们与前面发现的负责“表征视听特征”的电极在空间上几乎没有重叠(仅有不到 3% 的电极同时参与三种计算)。
从时间维度上看,额叶皮层对“模态分配”的响应潜伏期(约 300 毫秒)显著早于对高级视听特征的表征(约 400 毫秒)。这暗示了一个自上而下的控制过程:额叶皮层中的特定子网络首先评估当前情境下哪种感觉通道更重要,随后指导其他区域完成具体特征的语义加工。
![]()
Fig 6. 负责“视听资源分配”的额叶电极与负责“视听特征表征”的电极在空间上高度分离,表明两者依赖不同的神经基质。
研究意义
这项工作将多感觉整合的研究从静态的实验室任务推向了动态的真实世界场景,为我们理解大脑的自然感知机制提供了重要视角。
从理论意义上看,该研究首次利用高时空分辨率的颅内脑电,在人类额叶皮层中证实了一个连续的视听语义梯度。这打破了以往将额叶视为一个均质“多需求网络”的简单假设,揭示了其内部精细的模态特异性拓扑结构。
从机制启发上讲,研究提出了一种目标导向的“模态分配策略”。过去的研究往往强调大脑会根据感觉信号的“物理可靠性”(如视线模糊时更依赖听觉)来整合信息;而本研究表明,在视听信号质量都很好的自然电影中,大脑依然会根据“理解剧情”这一高级认知目标,主动且动态地调配神经资源。
当然,这项研究也存在其边界。由于电影中的听觉刺激主要由语音构成,额叶腹侧的听觉偏好在多大程度上反映了纯粹的听觉处理,又在多大程度上卷入了语言加工网络,仍需未来使用非语言类的自然刺激进行进一步剥离。但无论如何,这项工作为我们揭开大脑如何应对复杂多变的多感觉世界,提供了一块关键的拼图。
分享人:饭鸽儿
审核:PsyBrain 脑心前沿编辑部
你好,这里是「PsyBrain 脑心前沿」
专注追踪全球认知神经科学的最尖端突破
视野直击 Nature, Science, Cell 正刊 及核心子刊与顶级大刊
每日速递「深度解读」与「前沿快讯」
科研是一场探索未知的长跑,但你无需独行。欢迎加入PsyBrain 学术社群,和一群懂你的同行,共同丈量脑与心智的无垠前沿。
点击卡片进群,欢迎你的到来
一键关注,点亮星标 ⭐ 前沿不走丢!
![]()
一键分享,让更多人了解前沿
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.