网易首页 > 网易号 > 正文 申请入驻

北大最新NHB:神经网络与病灶模型联手破解“语言-视觉”调节机制

0
分享至

PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier

一键关注,点亮星标 ⭐️

不错过每日前沿资讯

认知神经科学前沿文献分享


基本信息

Title:Combined evidence from artificial neural networks and human brain-lesion models reveals that language modulates vision in human perception

发表时间:2025.12.15

发表期刊:Nature Human Behaviour

影响因子:16.0

获取原文:

  1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本



研究背景

“我们看到的蓝色,是一样的蓝色吗?”

这不仅仅是一个哲学思辨,更是认知科学中一个经典的“鸡生蛋,蛋生鸡”问题:语言是否重塑了我们对世界的感知?


长久以来,传统的视觉神经科学观点倾向于认为,视觉处理是一个主要由外界输入驱动的“自下而上”的过程。我们的初级视觉皮层提取线条、颜色,然后传递到高级视觉皮层(如腹侧枕颞皮层VOTC)进行物体识别,最后才被打上语言的标签。在这种视角下,语言似乎只是视觉感知的“后期注脚”。

然而,随着深度学习的爆发,尤其是像对比语言-图像预训练(Contrastive Language-Image Pretraining,CLIP)这样结合了海量文本与图像训练的多模态大模型的出现,事情变得有趣起来。研究发现,这些“读过书”的视觉模型,其内部表征竟然比纯粹看图训练的模型(如ResNet或MoCo)更像人类的大脑。这是否暗示着,人类的视觉皮层在漫长的发育和学习中,其实早已被语言“渗透”了?

遗憾的是,AI模型毕竟是“黑盒”,无论它们与大脑多相似,都只能提供相关性证据,无法证明因果性。我们无法确定,是因为模型学到了类似语言的高阶语义关系,还是因为模型单纯用了更多的数据?为了解开这个谜题,我们需要更直接的证据,即来自人脑“损伤模型”的因果证据。

本研究巧妙地结合了最新的人工神经网络(ANNs)与珍贵的人脑损伤数据(Lesion data),试图回答一个核心问题:切断语言与视觉的神经通路,会让我们的视觉大脑“退化”回纯视觉的状态吗?


Fig. 1 | Overview of the fMRI datasets, vision models and study 1 analysis schema.


研究核心总结

本研究通过跨学科的创新视角,揭示了语言系统对人类腹侧枕颞皮层(VOTC)物体表征的动态调节作用


Fig. 2 | Intercorrelations among vision model RDMs and their alignment with human behaviour.

多模态大模型更精准地预测了VOTC的神经活动

研究团队首先在四个涵盖不同任务、不同人群(包括听障人士)的fMRI数据集上,对比了三种不同训练机制的深度神经网络模型对VOTC神经活动的解释力 :

  1. CLIP(句子级语言监督):学习图像与自然语言描述的对应关系。

  2. ResNet(词汇级标签监督):学习图像与离散类别标签(Label)的对应。

  3. MoCo(无监督/自监督):仅从图像自身的统计规律中学习,不涉及语言。

表征相似性分析(RSA)结果显示,CLIP模型在解释VOTC神经表征方差方面,始终优于ResNet和MoCo。这表明,包含丰富语义关系(Semantic Relations)的句子级语言信息,使机器视觉模型更接近人类的视觉皮层运作方式。此外,这种“CLIP优势效应”在群体水平上表现出明显的左侧偏侧化(Left-lateralized)趋势,这与人类语言网络的偏侧化特征高度一致。


Fig. 3 | Language effect in VOTC across datasets.

左侧角回是语言调节视觉的关键枢纽

为了确立因果关系,研究考察了33位脑卒中患者。研究者量化了患者脑中连接VOTC与语言网络各节点的白质纤维束(White Matter Tracts)的完整性。


Fig. 4 | Study 2 analysis workflow linking WM integrity and model–brain correspondence in patients with chronic stroke.

核心发现令人震惊:左侧VOTC与左侧角回(Left Angular Gyrus, AG)之间白质通路的完整性,直接决定了视觉皮层的表征模式。

  • 当这条通路完整时,VOTC的表征更接近CLIP模型(受语言深度影响)。

  • 当这条通路受损时,CLIP模型的解释力显著下降,而MoCo模型(纯视觉自监督)的解释力反而显著上升 。

这一“此消彼长”的现象揭示了极其深刻的机制:人类的视觉皮层并不总是处在单一的固化状态,而是处于“纯视觉输入”与“语言调节”的动态平衡中。左侧角回作为跨模态语义整合的枢纽,通过白质纤维束将语言中的关系结构“注入”视觉皮层。一旦这种注入被阻断,视觉皮层就会发生可塑性变化,退回到一种更依赖低级视觉统计特征(类似MoCo)的处理模式。


Fig. 5 | WM integrity of left VOTC–left AG tract predicts model–brain correspondence of CLIP and MoCo (n = 33 patients).

总而言之,该研究为“语言调节视觉”的理论争议提供了强有力的神经解剖学因果证据。它证明了语言对视觉的影响不是一种单纯的自上而下的注意机制,而是深刻改变了视觉皮层对物体表征的几何结构(Representational Geometry)。同时,这也验证了利用脑损伤数据来评估和优化AI模型的“生物合理性”是一个极具潜力的研究范式,并再次证明了AI for Science的光明前景。


Fig. 6 | Validation analyses using vision models trained on the identical dataset.


Abstract

Comparing information structures in between deep neural networks (DNNs) and the human brain has become a key method for exploring their similarities and differences. Recent research has shown better alignment of vision–language DNN models, such as contrastive language–image pretraining (CLIP), with the activity of the human ventral occipitotemporal cortex (VOTC) than earlier vision models, supporting the idea that language modulates human visual perception. However, interpreting the results from such comparisons is inherently limited owing to the ‘black box’ nature of DNNs. Here we combine model–brain fitness analyses with human brain lesion data to examine how disrupting the communication pathway between the visual and language systems causally affects the ability of vision–language DNNs to explain the activity of the VOTC to address this. Across four diverse datasets, CLIP consistently captured unique variance in VOTC neural representations, relative to both label-supervised (ResNet) and unsupervised (MoCo) models. This advantage tended to be left-lateralized at the group level, aligning with the human language network. Analyses of 33 patients who experienced a stroke revealed that reduced white matter integrity between the VOTC and the language region in the left angular gyrus was correlated with decreased CLIP–brain correspondence and increased MoCo–brain correspondence, indicating a dynamic influence of language processing on the activity of the VOTC. These findings support the integration of language modulation in neurocognitive models of human vision, reinforcing concepts from vision–language DNN models. The sensitivity of model–brain similarity to specific brain lesions demonstrates that leveraging the manipulation of the human brain is a promising framework for evaluating and developing brain-like computer models.


请打分

这篇刚刚登上Nature Human Behaviour的研究,是否实至名归?我们邀请您作为“云审稿人”,一同品鉴。精读全文后,欢迎在匿名投票中打分,并在评论区分享您的深度见解。

前沿交流|欢迎加入认知神经科学前沿交流群!


解读仅供参考,具体详见原文及其数据

分享人:饭哥

审核:PsyBrain 脑心前沿编辑部

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当年在新东方任教时的董宇辉

当年在新东方任教时的董宇辉

太急张三疯
2026-01-10 04:10:39
68年黄永胜担任总参谋长后,多次顶撞江青,毛主席得知后是何态度

68年黄永胜担任总参谋长后,多次顶撞江青,毛主席得知后是何态度

海佑讲史
2026-01-11 07:10:05
掀翻东部第一,快船赢球谁关键,数据中有答案,哈登也要记一功

掀翻东部第一,快船赢球谁关键,数据中有答案,哈登也要记一功

体坛大辣椒
2026-01-11 11:53:57
黄岩岛已露出大片陆地,如填海将变成我国超级大岛,可移民20万人

黄岩岛已露出大片陆地,如填海将变成我国超级大岛,可移民20万人

小熊侃史
2026-01-07 11:07:07
“原来外国人觉得中国人身上很臭”,网友炸锅,老外才是最臭的!

“原来外国人觉得中国人身上很臭”,网友炸锅,老外才是最臭的!

有趣的火烈鸟
2026-01-10 12:09:06
央国企的两大弊端:领导层载歌载舞底层员工无米下锅,关系户横行

央国企的两大弊端:领导层载歌载舞底层员工无米下锅,关系户横行

黯泉
2026-01-08 23:02:21
女性“最佳生育年龄”出炉,产科大夫:过了这个年龄就建议别生了

女性“最佳生育年龄”出炉,产科大夫:过了这个年龄就建议别生了

岐黄传人孙大夫
2025-12-23 07:50:02
他是中共创始人,一起确定了党的名字,却因一事退党,晚年很后悔

他是中共创始人,一起确定了党的名字,却因一事退党,晚年很后悔

浩渺青史
2026-01-10 12:14:27
中方不许2件事发生,24小时刚过,美国开始放人,特朗普或被弹劾

中方不许2件事发生,24小时刚过,美国开始放人,特朗普或被弹劾

博览历史
2026-01-10 19:23:58
游智彬怒斥汉奸遭围殴,出院反手一招绝杀,沈伯洋这回彻底装死

游智彬怒斥汉奸遭围殴,出院反手一招绝杀,沈伯洋这回彻底装死

陈博世财经
2026-01-11 11:02:16
中越战争老兵自述:当时没有749局的帮助,55军团可能全军覆灭

中越战争老兵自述:当时没有749局的帮助,55军团可能全军覆灭

神奇的锤子
2024-08-19 14:20:51
三十亿防空网七分钟瘫痪,败给的不只是美军

三十亿防空网七分钟瘫痪,败给的不只是美军

寰宇文创
2026-01-09 05:39:17
一个人毁一部剧!《小城大事》中最大的败笔,就是这个“戏混子”

一个人毁一部剧!《小城大事》中最大的败笔,就是这个“戏混子”

小娱乐悠悠
2026-01-11 11:52:16
美国千亿投资打水漂后,郭台铭想通了!带46台光刻机回国求赏饭

美国千亿投资打水漂后,郭台铭想通了!带46台光刻机回国求赏饭

奉壹数码
2026-01-05 14:06:20
新加坡再发声,李显龙高调预测:中美都不愿意付出巨大的经济代价

新加坡再发声,李显龙高调预测:中美都不愿意付出巨大的经济代价

科普100克克
2026-01-11 11:59:14
张本美和又哭了,她爸爸笑的很吓人,张本智和要夺冠,林昀儒回应

张本美和又哭了,她爸爸笑的很吓人,张本智和要夺冠,林昀儒回应

小七七体育解说
2026-01-11 10:31:57
天王嫂昆凌「细肩洋装」大秀好身材 周杰伦晒奢华行程喊:Chill

天王嫂昆凌「细肩洋装」大秀好身材 周杰伦晒奢华行程喊:Chill

达达哥
2026-01-11 12:01:46
官方:巴西国脚热尔松加盟克鲁塞罗;据悉总价为3000万欧

官方:巴西国脚热尔松加盟克鲁塞罗;据悉总价为3000万欧

懂球帝
2026-01-10 23:29:07
饭后吃药,等于白吃?医生多次提醒:一天中这些时间吃药才最好

饭后吃药,等于白吃?医生多次提醒:一天中这些时间吃药才最好

路医生健康科普
2025-12-16 12:45:03
领导突然问你“要不要考虑去别的岗位”,千万不要说“我考虑下”,高情商这么回,反客为主!

领导突然问你“要不要考虑去别的岗位”,千万不要说“我考虑下”,高情商这么回,反客为主!

二胡的岁月如歌
2026-01-03 18:02:12
2026-01-11 13:03:00
PsyBrain脑心前沿
PsyBrain脑心前沿
追踪脑科学新动态,聚焦认知与神经新研究
103文章数 8关注度
往期回顾 全部

科技要闻

“我们与美国的差距也许还在拉大”

头条要闻

马杜罗之子:马杜罗在美监狱说"我们很好我们是斗士"

头条要闻

马杜罗之子:马杜罗在美监狱说"我们很好我们是斗士"

体育要闻

詹皇晒照不满打手没哨 裁判报告最后两分钟无误判

娱乐要闻

网友偶遇贾玲张小斐崇礼滑雪

财经要闻

外卖平台"烧钱抢存量市场"迎来终局?

汽车要闻

2026款宋Pro DM-i长续航补贴后9.98万起

态度原创

亲子
时尚
房产
本地
健康

亲子要闻

深度长文:原始社会婴儿哭声会引来大量天敌,婴儿如何生存下看?

动物纹回潮,那很狂野了

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版