基本信息
Title:High-level visual representations in the human brain are aligned with large language models(人脑高层视觉表征与大语言模型对齐)
Journal:Nature Machine Intelligence
发表时间:2025.8.7
2025 影响因子:23.7
关键词:大模型,视觉,表征对齐
![]()
省流总结:
作者用7T fMRI大规模自然场景数据集(NSD)发现:仅由文字生成的LLM句向量(以MPNet为代表)可以定量刻画高层视觉皮层对自然场景的反应;基于此还能线性解码出场景文字描述。进一步把图像端训练为“像素→LLM嵌入”的深度网络后,其与大脑表征的拟合超过多种SOTA视觉模型,且所需训练图像数量更少。结论:人脑或将视觉输入投射到一种与LLM嵌入对齐的高维表示空间。
背景与研究问题:
视觉神经科学已能用“以物体分类为目标训练”的ANN较好预测外纹状皮层活动,但自然场景包含超越“是什么”的语境信息(物体共呈现概率、空间-语义关系、物体呈现的经典场景等)。问题在于:如何用一个统一的、可计算的表示去概括这些复杂信息。作者提出假设:LLM对图像标题的嵌入,或可作为这种“高层场景信息”的载体,并与人脑高层视觉表征对齐。
数据与方法:
数据:NSD 7T fMRI,8名被试,每人看9,000–10,000张COCO自然场景(3次重复),分辨率1.8 mm、TR=1.6 s。分析主要聚焦NSD定义的EVC、腹侧、外侧、顶叶的ROIs。
文本表示:主模型为MPNet整句嵌入(all-mpnet-base-v2),仅来自文字,不含视觉信息;并对比:多类别向量、fastText、GloVe词向量、只取名词、动词等。
主要结果与图解:
![]()
Figure1 A mapping from LLM embeddings captures visual responses to natural scenes
(a) LLM→大脑的映射方法。NSD数据集中每幅图像都有不同观察者撰写的caption。这些caption经LLM得到嵌入。采用两种方法量化LLM嵌入与fMRI数据的匹配(RSA与编码模型)。
(b) RSA揭示了广泛脑区网络中LLM表征与脑活动的相关。图为组平均的Pearson相关(未进行噪声上限校正)的Searchlight map。
(c) 线性编码模型突出显示了相似的脑区网络。进行体素级线性回归,用LLM嵌入预测体素活动。图为测试集上预测与真实β响应的组平均Pearson相关(未进行噪声上限校正)。
(d) 编码模型性能 vs. 被试间一致性。散点图每个点为一体素:横轴为该体素与其他7名被试平均活动的相关(测试图像),纵轴为编码模型性能。研究者的编码模型在所有ROI中接近被试间一致性,表明性能良好;低于对角线的点可解释为模型捕捉了“组均值未包含的被试特异”方差。
![]()
Figure2 LLM-based linear prediction and decoding of brain activities
(a)线性编码模型捕捉到不同脑区的选择性。研究者对比了五句“人物相关”vs“地点相关”(左),以及五句“食物相关”vs“人物相关”(右)的预测脑活动(跨被试N=8,双尾t检,P=0.05,未做FDR校正)。这些对比凸显了已知的人、地点、食物选择性区域。
(b) 从视觉诱发的大脑响应解码caption。上:拟合线性模型,从fMRI体素活动预测LLM(MPNet)嵌入,再用最近邻查找为每张图生成caption。下左:每位被试在保留测试集上的预测分数核密度估计图。噪声上限为同一图像,5条人类caption之间的一致性。下右:展示不同被试在测试集上横跨分数范围的目标(蓝)、解码(粉)、最近训练(绿)caption范例。解码器不是在查找最近训练句,而能给出另一个同样合适的描述。所示“名次”指该样本在该被试内的分数排名(0最好,514最差)。缩写:EBA(外纹状体身体区)、FBA1/2(梭状身体区后/前段)、FFA1/2(梭状面孔区后/前段)、PPA(海马旁场景区)、pSTS face(后上颞沟面孔区)、OFA(枕叶面孔区)、OPA(枕叶场景区)。
![]()
Figur3 The match of LLMs to visually evoked brain activities derives from their ability to integrate complex information contained in scene captions.
在NSD数据集定义的ROI中做RSA(左上角嵌入图示ROI)。“LLM caption”指整句caption的LLM(MPNet)嵌入;其余分组为不同对照模型。
(a) 类别信息的LLM嵌入可提升与脑fMRI数据的匹配。比较了多种表示类别的格式:二进制multi-hot;对类别词做fastText、GloVe向量后求平均;以及把所有类别词串成一句再用MPNet嵌入(LLM)。
(b) LLM嵌入捕捉了超越名词、动词的信息。把caption的名词拼接(LLM nouns)或动词拼接(LLM verbs)分别做嵌入,都显著不如整句(EVC上名词为例外)。
(c) LLM嵌入捕捉了上下文信息。为测试caption的上下文对匹配是否重要,把整句嵌入与逐词嵌入再平均(LLM/fastText/GloVe)进行了比较。
![]()
![]()
Figure 4 LLM-trained deep recurrent convolutional networks outperform other models in predicting brain activity
(a) RCNN结构:10层递归卷积,含自下而上(紫)、侧向(绿)、自顶向下(橙)连接。训练目标是最小化网络输出与目标LLM caption嵌入之间的余弦距离。类别训练对照网络在结构相同,仅改为预测multi-hot类别标签。
(b) 类别标签可从LLM-trained网络活动中读出。冻结权重后,评估从LLM-trained(或category-trained)网络的读出层前活动解码类别标签(或LLM嵌入)的效果。图示测试性能(N=10个随机种子的网络,误差线为标准差),度量为余弦相似度。
(c) LLM-trained RCNN vs. 原始LLM嵌入。对比“LLM-trained网络末层、末时间步”活动与“caption的LLM嵌入”的探照灯RSA。RCNN的平均RDM;
(d) LLM-trained vs. Category-trained RCNN。与(c)类似,但对比两种训练目标的RCNN(末层、末时间步)。
(e) ROI层面把LLM-trained RCNN与其它广泛使用的ANN比较。报告各模型读出层前表征与腹侧、外侧、顶叶ROI的RDM噪声上限校正相关。RCNN在腹侧、顶叶ROI显著优于所有其他模型。
讨论与影响:
统一的高级信息“通用码”
LLM嵌入可作为信息丰富、具世界知识、可跨词类整合的表示框架,连接既有的物体、场景、关系等分散线索,迈向统一定量化的高级视觉建模。
训练目标比数据量更关键?
与需百万级图像的传统模型相比,以LLM嵌入为目标的网络在低数据量下更贴近大脑,提示了 ”目标函数的信息密度“ 或比 “原始数据规模” 更重要。
需注意:LLM本身依赖海量文本训练。
不是“语言化大脑”,而是“对齐的高层空间”
结果不意味着视觉表征具有语言的句法、递归特性;更合理的解释是:两者在高维统计结构上对齐,使跨模态沟通和多系统信息汇合更为容易。
局限与未来:
任务依赖:NSD任务为持续再认,是否诱发被试“内在加字幕”尚难排除;不同任务条件下的对齐度,值得系统验证。
句法敏感性:MPNet在NSD短句上对词序不敏感;复杂语法条件、长文本是否仍能对齐有待进一步测试。
可解释性:哪类LLM维度最贴近大脑尚不清楚,LLM嵌入的可解释拓展与因果操控(如刺激合成)将是关键下一步。
编辑部观点:
这项工作用双向线性映射+严格的模型对照,把“自然场景中的复杂信息如何在大脑中编码”的问题,首次落在了可操作、可对比的统一表示上:LLM整句嵌入。更具启发性的是,把视觉网络对齐到语言嵌入空间,比传统的“对齐到类别标签”更能贴近人脑高级视觉表征。这为NeuroAI提供了可复制的范式:以语言空间为桥,联通视觉与更抽象的世界知识。
Author information:
第一作者:Adrien Doerig
Department of Psychology and Education, Freie Universität Berlin, Berlin, Germany
柏林自由大学心理学与教育系(德国柏林)
Institute of Cognitive Science, University of Osnabrück, Osnabrück, Germany
奥斯纳布吕克大学认知科学研究所(德国奥斯纳布吕克)
Bernstein Center for Computational Neuroscience, Berlin, Germany
柏林计算神经科学伯恩斯坦中心(德国柏林)
共一第二:Tim C. Kietzmann.
Institute of Cognitive Science, University of Osnabrück, Osnabrück, Germany
奥斯纳布吕克大学认知科学研究所(德国奥斯纳布吕克)
共同通讯:Kendrick Kay
Center for Magnetic Resonance Research, Department of Radiology, University of Minnesota, Minneapolis, MN, USA
明尼苏达大学放射学系磁共振研究中心(美国明尼苏达州明尼阿波利斯市)
最后通讯: Ian Charest
cerebrUM, Département de Psychologie, Université de Montréal, Montreal, Quebec, Canada
蒙特利尔大学心理学系 cerebrUM 研究中心(加拿大魁北克省蒙特利尔市)
Abstract
The human brain extracts complex information from visual inputs, including objects, their spatial and semantic interrelations, and their interactions with the environment. However, a quantitative approach for studying this information remains elusive. Here we test whether the contextual information encoded in large language models (LLMs) is beneficial for modelling the complex visual information extracted by the brain from natural scenes. We show that LLM embeddings of scene captions successfully characterize brain activity evoked by viewing the natural scenes. This mapping captures selectivities of different brain areas and is sufficiently robust that accurate scene captions can be reconstructed from brain activity. Using carefully controlled model comparisons, we then proceed to show that the accuracy with which LLM representations match brain representations derives from the ability of LLMs to integrate complex information contained in scene captions beyond that conveyed by individual words. Finally, we train deep neural network models to transform image inputs into LLM representations. Remarkably, these networks learn representations that are better aligned with brain representations than a large number of state-of-the-art alternative models, despite being trained on orders-of-magnitude less data. Overall, our results suggest that LLM embeddings of scene captions provide a representational format that accounts for complex information extracted by the brain from visual inputs.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.