IJNS | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息|编码器

IJNS | 电子科技大学陈华富教授团队利用大语言模型解码大脑视觉感知中语言信息

分享至

近日，生命科学与技术学院陈华富院长团队在人工智能权威期刊《International Journal of Neural Systems》发表了大脑视觉信息解码研究成果。青年教师黄伟和硕士生李恒江为该论文共同第一作者，陈华富教授和程凯文副教授为共同通讯作者，电子科技大学为第一单位。International Journal of Neural Systems是中科院人工智能大类一区Top期刊，2025年影响因子为6.4。

视觉神经解码不仅有助于阐明视觉信息处理的神经机制，还推动了脑机接口技术的发展。然而，目前大多数解码研究集中于为单个受试者和特定任务开发独立的解码模型，这种方法不仅增加了训练成本，还消耗了大量的计算资源。为了克服这一挑战，本文提出了一种基于提示引导的生成视觉语言解码模型（PG-GVLDM），具体的如图1所示。该模型利用包含受试者和任务信息的提示文本，从多个个体的视觉反应活动中解码出主要类别和详细的文本描述。与传统的解码方法相比，PG-GVLDM具有三大优势：

（1）它可以在统一的网络结构和参数下，同时处理不同受试者和任务的视觉神经解码，避免了为每个受试者和任务创建单独模型的复杂性，从而实现跨受试者和任务的统一视觉神经解码；

（2）我们引入了多头跨注意力模块，并将整个大脑的反应活动作为输入，捕捉大脑中的全局语义信息，从而显著提升了视觉解码性能；

（3）本模型能够利用大脑的神经活动预测多种类型的感知信息，突破了传统解码模型的局限。在自然场景数据集（NSD）上的实验表明，PG-GVLDM在四个受试者上的平均类别解码准确率达到66.6%，表现出了强大的跨受试者泛化能力。

此外，在文本解码任务中，PG-GVLDM分别取得了0.342（Meteor）、0.450（Sentence-Transformer）、0.283（Rouge-1）和0.262（Rouge-L）的得分，创下了新的文本解码性能纪录。这些实验结果表明，结合整个大脑的反应活动极大地提升了解码性能，使得分布式神经信号能够整合为一致的全局语义表示，突显了在统一神经解码中的方法学重要性。本研究不仅代表了视觉神经解码方法的突破，也为通用脑机接口的发展提供了理论和技术支持。通过在统一的框架下整合多种感知信息，PG-GVLDM为脑机接口模型的设计与训练提供了更高效、低成本的解决方案，推动了该领域的进一步发展。

图1. PG-GVLDM流程图

PG-GVLDM由两个编码器（Global-Encoder和Visual -Encoder）和一个解码器（GPT-2 Decoder）组成。这些编码器和解码器在解码视觉信息的过程中发挥着不同的作用。图2说明了PG-GVLDM的整体模型结构。

图 2. PG-GVLDM模型

本研究在类别解码任务中，通过分析四个受试者的大脑活动，成功地预测了视觉刺激（自然图像）的主要类别。实验使用了来自COCO数据集的12个类别：人物、车辆、户外、动物、配件、运动、厨房、食物、家具、电子产品、电器和室内。经过5个epoch的训练后，模型在测试集上的准确率逐渐提高并趋于稳定，最后三个epoch的平均准确率分别为：0.683 ± 0.005，0.645 ± 0.016，0.695 ± 0.010，0.639 ± 0.001，显著高于随机基准（0.083）。混淆矩阵分析显示，尽管模型有时会出现错误预测，但错误类别通常与目标类别在语义上相似，如“厨房”类别被误分类为“家具”和“食物”。这些结果表明，模型有效地捕捉并识别了由相似视觉刺激引发的大脑活动，并将其与语义相关类别关联。整体而言，模型在不同受试者之间表现出一致的分类趋势和高泛化能力，能够有效地捕捉视觉刺激与语义类别之间的关系。图3展示了类别解码的相关结果。

图 3.类别解码的结果

本研究基于大脑神经活动生成自然图像的文本描述，模型在解码过程中能够生成与图像语义紧密相关的文本。实验结果表明，尽管有时解码文本的细节与人工标注的描述有所差异，但核心内容和主题一致，特别是在处理复杂场景和动作描述时表现突出。此外，模型在不同受试者之间展示了较强的泛化能力，能够一致地捕捉视觉刺激与语言之间的关联。图4展示了部分样本语言解码的相关结果。

图 4.语言解码的结果

本研究通过消融实验评估了全局编码器和提示设计在类别解码和文本解码中的作用。实验结果显示，使用全脑神经活动作为输入的全局编码器显著提高了类别解码和文本解码的准确性，而提示设计则进一步增强了模型在捕捉视觉信息与文本描述之间的关系方面的能力。具体而言，去除全局编码器和提示设计都会导致性能下降，说明这两个模块在提升模型解码能力方面起到了关键作用。详细结果可见图5。

图 5.文本解码的结果

上述研究成果中，开发的多任务解码模型对应于脑机接口有四个应用价值：

（1）视觉神经解码：提高了从大脑fMRI反应中解码视觉信息的精度和语义相关文本生成能力;

（2）脑机接口技术：展示了模型在言语障碍患者沟通和认知监测等脑机接口应用中的潜力;

（3）神经科学：揭示了分布式神经编码在语义处理中的作用，支持语义接近性保持;

（4）通用脑机接口：为开发适应不同用户和任务的通用脑机接口提供了基础。

黄伟，讲师。中国图象图形学会类脑视觉专委会委员、计算视觉专委会委员。针对类脑智能、脑信息编解码、生成式语言模型、多模态模型等领域难题，开展人工智能和脑科学的交叉研究。近年来，在脑科学和人工智能领域Information Fusion (2篇), Neural Networks, International Journal of Neural Systems和Computer Methods and Programs in Biomedicine等期刊发表SCI论文30余篇，以第一或通讯作者(共同)发表SCI论文15篇；授权/受理国家发明专利12项。主持国家级或省部级等科研项目4项，参与国防科技、国自然和省部级项目5项。此外，曾在华为工作两年，获得《算法创新优秀新人奖》、《算法技术攻关奖》、《业务服务优秀奖》等多个奖项；入职电子科技大学后，指导本科生/硕士生获得2024/2025年生物医学工程竞赛国家级/省级/校级12项。

李恒江，电子科技大学生物医学工程2023级硕士研究生在读，本科毕业于西南科技大学信息安全专业。研究方向是大脑视觉信息解码。近年来，对视觉神经解码较为系统的研究，已经以共同一作在Information Fusion 和International Journal of Neural Systems发表2篇SCI与4项相关专利成果。

程凯文，电子科技大学生物医学工程博士，四川外国语大学语言智能学院副教授，嘉陵青年学者，硕士生导师。现为《心理科学》, Brain Sciences 等期刊匿名外审专家，重庆神经科学学会理事，中国神经科学学会认知神经生物学分会会员、中国神经语言学研究会会员。主要从事认知神经科学、心理语言学和语言智能等方面的研究，已在Language and Cognition, Lingua，Information Fusion, Brain research bulletin, Frontiers in human neuroscience, Human brain mapping, Neural networks, Peerj,《心理科学进展》《外国语文》等期刊发表论文30余篇；获四川省社会科学优秀成果奖三等奖1次；主持重庆市社科项目1项和第二轮重庆市一流学科外国语言文学重点项目1项，完成厅级和校级项目6项, 参与国家社科基金和自科基金项目3项。

陈华富，教授，博导。国家杰出青年基金获得者，天府创新领军人才，四川省教书育人名师。致力于磁共振脑影像方向研究，并组建“脑成像与模式识别”研究团队，主要从事磁共振脑影像数据模式识别的人工智能与机器学习方法研究、神经与精神疾病影像机制研究，探测疾病的典型影像学特征，为临床诊断和评估提供影像学依据。主持科技部863、重点研发人工智能2030项目、国家自然基金重点、杰青和面上等科研项目。团队在Science Advances，Nature Communications，PNAS，Information Fusion，Biological Psychiatry，Molecular Psychiatry，Brain，PLoS Biology，Neurology，IEEE Trans MI/BME等期刊发表SCI论文300余篇。获教育部自然科学一等奖1项和教育部科技进步一等奖和二等奖各1项，获四川省科技进步自然科学类一等奖1项。

该论文的第一作者为电子科技大学·生命科学与技术学院青年教师黄伟与硕士生李恒江。电子科技大学·生命科学与技术学院陈华富院长，以及四川外国语大学程凯文副教授为共同通讯作者，该研究得到了STI 2030-重大项目（2022ZD0208900）、科技部重点项目（2024YFC2510203）国家自然科学基金项目 (62406058, 62333003, 62036003, 82121003, 62276051)、电子科技大学医工结合基金 (ZYGX2021YGLH201)、四川省自然科学基金 (2023NSFSC0640)和重庆市一流学科外国语言文学第二轮研究项目 (SISUWYJY202305)的资助。

论文链接：https://doi.org/10.1142/S0129065725500686

仅用于学术分享，若侵权请留言，即时删侵！

欢迎加入脑机接口AI星球

获取更多脑机接口+AI等领域的知识和资源。

欢迎来稿

1.欢迎来稿。投稿咨询，请联系微信：RoseBCI

点击投稿：

2.加入社区成为兼职创作者，请联系微信：RoseBCI

一键三连「分享」、「点赞」和「在看」

不错过每一条脑机前沿进展

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.