耶鲁大学、达特茅斯学院以及剑桥大学的研究人员共同开发了 MindLLM,这是一款能够将功能性磁共振成像(fMRI)信号转换为文本的通用模型。
将具有神经科学指导的注意力机制与大型语言模型(LLM)相结合后,该模型在下游任务中的表现优于现有方法,其性能提升了 12.0%,在未见过的主题泛化方面提高了 16.4%,在新任务适应方面提升了 25.0%,相较于之前诸如 UMBRAE、BrainChat 和 UniBrain 等模型而言,具有显著优势。
将大脑活动转化为自然语言具有重大的意义,这不仅适用于神经科学领域,也适用于脑机接口应用。以往的尝试在预测性能、任务多样性以及跨个体的泛化能力方面都遇到了挑战。现有的方法往往需要针对个体的特定参数,这限制了它们在不同个体之间进行泛化的能力。
模型架构
Model Architecture
在 arXiv上发表的“MindLLM:一种适用于 fMRI 到文本解码的通用且灵活模型”这一研究中,MindLLM 是基于来自八位个体(NSD-Natural Scenes 数据集)的数据,使用了全面的 fMRI 到文本基准进行评估,该数据集是 fMRI 研究中广泛使用的标准数据集。
MindLLM 的设计包括一个 fMRI 编码器和一个大型语言模型。
首先,fMRI 扫描将大脑划分为被称为体素(类似于三维像素)的小单元。不同的人有着不同的大脑结构,当与标准化的大脑图谱对齐时,这些结构永远不会完全匹配。由于活跃体素的数量和排列方式会有所不同(在该研究中,个体之间的数量范围从 12,682 到 17,907 不等),因此每个个体都需要不同的输入维度。
由于大脑功能在个体间保持一致,即便体素分布有所差异,基于神经科学的活动映射在 fMRI 编码器中(使用改进后的注意力机制)也能让系统适应不同受试者的这些不同输入形状。
通过将体素的功能信息与其原始 fMRI 值分离,该模型利用了神经科学研究中的已有知识,从而提高了个体间的一致性。
脑指令调优(BIT)进一步增强了系统从功能性磁共振成像(fMRI)信号中提取多样语义表示的能力。BIT 是一种指令调优方法,它利用大规模的 fMRI 数据集,这些数据集包含来自多个观看相同图像的人的 fMRI 记录。这种多受试者 fMRI 数据以及相关的文本注释增强了模型的语义理解能力。
全面的 fMRI 到文本基准测试评估了该模型的性能,展示了在脑图注释、问答和推理任务中的出色结果。
研究意义
Significance
MindLLM 更能适应新对象,相较于之前的无对象依赖模型,其性能提高了 16.4%。它对新任务的适应性提高了 25%,使其能够有效地应对不同的挑战。
该模型的注意力模式显示了特定大脑区域与感知和推理等认知功能之间的联系。
许多先前的模型仅专注于从与视觉刺激相关的 fMRI 信号中生成图注释。MindLLM 超越了这些局限性,通过整合支持知识检索、符号语言处理和复杂推理的数据集。
当前的实现仅处理静态的 fMRI 快照,限制了系统随着时间推移捕捉思维进展的能力。未来的发展可能会涉及采用诸如循环架构或顺序注意力机制等时间建模技术,来分析大脑活动模式是如何演变的。
MindLLM 提供了关于大脑活动如何转化为语义信息的可解释见解,巩固了其作为神经科学研究工具的作用。将功能性磁共振成像(fMRI)实时解码技术拓展应用到实际操作中,可能会为神经假肢、心理状态追踪以及脑机接口等领域带来新的可能性。
新闻来源:Neuroscience
参考文献:DOI: 10.48550/arxiv.2502.15786
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.