NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测|体素|新模型

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

2025-11-19 12:27:54　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：机器之心）

本文作者来自香港大学、香港中文大学、卡内基梅隆大学、哈佛大学、哥伦比亚大学等多所顶尖高校。其中论文第一作者是喻牧泉，来自香港中文大学，主要研究方向为计算神经科学与脑机接口。通讯作者为罗逸飞（Andrew F. Luo），香港大学助理教授。

人类高级视觉皮层在个体间存在显著的功能差异，而构建大脑编码模型（brain encoding models）—— 即能够从视觉刺激（如图像）预测人脑神经响应的计算模型 —— 是理解人类视觉系统如何表征世界的关键。传统视觉编码模型通常需要为每个新被试采集大量数据（数千张图像对应的脑活动），成本高昂且难以推广。尽管现有方法可利用预训练视觉模型（如 CLIP ）提取图像特征，并通过线性回归拟合脑响应，这类模型仍严重依赖大量被试内数据，在少样本甚至零样本条件下难以快速适应新个体，限制了其在临床、个性化神经科学等现实场景中的应用。

为解决这一挑战，BraInCoRL（Brain In-Context Representation Learning）提出一种基于元学习的上下文Transformer跨被试脑编码模型，仅凭少量示例图像及其对应的脑活动数据，即可无需微调地预测新被试在面对全新图像时的脑响应。该模型在多个公开fMRI数据集上表现出卓越的数据效率与泛化能力，甚至可跨扫描仪、跨协议进行有效预测。

本工作发表于 NeurIPS 2025 中的文章《Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex》。

论文链接：
https://arxiv.org/abs/2505.15813
代码链接：
https://github.com/leomqyu/BraInCoRL
背景和创新

人类高级视觉皮层（如梭状回面孔区 FFA、海马旁位置区 PPA 等）对语义类别（人脸、场景、食物等）具有选择性响应。尽管这些区域在被试间位置大致一致，但精细的功能组织存在显著个体差异 —— 这使得为每个新被试构建高精度编码模型必须依赖大量功能磁共振成像（fMRI）扫描（通常需数千图像），成本极高。

当前主流方法多采用“图像特征 + 线性回归”的范式，虽在单个被试上表现良好，但无法跨被试泛化，必须为每位新用户重新训练模型。近期一些工作尝试引入 Transformer 架构建模多被试数据，但仍需在新被试数据上进行微调，未能真正摆脱对大量个体数据的依赖。

针对这一瓶颈，本文提出一种全新的建模范式：将每个脑体素（voxel）视为一个独立的、从视觉刺激到神经响应的响应函数。fMRI 测量仅提供该函数在有限输入下的带噪采样，而训练目标是从这些稀疏观测中推断出一个可计算、可泛化的映射。基于元学习和上下文学习范式，本文提出一种全新的BraInCoRL脑编码架构，在训练阶段从多被试数据中学习视觉皮层响应的共享结构；在测试阶段，仅需提供极少量（如 100 张）新被试的图像-脑响应对作为上下文，即可无需任何微调，直接生成适用于该被试的体素级编码器，并准确预测其对全新图像的神经活动。

方法细节

元学习 + 上下文学习：将每个体素视为一个任务

BraInCoRL 的核心思想是将每个体素的视觉响应建模为一个独立的函数推断任务，并将其置于元学习（meta-learning）与上下文学习（in-context learning, ICL）的统一框架下。

具体而言，对任意体素（可来自任意被试），我们假设存在一个未知但可计算的映射函数：

其中为输入图像，为该体素对的 fMRI 响应（即 beta 值）。

传统方法将此视为监督回归问题，需为每个新被试单独拟合。而 BraInCoRL 将其重新定义为：

给定一个支持集（support set）
其中
是由冻结的视觉编码器（如 CLIP）提取的图像嵌入。学习目标是在不更新任何参数的情况下，直接推断出
，并用于预测新图像
的响应。

为实现这一目标，BraInCoRL 将每个体素视为一个元学习任务。在训练阶段，模型从多个被试的数千个体素中随机采样，通过 Transformer 学习跨被试、跨体素的视觉–神经映射共性，即学习一个通用的上下文推理算法。

在测试阶段，当面对一个全新被试时，仅需提供其少量（例如 100 个）图像–脑响应对（image-activation pair）作为上下文输入。模型通过前向计算，动态生成该被试专属的体素编码器：

其中即是 BraInCoRL 中的高级视觉皮层上下文 Transformer。

架构设计：

架构上，BraInCoRL 包含三个部分：

冻结的图像特征提取器（如 CLIP、DINO）将图像编码为图像嵌入（image embeddings）；
高级视觉皮层上下文 Transformer：接收若干图像嵌入-脑响应对作为上下文，通过自注意力机制融合跨被试知识，并直接生成体素编码器的权重；
轻量体素编码器：线性层，使用生成的权重对新图像预测脑响应。

此架构在训练时显式优化上下文学习能力，使模型学会如何从少量样本中推断出一个体素的响应函数。

三阶段训练策略：

预训练阶段：使用合成的体素权重与噪声构造大量虚拟体素任务，训练模型基础能力。
上下文扩展阶段：引入可变长度的上下文样本，提升模型对不同样本数量的适应能力。
有监督微调阶段：使用真实fMRI数据进一步优化，使模型适应生物脑响应特性。

实验结果

1、极高的数据效率

在Natural Scenes Dataset （NSD）数据集上，BraInCoRL仅使用100张上下文图像，即在多个类别选择性脑区（如面孔、地点、身体、食物、文字）上达到与全量训练模型（9,000张图像）相近的解释方差，显著优于基于相同样本量的岭回归基线。同时在上下文数量变化的情况下，模型也表现出强大的稳定性。

2、跨数据集泛化

在BOLD5000数据集（3T扫描仪，与训练集不同刺激协议）上，BraInCoRL同样表现出色，验证其跨设备、跨协议的鲁棒性。

3、语义聚类可视化揭示体素功能组织

在 UMAP 可视化中，BraInCoRL 生成的体素权重呈现出清晰的语义聚类，人脸、场景、身体、食物等功能区域各自形成独立簇，且在多个被试间稳定复现。

4、语义对齐与可解释性

通过分析 BraInCoRL 的注意力机制，我们可以了解视觉皮层的功能组织，并发现与体素选择相关的图像。例如分析 Transformer 最后一层注意力权重，发现模型在预测“面孔区域”响应时，会自动关注上下文中的人脸图像，验证了其语义合理性。

5、自然语言驱动的大脑探查

将 CLIP 文本提示（如 “a photo of a person's face”）映射为图像嵌入，输入 BraInCoRL，即可零样本预测整个皮层的激活图。

结语

BraInCoRL 首次将上下文学习 (In-Context Learning) 引入计算神经科学，构建了一个无需微调、数据高效、可解释、支持语言交互的通用视觉皮层编码框架。该方法大幅降低了个体化脑编码模型的构建门槛，为未来在临床神经科学等数据受限场景中的应用开辟了新路径。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.