NeurIPS 2023 | 视觉「读脑术」：从大脑活动中重建你眼中的世界|信号|编码器|fmri

NeurIPS 2023 | 视觉「读脑术」：从大脑活动中重建你眼中的世界

2024-01-03 08:27:38　来源: 将门创投

北京举报

分享至

在这篇 NeurIPS23 论文中，来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉「读脑术」，能够从人类的大脑活动中以高分辨率解析出人眼观看到的图像。

人类的感知不仅由客观刺激塑造，而且深受过往经验的影响，这些共同促成了大脑中的复杂活动。在认知神经科学领域，解码大脑活动中的视觉信息成为了一项关键任务。功能性磁共振成像（fMRI）作为一种高效的非侵入性技术，在恢复和分析视觉信息，如图像类别方面发挥着重要作用。

然而，由于 fMRI 信号的噪声特性和大脑视觉表征的复杂性，这一任务面临着不小的挑战。针对这一问题，本文提出了一个双阶段 fMRI 表征学习框架，旨在识别并去除大脑活动中的噪声，并专注于解析对视觉重建至关重要的神经激活模式，成功从大脑活动中重建出高分辨率且语义上准确的图像。

论文题目： Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain Activities 论文链接： https://arxiv.org/abs/2305.17214 项目链接： https://github.com/soinx0629/vis_dec_neurips/

论文中提出的方法基于双重对比学习、跨模态信息交叉及扩散模型，在相关 fMRI 数据集上取得了相对于以往最好模型接近 40% 的评测指标提升，在生成图像的质量、可读性及语义相关性相对于已有方法均有肉眼可感知的提升。该工作有助于理解人脑的视觉感知机制，有益于推动视觉的脑机接口技术的研究。相关代码均已开源。

功能性磁共振成像（fMRI）虽广泛用于解析神经反应，但从其数据中准确重建视觉图像仍具挑战，主要因为 fMRI 数据包含多种来源的噪声，这些噪声可能掩盖神经激活模式，增加解码难度。此外，视觉刺激引发的神经反应过程复杂多阶段，使得 fMRI 信号呈现非线性的复杂叠加，难以逆转并解码。

传统的神经解码方式，例如岭回归，尽管被用于将 fMRI 信号与相应刺激关联，却常常无法有效捕捉刺激和神经反应之间的非线性关系。近期，深度学习技术，如生成对抗网络（GAN）和潜在扩散模型（LDMs），已被采用以更准确地建模这种复杂关系。然而，将视觉相关的大脑活动从噪声中分离出来，并准确进行解码，依然是该领域的主要挑战之一。

为了应对这些挑战，该工作提出了一个双阶段 fMRI 表征学习框架，该方法能够有效识别并去除大脑活动中的噪声，并专注于解析对视觉重建至关重要的神经激活模式。该方法在生成高分辨率及语义准确的图像方面，其 50 分类的 Top-1 准确率超过现有最先进技术 39.34%。

一、方法概述

1.1 fMRI 表征学习 (FRL)

1.1.1 第一阶段：预训练双对比掩模自动编码器

为了在不同人群中区分共有的大脑活动模式和个体噪声，本文引入了DC-MAE技术，利用未标记数据对fMRI表征进行预训练。DC-MAE包含一个编码器和一个解码器，其中以遮蔽的fMRI信号为输入，则被训练以预测未遮蔽的fMRI信号。所谓的“双重对比”是指模型在fMRI表征学习中优化对比损失并参与了两个不同的对比过程。

在第一阶段的对比学习中，每个包含个 fMRI样本的批次中的样本被随机遮蔽两次，生成两个不同的遮蔽版本和，作为对比的正样本对。随后，1D卷积层将这两个版本转换为嵌入式表示，分别输入至fMRI编码器。解码器接收这些编码的潜在表示，产生预测值和。通过 InfoNCE 损失函数计算的第一次对比损失，即交叉对比损失，来优化模型：

在第二阶段对比学习中，每个未遮蔽的原始图像及其相应的遮蔽图像形成一对天然正样本。这里的代表解码器预测出的图像。第二次对比损失，也就是自对比损失，根据以下公式进行计算：

优化自对比损失能够实现遮蔽重建。无论是还是，负样本都来自同一批次的实例。和共同按如下方式优化： ,其中超参数和用于调节各损失项的权重。

1.1.2 第二阶段：使用跨模态指导进行调整

考虑到fMRI记录的信噪比较低且高度卷积的特性，专注于与视觉处理最相关且对重建最有信息价值的大脑激活模式对fMRI特征学习器来说至关重要。

在第一阶段预训练后，fMRI自编码器通过图像辅助进行调整，以实现fMRI的重建，第二阶段同样遵循此过程。具体而言，从个样本批次中选择一个样本及其对应的fMRI记录的神经反应。和经过分块和随机遮蔽处理，分别转变为和，然后分别输入到图像编码器和fMRI编码器中，生成和。为重建fMR I ，利用交叉注意力模块将和进行合并：

和分别代表相应线性层的权重和偏置。是缩放因子，是键向量的维度。是交叉注意力 (cross-attention) 的缩写。加上后，输入到 fMRI 解码器中以重建，得到 :

图像自编码器中也进行了类似的计算，图像编码器的输出通过交叉注意力模块与的输出合并，然后用于解码图像，得到：

通过优化以下损失函数，fMRI和图像自编码器共同进行训练：

1.2 使用潜在扩散模型 (LDM) 生成图像

在完成FRL第一阶段和第二阶段的训练后，使用fMRI特征学习器的编码器来驱动一个潜在扩散模型（LDM），从大脑活动生成图像。如图所示，扩散模型包括一个向前的扩散过程和一个逆向去噪过程。向前过程逐渐将图像降解为正态高斯噪声，通过逐渐引入变方差的高斯噪声。

该研究通过从预训练的标签至图像潜在扩散模型（LDM）中提取视觉知识，并利用fMRI数据作为条件生成图像。这里采用交叉注意力机制，将fMRI信息融入 LDM，遵循稳定扩散研究的建议。为了强化条件信息的作用，这里采用了交叉注意力和时间步条件化的方法。在训练阶段，使用VQGAN编码器和经FRL第一和第二阶段训练的fMRI编码器处理图像和fMR I ，并在保持LDM不变的情况下微调fMRI编码器，损失函数为：

其中，

是扩散模型的噪声计划。在推理阶段，过程从时间步长的标准高斯噪声开始，LDM依次遵循逆向过程逐步去除隐藏表征的噪声，条件化在给定的fMRI信息上。当到达时间步长零时，使用VQGAN解码器将隐藏表征转换为图像。

二、实验

2.1 重建结果

通过与 DC-LDM、IC-GAN 和 SS-AE 等先前研究的对比，并在 GOD 和 BOLD5000 数据集上的评估中显示，该研究提出的模型在准确率上显著超过这些模型，其中相对于 DC-LDM 和 IC-GAN 分别提高了 39.34% 和 66.7%

在 GOD 数据集的其他四名受试者上的评估显示，即使在允许 DC-LDM 在测试集上进行调整的情况下，该研究提出的模型在 50 种方式的 Top-1 分类准确率上也显著优于 DC-LDM，证明了提出的模型在不同受试者大脑活动重建方面的可靠性和优越性。

实验结果表明，利用所提出的 fMRI 表示学习框架和预先训练的 LDM，可以更好的重建大脑的视觉活动，大大优于目前的基线。该工作有助于进一步挖掘神经解码模型的潜力。

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.