DecoFuse: Decomposing and Fusing the “What”, “Where”, and “How” for Brain-Inspired fMRI-to-Video Decoding
解码:分解和融合“是什么”、“在哪里”和“如何”进行大脑启发的fMRI到视频解码
原文链接:https://www.arxiv.org/pdf/2504.00432
本文概述:
《DecoFuse: Decomposing and Fusing the “What”, “Where”, and “How” for Brain-Inspired fMRI-to-Video Decoding》提出一种受大脑视觉处理机制启发的新型框架 DecoFuse,用于从功能性磁共振成像(fMRI)信号重建观看的视频内容。该方法将视觉信息解耦为三个核心维度:“What”(内容对象)、“Where”(空间位置)和“How”(动态变化/运动方式),分别建模后再融合重构,模拟人脑视觉皮层的信息处理层级,显著提升视频重建的语义准确性和时空连贯性。
推荐理由:
脑启发架构创新首次明确将“内容-位置-动态”三要素解耦建模,贴合神经科学中视觉通路(腹侧流“是什么”+背侧流“在哪里/怎么做”)的双通路理论,为脑机接口与神经解码提供新范式。
视频重建质量突破相比传统端到端模型,DecoFuse 在语义保真度、运动流畅性和空间定位精度上均有显著提升,推动 fMRI 视频解码从“模糊印象”迈向“可识别内容”。
跨学科价值突出融合认知神经科学、计算机视觉与深度学习,不仅推进脑信号解码技术,也为类脑AI、视觉表征学习和多模态对齐提供新思路。
开源与可复现性作者公开代码与处理流程,支持社区验证与扩展,加速脑-视频解码领域发展。
![]()
摘要:
从大脑活动中解码视觉体验是一项重大挑战。现有的fMRI到视频方法通常侧重于语义内容,而忽略了空间和运动信息。然而,这些方面都至关重要,并且在大脑中通过不同的通路进行处理。受此启发,我们提出了DecoFuse,一种新颖的、受大脑启发的框架,用于从fMRI信号中解码视频。该框架首先将视频分解为三个组成部分——语义、空间和运动——然后分别对每个组成部分进行解码,最后将它们融合以重建视频。这种方法不仅通过将复杂的视频解码任务分解为可管理的子任务来简化了该任务,而且如消融研究所支持的那样,还在学习到的表征与其生物学对应物之间建立了更清晰的联系。此外,我们的实验表明,该方法相较于之前的最先进方法有显著改进,实现了82.4%的语义分类准确率、70.6%的空间一致性准确率、0.212的运动预测余弦相似度,以及21.9%的50选1视频生成准确率。另外,针对语义和空间信息的神经编码分析结果与“双通路假说”相一致,进一步验证了腹侧通路和背侧通路的不同作用。总体而言,DecoFuse为fMRI到视频的解码提供了一个强大且生物学上合理的框架。项目页面:https://chongjg.github.io/DecoFuse/。
1 引言
视觉输入是大脑最主要的信息来源,因此准确解码视觉信号并理解其编码过程,是神经科学与人工智能领域的关键挑战。功能性磁共振成像(fMRI)作为一种无创记录全脑活动的技术,近年来在解码应用中日益流行[26]。与此同时,诸如Stable Diffusion(SD)[24]等技术的进步,极大地推动了基于fMRI的图像[1, 13, 15, 16, 21, 22]、视频[2, 5, 10, 14]及3D物体[7]解码的发展。这些突破取得了令人瞩目的成果,使“读心术”的构想日益接近现实。
然而,将fMRI解码为视频仍具有本质上的挑战!神经科学研究表明,大脑不同区域处理视觉信息的不同方面。“双通路假说”[11, 19]提出视觉处理存在两条主要通路:“what”通路(腹侧流)负责物体识别,“where/how”通路(背侧流)负责追踪位置与运动。语义(what)、空间(where)和运动(how)这三个组成部分是视频感知的基础。然而,当前的fMRI到视频解码研究主要集中于语义信息,而对空间和运动这两个对视觉体验至关重要的方面的解码,仍是一个重大但尚未充分探索的挑战[10]。
MinD-Video [2] 首次利用Stable Diffusion进行fMRI到视频的解码,通过将fMRI特征与文本嵌入对齐来重建语义准确的视频。此后多项研究沿袭了这一思路,聚焦于语义对齐[14, 25]。Yeung等人[31]则另辟蹊径,成功解码了视觉运动信息。特别是,近期的一些工作也通过预测Stable Diffusion的变分自编码器(VAE)潜变量作为UNet噪声输入的初始估计,探索了空间解码[6, 10, 17]。尽管有这些努力,评估主要仍依赖于语义或像素级指标,如分类准确率和SSIM。空间和运动信息能否从fMRI中被独立解码,仍然是一个悬而未决的问题。
为解决这些问题,我们提出了DecoFuse,一种新颖的、受大脑启发的框架,它将视频分解为三个关键组成部分——语义、空间和运动信息。这些信息被分别解码,然后融合以重建视频(如图1所示)。该框架与“双通路假说”相一致,其学习到的组成部分预期能在大脑中反映其生物学对应物,具体分为三个阶段:
![]()
第一阶段:一个预训练的fMRI编码器提取语义、空间和运动嵌入。语义和空间嵌入随后作为条件输入图像生成器,定义物体“是什么”以及“在哪里”,从而生成一个静态的初始帧。
第二阶段:运动解码器利用神经运动嵌入和初始帧预测光流,模拟大脑处理物体运动的方式。
第三阶段:一个运动条件视频生成器利用预测的光流对静态帧进行动画化,生成最终视频。
DecoFuse具有两大主要优势:(1) 通过将fMRI到视频的解码任务分解为可管理的子任务,简化了整体流程并提升了性能;(2) 其受生物学启发的模块化设计支持消融研究,从而可以评估语义、空间和运动信息从fMRI信号中独立解码的效果。
在我们的实验中,我们分别评估了三个组成部分(语义、空间和运动)的解码准确性,并展示了相比现有最先进方法[2, 13, 14, 22, 31]的优越性能。对于语义信息,我们对生成图像和真实图像(GT)进行了分类任务,取得了20.8%的50选1准确率——比MinD-Video [2] 提高了20.9%。对于空间信息,我们使用DINOv2 [20]进行前景检测,在生成图像与真实图像之间获得了70.6%的前景一致性准确率,超越了NeuroPictor [13] 之前68.7%的SOTA表现。对于运动信息,我们测量了预测光流与真实光流之间的余弦相似度,得分为0.212,显著优于[31]报告的0.174。此外,我们还评估了生成视频的质量,其50选1分类准确率达到21.9%,优于当前所有SOTA方法[2, 14, 22]。我们还对每个组成部分进行了消融研究,结果均显示其对应指标显著下降,强调了我们学习到的表征与其生物学对应物之间的对应关系。最后,利用DecoFuse中受大脑启发的分解方法,我们对“what”和“where”嵌入进行了神经编码分析,结果表明其与“双通路假说”[11]相一致。
总而言之,我们的贡献如下: (1)新颖的大脑解码框架:本文提出了DecoFuse,一种用于fMRI到视频解码的新框架,通过将视频分解为语义、空间和运动三个关键组成部分,解决了从大脑活动中重建视频的挑战。 (2)新颖的编码器与解码器设计:我们的DecoFuse在先前工作的基础上进行了非平凡的改进,包含了新颖的fMRI、语义、空间和运动编码器。 (3)生物学上合理的架构:DecoFuse的模块化方法与“双通路假说”高度一致。我们的消融研究证明了学习表征与其生物学对应物之间的强相关性。 (4)差异性神经编码:研究了所解码嵌入与大脑背侧流和腹侧流的对应关系;并使用PCA和岭回归从语义与空间嵌入中预测fMRI信号,本质上支持了已确立的神经科学理论。 (5)卓越的性能表现:DecoFuse在解码语义、空间和运动组成部分方面,显著超越了当前最先进的方法。
相关工作
fMRI到视觉的重建。近年来,基于fMRI的解码技术在从大脑活动中提取视觉信息方面取得了显著进展,特别是在利用Stable Diffusion(SD)等技术解码图像、视频和3D物体方面[1, 2, 7, 10, 13, 14]。然而,fMRI到视频的解码仍探索不足,尤其是在空间和运动成分方面。早期研究[2, 14, 25]主要聚焦于语义解码,而近期方法[6, 10, 17, 31]则引入了VAE潜变量或运动专用解码器。尽管如此,评估通常仍集中在语义或像素级指标上,使得空间和运动信息的可靠解码仍是一个持续存在的挑战。
大脑中的视觉通路。神经科学领域的大量研究探讨了大脑如何处理视觉信息。“双通路假说”[11, 19]提出,视觉处理被划分为两条通路:“what”通路(腹侧流)负责物体识别,“where”/“how”通路(背侧流)负责追踪物体位置与运动。这两条通路对应于视频的三个组成部分——语义(what)、空间(where)和运动(how)——它们对于重建逼真的视频内容至关重要。
3 方法
概述。我们将任务分别分解为语义解码、空间解码和运动解码。在数据预处理阶段,原始fMRI帧会与一个解剖学脑模板[8]对齐,以创建单通道图像。随后,这些fMRI帧被输入一个大规模预训练的fMRI Transformer编码器(fMRI-PTE)[23],该编码器在UKB数据集[18]上进行过预训练。接着,两个独立模块分别解码语义嵌入和空间嵌入,并通过Stable Diffusion[24]生成一张静态图像。最后,利用fMRI数据和生成的图像,一个运动解码器预测光流,并通过DragNUWA[32]对图像中的静态物体进行动画化,从而生成最终视频。
通常,将“双通路假说”(“what”与“where”概念)与大脑解码模型相结合,可提供全新的研究视角。基于此,我们受大脑启发的方法将深度学习嵌入与大脑的编码过程相联系,通过分离不同变量,帮助我们更有效地分析脑信号。
3.1 数据预处理
fMRI预处理。一些解码方法会将每一帧展平,并有意过滤掉受试者特异性的激活体素[2, 30]。与之不同,我们使用解剖结构[8]将fMRI数据对齐到fs_LR_32k脑表面空间,并展开皮层表面以创建二维图像,从而确保跨受试者的标准化和统一表示,同时保留相邻体素之间的空间关系。鉴于视觉任务主要激活特定脑区[12],我们聚焦于早期及高级视觉皮层感兴趣区域(ROIs),这些区域在fs_LR_32k空间中依据HCP-MMP图谱[9]定义,共涵盖8,405个顶点。随后,每个fMRI帧被转换为一张单通道256×256图像,并进行逐体素的z值标准化。此外,对于观看相同视频刺激的不同实验轮次中时间对齐的fMRI帧,我们会对其进行平均处理。最后,考虑到血氧水平依赖(BOLD)信号因血流动力学响应而存在固有延迟,我们对fMRI序列施加了约6秒的时间偏移。
fMRI-刺激配对数据。我们遵循MinD-Video[2]的做法,采用滑动窗口方法将CC2017数据集[30]分割为fMRI-视频配对样本。具体而言,fMRI到视频的解码任务被重新定义为:从αT秒的fMRI数据中生成一段T秒的视频。此外,受“双通路假说”[11]的启发——该假说认为“what”、“where”和“how”信息主要由不同脑区编码——我们将视频分解为语义、空间和运动三个组成部分。这些组成部分分别由初始帧(语义与空间)和光流(运动)来表示。
![]()
3.2. DecoFuse 管道
视觉输入对大脑至关重要,许多研究已经探讨了大脑如何处理它。著名的双流假设表明,大脑通过两条不同的路径处理视觉信息:“什么”路径(中央流)用于识别物体,而“在哪里/如何”路径(背侧流)用于跟踪它们的位置和运动[11, 19]。受此启发,我们提出了一个受大脑启发的fMRI到视频框架DecoFuse,该框架将视频分解为三个组成部分:语义(“什么”)、空间(“在哪里”)和运动(“如何”),分别解码每个组件,最后将它们融合以生成视频。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
3.3. 差分神经编码
![]()
![]()
3.4. 训练策略
我们在阶段1和阶段2中进行训练。
![]()
![]()
4. 实验
预训练数据集。英国生物银行(UKB)[18] 是一个大规模生物医学资源,收集了来自英国约50万名个体的广泛遗传和健康相关数据。我们使用该存储库的一个子集,特别是大约39,630名参与者的静息态fMRI数据。每位参与者提供了一个包含490个时间点体积的单次会话。
配对的fMRI-视频数据集。实验使用了CC2017数据集[30],该数据集将fMRI数据与视频刺激配对。它包括来自三名参与者的数据,fMRI帧使用3T MRI扫描仪以2秒的重复时间(TR)捕获。数据集涵盖了大约3小时的视频,并为每位参与者提供了大约5,500对fMRI-刺激对。
视觉指标。1)语义级别。根据Mind-Video[12],我们使用基于图像和基于视频的分类指标来评估语义级别的性能。对于图像分类,我们依赖于ImageNet分类器。对于基于视频的指标,我们应用类似的分类框架,使用VideoMAE[27]。在这两种情况下,都采用了N路top-K准确度指标,对于视频,将前3个预测类别与真实类别(GT)进行比较。具体来说,N个候选类别包括真实类别以及从分类器的完整类别集中随机选择的N-1个类别。这种方法与Mind-Video中使用的方法一致。2)空间级别。我们通过计算真实背景与解码图像之间的前景-背景匹配比率来评估空间性能。前景检测使用
![]()
![]()
![]()
4.1. 验证“什么”和“在哪里”因素
为了分离解码图像中来自fMRI信号的“什么”和“在哪里”组件,我们将我们的方法DecoFuse与其他已建立的fMRI到视频解码方法进行比较,包括Mind-Video [22]、fMRI-PTE-video [14] 和 NeuroPictor [13]。
我们的发现,如图3和表1所示,显示了在三个受试者中使用语义和空间指标的结果。(1) DecoFuse在这些指标上持续优于其他方法,捕获详细的语义内容并准确解码空间位置。这表明DecoFuse能够更好地对齐“什么”(语义内容)和“在哪里”(空间排列)来自大脑活动,为fMRI到视频解码设定了新的基准。(2) 在语义级别,DecoFuse的准确性显著高于其他方法。例如,在受试者1中,DecoFuse实现了0.208的50路准确率,而Mind-Video为0.172,fMRI-PTE-video为0.169,NeuroPictor为0.195。这一趋势在所有受试者中都成立,DecoFuse在2路和50路准确率方面领先,证明了其从fMRI数据中捕获语义内容的有效性。(3) 在空间级别,DecoFuse在保留空间位置方面表现出色。例如,在受试者1中,DecoFuse实现了0.706的匹配比率,优于Mind-Video (0.660)、fMRI-PTE-video (0.652) 和 NeuroPictor (0.687),表明更好的对象定位。
![]()
![]()
为了评估语义和空间特征的影响,我们分别在DecoFuse中消融这些嵌入。DecoFuse(without where),排除空间特征,显示出空间指标的明显下降,证实了它们的重要性。DecoFuse(without what),移除语义条件,语义准确性显著下降,但空间得分仍保持在0.704的高水平。此外,为了减少随机性,DecoFuse生成20帧并选择偏差最小的一个(详见补充资料),而DecoFuse(1 frame)仅生成单个帧。结果表明,通过减少生成方差,从多帧中过滤出一帧可以提高性能。总体而言,DecoFuse在语义和空间解码方面表现出色,捕获精细的fMRI细节并生成高质量的视觉重建,超越了先前的方法。
4.2. 验证“如何”(How)因素的声明
由于目前尚无直接方法对“如何”这一因素进行公平比较,我们采用光流(optical flow)指标来进行评估。然而,光流对多种因素极为敏感——遮挡、快速运动、运动模糊、光照变化,甚至噪声或伪影——这些在所有方法生成的图像中都普遍存在。因此,很难量化这些敏感性对比较结果的具体影响。尽管如此,光流仍提供了一个有用的基准指标,可作为评估各方法有效性的大致参考。
为了评估运动解码性能,我们在不同前景覆盖水平下测量预测光流向量与真实光流向量之间的余弦相似度。在表 2 中,每个百分比(例如 20%、30% 等)表示场景中被前景占据的比例,从而揭示了各模型在处理更大、更显著物体时的运动解码能力。这种方法反映了人类倾向于关注与较大场景元素相关的运动行为。
图 4 和表 2 中的运动解码结果展示了 DecoFuse 相较于 fMRI-to-motion(F2M)方法 [31] 的性能表现,通过在不同前景阈值下的余弦相似度进行比较。虽然由于 F2M 算法细节不完整,精确对比受到限制,但 DecoFuse 仍展现出明显优势。例如,我们的方法以每秒为间隔计算光流,引入了额外复杂性,但 DecoFuse 依然表现出强劲性能。特别是,DecoFuse 在较大前景区域的运动捕捉方面表现更优,优于 F2M 方法。这一趋势支持我们的假设:DecoFuse 更贴近人类的感知偏好,能够有效优先解码视觉上占主导地位区域的运动信息。这些结果证实了 DecoFuse 在具有挑战性条件下(尤其需要对显著场景元素进行高精度解码时)具备强大的运动解码能力。
![]()
![]()
我们还测试了在移除 fMRI 输入后的光流预测,这相当于仅基于图像的光流预测。结果显示,仅依赖图像的预测性能远低于同时使用 fMRI 和图像的预测。这表明模型成功从 fMRI 数据中学习到了运动信息。
4.3. 更多消融实验
其他影响视频解码的因素。我们进一步通过语义级准确率和结构相似性(SSIM)来评估从 fMRI 直接解码视频的性能,遵循 [2] 中使用的指标。对于每位受试者,我们报告 2-way 和 50-way 的语义准确率。如表 3 所示,DecoFuse 在大多数情况下均表现出最佳性能,突显了我们解码视频的准确性提升。这些结果证实了 DecoFuse 在保留 fMRI 数据中的语义和结构细节方面的有效性。此外,我们在图 5 中提供了解码帧的可视化结果,突出显示了本方法在清晰度和保真度方面的优势。我们还基于 NeuroPictor [13] 生成的图像评估了视频解码(DecoFuse(NeuroPictor)),结果显示语义指标显著下降,进一步证明了我们 fMRI 到图像解码流程的改进。
![]()
![]()
差异神经编码。我们探索大脑如何通过不同的通路分别编码语义和空间信息,利用差异神经编码进行分析,如图 6 所示。该图突出了语义特征和空间特征在预测 fMRI 响应中的贡献。因此,我们的发现支持了双通路假说 [11]。在初级视觉皮层中,当 pspa 接近 0 时,两种信息被同等编码。随着信息沿背侧和腹侧通路的处理推进,逐渐出现偏向:背侧通路更强调空间线索,而腹侧通路则更侧重语义线索。在更高阶脑区(如额叶)中,这种区分逐渐减弱,这支持了我们的方法以符合生物编码过程的方式解码大脑活动的观点。
结论
本文提出了 DecoFuse,一种新颖的 fMRI 到视频解码框架,该框架将视频分解为语义、空间和运动三个组成部分。通过独立解码这些方面,DecoFuse 能够更准确地重建视觉体验,对应大脑中的“是什么”(what)、“在哪里”(where)和“如何”(how)处理通路。与现有主要聚焦于语义信息的方法不同,DecoFuse 融合了空间和运动成分,从而实现更加真实自然的视频重建
原文链接:https://www.arxiv.org/pdf/2504.00432
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.