SPM——三十年及未来|算法|模态|拟合|贝叶斯|多变量|matlab|深度思考模型

分享至

SPM—30 years and beyond

SPM——三十年及未来

https://doi.org/10.1093/cercor/bhaf234

本文标志着统计参数映射（SPM）软件和《大脑皮层》（Cerebral Cortex）期刊创刊30周年：这是两个 modest（谦逊）的里程碑，标志着认知神经科学的开端。值此之际，我们对SPM在其问世一代人之后的发展进行反思。本文各位作者——仅代表众多SPM贡献者中的一小部分——受邀思考从中汲取的经验教训、哪些方面进展顺利，以及未来发展中尚有改进空间之处。我们希望，这篇对SPM及其愿景的回顾，能为当前的脑成像神经科学提供一些背景，并勾勒出该领域未来可能的发展方向。

关键词：脑电图（EEG）；脑磁图（MEG）；磁共振成像（MRI）；SPM；统计参数映射。

引言

统计参数映射（Statistical Parametric Mapping, SPM）的发展历程，在很大程度上就是现代认知神经科学的发展史。后者的需求推动了前者的诞生；而反过来，扫描设备和分析工具的日益普及，又开辟了新的研究问题和领域。令人惊叹的是，当今众多脑成像分析方法最初都源于SPM——这些方法由卡尔·弗里斯顿（Karl Friston）及其同事首创，最早在哈默史密斯医院（Hammersmith Hospital）开展，随后在其目前所在的女王广场功能成像实验室（Functional Imaging Laboratory, FIL）方法组继续发展。这些方法包括：将一般线性模型（General Linear Model, GLM）和随机场理论（Random Field Theory, RFT）应用于神经影像、事件相关fMRI、基于体素的形态学分析（Voxel-Based Morphometry, VBM）、心理生理交互作用（Psychophysiological Interactions, PPI）分析，以及动态因果建模（Dynamic Causal Modeling, DCM）。所有这些方法都依赖于高质量的影像配准，而这得益于约翰·阿什伯纳（John Ashburner）团队持续开发的空间标准化（即计算解剖学）方法，其技术日益精进，最近推出的包括DARTEL、SHOOT以及下文将介绍的MultiBrain工具箱。

许多相同的方法也已成功应用于脑磁图/脑电图（M/EEG）数据。当前SPM发展的重点之一，正是将其应用于新一代脑磁图（MEG）技术——即使用光泵磁力计（Optically Pumped Magnetometers, OPMs）来以极高的灵敏度记录运动状态下的大脑活动。MEG/EEG及OPM-MEG方向的SPM核心开发者——加雷斯·巴恩斯（Gareth Barnes）、弗拉基米尔·利特瓦克（Vladimir Litvak）和蒂姆·蒂尔尼（Tim Tierney）——将在下文介绍最新进展与未来方向。

如今，除SPM之外，还存在一个充满活力的成熟神经影像分析软件生态系统，例如AFNI、FreeSurfer和FSL，它们各自在特定领域具有专长并表现卓越。而SPM的关注点则在于坚持三项核心原则的技术创新：第一，承认我们作为经验科学家的目标是检验关于数据潜在成因的假设，而不仅仅是描述所观察到的数据。这就要求使用生成模型（generative models）——即根据某一假设、模型或机制生成预期观测数据，并配以适当的统计方法来拟合和评估候选模型。第二，采用基于严谨数学推导、对数据做出合理假设的参数统计方法，以实现快速且可重复的分析。第三，致力于开放科学。自诞生之初，SPM便是免费开源软件，甚至早于“开放科学”成为常用术语之前。这一理念也推动了近期一系列提升SPM可及性的项目，包括将开发迁移到GitHub平台，以及推出SPM的Python编程语言接口（本文撰写时刚刚发布）。

尽管本综述必然聚焦于SPM软件的核心部分，我们也希望借此机会向神经影像学界中开发SPM工具箱的先驱者们致以敬意——他们基于SPM生态系统构建了新颖的方法与软件，极大地拓展了其功能。广受欢迎的例子包括：

SPM解剖工具箱（JuBrain）：一个概率性细胞构筑图谱，基于多年精细的解剖学工作（Eickhoff等，2005）；
GIFT：用于组独立成分分析（Group ICA）的工具箱（Calhoun等，2001）；
CONN：用于功能连接分析的工具箱（Whitfield-Gabrieli与Nieto-Castanon，2012）；
hMRI：用于定量磁共振成像的工具箱（Tabelow等，2019）。完整的SPM工具箱列表可参见：https://www.fil.ion.ucl.ac.uk/spm/ext/。

在下文中，我们邀请了SPM开发团队的成员——每位代表一种特定的成像模态或分析方法——围绕三个问题进行反思：SPM在方法学和神经科学方面最重要的贡献是什么？是否有本应以不同方式处理的事情？以及未来的机遇或计划是什么？我们的讨论将从预处理开始——正如每一次SPM分析所做的一样。

预处理
在对原始扫描数据（如fMRI）进行分析之前，需对其进行预处理。这一过程通常始于图像配准（image registration），即估计并应用一系列空间变换，使图像相互对齐。随后，将生成模型（generative models）拟合到预处理后的数据上，以最佳地解释这些数据是如何产生的。

由于个体的大脑在一项研究过程中形状和大小基本保持不变，大多数被试内对齐（within-subject alignment）——例如fMRI的头动校正，以及fMRI与解剖扫描的共配准（co-registration）——采用的是刚体变换（rigid-body transformation）。刚体对齐一对图像需要找到六个参数（三个平移、三个旋转），以最大化图像间的相似性度量。对于同一模态内的图像（例如fMRI时间序列内部），可使用负均方差（negative mean-squared difference）作为相似性度量来校正扫描过程中的头动。这种方法简单，但对于不同对比度或不同模态的图像（如将PET或fMRI与T1加权扫描对齐）则效果不佳。

SPM早期解决跨模态配准（inter-modal registration）的一种方法是基于边界的配准法（boundary-based method）：在两种扫描中分别识别灰质与白质边界，并将这些边界对齐（Ashburner and Friston, 1997）。该跨模态配准论文还描述了一种从MRI中分割灰质和白质的方法，该方法结合了高斯混合模型（Gaussian mixture models）与组织先验（tissue priors）。后续工作进一步扩展了该模型，引入了可变形的组织先验和强度非均匀性校正（intensity nonuniformity correction）——这一模型被称为“统一分割”（unified segmentation；Ashburner and Friston, 2005）。

在深度学习兴起之前，这种生成建模方法已成为神经影像软件中最广泛使用的灰质识别方法（例如用于在皮层表面可视化结果）。对SPM用户而言，灰质图的主要用途是一种称为“基于体素的形态学分析”（voxel-based morphometry, VBM；Wright et al., 1995）的方法。该方法对一组被试的扫描图像进行灰质分割，随后进行空间标准化（见下文）和平滑处理，再输入基于体素的SPM分析，以识别不同人群之间的解剖差异。该技术已成为数万篇论文的基础，并衍生出多种变体，如基于体素的病灶-症状映射（voxel-based lesion-symptom mapping；Bates et al., 2003）。

当处理来自不同个体的扫描图像时，图像配准变得更加复杂。不仅需要处理大脑姿态的差异，还需处理其相对形状和大小的差异。在SPM中，这一过程被称为空间标准化（spatial normalization），而SPM预处理方法的演进在很大程度上正是围绕如何更准确地生成合理的脑形变模型展开的。如今的计算机运算速度比1990年代初SPM刚起步时快了约50,000倍，SPM的空间标准化方法也借此利用了更强的算力和日益提升的数据空间分辨率。

从生成模型的角度看，空间标准化所需的模型参数就是那些能生成形变场（deformation fields）的参数，这些形变场可将标准模板脑（canonical brain）扭曲为特定被试的个性化解剖结构。对形变场求逆（或反转）即为空间标准化本身。

早期SPM程序使用少量低频空间基函数（spatial basis functions）的线性组合来参数化所需的形变场（Friston et al., 1995a）。这些参数可通过迭代泰勒级数近似法（即高斯-牛顿优化）轻松拟合，但结果常常不稳定。稍后，我们发现使用更多基函数并在配准模型中引入正则化（regularization）可获得更优结果（Ashburner and Friston, 1999）。这一思路从最大后验（maximum a posteriori, MAP）角度出发，标志着贝叶斯思想开始渗入SPM软件，也逐渐影响了人们对大脑工作机制的理解。

当时自由参数数量仍仅约1,000个，部分原因是若模型过于灵活，容易破坏大脑之间的一一映射关系（one-to-one mapping），从而无法对形变进行求逆。此时，我们开始关注图像配准问题的逆一致性（inverse consistency）：即对形变及其逆变换施加惩罚，使其在正反方向上保持一致（Ashburner et al., 1999）。尽管这一思想后来在SPM中被弃用，但它被整合进了FreeSurfer的海马亚区分割（Van Leemput et al., 2009）以及FSL中的MMORF空间标准化软件（Lange et al., 2024）。SPM的相关论文也是最早探讨“群体配准”（groupwise registration）的研究之一，即从一组扫描图像中构建一个平均形状的模板。

另一种实现大脑间一一映射的方法是缩放-平方法（scaling-and-squaring method）：通过反复将一个小形变与其自身复合，构建一个大的、保持一一映射的形变。我们首次在Ashburner and Friston（2005）的讨论部分提及该想法，最终在DARTEL工具箱中实现了该方法（Ashburner, 2007）。尽管该工具箱已被广泛用于VBM研究，如今已有数百篇深度学习论文在图像配准中使用缩放-平方法来生成形变场。

DARTEL工具箱开发后不久，即被纳入一项大规模非线性图像配准方法比较研究（Klein et al., 2009）。该研究旨在评估哪些算法能更好地重合人工标注的脑区。假设脑功能与其结构相关，则理想的配准应能提高被试间BOLD“激活”区域的重合度，从而提升统计分析的敏感性和特异性。我们的一大遗憾是，当时要求比较研究的组织者在运行基于SPM的方法时使用了去颅骨（skull-stripped）的MRI图像。后续研究表明，若未进行去颅骨处理，DARTEL本可轻松胜过所有其他软件（Ashburner and Friston, 2011）。

自DARTEL之后，SPM中又出现了其他空间标准化工具箱，旨在为解剖变异性研究提供更精确的脑形测量（例如Lambert et al., 2013）。其中第一个是测地射击工具箱（Geodesic Shooting toolbox；Ashburner and Friston, 2011），最新的是MultiBrain工具箱，它将此前多项进展统一到单一模型中（Blaiotta et al., 2018；Brudfors et al., 2020）。后者简化了群体平均图谱的生成，已成功应用于脊髓（Freund et al., 2022）、其他物种的大脑图谱（Balan et al., 2024）以及其他模态（如CT；Sánchez-Moreno et al., 2024）。

随着深度神经网络（尤其是U-Net架构；Ronneberger et al., 2015）进入该领域，许多成像方法将发生变革。在拥有足够训练数据的前提下，这些机器学习（ML）方法非常有效，但其运作机制难以解释。然而，如果我们有信心揭示人脑如何执行任务，那么通过逆向工程从ML模型中恢复其隐含的生成模型，相比之下应是轻而易举之事。

一般线性模型（GLM）

在预处理之后，进行统计分析。SPM将两种统计技术引入神经影像学的主流应用：一种为许多数据从业者所熟知，另一种则仅少数理论统计学家熟悉——即一般线性模型（General Linear Model, GLM）与随机场理论（Random Field Theory, RFT）。

传统上，神经影像中的统计建模工具围绕特定实验设计构建，例如方差分析（ANOVA）或相关分析。卡尔·弗里斯顿（Karl Friston）与安德鲁·霍姆斯（Andrew Holmes）认识到，将所有分析视为GLM的特例具有重要价值。这一方法使得单一、通用的代码库能够支持广泛多样的模型。通过在逐体素（mass-univariate）框架下对每个体素拟合同一个GLM设计矩阵，并通过同时拟合大量体素来加速计算，SPM实现了高度计算效率的分析——这在早期计算资源有限的时代尤为重要。

在SPM96之前，用户需手动创建用于分析的GLM设计矩阵。SPM99引入了模型构建器（model-builder），允许用户通过更直观的设计规范来指定设计矩阵，尽管仍需用户理解其实验设计并构建线性对比（linear contrasts）以查询模型。对于fMRI数据，在构建设计矩阵时通过将用户提供的刺激时间向量与合适的时间基函数（temporal basis functions）进行卷积，以近似血流动力学响应函数（hemodynamic response function, HRF）（Friston et al., 1994）。这种卷积GLM方法如今已被所有主流fMRI分析软件采用。

尤为重要的是，SPM后续引入了在后台自动估计残差（未解释）方差的方法，采用了一种贝叶斯方案——具体而言，是限制性最大似然（Restricted Maximum Likelihood, REML）的变分贝叶斯实现（Friston et al., 2002a, 2002b）。这是一项里程碑式的创新，因为它使单一分析框架能够处理从单样本t检验到重复测量ANOVA等广泛类别的模型，同时还能考虑时间序列中的序列相关性（serial correlations）。通过将残差数据协方差矩阵分解为若干假设协方差矩阵的加权混合，REML方法避免了其他软件中使用的临时性校正策略（如Greenhouse–Geisser或Satterthwaite校正）。

在PET和MRI中，对数十万个体素进行全脑激活或组间效应搜索，会带来严重的多重比较问题。1990年代初期，尚无稳健的解决方案，多数用户要么忽略该问题，要么依赖无法保证控制假阳性率的非正式方法。SPM率先实现了基于RFT的结果，直接应对这一挑战，提供了考虑图像平滑度、并控制族系误差率（familywise error rate）的体素级和簇级推断的P值。随后，又加入了控制错误发现率（false discovery rate, FDR）的方法。值得注意的是，SPM迅速将这些前沿推断方法整合进用户友好的软件中。

自引入以来，支撑RFT校正的统计假设的有效性已被多次重新审视——最近一次由Eklund等人（2016）完成。他们的结果表明，当使用SPM默认设置时，RFT校正运行正确（参见Flandin与Friston, 2019的讨论与复现）。尽管如此，部分研究者仍更倾向于非参数检验，为此提供了一个与SPM兼容的工具箱（SnPM，http://nisox.org/Software/SnPM13/）。SPM核心未包含非参数方法是一项**基于原则的决定**，理由有四（Flandin& Friston, 2019）：

无额外统计功效增益：参数检验在统计上是最优的（参见Neyman–Pearson引理），非参数方法无法提供更高灵敏度；
结果可完全复现：参数检验结果稳定，而非参数检验依赖于抽样策略和随机种子，结果可能波动；
避免可交换性假设问题：非参数方法对可交换性（exchangeability）有严格要求，这会妨碍SPM中广泛使用的分层模型；
计算效率更高：参数检验运行更快、资源消耗更少。尽管如今计算机已足够快，但考虑到神经影像分析对

气候影响 （Souter et al., 2025）的担忧，仍需尽可能减少计算资源消耗。

回顾来看，SPM的两项设计决策对神经影像实践产生了深远影响：

第一，早期聚焦于逐体素GLM方法至关重要，使计算资源有限的用户也能分析脑成像数据。然而，许多模型扩展无法纳入线性（卷积）框架，限制了SPM的灵活性与可解释性。例如，SPM通过函数泰勒展开（即Volterra核）处理非线性血流动力学响应，并将其表示为时间基函数（如Friston et al., 2000所述）。但这会使二阶分析复杂化，因为区域特异性响应需用多个参数概括。尽管关于非线性HRF建模的研究持续存在（Makni et al., 2005；Degras & Lindquist, 2014；Chen et al., 2023），但在SPM中，只有通过动态因果建模（DCM）才能显式处理神经与血流动力学响应的非线性。

第二，SPM采纳并推广了以阈值化统计图像作为结果主要可视化形式的做法。虽然可视化数千个3D原始扫描图像不现实，但一张平均BOLD信号百分比图像易于检视。SPM标志性的最大强度投影（maximum intensity projection）能高效呈现稀疏激活结果，但也可能掩盖问题——例如眶额皮层因信号丢失（signal dropout）而缺失的数据。相比之下，AFNI等软件（Cox, 1996）更强调数据可视化（Taylor et al., 2023），新兴推断方法也更注重呈现可解释的效应量（Bowring et al., 2019, 2021）。因此，纳入非线性体素模型与改进可视化是SPM未来发展的两个重要方向。

这两项目标均可通过SPM中一项未被充分利用的功能——后验概率映射（Posterior Probability Mapping, PPM）（Friston & Penny, 2003；Rosa et al., 2010）——优雅地实现。PPM将SPM中经典的逐体素频率学推断推广为贝叶斯模型比较，可适用于任意模型（包括非线性模型），并以不同模型或假设的（对数）证据形式呈现结果。要推动PPM的广泛应用，需对其技术基础提供更清晰的说明，尤其针对仅熟悉经典（频率学）统计的用户。例如，SPM要求用户为结果可视化设定一个后验对数优势比（posterior log odds ratio）的阈值，而该阈值依赖于先验对数优势比的选择。尽管SPM提供了默认值（后验对数优势比为10），但针对不同应用场景如何选择该值，仍需更具体的指导。此外，多重比较校正也需考量：原则上，PPM方法无需校正，因为假阳性率不随体素数量增加而膨胀；但若引入阈值，则可能重新引入经典的“显著性”概念，从而削弱这一优势。目前已有一篇关于SPM二阶贝叶斯GLM工具的教程（Han & Park, 2018），我们正在准备一篇更新的入门指南以重新审视这些问题。

未来一个潜在的发展方向是多变量分析。近年来，研究者日益关注检测在全脑空间模式中表达的实验效应（有时称为“表征”）。GLM对多变量数据的标准推广称为典型变量分析（Canonical Variates Analysis, CVA）。SPM早期即实现了CVA软件工具（Friston et al., 1995b），至今仍可通过图形界面按钮调用，但使用并不广泛。通过改进该工具的图形输出与文档，有望提升其采纳率。此外，也可整合CVA的最新扩展，例如引入稀疏性约束以获得更易解释的结果（参见Zhuang et al., 2020的综述）。在当前多变量分析技术广泛应用的背景下，发展理论扎实、模型完备的多变量方法尤为迫切——因为许多现有方法要么无法完整建模因子实验设计（区分主效应、交互作用与噪声），要么使用如分类准确率等检验统计量，而根据Neyman–Pearson引理，这些统计量的灵敏度低于或至多等于标准统计检验。

SPM在多变量分析方面的相关进展包括：用于fMRI数据解码的多变量贝叶斯模型（Multivariate Bayes；Friston et al., 2008a），以及近期提出的变分表征相似性分析（variational Representational Similarity Analysis），后者最初由Friston等人（2019）提出，目前正在适配用于M/EEG数据。

简言之，SPM引入的基于GLM的建模与基于RFT的拓扑推断从根本上塑造了神经影像领域，提供了一个自诞生以来基本未变的标准模型。开发下一代多变量分析技术是当前的优先事项。尽管GLM最初为PET和MRI数据设计，但后来已扩展至EEG/MEG分析——我们将在下文讨论。

SPM for M/EEG

EEG/MEG功能最早在SPM5中引入，通过一系列论文探索了将SPM框架应用于事件相关电位（Kiebel and Friston, 2004a, 2004b）。当SPM for M/EEG于2005年5月在SPM课程上首次向外部听众展示时，其三大核心组成部分已基本确立：

拓扑推断框架的扩展：：将基于一般线性模型（GLM）和随机场理论（RFT）的多重比较校正方法，拓展至头皮×时间（scalp × time）和

时间×频率 （time × frequency）数据（Kilner and Friston, 2010）；

2.基于标准解剖结构的经验贝叶斯源重建框架（Friston et al., 2006；Mattout et al., 2007）；

3.用于诱发反应的动态因果建模（Dynamic Causal Modeling for Evoked Responses），由Olivier David率先提出（David and Friston, 2003；David et al., 2005, 2006；Kiebel et al., 2006）。

SPM8版本引入了若干改进。其中一项重要合作是与位于奈梅亨唐德斯研究所（Donders Institute）的FieldTrip工具箱开发者（Oostenveld et al., 2011）建立协作，将FieldTrip代码整合进SPM，以支持关键功能，包括：兼容多种原始数据格式、数字滤波、频谱分析以及电磁正向建模。此外，SPM8引入了一种利用MATLAB面向对象特性的新数据格式，实现了自动完整性检查，大幅提升了代码稳定性。到SPM12版本，M/EEG功能经历了进一步重构，提供了统一的批处理界面，便于构建分析流程。

下面我们更详细地回顾SPM对M/EEG分析的方法学贡献。

一个关键进展是将M/EEG数据视为连续二维或三维图像的特例。这一观点合乎逻辑，因为M/EEG传感器对连续的电势和磁场模式进行空间采样。通过将传感器数据转换为二维（时间×频率）或三维（头皮×时间、头皮×频率）数组，SPM得以在熟悉的GLM框架下对不同条件或组别进行统计比较。该框架的显著优势在于能够容纳复杂的实验设计，包括多重回归、因子设计，以及同时包含被试内与被试间因素的分层结构。这种方法既支持临床与心理学研究中常见的传统因子研究（Pegg et al., 2020；Yao et al., 2021），也适用于基于模型的研究，例如考察隐藏模型变量与诱发活动之间的相关性，包括药理干预效应（Weber et al., 2020；Hein et al., 2021）。

SPM中另一项新颖的基于GLM的应用是卷积建模（convolution modeling；Litvak et al., 2013；Jha et al., 2015），该方法可分离时间上重叠的响应，并估计连续刺激下的时频脉冲响应函数（temporo-spectral impulse response functions）。该方法已被用于诱发活动研究（Spitzer et al., 2016），并在SPM之外进一步发展为“Unfold”工具箱（Ehinger & Dimigen, 2019；https://www.unfoldtoolbox.org/）。

尽管有上述优势，SPM的拓扑推断方法仍存在某些局限。历史上，SPM为分析三维脑图像而设计，因此仅支持最多三维的数据。尽管随机场理论在理论上适用于任意维度，而M/EEG研究有时涉及更高维数据（如源空间中的全脑时频数据），但即使在支持高维分析的工具箱（如FieldTrip）中，这类分析也并不常见，原因在于结果的可视化与解释困难，以及所需的多重比较校正过于保守。

另一个由Eklund等人（2016）指出的问题是：在簇水平推断中，若未使用足够保守的簇形成阈值（通常为P < 0.001，默认值），可能导致假阳性率膨胀。这对传感器层面和时频M/EEG数据尤其低效，因为这类数据中常存在大量体素组成的弱效应簇。然而，在M/EEG分析中常见的某些特定条件下，这些限制或许可以适当放宽——我们目前正在对此进行系统刻画。

SPM团队及其合作者的一项重要贡献是发布了首个开放的多模态、多被试认知研究数据集，由Wakeman与Henson（2015）采集并公开，恰逢开放科学运动兴起。该数据集的完整分析流程最初包含在SPM12手册中，后由Henson等人（2019）正式发表，激励了其他学术软件开发者开展类似工作。这一努力最终促成了《Frontiers》专题“从原始MEG/EEG到发表：如何使用免费学术软件进行MEG/EEG组分析”（Delorme et al., 2022），其中包含25篇基于开放数据与代码的论文，有10篇分析了Wakeman与Henson数据集。

M/EEG逆问题（inverse problem）本质上是病态的（ill-posed）：不同的神经源组合可能产生相似的观测数据。因此，求解该问题需引入额外假设，以解释在给定测量场的情况下大脑中的电流分布。

SPM对M/EEG文献的一项主要贡献是引入生成模型（即能够生成数据的模型），并提出一种代价函数（cost-function）来量化竞争模型（或先验假设集）的相对概率。该代价函数以负变分自由能（negative variational free energy）作为模型证据（model evidence）的代理指标（Hinton & Van Camp, 1993）。

SPM源分析方法的另一独特之处在于使用标准解剖结构（canonical anatomy；Mattout et al., 2007）。该方法基于SPM的统一分割与标准化框架（Ashburner & Friston, 2005），将一套标准的头部与皮层网格通过逆变换适配到个体解剖结构。该方法鲁棒性强，即使在MRI质量较低时也能表现良好。更重要的是，它优雅地解决了组分析难题：由于个体与模板网格顶点之间存在一一对应关系，皮层网格上的结果可直接映射到模板解剖结构上。

解决M/EEG逆问题的一个常见先验假设是：数据由少量（通常<10个）电流源或偶极子产生。Kiebel等人（2008b）在贝叶斯框架下形式化了偶极子拟合问题，使用户能对任意拟合参数进行定量陈述（例如，多少个偶极子可解释数据）。这些偶极子构成了M/EEG动态因果建模（DCM）中时空模型的空间部分（Kiebel et al., 2009）。

另一种常见方法是使用分布式源模型（distributed source models），即用大量（通常>100个）源来描述皮层流形上产生M/EEG信号的电流分布（Hämäläinen & Ilmoniemi, 1994；Pascual-Marqui et al., 1994）。每种反演方法都隐含特定假设，这些假设体现在源协方差矩阵的结构中（Mosher et al., 2003）。

Friston等人（2008b）引入了一种经验贝叶斯方案，用于定量比较传统M/EEG先验假设，并提出一种新方法——多重稀疏先验（Multiple Sparse Priors, MSP）。MSP利用皮层上的“斑块”（patches）或同时激活的斑块集合，构建特定的传感器级协方差成分。这些成分随后被加权、混合并优化，以估计实际观测到的传感器级协方差（以模型证据为代价函数）。

后续新增的先验假设包括经验贝叶斯波束成形器（Empirical Bayesian Beamformer；Belardinelli et al., 2012），该方法利用Van Veen等人（1997）的波束成形假设，生成单一源协方差先验。

模型证据框架的实用性由Henson等人（2009）通过比较正向模型（使用通用或个体解剖结构）得以验证。随后的研究进一步表明，其他模态（如fMRI）可为MSP提供经验先验（Henson et al., 2010）。重要的是，若这些先验未能提升解的边缘似然（marginal likelihood），则可被自动舍弃。

López等人（2012）重新审视了解剖结构问题，探讨了仅凭MEG数据估计大脑位置这一挑战性问题。由于导联场（lead-fields，即电流对传感器的影响）对大脑（及周围组织）的位置和朝向具有非线性依赖，该问题难度极高。研究发现，当大脑位于正确位置时，模型证据达到最大。这一解剖精度与模型证据之间的共变关系，随后被Stevenson等人（2014）和Little等人（2018）进一步利用：随着解剖模型逐渐失真，模型证据系统性下降。解剖结构在此充当“真实基准”，而皮层形变导致的模型证据（负变分自由能）下降，使形式化的模型比较度量（无需知晓真实电流分布）与现实锚定。

同一思想的另一视角是直接估计产生MEG数据的真实皮层形状（López et al., 2017）。

这些理念催生了一系列探讨MEG数据空间分辨率的论文。研究者通常比较由软脑膜面（pial surface）或白质面（white matter surface）定义的皮层流形（分别对应皮层上层与下层）。早期模拟研究（Troebinger et al., 2014；Bonaiuto et al., 2018b）推动了使用头模（head-casts）的实证工作，证实了不同频段的电流波动确实源自皮层不同层次（Bonaiuto et al., 2018a），这与计算模型和侵入性记录结果一致。

最近，基于光泵磁力计（Optically Pumped Magnetometers, OPMs）的系统——无需低温冷却——已投入使用（Tierney et al., 2019）。SPM的同一套分析框架可用于处理此类数据，并面临多项激动人心的技术挑战，包括：共配准（Duque-Muñoz et al., 2019）、最优传感器阵列设计（Tierney et al., 2020），以及探索癫痫术前OPM估计如何补充解剖病灶数据（Mellor et al., 2024）。

光泵磁力计（Optically Pumped Magnetometers, OPMs）

使用无需低温冷却的光泵磁力计（OPMs）进行脑磁图（MEG）研究，正日益成为SPM团队的重点方向（Tierney et al., 2019）。与传统的低温MEG传感器相比，OPM传感器提供了更高的信号强度和空间分辨率（Boto et al., 2016；Iivanainen et al., 2017, 2021；Wens, 2023）。此外，它们足够轻便，使得全可穿戴MEG系统已成为现实（Schofield et al., 2024）。

这一特性在多种应用场景中尤为关键，例如：

癫痫手术规划（Vivekananda et al., 2020；Hillebrand et al., 2023），
特发性震颤研究（West et al., 2025），
婴幼儿神经生理学研究（Feys et al., 2022；Rhodes et al., 2024；Vandewouw et al., 2024；Corvilain et al., 2025）。

在所有这些情况下，被试的运动（motion）都可能构成严重混杂因素。而全可穿戴脑成像系统有助于缓解这一问题，因为传感器本身相对于大脑是固定的，因此运动引起的信号失真极小（Boto et al., 2018；Seymour et al., 2021；O’Neill et al., 2025）。

OPM系统的另一优势在于其传感器排布可根据具体应用定制。这种设计灵活性使得系统可针对传统MEG难以探测的脑区进行优化，例如：

小脑或海马（Lin et al., 2019；Tierney et al., 2021），
脊髓（Mardell et al., 2024），
甚至单个手指的肌肉（Kruse et al., 2025）。

尽管这些新兴应用令人振奋，但为OPM研究编写通用软件仍面临诸多独特挑战。本质上，OPM阵列与低温MEG阵列之间存在质的差异，远不止于可穿戴性。例如，绝大多数低温系统依赖梯度计（gradiometers）而非磁力计（magnetometers），因为梯度计能有效抑制环境干扰（Vrba & Robinson, 2002）。虽然已有人开发出光泵梯度计（Limes et al., 2020；Nardelli et al., 2020；Cook et al., 2024），但往往在白噪声性能、可穿戴性或矢量测量能力上有所妥协。

这远非唯一差异。目前市面上OPM系统种类繁多（Colombo et al., 2016；Limes et al., 2020；Alem et al., 2023；Gutteling et al., 2023；Cook et al., 2024；Schofield et al., 2024），导致开发适用于所有系统和应用场景的软件成为一项巨大挑战。例如，不同实验室在以下方面差异显著：

通道数量、
矢量测量能力、
动态范围、
闭环实现方式、
带宽、
数据采集系统。

正因如此，我们大力推动OPM仿真工具的开发，以探索系统设计特性对性能的影响（Tierney et al., 2020）。这些工具已应用于：

探索OPM是否具备 层分辨 （laminar-level resolution）能力（Helbling, 2025），
确定干扰抑制所需的 通道数量与类型 （Tierney et al., 2022），
以及在临床背景下 融合结构与功能数据 （Mellor et al., 2024）。

如前所述，磁力计抑制环境干扰的能力有限，因此梯度计通常更受青睐（Hämäläinen et al., 1993；Vrba & Robinson, 2002）。然而，已有多种软件框架可从磁力计阵列中实现类似梯度计的性能，包括：

数据驱动方法，如 信号空间投影 （SSP；Uusitalo & Ilmoniemi, 1997）、
独立成分分析
（ICA；Vigário et al., 2000）、
以及 波束成形器 （beamformers；Brookes et al., 2021）。

尽管这些方法非常有用，但当传感器类型、数量、环境及磁屏蔽程度在不同研究间差异极大时（Iivanainen et al., 2019；Zhang et al., 2020；Holmes et al., 2022, 2024；Seymour et al., 2022；Bardouille et al., 2024），其泛化能力受限。这一问题促使我们在SPM中采用基于模型的干扰抑制方法，以实现跨系统的稳定性能，同时尽可能减少对具体数据的依赖。

首个提出的算法称为均匀场校正（Homogeneous Field Correction, HFC），专为通道数极少且具备矢量测量能力的系统设计（Tierney, 2021）。它产生的空间响应函数类似于长基线梯度计（Vrba & Robinson, 2002），且不会像合成梯度计那样显著增加白噪声（Fife et al., 1999；Nardelli et al., 2020）。更重要的是，该算法在仅10个通道时仍表现稳定（Tierney et al., 2022），已成功应用于：

癫痫手术规划（Hillebrand et al., 2023），
多中心研究的数据标准化（Hill et al., 2022），
与低温MEG系统的对比研究（Rhodes et al., 2023）。

HFC的简洁性及其在极少数传感器和高度异构系统中的适用性无疑是其核心优势。然而，它未能充分利用大通道系统所提供的信息（Pratt et al., 2021；Alem et al., 2023；Seedat et al., 2024）来：

建模空间复杂的干扰、
通过过采样降低白噪声、
并在传感器存在非线性时提供稳健建模（Taulu & Simola, 2006；Borna et al., 2022）。

因此，我们考虑如何在SPM中整合现有基于模型的方法，如信号空间分离（SSS；Taulu et al., 2005；Taulu & Kajola, 2005）（Oswal et al., 2024）。但遗憾的是，该方法要求OPM系统经过专门优化以提升稳定性（Nurminen et al., 2023；Wang et al., 2023；Zhdanov et al., 2023），或需引入数据驱动成分（Holmes et al., 2023）。

为规避这些问题，我们提出了一种基于椭球谐波与正交投影的自适应多极子模型（Tierney et al., 2024）。该方法可在任何OPM系统上保证稳定性，无需对硬件本身进行优化。可以预见，这一方法有望广泛适用于神经影像学界日益多样化的OPM系统。

尽管在干扰抑制方面已取得显著进展，仍存在未解决的挑战。最突出的问题是如何以统计功效最大化的方式分析传感器层面的数据。虽然源建模可直接利用现有的SPM框架，但在传感器层面则不那么直接。我们的统计推断方案依赖于数据的空间平滑性以最大化统计功效（Worsley et al., 1996；Barnes et al., 2011, 2013），这一约束同样适用于多种非参数推断方法（Mensen & Khatami, 2013）。

然而，许多OPM系统产生的磁场模式并非平滑或连续，从而限制了传感器层面的统计功效。这是因为空间上相邻的OPM传感器可能以不同甚至正交的方向测量磁场。此类配置通常出于实际考虑（如布线路径）或理论原因（如最优空间采样与干扰抑制）（Schoffelen et al., 2025）。

鉴于统计功效、系统设计与最优空间采样之间的张力，未来可能需要开发新的建模方法，以构建具有统计可解释性的OPM磁场表示（Cai et al., 2025），并标准化传感器布局（Alexander Nicholas et al., 2025）。

因此，我们面临一个建模问题：如何从fMRI或M/EEG等非侵入性功能测量数据中推断出我们无法直接观测的有效连接（effective connectivity）。

SPM中估计有效连接的第一步是引入心理生理交互作用分析（Psychophysiological Interaction, PPI），该方法最初基于fMRI数据（Friston et al., 1997）。在此方法中，每个体素的时间序列通过一个双因素设计进行解释：认知任务的主效应、种子区域BOLD fMRI时间序列的主效应，以及二者的交互项——即PPI。原始PPI论文已被引用数千次，反映出其在认知神经科学中的广泛应用，并被多个软件包重新实现，包括SPM中流行的工具箱CONN（Whitfield-Gabrieli & Nieto-Castanon, 2012）和gPPI（McLaren et al., 2012）。

尽管PPI分析简单，并能生成覆盖全脑的统计图谱，但其主要局限在于无法刻画包含多个区域的相互连接脑网络。这一局限推动了动态因果建模（Dynamic Causal Modeling, DCM）的发展。DCM最初为fMRI数据提出（Friston et al., 2003），随后扩展至包含生物学上合理的神经质量模型（neural mass models），用于MEG/EEG/LFP数据（Moran et al., 2013）。近期，DCM的应用甚至超出了神经影像领域（例如流行病学；Friston et al., 2020）。

DCM建立在两套成熟技术方法之上。
第一是状态空间模型（state-space models），源自控制理论工程领域。状态空间模型用于形式化描述神经动力学及其如何生成神经影像数据，使DCM成为一种生成模型方法（generative modeling approach）。
关键在于，DCM将这些状态空间模型与必要的统计工具相结合，以评估模型对数据的解释程度，所采用的方法称为变分贝叶斯推断（variational Bayesian inference）。变分贝叶斯最初源于统计物理，后在机器学习中发展，用于为每个候选模型分配一个统计评分，即对数证据（log-evidence）。

DCM采用一种通用的变分贝叶斯方案——变分拉普拉斯（Variational Laplace；Friston et al., 2007；Daunizeau, 2017；Zeidman et al., 2023），可为一大类模型近似计算对数证据，无需耗时的数值采样方法即可获得可复现的结果。通过比较不同候选模型的近似对数证据（即贝叶斯模型比较，Bayesian model comparison）来检验假设。

DCM的一项关键贡献是使神经连接的数学模型民主化。SPM软件内置了一系列成熟模型，用户可通过图形界面进行配置，无需数学专业知识。同时，变分拉普拉斯拟合方案对具体模型形式不敏感，使得新模型易于实现，从而推动了日益复杂的模型发展。例如，标准微环路模型（Canonical MicroCircuit model；Bastos et al., 2012）是一个重要里程碑，因为它是首个能区分预测编码理论（predictive coding）所要求的并行上行与下行神经活动通路的模型。另一项高级应用是神经场模型（Neural field models），可捕捉皮层片上神经过程的空间延展性（Pinotsis et al., 2012）。

在神经模型发展的同时，DCM的模型反演与统计检验技术也在持续演进。DCM推出不久后，便扩展至频谱数据（而非时间序列）拟合，从而支持M/EEG数据的频域分析（Moran et al., 2007），以及更近期的静息态fMRI分析（Friston et al., 2014）。

被试间分析方法也不断进步。随机效应贝叶斯模型选择（Random Effects Bayesian Model Selection, RFX BMS）框架使数千项研究成为可能，该方法估计人群中每个候选模型最能解释多少比例个体的数据（Stephan et al., 2009）。更近的发展是参数经验贝叶斯（Parametric Empirical Bayes, PEB）框架，将个体模型参数（如个体神经连接强度）视为从总体中抽取的随机效应（Friston et al., 2016）。这为检验不同参数组合能否解释人群间的共性与差异（无论是离散的组别差异，还是临床评分等连续变量效应）提供了直接途径。

最后，支撑PEB方法的一项特别重要的统计创新是贝叶斯模型约简（Bayesian Model Reduction），正式称为事后DCM（post-hoc DCM；Rosa et al., 2012；Friston et al., 2016）。这是一种解析方法，可在给定完整模型的前提下，快速近似计算简化模型（即关闭某些参数组合的模型）的对数证据与参数。该技术使得在现代计算机上毫秒或秒级内评估大量模型的证据成为可能，同时避免了每次拟合都陷入不同局部最优的风险。

展望未来，DCM在临床研究中将有更多新应用，因为它能从神经影像数据中识别出可解释、具有生物学意义的参数。就fMRI而言，这可能得益于为标准分辨率和层析fMRI提出的改进血流动力学模型（Uludağ, 2023）。一个近期极具说服力的临床应用案例来自Ereira等人（2024）：他们利用静息态fMRI的DCM进行阿尔茨海默病的早期检测。研究者对81名在影像采集后9年内被诊断为阿尔茨海默病的个体及1,030名匹配对照的静息态fMRI数据拟合DCM连接模型，并采用弹性网络逻辑回归（elastic-net logistic regression）机器学习模型，基于DCM估计的连接参数预测未来的发病风险与诊断时间。结果表明，DCM参数在预测未来发病和诊断时间方面，优于结构连接、功能连接或行为指标。该研究证实了DCM连接参数在疾病背景下的预测效度，并印证了一个原则：模型参数（如DCM参数）（Brodersen et al., 2011）。

DCM处于神经生物学、工程数学与（变分）的交叉点。整合这些领域既是其核心优势，或许也是最大挑战。人们普遍认为DCM复杂且难以接近，若使用者无法正确报告结果或理解其中的建模假设，问题尤为严重。为此，近年来已投入大量精力撰写教程论文，阐释DCM的理论与应用（例如Henson et al., 2019；Zeidman et al., 2019a, 2019b；Novelli et al., 2024）。尽管如此，在文档与培训方面仍有改进空间，这也是SPM团队未来的优先事项，例如通过持续开发新的文档网站（https://www.fil.ion.ucl.ac.uk/spm/docs/tutorials/）。

行为建模（Behavioral modeling）

到目前为止，我们主要关注这样一个观点：作为神经科学家，我们测量大脑活动，并使用生成模型（generative models）来解决逆问题（inverse problems），以探究产生这些数据的解剖与生理机制。有趣的是，这与大脑自身必须解决的问题高度相似——这提示我们可以将为分析成像数据而开发的相同工具，用作大脑如何解释其通过眼睛、耳朵及其他感觉器官获取数据的模型（Friston et al., 2012）。

主动推理（Active Inference）已发展成为一个广受欢迎的理论框架（Parr et al., 2022），其在很大程度上得到了SPM中DEM工具箱（Dynamic Expectation-Maximization toolbox）大量软件演示的支持。早期的软件实现基于为随机动态因果建模（stochastic DCM）开发的（广义）滤波方案（Friston et al., 2010）——这些方案本身类似于预测编码（predictive coding）理论中所描述的分布式误差最小化机制（Srinivasan et al., 1982；Rao & Ballard, 1999；Friston & Kiebel, 2009）。

其核心思想是：当允许动作（action）改变数据生成过程时，我们可以通过两种方式最大化贝叶斯模型证据：一是让模型拟合数据，二是让数据拟合模型（Hohwy, 2016）。尽管这听起来有些抽象，但在实践中，这意味着为模型反演方案配备一种类似于脊髓或脑干反射弧的机制，其设定点（setpoint）是模型所预测的本体感觉传入信号（proprioceptive afferent signal）（Adams et al., 2013a）。通过简单的负反馈回路校正对该设定点的偏差，即可生成连续的行为轨迹。

上述方法的应用范围广泛，包括：

复杂运动控制模型（Friston et al., 2011；Parr et al., 2021），
精神病（Adams et al., 2013b），
鸣禽交流（Friston & Frith, 2015），
小脑眨眼条件反射（Friston & Herreros, 2016）。

所有这些问题均以大脑所求解的底层生成模型来表述，这意味着表面上迥异的行为可以用同一种形式化语言加以刻画。

进一步的发展是将实验设计原则更直接地引入此类建模。借鉴最优实验设计理论（Lindley, 1956；MacKay, 1992），并结合期望效用理论（Wald, 1947；Todorov, 2009）的思想，可以前瞻性地评估不同行动方案的先验合理性——这些行动能带来与偏好（或“奖赏性”）结果一致的、信息丰富的感官数据。

这催生了一套用于模拟行为的工具，其基于部分可观测马尔可夫决策过程（Partially Observable Markov Decision Processes, POMDPs）的变分反演（Da Costa et al., 2020）。主动推理中的POMDP生成模型通常以类别变量（categorical variables）构建，支持决策与规划过程，从而为研究好奇心驱动的行为（curious behavior）提供了可能（Friston et al., 2017b；Schwartenbeck et al., 2019）——这是该方法区别于强化学习（强调可强化的奖赏驱动行为；Sutton & Barto, 1998）的关键理论重点。

实际上，使用类别变量将规划问题重新表述为模型选择问题（Parr & Friston, 2019）：我们必须比较在不同行动方案条件下对未来状态的替代性模型。

连续滤波与类别型POMDP这两种表述各自提供了构建更复杂模型的简单单元。一个最明显的例子是分层模型（hierarchical models）的发展——其特征是对时间尺度进行分解（Kiebel et al., 2008a；Friston et al., 2017c）。深度时间模型（Deep temporal models）利用具有慢动态的滤波或POMDP模型，为具有快动态的模型提供经验先验（empirical priors）。例如，可利用句子序列的语义与句法结构所对应的慢动态，为每个句子中单词序列（更快动态）提供先验。更进一步，还可“混合搭配”这两种生成模型架构：高层POMDP模型支持决策，而该决策可通过底层连续动态滤波模型来实现（Friston et al., 2017a；Parr & Friston, 2018b）。

原则上，这些模型可与任意生成模型结合，这一点已在定制化语音识别方案中得到验证（Friston et al., 2021b）。

除了理论发展，此类行为建模方案也已用于实证神经科学。一些方法利用理论模型提出实证预测。例如，一个为理解视觉忽视中的眼跳采样模式而开发的理论模型（Parr & Friston, 2017），被用来提出关于健康对照组有效连接的假设，并随后通过MEG的DCM进行检验（Parr et al., 2019b）。另一个例子是利用支持决策的信念更新模型构建参数化回归变量，以检验fMRI中关于功能解剖的假设（Schwartenbeck et al., 2015）。

但还可以更进一步：利用SPM中可用的变分反演方案（Zeidman et al., 2023），可将行为模型——包括但不限于主动推理模型——直接拟合到行为数据上（Schwartenbeck & Friston, 2016）。这可被视为一种行为层面的DCM，其中选择数据或运动轨迹取代了功能成像时间序列。例如：

对 存在遮挡的平滑追踪眼动 建模，以评估个体预测视觉目标运动的精度（Adams et al., 2015）；
对 离散选择 建模，以评估行为在多大程度上由 解决不确定性 的驱动力所主导（Mirza et al., 2018）。

这类方法中，实验者的生成模型包含了对被试生成模型的反演，有时被称为元贝叶斯推断（meta-Bayesian inference；Daunizeau et al., 2010），即“观察观察者”（observing the observer）。

随着该领域的扩展，神经生物学与人工智能中正涌现出许多未来方向。值得关注的重要进展包括：

将当前方法扩展至自然主义场景，超越目前仅用于原理验证的简化实验；
更紧密地整合行为模型与更生理化的（DCM类）。

在扩展性（scaling）方面的新进展包括结构学习（structure learning；Smith et al., 2020；Friston et al., 2024）：生成模型可随时间推移，根据所观察到的感官数据逐步构建。这既可通过贝叶斯模型约简（Bayesian model reduction）对过参数化模型进行“剪枝”实现（Friston et al., 2018），也可通过在模型复杂度增加的同时提升准确性来逐步扩充模型。此外，还需优化规划过程以应对长序列决策带来的复杂性。近期利用归纳式（inductive；Friston et al., 2025）和递归式（recursive；Friston et al., 2021a）方案的发展，已显著提升了主动推理模型的性能与适用范围。

最后，行为与生理的整合提供了另一条令人兴奋的路径。近期理论工作探讨了大脑为反演其生成模型并执行信念更新所需的解剖结构（Parr & Friston, 2018a；Parr et al., 2019a）与生理机制（Friston et al., 2017a）。这开启了开发同时预测行为数据与功能成像时间序列的生成模型的可能性，从而实现一种贝叶斯融合（Bayesian fusion）：两种数据模态共同为同一底层模型提供推断依据。

开放科学（Open science）

SPM在过去三十年的持续发展，不仅体现了神经影像分析方法的进步，更反映了对开放学术（open scholarship）的坚定承诺，这一承诺帮助塑造了整个领域。早在“开放科学”和“可重复性危机”等术语进入科学话语体系之前（Ioannidis, 2005；Open Science Collaboration, 2015；Gorgolewski & Poldrack, 2016），SPM就已践行了后来成为开放学术运动基石的核心原则。

自诞生之日起，SPM便免费向神经影像学界开放（Ashburner, 2012）。通过开放分发和提供完整的代码库访问权限，SPM旨在促进合作、便于对方法进行严格审查，并在各实验室之间建立一个标准化 yet 可灵活调整的分析框架。SPM的开源理念持续推动其演进，最显著的体现是近期将其开发迁移到GitHub平台（Tierney et al., 2025）。此举提升了透明度，使神经影像方法的开发更加民主化，并鼓励更广泛的社区参与（https://github.com/spm；https://www.fil.ion.ucl.ac.uk/spm/docs/development/）。

然而，软件的真正开放远不止于代码的公开：它要求对底层算法、统计模型及其实现提供全面且透明的文档说明。唯有如此，用户不仅拥有工具，还能掌握正确使用和按需修改的知识。为此，SPM提供了详尽的用户手册（https://www.fil.ion.ucl.ac.uk/spm/docs/reference/）、在线教程（https://www.fil.ion.ucl.ac.uk/spm/docs/tutorials/）、方法学论文以及专著（如Penny et al., 2011）。

除正式文档外，SPM还通过多种渠道促进即兴支持与知识交流，营造开放文化。SPM邮件列表（https://www.fil.ion.ucl.ac.uk/spm/support/）由开发团队积极维护，为用户提供了一个提问、讨论方法学挑战并从开发者及更广泛社区获得指导的空间。此外，**FIL方法组**（FIL Methods Group）每周举行的会议也作为一个互动论坛，欢迎任何机构的研究人员展示项目并就SPM相关问题获得反馈。这些举措确保各级用户都能获得专家建议，营造出协作与共同学习的环境。

SPM还高度重视教育，定期举办国际课程，全面培训神经影像的基础原理与高级方法。课程涵盖多种模态，包括(f)MRI、EEG、MEG和OP-MEG，既传授理论知识，也培养实用的统计分析技能。尤为关键的是，所有教学材料均公开提供，并辅以交互式网络教程，支持自主学习，促进神经影像分析最佳实践的广泛传播（https://www.fil.ion.ucl.ac.uk/spm/docs/courses/）。

然而，回顾SPM对神经影像学及更广泛的开放学术运动的贡献，也揭示了数十年发展中逐渐显现的不足。一个常被提及的问题是SPM对MATLAB这一商业编程环境的依赖。由于授权费用和付费墙，MATLAB可能限制部分用户的访问。尽管如此，这一选择在1990年代初SPM起步时是合理的——当时MATLAB是数值计算领域最强大且最易用的平台之一。然而，随着Python等开源语言的普及和计算能力的提升，学界对独立于MATLAB的SPM版本呼声日益高涨。

目前，SPM已提供编译后的独立版本，无需MATLAB许可证即可运行（可选Docker和Singularity容器形式）。但长远目标是实现与开源语言的深度原生集成。虽然现有工具如Nipype已允许Python用户将SPM纳入其工作流（Gorgolewski et al., 2011），但理想状态是在MATLAB和Python环境中均提供无缝、原生的SPM体验。目前，SPM的Python接口spm-python的开发已取得良好进展（https://github.com/spm/spm-python）。

展望未来，多项促进开放科学与可重复性的机遇将塑造SPM的发展方向。首要任务之一是更深入地整合脑成像数据结构标准（Brain Imaging Data Structure, BIDS；Gorgolewski et al., 2016）。BIDS为组织和描述神经影像数据提供了统一框架，有助于数据共享、复用及分析流程的透明化。加强与BIDS的兼容性，将使SPM更顺畅地融入如OpenNeuro（https://openneuro.org）等开放数据仓库，实现原始数据与分析流程的一体化共享。这一对齐将是迈向**真正计算可重复性**的重要一步。

与此同时，容器化技术（containerization）为将SPM分析封装在完整、可移植的计算环境中提供了前景。通过容器打包分析流程，可确保其长期可重复性，不受软件依赖或操作系统变更的影响。此外，容器化流程还可作为参考实现，减少因本地配置差异引入的变异性，推动更标准化的预处理与统计工作流（Nichols et al., 2017；Renton et al., 2024）。

我们也认识到，随着领域发展，有效的社区参与至关重要。尽管SPM邮件列表长期以来是宝贵的支持与讨论平台，但未来改进应包括更动态、响应更快的沟通渠道，例如专用社区论坛或协作式问题追踪系统，以更高效地收集反馈、解答用户疑问，并营造更具互动性的开发环境。

SPM未来的发展将延续其开放学术的遗产。通过持续强调透明度与方法严谨性，SPM有望帮助神经影像研究应对可重复性挑战，并通过开放知识共享加速科学发现。这些原则在今天依然如三十年前那般重要——这既是对SPM最初设计理念前瞻性的有力证明，也为未来数十年的持续发展提供了坚实框架。

结语（Coda）

简而言之，SPM的故事映照了认知神经科学的发展历程。有人甚至可以说，成像神经科学正是促使认知科学转变为认知神经科学的催化剂——仅仅因为神经成像在探讨认知或功能解剖问题（如结构-功能关系及其全部内涵）时，将神经解剖学、神经生理学和神经心理学带到了同一张桌子上。

SPM反映了过去30年认知神经科学在概念上的演进，始终致力于将我们所见证的非凡进展操作化、形式化并民主化。

SPM也预示了我们当下所处的开放科学时代。SPM的首次发布恰逢人类基因组计划（Human Genome Project；Lander et al., 2001）的启动，以及大规模数据共享的兴起——这预示了“大数据”时代的到来。值得注意的是，人类基因组计划启发了成像神经科学中的类似倡议，例如BrainMap（Laird et al., 2005）。有趣的是，在SPM发布之时，脑成像数据的体量远超生命科学此前所见的任何数据。在某种程度上，这解释了早期对多重比较问题的高度重视，以及支撑拓扑推断（topological inference）的随机场理论（Random Field Theory）的出现——这一方法甚至被天体物理学界采纳（Bond & Efstathiou, 1987）。

然而，作为开放科学的典范，SPM的意义远不止于其可获取性。关键一步在于通过SPM工具箱、互操作性（例如与Brainstorm的兼容；Tadel et al., 2011），以及为建立共同标准与共识基础所提供的操作框架，积极与脑成像社区互动。在脑图谱绘制的早期，建立共识基础尤为重要，因为神经成像当时仍是一门新兴且未经验证的学科，亟需确立其完整性与有效性。这给SPM所提供的分析程序带来了对严谨性的特殊要求。

毫无例外，这些程序都基于一个简单而根本的准则：分析程序的存在是为了让人能够向自己的数据提问。形式上，这体现为经典或贝叶斯模型比较，这意味着数据之下必须始终存在一个生成模型（generative model）。对生成模型的承诺已延续三十年：从早期用于fMRI的线性卷积模型，到如今用于MEG的表达力丰富的动态因果模型（Dynamic Causal Models）。

这一承诺体现出两个耐人寻味的方面。

第一，反映了SPM发展中的包容性与跨学科性。一个很好的例子是：SPM许多基础软件诞生地——功能成像实验室（FIL）——与杰弗里·辛顿（Geoffrey Hinton）领导的盖茨比计算神经科学中心（Gatsby Computational Neuroscience Unit）同处伦敦女王广场。当时，机器学习与计算神经科学正将生成模型视为赋能技术及其配套软件的基础（Hinton & Zemel, 1993；Dayan et al., 1995；Neal & Hinton, 1998；Hinton, 2022）。可以说，辛顿及其同事的工作导向了大脑中所见的“类死亡计算”（mortal computation；Hinton, 2022），并最终催生了我们今天所享有的生成式人工智能——这恰在30年后成为现实。

但另一方面，对生成模型的坚持也意味着SPM某种程度上是一个“排他性俱乐部”：它排除了那些不支持解释性（如可解释AI）或假设检验（如模型比较）的技术。因此，SPM不太可能接纳或认可那些本质上是描述性、相关性或基于分类的机器学习方法。

第二，跨学科启发的另一个例证呼应了《大脑皮层》（Cerebral Cortex）期刊创刊30周年：该期刊首期首篇论文是Felleman与Van Essen（1991）的开创性工作，确立了层级化脑架构作为脑内功能整合的基础。这篇论文（字面意义上）具有标志性意义，并在随后的连接组学与网络神经科学时代持续产生影响（如Bullmore & Sporns, 2009；Bassett & Sporns, 2017）。

那么，这与SPM有何关联？
SPM的共同构建与发展，正体现了功能解剖学的两大核心原则：功能特异化（functional segregation）与功能整合（functional integration）。早期对脑图谱的刻画——曾被戏称为“新颅相学”（neo-phrenology）——强调先定位功能专门化但解剖分离的脑区，以此为基础，才能进一步追问关于分布式处理与隐含连接性的深层问题（如Zeki & Shipp, 1988；Mesulam, 1998；Hilgetag et al., 2000；Amunts et al., 2019）。

从逐体素（mass-univariate）向多变量（multivariate）方法的转变（Worsley et al., 1997），正反映了对脑功能架构刻画的这一自然演进。

那么，为何层级结构如此重要？
层级结构的定义在于前馈与反馈连接之间的区分（Felleman & Van Essen, 1991），这对应于递归有效连接中的不对称性。这意味着，要构建皮层层级结构的生成模型，就必须引入动态因果建模（DCM），作为对相关性研究（即功能连接）的必要补充。因为两个脑区之间的相关性在两个方向上是相同的，而这显然无法有效刻画层级化大脑中的功能整合。

从某种意义上说，我们又回到了生成模型的根本角色——不仅是对脑成像数据的建模，更是对大脑自身计算解剖结构的建模（Friston et al., 2017b）。这促使SPM软件生态进一步与计算神经科学融合，并将选择行为建模纳入应用，例如计算fMRI（computational fMRI；Friston & Dolan, 2010），如前文“行为建模”部分所述。

在最近一次于伦敦举办的SPM短期课程的最后一次会议上，有人问及SPM的未来。我们的回答自然是：继续追求那项永恒的任务——开发恰当的生成模型及其反演方案，以帮助人们回答他们的问题。这将取决于科学界所提出的问题，而这些问题正不断连接起系统神经科学、功能基因组学、细胞生物学与社会神经科学。

就此而言，SPM的使命，不过是推动基于证据的神经科学走向社会化（to socialize evidence-based neuroscience）。

原文链接：https://doi.org/10.1093/cercor/bhaf234

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.