EPFL研究揭示：神经网络表征相似性的理论理想与现实差异|模态|拓扑|假说|鲁棒性|新论文

分享至

这项由瑞士洛桑联邦理工学院(EPFL)、巴塞尔大学和瑞士应用科学大学联合开展的研究发表于2025年的机器学习顶级会议，论文编号为arXiv:2602.14486v1。研究团队深入探讨了一个在人工智能领域备受关注的问题：不同的神经网络是否真的在朝着相同的"理解"方向发展？

在人工智能的世界里，存在一个被称为"柏拉图表征假说"的有趣理论。这个理论认为，就像古希腊哲学家柏拉图相信存在一个完美的理想世界一样，所有的神经网络最终都会收敛到同一种对现实世界的"理想理解"。换句话说，不管是处理图像的视觉AI，还是理解文字的语言AI，它们在变得越来越强大的过程中，内部的"思维模式"会越来越相似。

这个假说听起来很有道理，毕竟它们都在学习同一个现实世界的规律。然而，EPFL的研究团队却发现了一个令人意外的真相：之前支持这个假说的证据中，很多都存在严重的测量偏差。这就像是用一把刻度不准的尺子来测量物体长度，得出的结论自然也是不可靠的。

研究团队的核心发现是，现有的相似性测量方法存在两个关键问题。首先是"宽度混淆因子"——当神经网络变得更宽（拥有更多神经元）时，测量工具会错误地认为它们更相似，即使实际上它们并没有真正的相似性。这就像是两个人站得越远，在某种特殊镜头下看起来反而越像，这显然是错觉。其次是"深度混淆因子"——当比较更深的网络（拥有更多层级）时，简单地取最高相似度分数会人为地夸大相似性，因为选择的范围更大了。

为了解决这些问题，研究团队开发了一套"置换校准框架"。这个框架的核心思想非常巧妙：通过随机打乱数据的对应关系来构建一个"零假设"的基准线，就像是在测试中加入对照组一样。如果两个网络真的有相似性，那么这种相似性应该明显高于随机情况下的相似性。

当研究团队用这套校准工具重新审视"柏拉图表征假说"时，发现了一个令人惊讶的结果：之前看起来强烈的全局相似性在校准后几乎消失了，但局部邻域的相似性却依然显著存在。这意味着不同的神经网络虽然在整体的"世界观"上并不趋同，但在判断"谁和谁更相似"这种局部关系上却表现出惊人的一致性。

基于这个发现，研究团队提出了"亚里士多德表征假说"。与柏拉图相信的完美理想世界不同，亚里士多德更注重现实世界中事物之间的具体关系。同样地，这个新假说认为，神经网络的收敛并不是朝着某个统一的"完美表征"，而是在学习共同的局部邻域关系——也就是说，它们会逐渐在"什么东西彼此相似"这个问题上达成共识，但不会在绝对的距离测量上保持一致。

一、测量的陷阱：当尺子本身有问题

在科学研究中，测量工具的准确性往往决定了结论的可靠性。研究团队发现，用于衡量神经网络相似性的传统工具存在系统性偏差，这些偏差严重扭曲了我们对网络收敛性的理解。

第一个问题被称为"宽度混淆因子"。当神经网络的维度增加时（也就是每一层包含更多神经元），现有的相似性测量方法会错误地产生更高的基准分数，即使两个网络之间完全没有真实的关联。这种现象的数学根源在于高维空间中的虚假相关性。研究团队通过理论分析证明，对于常用的中心化核对齐(CKA)等指标，其零假设基线会随着维度与样本数量的比值而系统性增长。

具体来说，假如你有两个完全独立的神经网络，理论上它们的相似性应该接近零。但是当这些网络变得更宽时，传统的测量方法会显示出虚假的相似性。这就像是用一个有问题的温度计测量两个房间的温度：房间越大，温度计显示的温度差异就越小，即使实际温度完全不同。

第二个问题是"深度混淆因子"。当比较具有多个层级的深度网络时，研究人员通常会计算所有可能的层对层比较，然后选择最高的相似性分数作为最终结果。这种做法忽略了一个重要的统计学原理：从更多次测量中选择最佳结果会系统性地夸大真实效应。这就像是一个学生参加多次考试，然后只报告最高分数——即使这个学生的真实水平一般，多次尝试也可能产生一个看起来不错的最高分。

研究团队通过极值理论分析证明，即使在完全没有真实相似性的情况下，最大相似性分数的期望值也会随着比较次数的对数增长。对于深度为LA和LB的两个网络，总共需要进行LA×LB次比较，随着网络深度的增加，这种选择偏差会变得越来越严重。

为了验证这些理论发现，研究团队进行了大量的合成实验。他们生成了完全独立的随机表征，然后用不同的相似性指标进行测量。结果清楚地显示，随着维度比值和网络深度的增加，所有传统指标都表现出系统性的虚假相似性增长。更重要的是，这种偏差的程度足以解释之前研究中观察到的大部分"收敛"现象。

这些发现揭示了一个令人担忧的真相：许多关于神经网络表征收敛的结论可能建立在测量偏差的基础上。这就像是用一把刻度不准的尺子来测量建筑物的高度，然后据此得出所有建筑物都越来越高的结论。实际上，可能只是尺子本身随着被测量物体的大小而产生了系统性错误。

二、校准框架：还原测量的真实面貌

面对测量工具的系统性偏差，研究团队开发了一套创新的"置换校准框架"。这个框架的核心理念是为每一个相似性测量建立一个可靠的零基准线，从而将真正的相似性从测量偏差中分离出来。

这个框架的工作原理可以用一个简单的实验来理解。假设你想知道两个班级的学生在某项技能上是否真的相似。传统的方法可能直接比较两个班级学生的平均表现。但是校准框架会采用不同的方法：它会保持第一个班级的学生不变，但随机重新分配第二个班级学生的标签，然后重复这个过程很多次。通过观察这种随机分配产生的"虚假相似性"分布，我们可以确定什么水平的相似性是纯属偶然的，什么水平的相似性是真正有意义的。

在技术实现上，校准框架通过置换样本对应关系来构建经验零分布。具体来说，对于两个表征矩阵X和Y，框架会保持X不变，但随机打乱Y的行顺序，生成多个置换版本。然后在每个置换版本上计算相似性分数，最终得到一个零假设下的分数分布。真正观察到的相似性分数只有显著超过这个零分布时，才被认为是有意义的。

对于标量相似性比较，校准分数的计算公式为：校准分数 = max((观察分数 - 临界阈值)/(最大可能分数 - 临界阈值), 0)。这个公式确保了校准后的分数在零假设成立时为零，而在存在真实相似性时保持有意义的数值。临界阈值通过置换分布的高分位数确定，通常使用95%分位数以控制误报率在5%以下。

对于涉及多层比较的聚合统计量，框架采用"聚合感知校准"方法。这种方法的关键洞察是：必须校准最终报告的统计量本身，而不是组成它的各个部分。换句话说，如果我们最终要报告所有层对比较中的最大值，那么就应该直接校准这个最大值的分布，而不是分别校准每个个体比较。

这种方法通过以下步骤实现：首先，对每个置换版本计算完整的层对层相似性矩阵；然后，对每个矩阵应用相同的聚合操作（如取最大值）；最后，用这些聚合后的置换分数构建零分布，并据此校准观察到的聚合分数。这样就确保了选择偏差被正确地纳入了校准过程。

校准框架具有几个重要的理论保证。首先，它提供有限样本的统计有效性：在零假设成立时，校准后的p值是超均匀分布的，这意味着误报率得到了严格控制。其次，框架是度量无关的：它可以应用于任何有界的相似性指标，而不需要针对特定指标的理论推导。最后，它保持了单调不变性：相似性分数的单调变换不会影响基于排序的校准结果。

为了验证校准框架的有效性，研究团队进行了广泛的实验验证。在合成数据上，校准框架成功地将各种条件下的零假设分数归一化为零，同时保持了对真实信号的敏感性。在真实神经网络数据上，校准框架的结果与现有的分析偏差校正方法高度一致，但具有更广的适用性和更强的理论保障。

特别值得注意的是，研究团队发现校准框架不仅解决了偏差问题，还为相似性分数提供了更好的可解释性。校准后的分数可以直接解释为"超出偶然水平的相似性程度"，这使得不同研究之间的结果比较变得更加有意义。

三、重新审视柏拉图假说：全局收敛的破灭

当研究团队用校准框架重新审视著名的"柏拉图表征假说"时，发现了一个颠覆性的结果：之前被广泛接受的跨模态表征收敛现象，很大程度上是测量偏差的产物。

柏拉图表征假说最初基于这样的观察：随着模型规模的增加，不同类型的神经网络（如处理图像的视觉模型和处理文本的语言模型）在表征相似性上表现出明显的增长趋势。使用传统的相似性指标，研究者发现更大更强的模型之间显示出更高的相似性分数，这似乎支持了所有模型都在朝着某种"理想表征"收敛的观点。

然而，当应用校准框架后，这种表面的收敛现象发生了戏剧性的变化。对于全局谱分析指标（如中心化核对齐CKA），原本随模型容量增长的相似性曲线在校准后变得平坦，甚至略有下降。这意味着之前观察到的"收敛"主要源于测量偏差，而非真实的表征对齐。

研究团队使用了包含204个视觉-语言模型对的大规模数据集进行验证。这些模型对涵盖了三个语言模型家族（BLOOM、OpenLLaMA、LLaMA）和五个视觉模型家族（ImageNet-21K、MAE、DINOv2、CLIP、CLIP微调版本），跨越多个规模级别。实验使用1024个图像-文本对，维度与样本数量比值范围为0.75到8，充分覆盖了柏拉图假说的关键测试范围。

在传统测量下，线性CKA和RBF核CKA都显示出清晰的上升趋势，似乎证实了随着模型能力提升，跨模态对齐确实在增强。但校准后的结果截然不同：这些全局指标的校准分数不再表现出系统性增长，反而在很多情况下保持相对稳定或轻微下降。

这一发现的含义是深远的。它表明神经网络并不像柏拉图理论预测的那样朝着统一的"理想表征"收敛。不同的训练目标、架构选择和数据分布会产生本质上不同的全局表征结构，即使这些模型在任务性能上都很出色。

更细致的分析揭示了这种现象的机制。全局相似性指标主要捕捉表征空间的整体几何结构，包括主成分方向、方差分布和全局聚类模式。这些特征高度依赖于模型的具体实现细节：激活函数的选择、归一化策略、优化算法等。即使两个模型学到了相同的任务相关知识，它们的全局表征结构仍可能大相径庭。

研究团队还验证了这一结论在其他模态对上的普遍性。在视频-语言对齐实验中，使用VideoMAE、DINOv2和CLIP模型与同样的语言模型进行比较，结果完全一致：校准后的全局相似性指标失去了随规模增长的趋势。这进一步证实了全局收敛更多是测量偏差的产物，而非跨模态学习的本质特征。

有趣的是，研究团队发现不同全局指标在校准后的表现并不完全相同。虽然所有指标都失去了明显的增长趋势，但它们在绝对水平上仍有差异。这反映了不同指标对表征结构的不同敏感性，也提醒研究者在选择评估指标时需要考虑其局限性。

这一发现对整个表征学习领域具有重要启示。它表明我们需要重新思考什么是神经网络学习的"普遍规律"。如果全局表征结构并不收敛，那么模型之间的共同点可能存在于更细粒度的层面上。

四、局部对齐的发现：亚里士多德的智慧

虽然全局收敛的证据在校准后大幅减弱，但研究团队发现了一个更加有趣的现象：局部邻域关系在不同模型间表现出显著且稳定的对齐。这一发现催生了"亚里士多德表征假说"。

与全局指标的戏剧性变化形成鲜明对比，基于邻域的局部相似性指标在校准后依然保持了强劲的跨模态对齐信号。互邻近邻(mKNN)、循环k近邻(cycle-kNN)和CKNNA等指标都显示出清晰的随模型能力增长的趋势，且这种趋势在校准后得到了保持。

为了深入理解这种局部对齐的本质，研究团队设计了精细的参数化分析。他们系统地变化了邻域大小k（从10到100）和RBF核带宽σ（从0.1到5.0），以探索对齐在不同空间尺度上的表现。结果揭示了一个关键区别：模型在邻域身份上达成一致，但在精确距离上并不一致。

具体来说，当使用较小的邻域大小（k=10）时，mKNN指标显示出最强的跨模态对齐和最清晰的规模化趋势。随着k增加到50、100，虽然对齐依然显著，但规模化改进的趋势逐渐平缓。这表明模型间的一致性主要体现在最近邻的识别上，而在更大范围的邻域结构上则相对有限。

RBF核带宽的分析进一步证实了这一观点。当带宽很小（σ=0.1）时，CKA-RBF主要感知非常局部的距离差异，此时校准后的相似性几乎消失，p值普遍超过0.05。但当带宽适中（σ=0.5-2.0）时，指标开始捕捉到有意义的对齐信号，虽然规模化趋势在校准后有所平缓。

这些发现揭示了一个重要的概念区分：拓扑对齐与度量对齐。拓扑对齐关注的是"谁与谁相近"的序关系，而度量对齐关注的是"有多相近"的具体数值。实验结果表明，不同训练目标和架构的神经网络在拓扑结构上趋于一致，但在度量结构上保持差异。

这种现象有深刻的认知科学和机器学习理论基础。在人类认知中，相似性判断往往基于相对比较而非绝对度量。我们能够一致地认为苹果比香蕉更像橙子，但很难准确量化这种相似性的具体程度。类似地，神经网络似乎在学习数据的相对相似性结构，而这种结构对于完成下游任务来说可能比绝对距离更为关键。

从表征学习的角度来看，这一发现也有重要意义。它表明有效的表征学习可能不需要在所有细节上完全一致，只要在关键的相对关系上保持对齐即可。这种"关系对齐"可能是迁移学习和跨模态学习成功的关键机制。

研究团队进一步验证了这一假说在不同数据集和模型架构上的普遍性。无论是图像-文本对、视频-文本对，还是不同的预训练策略（自监督vs监督），局部邻域对齐都表现出一致的模式。这表明亚里士多德表征假说捕捉了神经网络学习的一个基本特征。

有趣的是，研究团队还发现了模型规模与局部对齐质量之间的非线性关系。在某些情况下，中等规模的模型反而表现出更好的跨模态对齐，这可能与过参数化和泛化性能的复杂关系有关。这一观察为模型选择和架构设计提供了新的视角。

五、方法论创新：从工具到洞察

这项研究的方法论贡献远不止于发现测量偏差。研究团队开发的校准框架代表了表征分析领域的一个重要方法论进步，为未来的研究提供了更可靠的工具和更严谨的分析范式。

校准框架的理论基础建立在置换检验和随机化推断的坚实数学基础上。与传统的参数统计方法不同，置换检验不需要对数据分布做强假设，只要求样本在零假设下是可交换的。这种非参数特性使得框架能够适用于各种复杂的神经网络表征，而不受特定架构或训练程序的限制。

框架的核心创新在于将聚合感知校准引入表征相似性分析。传统的多重比较校正方法，如Bonferroni或Benjamini-Hochberg程序，主要关注控制个体比较的误报率，但忽略了选择偏差对最终统计量的影响。聚合感知校准直接针对研究者实际报告的统计量（如最大相似性分数）进行校准，从而提供了对选择偏差的直接控制。

从计算效率角度来看，校准框架虽然增加了计算成本，但这种成本是可控和可并行化的。对于标量比较，框架只需要额外进行K次置换计算，其中K通常在200-500之间。对于聚合比较，成本增加到K×LA×LB次计算，但这些计算完全独立，可以高效并行化。考虑到现代深度学习的计算资源，这种额外成本是完全可以接受的。

框架还提供了多种输出形式以满足不同需求。除了校准分数外，框架还计算置换p值、效应大小和置信区间，为研究者提供了丰富的统计信息。特别是置换p值具有有限样本有效性，这意味着即使在样本量有限的情况下，统计推断仍然是可靠的。

研究团队特别强调了校准框架的普适性。它不依赖于特定的相似性度量或神经网络架构，可以应用于任何产生数值相似性分数的分析流程。这种度量无关性使得框架能够为整个表征学习社区提供标准化的分析工具，促进不同研究之间的可比性和可重复性。

在实际应用中，框架还展现出了良好的鲁棒性。研究团队测试了不同的噪声分布（高斯、学生t、拉普拉斯等）、不同的置换策略和不同的显著性水平，发现框架在各种条件下都保持了稳定的性能。这种鲁棒性对于处理真实世界数据的复杂性是至关重要的。

校准框架的引入也推动了表征分析领域方法论标准的提升。它明确了什么构成有效的零假设、如何正确处理多重比较、以及如何解释相似性分数等基本问题。这些方法论上的澄清对于建立更严谨的研究标准具有重要价值。

此外，研究团队还提供了完整的开源实现和详细的使用指南，确保其他研究者能够轻松采用这些方法。这种开放科学的实践有助于方法的广泛传播和持续改进。

六、实验验证：从理论到实践

为了全面验证校准框架的有效性和亚里士多德表征假说的正确性，研究团队设计了一系列层次递进的实验，从合成数据的控制实验到大规模真实模型的对比分析。

在合成数据实验中，研究团队构建了精确可控的实验环境。他们生成了完全独立的高斯随机矩阵作为"表征"，其中任何观察到的相似性都应该纯属偶然。通过系统地变化样本数量n（从128到4096）和维度d（从128到2048），团队绘制了传统相似性指标在零假设条件下的行为图谱。结果清楚地显示，所有传统指标都表现出随d/n比值增长的系统性偏差，完全验证了理论分析的预测。

更重要的是，校准框架在所有测试条件下都成功地将这些虚假相似性归一化为零，展现了出色的偏差消除能力。即使在最极端的高维低样本情况下（d/n > 2），校准后的分数仍然稳定地保持在零附近，证明了框架的稳健性。

在信号检测能力的测试中，研究团队在随机数据中注入了不同强度的共享信号。实验使用低秩矩阵分解的方式创建真实的相似性结构，然后在其中添加不同水平的噪声。结果表明，校准框架不仅消除了虚假信号，还保持了对真实信号的高度敏感性。在信噪比合理的情况下，校准后的检测功效甚至超过了传统方法，因为它消除了噪声的干扰。

真实神经网络的实验规模更加庞大。研究团队收集了跨越五个主要模型家族、涵盖多个规模级别的预训练模型，总计204个模型对的比较。这些模型包括了当前最先进的视觉和语言理解系统，如CLIP、DINOv2、BLOOM、LLaMA等，确保了实验结果的代表性和现实意义。

实验数据来自WIT数据集的1024个图像-文本对，这个规模既足够捕捉模型行为的主要特征，又允许高效的重复实验。研究团队特别选择了使d/n比值覆盖0.75到8的范围，这正好对应了柏拉图假说最关键的测试区域。

跨模态对齐的结果在校准前后展现了截然不同的模式。未校准的全局相似性指标（如线性CKA、RBF-CKA）显示出明显的随模型规模增长的趋势，这与柏拉图假说的预测完全一致。然而，校准后这些趋势大多消失，取而代之的是相对平坦的曲线，表明之前观察到的"收敛"主要是测量人工制品。

相比之下，局部相似性指标（mKNN、cycle-kNN、CKNNA）在校准后依然保持了显著的对齐信号和规模化趋势。这种对比清楚地支持了亚里士多德表征假说：神经网络确实在某些方面趋向一致，但这种一致性体现在局部邻域关系而非全局几何结构上。

为了确保结果的普遍性，研究团队还进行了跨数据集和跨模态的验证。他们将分析扩展到视频-语言对齐，使用VideoMAE等视频理解模型与语言模型进行比较。结果完全一致：全局指标在校准后失去增长趋势，而局部指标保持对齐。这进一步证实了发现的普遍性。

研究团队还进行了敏感性分析，测试了不同显著性水平（α = 0.01, 0.05, 0.10）和不同置换次数（K = 100, 200, 500）对结果的影响。在所有测试条件下，主要结论都保持稳定，证明了发现的鲁棒性。

七、理论洞察：重新定义收敛

这项研究不仅在方法论上取得了突破，更重要的是在理论层面为我们理解神经网络学习提供了新的视角。亚里士多德表征假说的提出，标志着从追求"完美统一"到认识"关系一致"的范式转变。

从认知科学角度来看，这一发现与人类概念学习的理论高度契合。人类在学习概念时，往往更关注对象间的相对关系而非绝对特征。例如，不同文化背景的人可能对颜色的绝对感知有所差异，但在识别"哪两种颜色更相似"这个问题上却表现出惊人的一致性。亚里士多德表征假说表明，神经网络可能以类似的方式学习世界的结构：通过掌握相对关系而非绝对量度。

这种关系学习的优势在于其泛化能力和迁移潜力。如果两个模型在局部邻域关系上保持一致，那么它们更容易在新任务或新领域上实现知识迁移。这为解释为什么预训练模型能够在各种下游任务上表现出色提供了新的理论基础：关键不在于模型学到了完全相同的表征，而在于它们掌握了相似的关系结构。

从机器学习理论的角度，这一发现也有深刻含义。它表明有效的表征学习可能存在多条路径：不同的训练程序、架构设计和优化策略可能导致全局结构迥异的表征空间，但这些空间在局部拓扑上可能高度相似。这种"殊途同归"的现象为理解深度学习的归纳偏置提供了新线索。

研究还揭示了表征学习中的一个重要权衡：全局一致性vs局部一致性。传统观点倾向于认为更强的模型应该在所有层面上都更加一致，但实际情况可能更加复杂。过度的全局一致性可能导致模型失去多样性，从而限制其在不同任务上的适应性。相反，保持全局多样性而在局部关系上趋同，可能是一种更加有效的学习策略。

这一理论洞察对模型设计和训练策略具有重要指导意义。它提示我们在设计损失函数和正则化策略时，应该更多关注相对关系的保持而非绝对表征的匹配。例如，对比学习的成功可能正是因为它直接优化了样本间的相对关系，而不是绝对表征值。

从哲学层面来看，亚里士多德表征假说也体现了对学习本质的深刻思考。它表明真正的"理解"可能不需要对世界有完全一致的内部描述，只要在关键关系的识别上保持一致即可。这种观点与亚里士多德的关系哲学高度吻合：现实世界的本质在于事物间的关系和相互作用，而非事物的绝对属性。

这一理论框架还为解释人工智能系统的对齐问题提供了新视角。如果不同的AI系统在处理同样问题时能够在关键关系判断上保持一致，那么即使它们的内部工作机制不同，也可能实现有效的协作和互操作。这对于构建多智能体系统和实现AI安全具有重要启示。

未来的研究可以在这个理论框架基础上探索更多问题：什么因素决定了哪些关系会被一致学习？如何主动引导模型学习特定的关系结构？不同类型的关系（空间、时间、语义等）在学习中的重要性如何排序？这些问题的答案将进一步丰富我们对神经网络学习机制的理解。

说到底，这项研究让我们重新审视了什么是"智能的收敛"。也许真正的智能不在于拥有完全相同的世界模型，而在于能够识别相同的关系模式。就像不同的人可能用不同的方式描述同一个故事，但在故事的核心关系上达成共识一样，不同的神经网络也许正是通过这种"关系共识"而非"表征统一"来实现真正的智能对齐。这种认识不仅改变了我们对机器学习的理解，也为未来构建更加多样化yet一致的AI系统指明了方向。

Q&A

Q1：什么是柏拉图表征假说和亚里士多德表征假说？

A：柏拉图表征假说认为不同的神经网络会收敛到同一种对现实世界的"理想理解"，就像所有AI最终会形成相同的世界模型。而亚里士多德表征假说则认为，神经网络只会在局部邻域关系上达成一致，也就是在判断"什么东西彼此相似"这种关系问题上保持共识，但不会在整体结构上完全统一。

Q2：为什么之前的研究结论是错误的？

A：主要原因是测量工具存在系统性偏差。当神经网络变得更宽（更多神经元）时，传统指标会错误显示更高相似性；当网络更深时，简单取最高分会夸大真实相似性。这就像用有问题的尺子测量，随着被测物体增大，尺子本身的误差也增大，导致错误结论。

Q3：置换校准框架是如何工作的？

A：这个框架通过随机打乱数据对应关系来建立"零基准线"。具体是保持第一个网络不变，随机重排第二个网络的数据标签，重复多次后得到一个"纯属偶然"的相似性分布。只有真实观察到的相似性明显超过这个随机水平时，才被认为是有意义的对齐。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.