非平衡测度网络及超网络的传输度量锥规划|算法|模态|定理|鲁棒性|新论文

分享至

Conic Formulations of Transport Metrics for Unbalanced Measure Networks and Hypernetworks

非平衡测度网络及超网络的传输度量锥规划

https://arxiv.org/pdf/2508.10888

摘要

最优传输的Gromov-Wasserstein (GW) 变体旨在比较定义于不同度量空间上的概率密度，现已成为分析点云或网络集合等复杂结构数据的重要工具。为克服某些局限性（例如仅限于比较质量相等的测度，以及对异常值敏感等问题），近期文献中已引入了GW距离的若干非平衡或偏传输松弛形式。本文关注由Séjourné、Vialard与Peyré [35] 提出的锥Gromov-Wasserstein (CGW) 距离。我们提出了一种基于半耦合（semi-couplings）的新表述，并将该框架推广至度量测度空间设定之外，用于比较更一般的网络与超网络结构。借助这一新表述，我们确立了CGW度量的若干基本性质，包括其在缩放下的尺度行为、体积增长约束极限下的变分收敛性，以及与现有最优传输度量之间的比较界。我们进一步推导了定量界，用以刻画CGW度量对底层测度扰动的鲁棒性。CGW的超网络表述支持一种简单且可证明收敛的块坐标上升算法用于其估计。我们通过在合成数据集与真实世界的高维结构化数据集上的实验，验证了该方法的计算易处理性与可扩展性。

关键词： 锥Gromov-Wasserstein；锥协同最优传输；Gromov-Wasserstein；测度网络；测度超网络

1. 引言

最优传输（OT）技术已成为应用数学中的一个基础工具 [41, 34, 31]。广义上讲，OT理论涵盖了通过确定将质量从一个分布分配到另一个分布的最佳方式来比较概率分布的方法，其中最优性由选定的目标函数来衡量。经典OT定义在固定度量空间上的概率分布设定中，其目标涉及度量函数的积分。本文主要关注OT的Gromov-Wasserstein (GW) 变体 [28, 29]，它通过将经典OT的线性目标替换为基于相关两个度量定义的二次目标，从而允许比较定义在不同度量空间上的分布。具体而言，我们关注最近引入的GW距离的一个扩展——锥Gromov-Wasserstein距离（CGW）——它允许比较不同度量空间上的一般正测度（即不一定是概率分布）[35]。

在我们对CGW距离的研究中，我们提供了一种新的表述，从而导出了能够比较更一般类别对象的扩展。我们的表述使我们能够推导该度量的理论性质，包括精确刻画经典GW距离如何作为CGW距离的变分极限出现，以及一个表明CGW距离对噪声具有鲁棒性的结果。这种新颖的表述和扩展还提出了一种用于近似CGW距离的高效数值格式。

本文的结构及我们的主要贡献描述如下。

第2节 介绍了将在全文使用的符号约定，以及来自最优传输的一些总体背景概念。

第3节 详细描述了本文要研究的主要构造，即锥Gromov-Wasserstein距离（CGW）。具体而言：

新表述（New Formulation）。 我们给出了基于**半耦合（semi-couplings）**的CGW距离的另一种表述；这是定义3.1，命题3.8表明其等价于 [35] 的原始定义（回顾于定义2.6）。
广义设定（Generalized Setting）。 在定义我们版本的CGW距离时，我们将其范围从度量测度空间扩展到**测度网络（measure networks）**的空间，即赋予任意可测核的波兰测度空间 [15]。我们在定理3.5中证明了CGW距离在这些对象的空间上定义了一个伪度量，并刻画了零距离等价关系。

第4节 关注CGW距离的理论性质。我们考虑：

缩放性质（Scaling Properties）。 由于CGW距离不再受限于比较具有相同总质量的分布，因此理解质量的缩放如何影响距离是很重要的。我们在第4.1节中收集了若干刻画这种行为的结果。
变分收敛（Variational Convergence）。 我们的CGW距离定义包含一个参数 δ ，它本质上控制在分布间执行传输时的质量重缩放的目标成本。我们在定理4.6和推论4.9中表明，当 δ → ∞ 时，CGW距离以精确的意义（通过 Γ -收敛的语言）收敛到经典的GW距离。这类似于 [14, 定理 5.10]，后者展示了Wasserstein-Fisher-Rao设定下的类似收敛性。
鲁棒性性质（Robustness Properties）。 我们在定理4.13和推论4.14中证明，与经典GW距离不同（见命题4.15），CGW距离对输入分布中的噪声具有鲁棒性。

第5节 进一步将CGW框架扩展到**协同最优传输（Co-Optimal transport）**表述 [40, 16]。虽然这一扩展本身很有趣，但一个主要的动机是它使我们能够开发一种用于近似CGW距离的新计算框架。

第6节 通过在真实数据和合成数据上的数值实验，说明了上述计算框架。这些实验特别表明，我们要提出的用于计算CGW距离的新算法比 [35] 中提出的朴素算法高效得多。

2. 最优传输的背景

本节收集了将在全文中有用的背景材料。

2.1. 符号

我们首先回顾标准术语并确定通用的惯例和符号。

2.2. 非平衡最优传输的锥表述

正如我们在引言中所述，固定度量空间上概率分布之间的经典 Wasserstein 距离 (1.1) 已通过多种方式进行了扩展，以允许比较可能具有不相等总质量的测度。这种类型的扩展通常被称为非平衡最优传输（unbalanced optimal transport）。我们现在描述例如在 [13, 14, 35] 中采取的特定方法的细节。

2.3. Gromov-Wasserstein 距离

Mémoli [28, 29] 通过公式 (1.2) 对 Wasserstein 距离进行了调整，以允许比较定义在不同度量空间上的概率测度。事实上，即使不假设函数为度量，该公式依然有意义。这引出了 [15] 中引入的 Gromov-Wasserstein 距离的广义概念，我们现在回顾其细节。

2.4. 锥 Gromov-Wasserstein 距离。

在本文的其余部分， 度量测度空间（mm-空间） M X = ( X , μ X , d X ) 被允许具有任意（非负，有限）的总质量 μ X ( X ) 。类似于上述描述的锥非平衡最优传输构造，可以将类似的技巧应用于 GW 距离，将其扩展为具有不同总质量的 mm-空间之间的距离。这种构造在 [35] 中被引入，我们在此回顾该定义。

注意到，尽管它也依赖于锥度量，但该定义与定义 2.4 中的 UOT 距离构造有着相当不同的风格。本文的首要目标是利用半耦合（semicouplings）重新表述 CGW 距离。在此过程中，我们也将其扩展到了测度网络设定。

3. 非平衡测度网络的锥 Gromov-Wasserstein 距离

在本节中，我们在测度网络的一般框架内，探讨 Gromov-Wasserstein 距离的一种非平衡变体的半耦合表述，这类似于 [35, 25] 中描述并在定义 2.3 中陈述的 Wasserstein-Fisher-Rao 距离的表述。进而，我们证明了我们表述的一个特例等价于 [35] 中引入的锥 Gromov-Wasserstein 距离（Conic Gromov-Wasserstein distance）。

3.1. 锥 Gromov-Wasserstein 距离

我们在本文中研究的主要构造定义如下

3.2. 度量性质

Chowdhury 与 Mémoli 在 [15] 中为测度网络引入了一种称为弱同构（weak isomorphism）的等价关系，而在锥设定中，对其进行适当的推广将是有益的。我们在下文给出了无任何质量约束的测度网络背景下的定义，而 [15] 专门考虑了概率测度网络；这种推广仅是表面上的。

3.3. 与 Séjourné, Vialard 和 Peyré 的表述的等价性。

一个简短的论证表明，定义（如定义 3.1 所示）的优化问题与锥 Gromov-Wasserstein 距离的原始表述（如定义 2.6 所示）实际上是等价的。

4. 锥 Gromov-Wasserstein 距离的性质

本节确立了锥 Gromov-Wasserstein 距离的各种理论性质。

4.1. 缩放性质

当将传输度量推广到非平衡情形时，理解该度量关于网络总质量缩放的行为至关重要。为此，我们利用 [23] 中的以下结果。

函数 U 、 V 和 W 随后由该表达式各行中括号内的公式相应地定义。尚需证明这些函数满足所声称的性质。根据 [14, 引理 2.9]，函数 U 是下半连续的。此外，将柯西-施瓦茨（Cauchy-Schwarz）不等式应用于这些函数

接下来，我们陈述一个推论，作为定理 4.6 的结果，该推论将我们在 (2.7) 中定义的 CGW 度量与 GW2 度量联系起来（参见图 1 的实际演示）。该推论类似于 [14, 注 5.11] 中陈述的 WFR 距离的性质。该证明是 Γ -收敛背景下的一个标准论证。

接下来，我们通过 UOT 度量建立一个下界。这类似于 [29, 第 6 节] 中推导出的关于 GW2 距离的界。我们的结果发挥了双重作用：既确立了测度网络某些分布不变量的 Lipschitz 稳定性，又提供了一个计算上可行的 CGW 距离下界估计。

4.4. 鲁棒性保证

5. 针对非平衡超网络的锥协同最优传输

在本节中，我们定义了一种锥 GW 距离的概念——称为锥协同最优传输（conic Co-Optimal transport）——它作用于被称为测度超网络（measure hypernetworks）的广义结构上。本节首先解释超网络和协同最优传输的术语。

5.1. 超网络与协同最优传输

粗略地说，Gromov-Wasserstein 框架是一种比较方形核的方法，而 [33] 中的协同最优传输框架则调整了这一思想，为矩形核提供了一种比较方法。我们回顾在 [16] 中发展的该框架的数学形式体系。

注 5.2. 测度超网络（measure hypernetwork）这一术语是参照 [15] 中的测度网络（measure network）术语而来的；其思想在于测度超网络可作为加权超网络自然且通用的模型。实践中出现的超网络示例包括特征矩阵（这是在 [33] 中开发该框架的原始动机）以及一般代价函数，例如在最优传输背景下（参见 [30]）。

5.2. 锥协同最优传输

我们在本节中研究的距离定义如下。

下一个结果表明，锥协同最优传输距离实际上在测度超网络的弱同构意义下定义了一个距离。其证明与定理 3.5 的证明相同，只需调整论证以适应更复杂的符号，因此我们将其省略。关于协同最优传输距离的类似结果已在 [16, 定理 1] 中详细证明。

5.3. 与 UCOT 的关系

我们现在考察锥协同最优传输（CCOT）距离与 [38] 中引入的非平衡协同最优传输（UCOT）之间的关系，我们在下文的超网络背景下重述其定义。

5.4. 与 CGW 距离的关系

5.5. CCOT 算法

在本节中，我们考察离散超网络之间的锥协同最优传输（CCOT）问题，并开发一种用于寻找最优半耦合对的计算方法。我们的方法紧密遵循 [4] 中的做法（在 WFR 距离的背景下），采用循环块坐标上升算法来计算最优半耦合，在保持其他块固定的同时，为每个块上的最优解给出闭式形式。为讨论该算法，我们首先需要 [4, 定义 2.4] 中的离散半耦合概念。

我们用于确定 CCOT 距离的计算方法采用了一种直接的循环块坐标上升法。然而，我们方法的关键在于，当其中三个块固定时，剩余块的最优解可表示为闭式形式。在下面的引理中，我们展示了在保持其他块固定的同时，如何计算每个块的最优解。

6. 数值实验

我们现在展示数值实验的结果，以支持为 CGW 和 CCOT 度量建立的理论。

6.1. 单细胞多组学对齐

我们展示了 CCOT 度量（如 5.4 中所定义）和 COT 度量（如 (5.1) 中所定义）在细胞群体跨模态部分重叠的场景下，用于对齐单细胞多组学数据集的用法。这种不完全的重叠是由于技术限制（例如，检测通量或捕获效率）和生物学约束（例如，采样中的细胞类型排他性）而产生的，这些限制阻碍了对单个细胞进行全面的各种组学分析。我们利用了一个基准 CITE-seq 数据集 [37]，它与 [38] 中使用的数据集密切相关。虽然实验设置相似，但由于细胞、基因和蛋白质等生物实体的随机抽样，存在细微差异。尽管如此，这允许我们将使用 CCOT 得到的定性结果与 [38] 中的 UCOT（如 5.9 中所定义）结果进行近似比较。

该数据集同时包含了 1,000 个人类外周血单个核细胞（PBMCs）的基因表达和表面蛋白丰度谱，每个细胞谱包含 17,014 个基因和 10 种表面蛋白。选择该数据集是因为它包含特征之间已知的生物学对应关系（即基因及其编码的蛋白质，例如 CD4 基因和 CD4 蛋白），这使我们能够严格评估 CCOT 联合对齐细胞和特征的能力。尽管基因表达和蛋白质丰度是具有不完美相关性的不同生物学测量，但这些已知的对应关系可作为评估特征对齐的真实依据（ground truth）。

预处理利用 Muon 包来适当地处理每种模态：RNA 数据经过质量过滤、归一化、对数变换以及高变基因的选择，而蛋白质数据使用中心化对数比（CLR）变换进行归一化，以调整技术变异性。降维是在每种模态上独立执行的，以获得适合对齐的低维嵌入。

为了评估对齐质量，我们使用针对细胞的“更接近真实匹配的样本比例”（FOSCTTM）度量 [10, 26, 18]，其中较低的分数表示更好的细胞级对齐，以及针对特征级对齐的正确匹配基因 - 蛋白质对的比例。为了测试鲁棒性，我们模拟了三种实验条件：一种平衡场景，具有相等数量的细胞（固定为 1,000）和匹配的特征（10 个基因与其对应的 10 种蛋白质配对）；一种非平衡场景（特征），具有相等数量的细胞（1,000），但不相等数量的特征（5 个基因对比 10 种蛋白质），模拟缺失或不匹配的特征；以及一种非平衡场景（细胞），其中跨模态的细胞数量不同，以模拟部分细胞重叠。

平衡场景（特征）。 我们选择相等数量的细胞（固定为 1000）和特征（10 个基因及其对应的 10 种蛋白质）。COT 和 CCOT 都能准确对齐特征（图 2 (a)-(b)），但 CCOT 实现了更好的细胞对齐，具有更低的 FOSCTTM 分数（0.0059 对比 0.0234）。CCOT 性能的提升源于其对噪声的鲁棒性，导致相对于 COT 距离而言更清晰的对角线（深红色）对齐模式（如定理 5.12 和 4.13 所理论证明的那样）。

非平衡场景（特征）。 我们选择相等数量的细胞（1000）并将 10 种蛋白质与 5 个基因对齐，从而创建一个非平衡设置。COT 无法恢复正确的特征对应关系，导致对齐偏离对角线（图 2 (d)）。相比之下，CCOT 对质量守恒约束的松弛允许对未匹配的蛋白质细胞进行降权，从而提高对齐质量（图 2 (c)）。

平衡与非平衡场景（样本）。 我们还考虑了跨两种模态细胞数量相等和不相等的情况。对于平衡情况，我们为两种模态对齐 1000 个细胞。对于非平衡情况，我们将蛋白质模态下采样 25%，并与基因模态中的全套细胞执行对齐。我们计算数据集中所有已知真实匹配的细胞的 FOSCTTM 分数并报告平均值。CCOT 保持了较低的 FOSCTTM 分数（0.0073，而平衡场景中为 0.0059），表明其性能稳健，而 COT 则出现了更明显的下降（0.1104，而平衡场景中为 0.0234）。为了进一步说明对齐质量，我们使用主成分分析（PCA）图可视化了对齐后的细胞（图 2 (e)-(h)），这揭示了来自两种模态的细胞在对齐后聚集在一起的程度。

最后，在图 3 中，我们要通过对两种模态固定的细胞数量进行变化，来对齐不相等数量的特征（5 个基因和 10 种蛋白质），我们注意到收敛诊断指标呈下降趋势，包括 CCOT 距离和迭代中的相对对数误差。这种行为表明随着迭代次数的增加，求解器逐渐稳定其解。观察到的这些指标的减少反映了对求解器变量的一致性越来越高且幅度越来越小的更新，提供了算法正在接近稳定点的证据（见推论 5.19）。因此，这些结果支持了求解器和度量在实现数据集之间有意义且稳定的对齐方面的可靠性和鲁棒性。

6.2. 测度网络 CCOT 的半耦合相等性

6.3. 数字分类比较

我们利用 MNIST 数据集 [24] 解决一个二分类任务，该数据集包含 70,000 张 0 到 9 的手写数字灰度图像，每张大小为 28 × 28 像素。对于我们的实验设置，我们要专门关注数字 1 和 7，从每个类别中选择 N = 1000个样本，形成一个大小为 2 N = 2000的数据集。为了增强数据内部的变异性，向一半图像的像素强度引入了加性高斯噪声（见图 5(a)）。

原文链接：https://arxiv.org/pdf/2508.10888

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.