HyperMixup：超图增强的高阶信息混合|拓扑|鲁棒性|神经网络

分享至

HyperMixup: Hypergraph-Augmented with Higher-order Information Mixup HyperMixup：超图增强的高阶信息混合

https://neurips.cc/virtual/2025/loc/san-diego/poster/115821

摘要

超图为建模具有多路交互的复杂系统提供了一种自然范式。超图神经网络（HGNNs）在学习此类高阶关系数据方面已展现出显著的成功。尽管这种高阶建模增强了关系推理能力，但超图学习的有效性仍然受到两个持久性挑战的制约：复杂系统固有的标注数据稀缺性，以及现实世界交互模式中结构噪声的脆弱性。传统的数据增强方法虽然在欧几里得空间和图结构领域取得了成功，但难以保持节点特征与超边语义之间错综复杂的平衡，往往会破坏定义超图价值的组级交互本身。为弥补这一差距，我们提出了 HyperMixup，这是一种超图感知的增强框架，通过结构引导的特征混合来保持高阶交互模式。具体而言，HyperMixup 包含三个关键组件：1) 由联合特征-超边相似性度量引导的结构感知节点配对，2) 通过双层特征融合保持超边语义的上下文增强型层次混合，以及 3) 在保持超图一致性的同时实现可控多样性扩展的自适应拓扑重构机制。在理论上，我们证明了我们的方法通过与超边协方差结构的梯度对齐诱导超图特定的正则化效果，同时针对组合节点-超边扰动提供鲁棒性保证。在多样化超图学习任务上的综合实验表明，与最先进基线方法相比，性能得到了一致的提升，尤其在低标签机制下效果显著。所提出的框架通过将数据增强与高阶拓扑约束相统一，推进了超图表示学习，为关系机器学习提供了实用价值和理论见解。

1 引言

现代复杂系统——从社交网络和分子相互作用到知识图谱——本质上以多路交互模式为特征 [1, 2]。传统图结构局限于成对关系建模，无法充分捕捉这些高阶语义 [3]。超图通过超边成为组级交互表示的自然范式，提供了一个更具表现力的数学框架。超图神经网络（HGNNs）[4] 通过超边驱动的消息传递进一步推进了这一能力，在学术引用分类和多模态物体识别等任务中展现出显著的成功。然而，不断升级的模型复杂度与现实场景中标注数据的稀缺性形成鲜明对比——这是高标注成本（例如，生物分子相互作用预测）或易受噪声影响的标注过程（例如，演化中的社交网络）应用中的一个关键瓶颈。

数据增强已成为缓解数据稀缺的关键技术，但在超图学习中面临独特的挑战。为欧几里得数据（例如，图像）或普通图（例如，Mixup [5]、GraphMixup [6]）设计的传统增强方法依赖于局部线性插值或随机结构扰动。这些操作有破坏超边约束的组语义的风险——例如，在学术合作超图中随机混合作者节点可能会切断它们与出版场所（超边）的关联，从而侵蚀关键的“研究领域一致性”。从根本上说，有效的超图增强必须同时满足三个约束：(1) 节点特征与超边上下文之间的语义对齐，(2) 合成样本中对原始高阶拓扑结构的继承，以及 (3) 在联合节点-超边空间中对对抗性噪声的可控传播。现有方法通常孤立地处理这些维度，导致偏离超图流形的内在几何结构。

为了解决这些挑战，我们提出了 HyperMixup——一种专门为超图结构设计的增强框架。我们的方法采用结构感知节点选择，在混合过程中动态融合节点特征与超边上下文，同时通过最近邻亲和力阈值自适应地重构超边成员关系。这确保了在严格保持组语义一致性的同时增强多样性。在理论上，HyperMixup 诱导与超边协方差结构对齐的梯度更新，并针对组合节点-超边扰动提供可证明的鲁棒性界。这些特性使得模型能够抵御现实世界的混合噪声，并在极端标签稀缺下实现稳定的泛化。

在多样化的超图基准测试（引用网络、3D物体识别）上进行的广泛实验验证了HyperMixup的有效性。结果表明，与基于图的增强变体相比，性能有显著提升，特别是在低标签机制下。这些发现强调了高阶拓扑约束在数据增强中的核心地位，同时为超图表示学习建立了新的方法论视角。

我们的主要贡献有三点：

• 一个专为超图定制的增强框架（HyperMixup），它将混合操作与高阶拓扑约束协同优化；

• 将梯度对齐与超边协方差结构联系起来的理论基础，并针对混合扰动提供认证的鲁棒性保证；

• 跨多样化任务的系统性实证验证，推动了开放环境应用中的超图学习。

2 相关工作

原始的 Mixup [5] 在欧几里得空间中对样本进行线性插值，这启发了旨在增强语义一致性的变体：像 CutMix [7] 和 AlignMix [8] 这样的空间混合方法采用带有显著性引导的区域替换，而像 Manifold Mixup [9] 和 StyleMix [10] 这样的特征空间方法则作用于隐藏表示或解耦特征上。最近的工作通过注意力机制 [11] 或多目标公式 [12] 进一步优化了混合策略。然而，这些方法在插值过程中根本上假设了欧几里得凸性——这一前提被超图的非欧几里得交互空间所否定，因为在其中线性组合可能会违反组语义。

图增强策略因任务粒度而异：对于图分类，随机结构扰动 [13] 和图元（graphon）插值 [14] 生成总体级别的变体，而像 GraphMix [15] 和 GraphMixup [6] 这样的节点级方法则将节点特征与标签传播相融合。然而，这些方法继承了基于图的成对交互假设，限制了它们在超图上的适用性。

基于 HGNN [4] 的两阶段消息传递，最近的进展集中在基于注意力的聚合（HyperGAT [16], HyperAtten [17]）、谱适应（HyperGCN [18]）和非线性变换 [19] 上。超图的增强技术仍未得到充分探索，初步尝试要么依赖外部知识 [20]，要么依赖简单的边丢弃（edge dropout）[21]——两者均未解决拓扑感知插值这一核心挑战。值得注意的是，现有方法在增强过程中未能保留节点与超边之间的协方差结构，而这是我们理论分析中确定的维持语义一致性的关键因素。

3 方法论

3.1 超图表示

3.2 语义特征混合

我们的 HyperMixup 框架引入了三种协同的混合操作，旨在增强数据增强的同时保持超图语义，如图 1 所示。其关键创新在于在拓扑约束下对节点特征、超边关系和标签进行联合插值。

超边感知的节点选择 混合过程始于语义感知的节点配对。与随机选择样本的传统 Mixup 不同，我们采用了一种结构保持策略。对于每条超边，我们通过度归一化聚合计算其特征表示：

保拓扑超边重构（Topology-Preserving Hyperedge Reconstruction） 合成节点必须继承有意义的超边连接，以保持图的一致性。我们开发了一种自适应继承机制：

3.3 优化目标与训练策略

邻域风险最小化（Vicinal Risk Minimization, VRM）[22] 是一种数据增强原则，它通过在原始训练数据周围定义一个“邻域”（vicinity）来生成合成样本。与仅依赖于观测样本的经验风险最小化（Empirical Risk Minimization, ERM）不同，VRM 利用领域知识来建模数据点在其局部邻域内的相互关系。在超图中，这要求定义一个既能保留节点特征又能保留超边中编码的高阶语义的邻域。

其中超边平滑性和标签一致性项在反向传播过程中通过梯度归一化自动缩放。这消除了对手动超参数调整的需求，同时保持了正则化的有效性。

训练过程遵循三个自洽阶段：1) 使用公式 (5)-(7) 通过特征混合生成合成节点，2) 通过公式 (8) 进行拓扑适应以更新超边，以及 3) 通过统一梯度下降进行参数优化：

4 理论分析

4.1 通过超图 Mixup 进行正则化

现代基于图的 Mixup 技术 [15] 主要关注成对关系，在处理超图固有高阶交互方面存在关键空白。传统方法对节点特征和标签进行线性插值，却忽略了超边施加的复杂拓扑约束。这种局限性在超图场景中变得尤为明显，在这些场景中，多路关系编码了本质的语义结构——例如，在学术引用网络中，发表 venue（超边）连接了多篇相关论文（节点）。

关键挑战在于在 Mixup 过程中保持超边诱导的语义一致性。我们的理论分析通过确立以下几点来解决这一问题：(1) 超边特征应如何调节混合过程，(2) 源于超图感知插值的正则化效果是什么，以及 (3) 为何这些效果能比传统图 Mixup 更好地提升泛化能力。

4.2 对抗鲁棒性

超图学习的对抗脆弱性源于两个基本方面：(1) 涵盖节点特征和超边关系的高维攻击面，以及 (2) 级联效应，即对单个超边的扰动可以传播到多个连接节点。传统的 mixup 方法 [5] 主要为欧几里得数据提供鲁棒性保证，假设样本间的扰动是独立的。然而，在超图中，节点和超边的相互依赖性质产生了违反这种独立性假设的相关攻击向量——对抗者可以同时扰动节点的特征及其在关键超边中的成员关系。在本节中，我们旨在证明 HyperMixup 通过其超边感知混合策略固有地限制了此类相关攻击的影响。具体而言，我们力求证明所提出的方法：

4.3 泛化能力

超图 Mixup 的泛化分析面临两个独特的挑战：一是与成对图相比，超边配置呈现出的指数级复杂度，这放大了源于虚假相关性的过拟合风险；二是超边内部存在异构的交互强度，其中核心节点和边缘节点表现出不同的耦合程度。传统的图泛化理论被证明是不够的，因为它们忽略了这些高阶动态，这一点在现实世界的场景中尤为明显，例如在社交标签系统中，用户以不同的投入程度参与超边。我们的框架通过建立三个相互关联的目标来解决这一问题：1) 通过超边感知混合来量化拓扑特征的保持；2) 利用超图谱性质控制模型复杂度；以及 3) 平衡局部节点变化与全局超边约束。这些组件协同交互——谱特征主导拓扑保持，节点-超边协方差结构支配复杂度控制，而混合参数 γ γ 调节局部与全局的平衡——从而形成了一个统一的理论基础，防止了朴素插值方法中常见的语义违背。

5 实验

在本节中，我们在两项任务上评估了我们提出的 HyperMixup：引文网络分类和视觉对象识别。我们还将所提出的方法与图卷积网络以及其他最先进的方法进行了比较。

5.1 引文网络与视觉对象分类

数据集 我们在两个截然不同的任务上评估 HyperMixup 以展示其泛化能力：1) 引文网络分类。遵循 HGNN [4] 的实验协议，我们采用了三个基准数据集——Cora、PubMed 和 CiteSeer [23]。每个节点代表一个具有词袋特征的文档，而文档之间的引用形成了成对边。为了构建超边，我们基于特征相似度应用 K近邻（KNN），将文档分组为代表主题簇的超边。生成的超图关联矩阵随后通过基于度的归一化进行细化，然后输入到 HGNN 架构中。数据集统计数据总结于表 1。2) 视觉对象识别。采用了两个 3D 对象数据集：ModelNet40 [24]（跨越 40 个类别的 12,311 个对象）和 NTU2012 [25]（67 个类别中的 2,012 个对象）。遵循 80-20 的训练-测试划分惯例，我们使用 MVCNN [26] 和 GVCNN [27] 提取多视图特征。超边是通过结合几何邻近度（基于 3D 坐标的 KNN）和特征相似度（CNN 特征空间中的余弦距离）连接对象构建的，从而构建出一种多模态超图表示。

实验设置 实验设置遵循 HGNN[4] 中的设定。所有数据集的超参数设置如下：使用学习率 lr = 0.001 的 Adam 优化器。层数 L = 2，隐藏层维度 F = 16；在增强混合模块中，我们设定 p = 0.45，参数 q 根据数据集进行选择并在 0.72 左右波动，参数 l 则依据数据集的选择确定，从而导致最近邻样本的比例有所变化。在这些实验中，我们还将提出的 HyperMixup 与原始的 HGNN 方法进行了对比。GAT[28] 引入了一种注意力机制，用于动态确定相邻节点对中心节点表示的贡献度，使其成为图神经网络中的代表性模型之一。GraphSAGE[29] 是一种图神经网络框架，它通过邻居采样和特征聚合生成节点表示，并具有利用多种聚合函数的灵活性。GraphConv[30] 受 k 维 Weisfeiler-Leman 算法启发，引入了 k 维图神经网络（k-GNNs），使模型能够有效捕捉多尺度和高阶图结构。HyperGCN[18] 利用超图的谱性质，通过适配 GCN 模型使其直接在超图结构上运行，从而进行半监督学习。基于 HGNN 提出的卷积框架，Hyper-Atten[17] 融入了一种超边到顶点的注意力机制，能够自适应地捕捉每个超边内顶点的不同重要性。实验环境配置如下：Intel(R) Xeon(R) Gold 6254 CPU @ 3.10GHz，36 核，512 G 内存，NVIDIA RTX 3090 GPU。

结果与讨论 在我们的实验设置中，引文网络数据集上的实验结果及对比展示在表 2 中。结果表明，与原始 HGNN 模型相比，我们的 HyperMixup 方法实现了最佳或相当的性能。具体而言，与原始 HGNN 相比，所提出的 HyperMixup 方法在 Cora 数据集上实现了 1.5% 的提升，在 Pubmed 数据集上实现了 1.1% 的提升，在 CiteSeer 数据集上实现了 0.8% 的提升。对于视觉对象数据集，该方法在 ModelNet40 数据集上实现了 0.3% 的提升，在 NTU2012 数据集上实现了 1% 的提升。综合实验表明，经 HyperMixup 训练的 HGNN 实现了卓越的性能和泛化能力，同时也增强了模型对噪声标签和受损拓扑结构的鲁棒性。

5.2 与基于图的增强及基于团扩展的 HGNNs 的比较

为了评估所提方法的有效性，我们将所提方法与成熟的基于图的增强方法 [6, 31] 进行了直接比较，具体做法是将这些方法应用于标准图神经网络以及基于团扩展的超图神经网络（如 HGNN 和 HGNN+），如表 3 所示。

5.3 鲁棒性分析

为了进一步证明我们提出方法的有效性，我们在节点分类任务的不确定性场景下评估了 GCN[32]、HGNN[4] 和 HGNN+[33] 的性能，特别关注诸如缺失值等挑战。具体而言，我们在低标签率（Low Label Rate, LLR）设置下在 Cora 数据集上进行实验，该设置引入了潜在噪声并显著影响分类性能。对于 LLR 设置，我们使用五种不同的标签率训练这些模型：0.025、0.02、0.015、0.01、0.005。测试准确率展示在图 2 中。虽然基线模型的性能随着标签率的降低而迅速恶化，但我们的 HyperMixup 即使在标签可用性极低的情况下也能保持强劲的性能。这证明了 HyperMixup 在处理基于超图的节点分类中的标签稀疏性和不确定性方面具有鲁棒性。

5.4 超参数分析

我们对我们模型中的关键超参数进行了系统的敏感性分析，因为它们的选择显著影响整体性能。与 HGNN 相比，我们提出的方法引入了三个额外的超参数： p p（两组节点特征之间的混合比例）、 q q（节点特征与节点-超边关系特征之间的比例），以及 l l（新生成节点与节点对数量的比例）。在图 3 中，我们在保持另外两个参数处于最优值的同时，单独调整每个参数。通过实验发现，超参数 p p 的合适范围在 0.45 到 0.5 之间，这与我们的初始假设一致。这是因为在使用余弦相似度时，两个节点被视为同等对待。参数 l l 的值显示出一定的波动——生成的节点过多可能会轻微扭曲超图结构，而过少则可能无法增强泛化能力。然而，在这两种情况下性能均未显著下降，表明生成的节点分布与原始数据集分布吻合良好。至于 q q，性能虽有波动，但随着 q q 的增加往往会有所提升。这意味着在混合样本分布中，节点特征的贡献比源自超边的特征更为显著。总体而言，本研究中使用的超参数——作为生成邻域相似样本分布的基础——表现出强大的鲁棒性，并在不同的数据分布中展现了良好的泛化能力。

6 结论

我们提出了 HyperMixup，这是一个超图感知增强框架，旨在系统性地解决节点特征与高阶拓扑约束之间的相互作用。通过将结构引导的节点配对与自适应拓扑重构相结合，我们的方法在生成多样化合成样本的同时保留了超边语义。理论分析表明，HyperMixup 固有地将梯度更新与超边协方差结构对齐，从而针对混合扰动提供了鲁棒性。在引文网络和多模态数据集上的实验验证了它优于基于图的增强方法，特别是在低资源和噪声学习场景中。这项工作建立了 mixup 正则化与超图几何之间的原则性联系，为复杂交互系统中可靠的关系学习奠定了基础。有两个局限性值得进一步研究：(1) 超边协方差对齐的计算开销随超边大小呈立方级增长，这对大型超图的应用构成了挑战；(2) 当前实现假设超图是静态的，而现实世界的交互网络通常是动态演化的。

原文链接：https://neurips.cc/virtual/2025/loc/san-diego/poster/115821

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.