Evolving meta-correlation classes for binary similarity
二元相似性的演化元相关类别
https://www.sciencedirect.com/science/article/pii/S0031320324006228
![]()
![]()
摘要
在机器学习与模式识别领域,二元相关性指标的使用对实现精准预测与建模至关重要。本文提出一种新颖的进化方法,用于在不同应用领域中发现二元相关性指标。该方法引入“元相关性”(meta-correlation)概念——一种表征二元相似性指标类别的参数化公式——并通过进化策略对其进行优化。我们在基于局部拓扑相似性(即图的邻域结构)的链接预测问题中对该方法进行了实验与验证。采用差分进化(Differential Evolution)优化算法,可找出在特定领域中表现最优的进化相关性指标。在多个网络领域开展的实验表明,所发现的元相关性实例在所有实验领域中普遍优于当前最先进的二元相关性指标。该方法能有效探索相关性空间,并找到可适配目标领域的独特模式。此类元相关性类别既可用于拓扑相似性问题,也可用于语义相似性问题,仅依赖局部信息,无需掌握图的全局完整知识。
关键词:进化计算;网络拓扑;复杂网络;链接预测;二元相似性
引言
二元相关性指标(Binary Correlation Indices, BCIs)在模式识别中扮演着重要角色,广泛应用于诸多研究领域,涵盖地质学、生物学等自然科学与生命科学,心理学、经济学等社会科学,以及医学人工智能 [1]、生物信息学 [2] 和社交网络分析 [3] 等新兴领域。
BCIs 用于度量对象或群体之间的相似性,并支持事件预测(例如:蛋白质–蛋白质相互作用、蛋白质结构表达,以及社交网络中的链接预测)。
形式化地:
![]()
![]()
为特定研究领域构建一个有效的二元相关性指标(BCI),通常需经历漫长且反复迭代的过程:首先基于在其他领域已被证明有效的相关性,提出一个经验性假设;随后通过实验对该假设进行验证、评估与修正,直至获得理想结果。索伦森–戴斯指数(Sorensen–Dice index)即为一例——该指标于20世纪40年代被独立提出,最初用于评估生态群落的相似性,此后已被广泛应用于计算语言学、医学图像分割 [4] 等多种场景。最初,Dice 指数被定义为:针对两个不同地点 x x 与 y y,评估其各自所拥有的物种集合(设共有物种集为 F F)之间的相似性。
![]()
![]()
BCI 的构建过程引发若干重要的研究问题,亦构成本文的研究目标,包括以下几点:
是否可能系统性地改进 BCI 的构建与领域适配过程?
是否可从已知关系出发启动这一过程?
是否能为特定领域发现新的、最优适配的相关性指标?
不同度量方法在各类领域中表现各异,迄今尚无单一 BCI 能全面捕捉各类链接形成模式的多样性 [5]。因此,本文采用的策略是:构建元相关性公式(meta-correlation formulas)——用以表征具有相似语法结构的二元相似性度量类别,并通过优化其参数系数,为特定领域求得最优的 BCI。
因此,本文的主要贡献如下:
•元相关性(meta-correlations)的提出:一种参数化公式,可表征一类二元相似性指标,并涵盖所有基于局部邻域(无需图的全局完整知识)的已知指标;
•元相关性构建框架:所提出的方法采用进化优化算法,从元相关性出发,为给定领域发现新型相关性指标;
• 本方法借助进化算法,使元相关性能够自适应不同领域。
相关工作
本文方法提出将元相关性适配至特定领域。矩阵分解技术(常通过对网络节点的PMI矩阵进行分解 [6],或借助DeepWalk对其进行近似 [7])同样利用了相关性指标的概念。然而,与直接使用现成相关性度量不同,本研究提出定义元相关性:通过差分进化算法(Differential Evolution, DE)[8] 对一组参数化实例(每个实例代表一种新的相关性指标)进行演化,从而发现面向特定领域的新相关性指标。
在链接预测中,监督学习方法的使用通常受限于其可解释性不足,难以刻画网络的演化动态。此前仅有的一项尝试对相关性指标进行适配的工作 [9] 采用了16种当前先进指标的线性组合,并借助CMA-ES算法在Twitter数据上进行链接预测。该方法的优势在于能透明地识别出作为良好预测因子的指标,并可能揭示引导网络演化的机制。然而,它也存在局限:一是假设最优指标组合为线性形式;二是依赖需全局图知识的指标(如Katz指标),这对现实世界的大规模网络而言往往难以实现。
本文提出一种替代方案:通过进化算法发现新型公式(即我们元相关性的具体实例),使其能自适应任意类型的数据集,包括具有异质模式的数据集 [10]。该方法聚焦于局部度量,即便在小型网络中也能避免计算不可行性。与 [9] 相比,我们的元相关性方法不仅克服了其局限性,还将适用范围拓展至更广泛的网络结构与数据集——涵盖社交网络、生物网络与战略物流网络等多种情境与环境下的多样化模式。
链接预测领域的其他研究还包括深度生成网络 [11] 与进化算法 [12] 的应用。而本文方法的独特之处在于:通过演化相关性指标实现对任意领域的自适应——这一组合在以往研究中尚未被探索。
基于深度学习的方法通常采用图神经网络进行新链接预测 [13],其常见输入特征包括:从原始网络或派生网络中学得的节点嵌入 [7],以及传统链接预测指标与图度量的组合 [14]。但此类方法的主要缺陷在于缺乏可解释性。另一些关于网络中语义与拓扑关系的研究,则侧重于通过学习逻辑规则进行归纳推理以预测缺失链接。例如,Topology Aware CorrelaTions(TACT)模型 [15] 将每一对关系归入不同拓扑模型,并提出一种关系相关性网络,以学习各模型对归纳式链接预测的重要性。与聚焦语义信息的统一模型不同,本文方法具有显著区别:例如广义关系学习(Generalized Relation Learning, GRL)[16] 等模型需为每个节点提供元数据,而本文方法仅利用纯粹的拓扑相关性,因此可根据网络的隐式结构,灵活适配语义网络与拓扑网络。
最后,在缺失值估计问题背景下,文献中已有若干方法通过将传统链接预测问题分解为更小子问题来扩展其规模 [17, 18]。而本文方法与之有本质不同:它不仅适用于链接预测与缺失链接问题,还可推广至任何需通过演化二元相关性以实现跨域适配的问题场景。
2.1 链接预测与拓扑相似性
链接预测(Link Prediction, LP)旨在预测网络的演化动态,评估网络中实体(节点)之间潜在的新连接。LP 的一种常见方法是:计算所有非相连节点对之间的相似性(即图上的邻近性),进而预测未来最可能出现的链接。在此相似性排序中,排名靠前的节点对代表更有可能形成连接的关系。用于计算相似性的时刻 t t的网络状态称为训练网络,而由该排序导出的信息则在测试网络(即同一网络在未来时刻 t + 1 的状态)上进行验证。
相似性概念是该问题的核心:文献中存在多种定义,主要包括语义相似性与拓扑相似性。前者依据节点自身的特征(主要是文本或数值型元数据)评估相似性——直观而言,两个节点的特征值越接近,其相似性越高;后者则关注图的结构及节点在网络中的位置,分析范围可限定于深度为 k 的局部邻域,也可涵盖整个网络。典型例子包括广泛使用的 Jaccard 指数 [19] 与 Adamic-Adar 指数 [20]。此类拓扑方法可应用于复杂网络的多种场景,例如病毒与细菌传播模型。
每种现有的相似性指标均基于同一组指标(如共享/非共享特征——即邻居——的数量)对每一对对象进行计算。然而,不同指标的权重设定取决于其最初设计所面向的具体领域。针对链接预测任务,已有多种度量被提出用于预测排序 [21]。形式化地:
![]()
链接预测在诸多现实应用中具有重要意义:例如,在社交网络与合作网络中,可用于预测未来最可能建立连接的节点;在商品–消费者网络中,可用于生成销售推荐;在合著网络中,可辅助作者消歧或专业匹配。文献中针对链接预测(LP)提出的最常见方法是 [19]:通过一个排序函数 R ( x , y )
对每条潜在链接 ( x , y ) 进行评估,以估计该链接在未来生成的可能性;随后对所有链接按得分排序,所得边列表最终供链接预测应用使用,或与真实标签(如测试集)进行比对评估。
文献中近期两篇具有影响力的综述 [19, 21] 为不同相似性度量在多样化领域(从社交网络到生物网络、地理网络)的链接预测应用提供了基准。本文则对所提出的元相关性与最常用的度量进行了系统性比较。
我们已开始探索基于拓扑相似性度量的创新链接预测解决方案:通过扩展至二阶邻域(depth-2 neighbourhood),并利用共同邻居对结果进行排序,从而改进传统拓扑相似性方法。在对多种度量、算法、遍历策略及实际应用场景进行大量比较后,我们证实:拓扑相似性与语义相似性均可服务于相同应用——即拓扑相似性度量可映射用于语义领域,反之亦然 [5]。我们在前期关于进化计算技术的研究 [22] 中已表明:基于相关性的相似性度量非常适合作为演化对象,用于评估节点未来生成新链接的可能性;且差分进化(Differential Evolution, DE)算法在此问题上表现优异。
本文基于前期工作成果,以 DE 作为基础进化算法,进一步深化研究:深入探究二元度量,并分析其在元相关性框架下最优的演化方式。最终得到一类新型演化的元相关性指标,可涵盖当前最先进的二元相关性指标(BCI)实例。我们对两类元相关性(每类采用两种不同交叉算子)的实验结果,与它们所涵盖的15种指标、文献中广泛使用的9种拓扑度量,以及一个随机预测器进行了对比。元相关性在10个数据集(5个社交网络、3个生物网络、2个含地理约束的网络)上进行测试,与所涵盖指标相比,其性能以平均精确率(Precision)为评估标准;随后,以AUC为评估指标与适应度函数,采用最大值与平均值作为聚合方式,将元相关性与当前最先进的拓扑链接预测度量进行比较。
2.2 二元相似性
二元相关性指标(Binary Correlation Indices)是刻画生物学、医学、经济学、社会学等诸多领域中各类对象特性的有力工具。文献中已积累了大量此类指标 [23],充分证明了其在科研中的有效性。例如,Dice 指数(又称 Sørenson 指数或 Czekanowski 指数)最初在植物学中被提出,用于研究生态群落(见第1节),此后已被拓展应用于医学图像分割、计算机词典学等领域,用以评估主语–动作–宾语结构间的语言关联性。
![]()
现有相关研究文献 [9] 提出了一种具有类似进化步骤的方法,但其依赖于线性组合,存在如引言所述的局限性。相比之下,我们的方案可直接与所有基于邻域的二元相似性度量(如2.1节所述 [21])进行比较——这些度量均被用于链接预测,且同时适用于拓扑相似性与语义相似性任务。
所提方法
先前研究结果 [22] 已证实:二元相似性度量可用于拓扑链接预测任务。第3.1节将阐述如何将二元相似性指标映射为链接预测中的拓扑指标;第3.2节与第3.4节则给出元相关性(meta-correlations)的定义,并说明其基于差分进化(Differential Evolution, DE)算法的演化方案。
3.1 拓扑相似性到二元相似性的映射
本方法的一个基本出发点是:证明现有拓扑指标可被重新表述为二元相关性形式。
![]()
尽管该定义形式简洁,却具有重要推论:它实现了拓扑指标与二元相关性指标之间的双向映射。例如,考虑 Jaccard 指数 [24] 的拓扑形式(见公式 (2)):
![]()
将拓扑特征映射为二元特征的积极影响是双重的:若干用于链接预测的拓扑指标原本以节点度和邻居集合 Γ 表示,现均可被重新表述为二元相关性指标;例如,经本文提出的重构方法,共同邻居(Common Neighborhood)可简化为:
另一方面,原本并非为拓扑相似性设计的相关性指标,也可通过重新表述而应用于网络场景。任意二元相关性指标只需适当地计算参数 a , b , c , d
,即可用于链接预测(LP)问题。
3.2 元相关性指标
考察表1前两列所列的二元相关性指标,我们发现:许多指标可被视为一种基本语法结构的变体——即相关因子 a , b , c , d的线性与非线性组合之间的比值;这些组合在乘性系数和所用运算符(如加法、减法、乘法)方面存在差异。基于这一观察,可定义元相关性指标(meta-correlation index)的概念。
![]()
![]()
![]()
3.3 元相关性的设计
本文设计了两类主要的元相关性,旨在涵盖文献中已知的二元指标集合,以及链接预测中使用的拓扑指标。
设 u u 与 v v 为网络中的两个节点,其一阶特征包括:
![]()
公式 (11) 与公式 (12) 展示了两种元指标的表达形式;表1列出了部分被涵盖的指标及其对应的参数赋值。
![]()
3.4 用于链接预测的差分进化
我们的总体目标是:针对链接预测(LP)任务,优化相关性指标的预测能力——通过定义二元相关性元指标,并为其寻找适配特定领域的参数配置。差分进化(Differential Evolution, DE)作为一种稳健且被深入研究的进化计算算法 [25],非常适合用于演化元相关性的系数向量。因此,本文所提出的方法将采用差分进化算法,对一组元相关性指标实例构成的种群进行演化,同时优化它们在链接预测任务中的性能表现。
![]()
![]()
针对链接预测任务、适配于元相关性指标演化的连续型差分进化算法结构,如伪代码 Algorithm 1 所示,其中Dimensions表示元相关性指标参数的维度(即参数个数)。
![]()
![]()
3.5 差分进化策略与种群初始化
在差分进化中,选择个体构建变异向量的策略,以及决定在哪些维度上执行交叉操作,是影响性能的关键决策。本文考虑了两种差分进化变异与交叉策略变体,依据标准DE命名规范,分别简记为:
- RAND/1/EXP:指数型交叉策略(EXP)
- RAND/1/BIN:二进制交叉策略(BIN)
两种变体中,用于构建变异向量的个体均随机选取。
![]()
差分进化的一个已知问题是:当某个参数值出现完全或高度一致时,种群多样性易丧失。对于本文的元相关性实例而言,该问题尤为突出——因其涵盖的指标往往共享相同的参数取值。因此,通过在初始种群中引入经噪声扰动的个体,可有效缓解此问题。
实验:数据与设置
本节介绍并说明实验所用数据集、预处理阶段及实验设置。
4.1 数据集
为便于比较,我们在10个广泛用于链接预测(LP)实验、并被近期高影响力综述文献 [19, 21] 所引用的数据集上测试了所提框架。所选数据集涵盖三类重要领域:
- 社交数字通信网络
(如社交网络、电子邮件交互、合著网络);
- 生物网络
(如蛋白质–蛋白质相互作用、连接组、简单生物体(如线虫)的神经连接网络、动物社群);
- 地理网络
(受地理因素制约的物理通信网络,如交通网络、路由器网络)。
社交数字通信网络:
- CA-GrQC
[26](GRQ)与Netscience[27](NSC)是两个经典合著网络,分别包含1993–2004年间广义相对论与量子宇宙学领域,以及网络科学领域的论文合作关系;
- Email-eu-core
[26, 28](EUC)为某欧洲机构员工间的电子邮件通信网络;
- Ia-radoslaw-email
[29](RAD)为一家制造企业员工间的邮件往来网络;
- PetsterHamster
[30](PET)刻画了 Hamsterster.com 社交平台上用户间的友谊关系。
生物网络:
- Macaque [31](MAC)为恒河猴大脑皮层的神经连接映射;
- 蛋白质–蛋白质相互作用网络(PPI)源自文献 [32];
- C.Elegans [33](CEL)为秀丽隐杆线虫的完整神经网络。
地理网络:
该类数据集中,地理因素对网络结构具有决定性影响。
- USAir [34](USA)为1997年美国航空航线网络,虽因航程受限时新建航线相对便捷而使地理约束有所缓解,但仍呈现类似现象;
- Football (FOB)为美国某橄榄球联盟的地区锦标赛比赛关系数据集
4.2 预处理阶段
数据集需经过预处理阶段:有向网络被转换为无向网络(当至少存在一条原始有向边时),并移除自环和孤立节点,因为它们对基于直接邻居的相关性指标没有任何贡献。
![]()
![]()
4.3 差分进化(DE)参数设置与运行配置
最大进化代数(MaxGenerations)经实验设为300。图1以PPI数据集为例,采用元相关性指标₂展示了进化过程的动态变化情况;每条曲线对应一次折叠(fold)上的演化过程,所采用策略为DE RAND/1/BIN,并从中10次折叠中选取了5次予以展示。可以看出,相关性空间中存在若干平台区域(plateaus),即适应度函数返回相同得分的区域,从而减缓了进化过程中的性能提升。针对其他数据集、相关性指标及交叉策略组合也进行了实验,均表现出类似行为:绝大多数情况下,从第一代至最后一代性能提升显著;但当进化代数超过300时,适应度不再呈现可观测的进一步改善。
![]()
突变缩放因子F与交叉概率参数CR分别设为0.7和0.5,该设定位于取值范围 ∈ [0, 2]、 ∈ [0, 1]之内,并符合我们对适应度函数的预期假设。
对于₁,种群规模设为27个个体,其中初始种群包含9个已知可被₁涵盖的经典指标个体,其余18个个体通过在这些基准指标基础上添加噪声扰动生成。对于₂,种群规模为24个个体,其中6个初始个体对应已知可被₂涵盖的经典相关性指标,其余18个同样通过噪声扰动生成。
在候选适应度函数中(参见第3.4节),经系统性测试,AUC(曲线下面积)被选定为最终使用的适应度指标——该选择源于前期实验中AUC展现出的主导性性能优势。
实验结果
本节展示了实验结果。关键数据以表格与图表形式呈现。所得精度(Precision)与AUC结果,均与当前最先进的排序相关性指标进行了对比。同时,对所发现的元相关性(meta-correlations)进行了讨论。
5.1 元相关性的精度
为评估精度,表3–6右侧各列展示了每种演化所得的元相关性变体——即1-、1-、2-与2-——在各数据集上相对于两类基准指标所实现的精度提升值:
![]()
![]()
![]()
第一类为被其涵盖(subsumed)的经典指标(见表中第一区块);
第二类为链路预测领域中常用的标准拓扑相关性指标(见表中第二区块)。
表中每个条目均表示精度提升量,即:对应行中该指标所得精度值,与每一(元相关性,DE交叉策略)组合下十次演化所得相关性在测试集上精度的平均值之间的差值。
各指标缩写如下:3WJaccard(T 3WJT)、 Sokal Sneath 1(T SS1)、 Sokal Sneath 2(T SS2)、 Rogers Tanimoto(T RT)、 Faith(T Fa)、 Sokal Sneath 3(T SS3)、 Kulczynski 1(T Ku1)、 Gower Legendre(T GL)、 Cosine(T Co)、 Sorensen(T So)、 Mountford(T Mo)、McConaughey(T McC)、 Johnson(T Jo)、 Kulczynski 2(T Ku2)、Common Neighbours(CN)、Jaccard(Jacc)、Preferential Attachment(PA)、Sorensen(So)、Hub Promoted(HubP)、Hub Depressed(HubD)、Leicht Holme Newman(LHN)、Random(Rnd)。
在表8中,报告并比较了Netscience数据集上各参考指标的真阳性绝对数量与精度值,并与表7中每个(元相关性,DE交叉策略)组合的平均值进行了对比。所有元相关性的提升均显著,尽管其绝对真阳性数值的提升受限于边数。
![]()
![]()
我们可以观察到,几乎所有的增量均为正值,即演化所得的元相关性指标表现优于原始相关性指标,且超越了二进制或指数型DE突变/交叉策略。最大的偏差可归因于部分原始指标表现较差。因此,值得关注的是最小差异值——它表示最佳表现的参考相关性指标与演化指标平均表现之间的增量。除Football数据集外(该数据集呈现大部分负值),所有数据集上均可观察到对被涵盖指标的性能提升,其幅度从Netscience数据集上的约2%最低提升,到同一数据集上约50%的显著提升不等;而在Ia-radoslaw-email数据集上,若干指标的提升约为44%,此处演化相关性表现出最高的最小增量预测性能。在进化阶段,系统能有效引导搜索朝向相关性空间中适应度最佳的区域,同时排除表现最差指标的贡献。可以观察到,在Netscience、PPI、Hamsterster和Ia-radoslaw-email数据集上,₂-BIN组合(即元相关性₂与二进制交叉策略)排名首位;而在CA-GrQc、Macaque、UsAir、C. Elegans及Email-eu-core数据集上,₂-EXP表现更优。总体而言,₂似乎更适合该过程,因为除所选交叉策略外,其演化所得的相关性实例始终优于₁实例。如前所述,Football数据集在₁和₂上均呈现轻微下降(即<1×10⁻²);而₂在采用EXP交叉策略时仍能改善几乎所有指标的性能,但在此情况下差异微小。关于拓扑指标第二区块,
更大的差异出现在Netscience数据集上,其中发现的相关性在Preferential Attachment指标上实现了约50%的提升。在Ia-radoslaw-email数据集中,发现的相关性在Hub Promoted和LHN指标上获得了约40%的提升。这两种指标属于原始测量方法可能表现较低因而潜力更高的情况。Preferential Attachment和Hub Promoted均更倾向于预测已拥有大量连接的节点之间形成新链接(第一种情况中的偏好节点,第二种情况中的枢纽节点)。这一特性并非适用于所有数据集:在测量方法表现较差的情况下,我们的指标更有可能超越其预测能力。
尽管所发现的相关性在系数值上有所不同,但它们在₁和₂下均实现了相似的性能,表明相关性空间中存在具有相似适应度值的局部极大值。图2展示了每个数据集演化的详细结果:每个箱形图描绘了针对某一(元相关性,DE交叉策略)组合在十次运行实例(每次对应一个折叠)中测试集_上的精度值;箱体中间线表示中位数,十字符号表示均值。箱体底部和顶部线分别代表第一四分位数₁和第三四分位数₃,触须延伸至数据集的最小值和最大值。孤立点表示离群值,即距离₁或₃超过1.5倍四分位距(IQR=₃−₁)的数据点。我们观察到多数情况下表现相似,仅有少数案例显著高于或低于中位数,例如Ia-radoslaw-email数据集,以及程度较轻的Netscience数据集。
![]()
5.2 发现的相关性
所采用的进化方法针对特定领域对元相关性进行了优化。对于Netscience(NSC)数据集,最优排序相关性为 ₂(, )ΠNSC,其对应的优化元参数向量如下:
保留至小数点后两位,由此得到以下公式:
![]()
![]()
值得指出的是,公式(14)至公式(19)中的相关性此前从未在文献中出现过,均由本文所提出的进化式领域自适应与优化过程所发现。
5.3 元相关性的 AUC
我们将各类元相关性的 AUC 与近期一篇颇具影响力的链路预测综述文献[19, 21]中所列举的最常用拓扑指标的 AUC 进行了比较(见表9)。
![]()
每列表示一个不同的数据集;第一区块列出了最常用的拓扑二元相关性指标,第二和第三区块则记录了我们提出的两类元相关性指标。元相关性的 AUC 结果基于对给定领域数据集相同划分下进行的10次进化运行所得,针对四种(, 策略)组合(即 ₁-EXP、₁-BIN、₂-EXP、₂-BIN)分别计算;结果按聚合函数分为两类呈现:取各次运行中最优/最大值(BEST)的 AUC,以及取平均值(AVG)的 AUC。基准拓扑指标的性能亦在同一数据划分上进行评估。表中凡超过所有基准 AUC 的数值均加粗显示。
大量加粗数值清晰表明元相关性方法具备优异性能。BEST 聚合结果显示:即便在相关性空间中存在较大方差、从而显著影响平均性能的情况下,某些元相关性在所有数据集上仍能超越表现最佳的拓扑指标。在部分数据集(如 C. Elegans 和 Football)中,我们的两类元相关性均优于基准指标;在 PetsterHamster 和 Macaque 数据集中,多数元相关性组合达到或超过了基准指标性能;在 UsAir 数据集中,无论采用 EXP 还是 BIN 策略,₂ 的表现均优于 ₁。总体而言,并不存在一类元相关性始终优于另一类;但 ₂ 通常展现出更高的 AUC:在每一个数据集上,由 ₂ 演化得到的元相关性均优于文献中用于链路预测的现有最先进拓扑相似性指标——这一结论与第4节中关于精度(Precision)相对于其所涵盖相似性指标的提升结果一致。因此,我们可以得出结论:所演化的元相关性实例,其性能优于当前链路预测文献中主流的拓扑相似性度量,且展现出显著的领域自适应能力。
结论
本研究提出了一种新颖且具创新性的进化方法,用于生成面向特定领域的二元相关性指标。该方法利用优化算法探索相关性类别,并引入参数化元相关性(parametric meta-correlations)的概念——当参数取特定值时,这些元相关性可涵盖诸多已知的二元指标。这一特性使我们得以在相关性类别内部开展演化与搜索。我们以链路预测为应用场景,对所提方法的有效性进行了实验验证。链路预测在拓扑背景下使用二元指标,通过利用局部网络结构信息来评估节点间的相似性,并对潜在链接形成的概率进行排序。
本文方案在两类元相关性₁与₂上进行了测试,二者均可涵盖大量经典二元相关性指标;并采用差分进化(DE)的两种变体——BIN 与 EXP——对其进行演化优化。演化过程中,以 AUC 评估指标作为适应度函数。该方法在三类链路预测领域(社交数字通信、生物网络、地理网络)共计十个数据集上进行了测试。结果表明,相较于近期具有影响力的研究所列举的拓扑指标及被涵盖指标,该方法能够发现性能更优的二元指标实例。
实验显示,在精度(Precision)方面,相对于被涵盖指标及其他常用拓扑指标,本方法的提升幅度从平均最低约2%(如 CA-GrQc 数据集)至最高约50%(如 Netscience 数据集)不等;在 Ia-radoslaw-email 数据集中观察到约44%的显著最小提升。Football 数据集中出现较多千分位级别的负值(即性能轻微下降),可归因于该网络链接总数较少——单次预测结果即代表较大比例,因而波动更显著。在四种(元相关性,策略)组合中,₂ 似乎更适于探索二元相关性空间:无论采用 BIN 或 EXP 策略,基于 ₂ 演化所得的相关性实例始终优于基于 ₁ 的实例。对于 ₂,EXP 策略在五个数据集上表现更佳;而 BIN 策略仅在四个数据集上对 ₁ 取得最优结果。
在 AUC 指标上,所有演化所得的元相关性在绝大多数数据集(包括 Football)上均超越了当前最先进的基准指标。这凸显了演化所得元相关性卓越的跨领域泛化能力,及其对特定领域的强自适应性。
因此,本文提出的研究问题(见第1节)可回答如下:
本研究引入的框架——即对元相关性指标进行进化计算——是一种系统性开发与适配二元相关性指标的恰当方法。
元相关性这一概念,因其能够涵盖并统摄现有相关性关系,使得演化过程得以从已确立的知识基础出发。
在不同领域开展的实验结果表明,发现性能优于当前最先进指标的新相关性是切实可行的。
综上所述,本文所提出的、用于生成领域适配型二元相关性指标的进化方法已得到验证,并在链路预测任务中展现出优于现有拓扑度量的性能。与传统方法(例如对已有指标的线性组合权重进行演化)以及其他黑箱方法(如深度学习)相比,本方法具有明显优势:它不仅能发现全新的相关性指标,还通过显式提供演化所得优化元相关性实例中各参数的权重,显著提升了模型透明性,从而为理解相关性结构及其潜在机制提供了宝贵洞见。
此外,本方法具备广泛的应用潜力,可拓展至链路预测以外的诸多领域;例如在生物学中,可用于揭示疾病、症状与治疗之间的潜在关联。
原文链接: https://www.sciencedirect.com/science/article/pii/S0031320324006228
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.