![]()
导语
高维数据往往蕴含低维流形结构,如何在降维过程中同时保持类簇可分性、拓扑结构一致性与计算可伸缩性,是流形学习长期面临的核心挑战。尽管 t-SNE、UMAP 等方法已在可视化与表示学习中得到广泛应用,但它们在大规模数据场景下仍存在类簇拥挤、拓扑失真及计算成本高等局限。
2025年9月发表于 Nature Machine Intelligence 的这项研究提出了一种采样驱动的可伸缩流形学习方法 SUDE (Scalable manifold learning that enables Uniform and Discriminative Embedding)。该方法通过均匀地标采样构建全局骨架,在低维空间中引入重尾概率分布以增强类簇分离,并结合约束局部线性嵌入实现非地标点的高效映射。大量合成数据、真实高维数据、生物单细胞数据及心电信号实验表明,SUDE在类簇区分能力、结构保留与计算效率之间实现了更优平衡,为大规模流形数据分析提供了一种可扩展的新范式。
关键词:流形学习(Manifold Learning)、降维、可伸缩算法(Scalability)、地标采样(Landmark Sampling)、类簇结构发现(Cluster Structure Discovery)、多维数据可视化、重尾概率分布(Heavy-tailed Probability Distribution)
珞珈时空计算丨来源
![]()
论文题目:Sampling-enabled scalable manifold learning unveils the discriminative cluster structure of high-dimensional data 论文链接:https://www.nature.com/articles/s42256-025-01112-9 发表时间:2025年9月10日 论文来源:nature machine intelligence
内容概括
流形学习 (Manifold Learning) 旨在揭示高维空间中复杂非线性流形的内在低维结构,将数据嵌入到聚类友好的低维特征空间,缓解维度灾难带来的负面影响。尽管现有技术 (如t-SNE和UMAP) 已在诸多领域广泛应用,但对于类簇的区分能力相对有限,难以保留连续的拓扑结构,且计算的可伸缩性存在不足,限制了其在大规模流形数据处理场景下的适用性。针对上述问题,论文提出一种基于均匀地标采样与约束局部线性嵌入的可扩展流形学习方法SUDE。它通过地标采样选取部分重要样本作为地标点进行嵌入学习,确定高维数据在低维空间的主要骨架,再根据非地标点与地标点的局部线性关系将其快速嵌入至低维空间,极大提升了流形学习的伸缩性。此外,论文提出一种重尾低维概率分布,增强了类簇之间的分离性,并通过对非地标点嵌入施加最邻近距离约束,缓解了欠采样引发的脏簇问题。
研究背景
维度
英国著名小说家Edwin Abbott在他撰写的《平面国》(Flat Land) 中构想了一个由几何形状构成的等级社会,居民是各种几何图形,比如女性是简单的线段,士兵和底层劳动者是等腰三角形,贵族是六边形及以上,边数越多,等级越高,他们通过触摸、视觉来识别彼此。主人公正方形一次机缘巧合之下遇到了一位来自三维空间的使者,得以游历三维世界,游历归来后,他因为传播三维世界的真理被当作疯子关进监狱,可见低维生物依然是难以理解高维空间。我们以荷兰画家Maurits Cornelis Escher的经典画作《蜥蜴》为例,如图1所示,假设在二维平面空间密铺着无数只蜥蜴,这时候存在一只三维蜥蜴,它站在一个正十二面体上,那么它该如何给二维蜥蜴描述正十二面体的几何形态呢?
![]()
图1 蜥蜴 (来自纪录片《维度:数学漫步》)
第一种方法,让三维几何体慢慢穿过二维平面,让蜥蜴通过穿过的截面形状来想象它的三维结构,但是随着这个几何体的面数不断增加,二维的截面形状也越来越复杂,对于三维结构的理解变得愈加困难。

图2 根据几何体穿透二维平面的截面理解几何形态
第二种方法,通过球极投影把三维几何体的面投影到二维平面,并通过滚动球体来观察投影的变化,从而理解高维几何体结构。因此,投影是用于理解高维数据分布结构的重要降维方法。

图3 利用球极投影理解三维几何体形态
维度灾难
降维除了用于高维数据可视化之外,还是解决维度灾难(Curse of Dimensionality) 问题的主要途径之一。维度灾难指的是模型的分类或聚类精度随着数据维度的增加呈现先上升后下降的趋势 (图4)。导致维度灾难的一个主要原因在于数据在高维特征空间的分布存在严重的稀疏性,这使得模型表征能力不足,而容易引发过拟合问题。同时,聚类与分类任务中常用的相似性度量存在距离趋同(Distance Concentration) 现象,即距离随着维度增长逐渐趋于相同取值,丢失了相似性度量的可区分性,使得相似性度量失效。此外,高维数据往往呈流形分布,流形效应(Manifold Effect) 使得一些常见的聚类模式 (如边界模式和内部模式) 在高维空间失效,而且大量的冗余特征不仅影响聚类精度,也极大地增加存储和计算成本。
![]()
图4 维度灾难问题
流形
高维数据往往呈现流形分布,即数据的内在维度低于特征维度。在数学上,流形指的是局部同胚于欧式空间的豪斯多夫空间,局部具有欧氏几何性质 (图5)。同胚可以想象为“弹性变形”,允许空间被拉伸、弯曲或压缩,但不允许切割或粘连。一卷卫生纸就是一种流形,把它展开可以平摊成一个二维平面空间,而不影响它原先的拓扑结构。对于高维数据点而言,它们往往分布在复杂的非线性流形上,彼此交织缠绕在一起,直接在高维空间对其进行分类或者聚类难度较大。
![]()
图5 流形示意图
流形学习
为了实现降维,传统线性降维方法如PCA通过对数据进行线性变换提取主要特征,虽然计算高效但无法有效捕捉非线性结构。流形学习通过保持数据间的局部几何关系 (如邻接拓扑结构或测地距离) 实现非线性降维。2000年在《Science》上背靠背发表的等距特征映射Isomap和局部线性嵌入LLE两种方法是流形学习的开山之作。前者用测地距离替代欧氏距离进行映射,后者通过局部线性重构关系保留邻域结构,但这两种方法无法保证类簇间的分离性,造成低维嵌入的拥挤问题。
![]()
图6 t-SNE原文及作者
Meta AI首席研究科学家Laurens van der Maaten与诺贝尔奖物理学奖获得者Geoffrey Hinton教授在2008年共同提出了流形学习的革命性工作t-SNE (图6),采用概率逼近策略来实现数据在原始空间和嵌入空间的结构一致性,并通过两种不同概率分布函数达到类簇分离的效果 (图7)。由于t-SNE涉及到密集的矩阵运算,计算开销巨大。Laurens van der Maaten将t-SNE的优化问题看作是多体 (N-body) 引力问题,采用Barnes-Hut算法来实现快速梯度计算,但是Barnes-Hut-SNE (BH-t-SNE) 算法只能实现二维或三维的嵌入。2018年提出的均匀流形近似与投影UMAP是流形学习的又一里程碑式的方法,它采用交叉熵 (Cross Entropy, CE) 代替 KL 散度作为损失函数,并通过随机梯度下降法加速收敛过程。UMAP已成为近几年最受欢迎的流形学习方法,在诸多领域取得成功。尽管如此,UMAP在处理复杂数据分布时依然存在拥挤问题,且计算效率仍有提升空间。
![]()

图7 t-SNE原理示意图
方法介绍
概述
本文提出一种基于均匀地标采样与约束局部线性嵌入的可伸缩流形学习方法SUDE,如图8所示,它主要由三个阶段构成,即地标采样 (Sampling)、嵌入学习 (Learning) 和非地标嵌入 (Incorporating)。在第一阶段,SUDE从原始数据点中采样部分关键点作为地标点,将这些地标点输入到嵌入学习阶段,通过迭代优化得到地标点的低维嵌入。最后,利用约束局部线性嵌入确定非地标点在低维空间的坐标,生成最终的低维嵌入。
![]()
图8 SUDE总体流程图
枣糕采样
地标采样的核心在于如何保证采样得到的地标点与原始数据点的分布一致性,为此本文提出枣糕采样 (Plum Pudding Sampling, PPS),其命名源于PPS采样结果神似一块枣糕,地标点类似于“枣子”嵌入在原始数据的“蛋糕”当中。考虑到局部高密度点具有重要的拓扑信息,PPS先将所有数据点按照反向最近邻 (Reverse Nearest Neighbors, RNN) 的大小降序排列,因为RNN能够度量样本点局部密度,高RNN值的点往往是数据中的枢纽点,包含重要的拓扑结构信息。如图9所示,每次循环中,选择RNN排序后队列中第一个点作为地标点,新增到地标点集合当中,并将其 KNN对象从点队列中移除,添加到非地标点集。如此循环直至队列中没有任何剩余点,则完成地标采样。PPS通过唯一参数k1控制采样率,k1越大采样率越低。
![]()
图9 SUDE总体流程图
本文采用RNN的原因在于它能够描述节点在图网络中的中心性,如图10a所示,随着维度升高,RNN与网络的介中心性Betweenness呈现更显著的线性相关。而之所以按照RNN降序排列采样地标点,是因为这样得到的地标点在RNN和Betweenness的分布上与原始数据更加一致 (图10b,c,详见原文附件Supplementary Note 7)。
![]()
图10 优先选择枢纽点作为地标的重要性
早期聚合
当类簇之间的距离较近且采样率较低时,可能会出现欠采样 (Undersampling) 问题。如图11所示,随着地标点变得稀疏,原始数据中类簇的凝聚性逐渐丢失,使得戴维森堡丁指数DBI上升且轮廓系数SC下降,意味着不同类簇的区分度下降。
![]()
图11 欠采样问题
为了缓解欠采样问题,SUDE在构建高维概率时通过早期聚合 (Early Aggregation, EA) 策略维持它们在原始数据中的强关联性。EA利用地标点在原始数据中的共享最近邻 (Shared Nearest Neighbor, SNN) 来度量彼此的关联程度,根据不同的关联程度拉近它们在采样空间的距离,以保留类簇在原始数据中的区分度。
对数低维概率分布
t-SNE和UMAP采用学生t分布构建点对之间的低维空间相似度,但是对于类簇的分离能力有限。为此,本文提出一种对数概率分布
如图12所示,相比学生t分布,它是一种更加重尾的分布,能够使得在高维空间距离较近的点对在低维嵌入中离得更近,而使得高维空间距离较远的点对在低维空间被推得更远,从而实现类簇的有效分离。通过构建的高维低维概率分布,采用动量梯度下降确定地标点的低维坐标。
![]()
图12 对数低维概率分布
约束局部线性嵌入
在获得地标点的低维坐标之后,需要将非地标点快速嵌入至地标点确定的低维空间。利用LLE计算非地标点与最邻近地标点的局部线性关系可用于确定低维空间中非地标点的合适位置。然而,对于一些类簇边界点,它们的最邻近地标点可能属于不同的类簇,并且彼此相隔较远,仅通过局部线性关系往往会被嵌入到类簇之间的间隙中,形成脏簇或噪声,这种现象在采样率较低时尤为显著。因此,本文提出了约束局部线性嵌入 (Constrained Locally Linear Embedding, CLLE) 算法,它利用 LLE 重构非地标点与最邻近地标点线性权重的同时,引入了与最邻近地标点的距离约束。
实验分析
地标采样有效性验证
为了验证PPS方法的有效性,本文在两个人造数据集上与随机采样RS、剪枝生成树PST和最大最小采样MMS三种采样基准进行对比实验。如图13a所示,PPS能够生成分布更均匀的地标点,而且在聚类中心偏移 (Offset Distance Of Centroids, ODOC)、聚类规模一致性 (Congruence of Cluster Size, CCS) 和计算伸缩性三个维度均优于对比方法 (图13b-d)。此外,本文还设计了一个五维数据集 (图13e),它由三个彼此正交的圆环构成,可以发现PPS对于数据的全局结构保留得更好,能够获得更高的一致性系数 (Congruence Coefficient, CC),且随着采样率降低 (k1增大) 更加鲁棒 (图13f)。从图13g的嵌入可视化结果来看,SUDE更好地保留了圆环的形态结构和彼此连接的拓扑关系。
![]()
图13 在人造数据集验证PPS有效性
真实高维数据集有效性验证
本文在12个真实的高维数据集上对比了SUDE与三种传统流形学习方法 (BH-t-SNE、UMAP和TriMap) 以及两种深度学习方法 (TopoAE和P-UMAP) 的性能,采用五种评价指标:KNN分类精度 (knnACC)、SVM分类精度 (svmACC)、K-means聚类精度 (clusACC)、一致性系数CC和KNN召回率 (knnRec) 量化评估降维质量。
![]()
图14 在真实高维数据集验证SUDE有效性
如图14a所示,SUDE在60项得分中获得23项最高分,并且计算效率优于五种对比方法 (图14b)。从图14c的雷达图来看,SUDE在knnACC、svmACC、clusACC和Scalability均排名第一,表明它在类簇分离和计算效率方面具有显著优势。TopoAE借助神经网络强大的拟合能力,CC得分排名第一,能够获得最优的全局结构保留效果,而BH-t-SNE在knnRec分数排名第一,证明其能够更好地恢复高维数据的局部结构。图14d,e表明SUDE随着数据规模和嵌入维度的增大,计算伸缩性表现最优。在图14f中,本文将嵌入学习的方法分别替换为t-SNE和UMAP,聚类精度均低于SUDE。图14g对比了SUDE集成三种不同低维概率分布的收敛情况,对数概率分布能够在更少的epoch内获得更高的聚类精度。
单细胞生物数据集有效性验证
为了评估SUDE的适用性,本文将其应用于小鼠视网膜scRNA-seq数据集。如图15a所示,UMAP将视锥双极细胞 (Cone Bipolar Cells) 和无长突细胞 (Amacrine Cells)类簇过度拆分为若干子簇,而SUDE则更好地保持了两种细胞类簇的完整性。采用CDC算法对低维嵌入进行聚类,在SUDE嵌入上的聚类精度远优于UMAP嵌入,证明SUDE嵌入比UMAP嵌入更适合细胞类型注释任务 (图15b,c)。
![]()
图15 在单细胞生物数据集验证SUDE有效性
本文在图15d验证了SUDE在CyTOF生物数据集的性能,SUDE能够更好地分离单核细胞 (Monocytes) 的细胞亚群CD11b+和CD11b-,细胞密度呈现明显的双峰结构 (图15e)。图15f显示SUDE获得最高的CC得分,具有更好的全局结构保留能力,且它的计算效率分别是BH-t-SNE和UMAP的6.3倍和3.0倍。为了证明SUDE对于细胞表型相似性的保留能力,本文计算了每个细胞类簇最邻近的细胞类型,这种细胞类型邻近关系在SUDE嵌入中的保留精度达到78.57%,优于其他两种方法 (图15g)。本文在图15h-k利用SUDE嵌入来可视化B细胞的分化过程,从SUDE嵌入中推断出来的伪时间更符合B细胞的分化过程。
心电图数据集有效性验证
本文还将流形学习方法应用在心电图ECG信号的异常心跳检测任务。图16a是我们设计的端到端异常心跳检测流程,先使用傅里叶同步压缩变换来获得信号中采样点的时频表示,然后将这些表示输入到预训练的LSTM网络中以识别每个心跳周期的P波、QRS波和T波 (图16b),并从每次心跳中提取八个波形特征 (图16c),最后将高维特征嵌入到低维空间,并利用KNN和SVM分类器来区分正常心跳和异常心跳。在MIT-BIH心电图数据集的四个病例样本上,SUDE在KNN和SVM两个分类器精度均优于PCA和UMAP,且随着嵌入维度的变化表现出更高的稳定性 (图16d)。如图16e所示,在线性降维PCA嵌入中,正常心跳和异常心跳混合在一起,难以区分;而UMAP则产生了过多的小型簇,破坏了类簇完整性。
![]()
图16 在心电图数据集验证SUDE有效性
降维是一个权衡的过程,将数据映射到低维空间必然会牺牲某些信息以保留其他重要特征。本文从分类精度、聚类精度、全局/局部结构保留能力和计算伸缩性等方面评估了SUDE的性能。结果表明,SUDE在类簇分离和计算效率方面具有显著优势。在小数据集上,SUDE在局部结构保持方面表现相对较差,但在大多数大型数据集上,除BH-t-SNE外,其性能优于其他方法。在全局结构保留方面,基于神经网络的方法 (如TopoAE和P-UMAP) 在保持等距关系方面表现出色。用户可以根据实际需求选择合适的流形学习方法,当优先考虑聚类分离度和计算效率时,SUDE会是一个合适的选择。
此外,论文附录 (Supplementary Information) 中还包含更多讨论和推导,欢迎感兴趣的读者下载阅读:
* 为什么需要流形学习?(Supplementary Note 5)
* 为什么需要均匀采样?(Supplementary Note 6)
* 为什么在PPS采样中需要RNN降序排列?(Supplementary Note 7)
* 为什么对数低维概率分布是有效的?(Supplementary Note 8)
* 欠采样会带来哪些负面影响?(Supplementary Note 9)
* 为什么早期聚合能够缓解欠采样问题?(Supplementary Note 10)
* CLLE是如何规避脏簇的产生?(Supplementary Note 11)
作者介绍
![]()
彭德华:武汉大学遥感信息工程学院弘毅博士后,主要研究方向为机器学习与地理空间智能。
![]()
桂志鹏:武汉大学遥感信息工程学院教授、副院长,主要研究方时空数据挖掘及地理信息系统的理论与应用研究。
![]()
卫文章:武汉大学遥感信息工程学院25级博士生,主要研究方向为图文匹配与多模态大模型。
![]()
栗法:德州大学奥斯汀分校助理教授,主要研究方向为野火监测与可解释AI。
![]()
桂杰:东南大学网络空间安全学院教授,研究方向为机器学习、模式识别与大模型。
![]()
吴华意:武汉大学测绘遥感信息工程全国重点实验室教授,主要研究方向为地理信息服务与地学大模型。
![]()
龚健雅:中国科学院院士、武汉大学遥感信息工程学院和测绘遥感信息工程全国重点实验室教授,主要研究方向为地理信息理论和几何遥感基础研究。
论文链接https://www.nature.com/articles/s42256-025-01112-9 代码链接https://github.com/ZPGuiGroupWhu/sude
拓扑学课程:从空间直觉到系统科学
你是否曾思考过:为什么咖啡杯在数学上可以变成甜甜圈?为什么混沌系统中会出现周期轨、可约化结构和“奇怪吸引子”模式?为什么神经网络、量子物理甚至心理结构,都可以从“拓扑”角度理解?
拓扑学不仅是数学的抽象分支,更提供了系统的思维方式,让我们理解连续性、结构不变性乃至复杂系统的整体规律。从欧拉七桥问题到DNA的缠结,从量子场论到思维科学与脑科学,拓扑学思想正在各学科中普遍而深刻地重塑着我们的认知方式。
集智学园联合北京大学博士金威老师开设,课程于11月23日开启,欢迎感兴趣的读者加入。
![]()
详情请见:
1.
2.
3.
4.
5.
6.
7.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.