网易首页 > 网易号 > 正文 申请入驻

流形假设的统计探索

0
分享至

Statistical exploration of the Manifold Hypothesis

流形假设的统计探索

https://arxiv.org/pdf/2208.11665v5



摘要:

流形假设是机器学习中一项被广泛接受的基本原理,它断言名义上高维的数据实际上集中分布在嵌入于高维空间中的低维流形附近。这一现象在许多现实场景中得到了经验性验证,在过去几十年中催生了大量统计方法的发展,并被认为可能是现代人工智能技术取得成功的关键因素之一。我们证明,数据中丰富且有时错综复杂的流形结构,可以从一个通用且异常简单的统计模型——潜在度量模型(Latent Metric Model)——中自然涌现,其机制仅依赖于潜在变量、相关性与平稳性等基本概念。这为流形假设何以在众多情境中看似成立提供了一个普适的统计学解释。基于潜在度量模型,我们推导出用于发现与解释高维数据几何结构的程序,并可借此探索关于数据生成机制的假设。这些程序仅需极弱的假设条件,且利用了广为人知的图分析算法。

1 引言

流形假设是机器学习中一项被广泛接受的基本原理,其主张如下[20]:

“……许多数据集的维度仅仅是人为地高;尽管每个数据点可能包含成千上万个特征,但它或许仅由少数几个潜在参数的函数所描述。换言之,这些数据点实际上是从嵌入于高维空间中的低维流形上采样而得。”

这一现象已对众多方法与算法产生了深远影响。流形结构的存在是流形估计与检验[35, 42, 41]、非线性降维技术[95, 108, 50, 9, 119, 116, 76]、本征维度估计[59, 71, 48, 19],以及专门针对协变量取值于流形上的情境所设计的回归与分类技术[11, 7, 23, 123, 72, 82]的前提基础。数据集中于低维拓扑或几何结构附近的假设,构成了聚类技术与拓扑数据分析的理论基石[32, 83, 18, 8, 22, 21]。某些非参数方法(如最近邻或基于树的回归方法)即使在缺乏流形结构的情况下亦可运作,但当流形结构存在时,其性能将显著提升,因为其收敛速率取决于协变量的本征维度而非环境维度[61, 62]。已有研究证明,深度神经网络亦展现出类似特性[81]。更广泛而言,流形结构的存在已被认为是深度学习方法取得成功的关键因素之一[14]。数据位于嵌入高维空间中的低维流形这一假设,已成为人工智能领域生成建模最新理论与实践进展的核心,尤其在扩散模型中[101, 102, 51, 28, 29, 103, 24, 90, 47, 33]。

那么,数据中为何可能存在流形结构?在某些情境下(如图像分析),我们可以依据生成数据的物理机制给出一种直观但启发式的解释(参见Pless与Souvenir[92]对该背景下流形估计的综述)。图1展示了24张灰度汽车图像,选自文献[43]中包含n = 75张图像的子集,拍摄角度分别为围绕圆形周长的0°、5°、10°、…、355°。每张图像分辨率为384 × 288像素,因此可表示为长度为p = 110592的向量。然而,至少从直观上看,我们仅需远少于该数量的维度,即可通过相机在我们周围三维世界空间中的位置来解释该图像集合中的变异。图1展示了使用主成分分析(PCA)进行降维后的结果,由此我们可作出如下观察:


前20个主成分解释了总方差的91.5%,表明数据集中分布于R^110592中的某个低维线性子空间附近。前三个维度——即数据在对应于最大三个特征值的特征向量上的坐标——呈现出近似环状的点分布,其形状虽略显不规则,但类似于相机位置所构成的圆,只是经受了弯曲与扭转等形变。这些点沿环近似等距分布,恰如相机位置以5度为间隔均匀分布于圆周上。

显然,通过对这些图像数据应用PCA进行降维,我们得以窥见数据生成机制的部分几何结构,但仍存疑问:我们为便于可视化而选择绘制前三个维度,这一选择是否“合理”?其余维度可能传达何种信息?环的精确形状以及点沿环的分布间距相对于底层相机位置圆的差异,其成因又是什么?

在其他情境中,嵌入的拓扑与几何结构可能呈现不同形态并具有不同解释。图2展示了对成年扁虫(一种扁形动物)中5000个单细胞的p = 5821个基因表达水平进行可视化的两种方法。在单细胞转录组学领域——如2018年《Science》论文[91]所述——此类数据为揭示整个动物的细胞谱系树提供了可能:目标在于探明数据是否反映了干细胞分化为多种不同细胞类型的树状过程。数据经与原论文[91]相同方式预处理,使用Python软件包Scanpy[121]。


图2左图展示了将维度从5821降至2的PCA结果;右图则先通过PCA降至14维,再使用t-SNE[116](一种广受欢迎的非线性降维方法,通过最小化成对距离失真的特定度量来寻找数据集的低维表示)进一步降至2维。我们采用scikit-learn[89]中t-SNE的默认参数设置。两图中的点均按细胞类型着色,但PCA与t-SNE均无法获知该信息。与图1类似,图2清晰表明,通过某种形式的降维,我们得以揭示数据底层的结构——尽管此处表现为离散的细胞类型,而非相机位置的几何构型。在图1中,仅使用PCA降维便足以使该结构可见;然而在图2中,若仅用PCA降至2维,不同细胞类型并未清晰分离,而先降至14维再应用t-SNE的方法似乎更为有效。t-SNE可视化结果暗示数据底层可能存在树状结构:部分区域呈现从中心点云发散出的分支状臂,但其他谱系则缺乏清晰度或看似断裂。

我们能否以不同方式组合方法,以获得更清晰的图像?

这些示例仅展示了数据中潜在结构如何在嵌入的拓扑与几何模式中显现的若干方式。还有许多其他实例:在基因组学中,基因分型DNA位点揭示了显著的地理分布模式[84, 64, 30];在神经科学中,来自网格细胞的同时记录显示出似乎与行为任务无关的环面结构[39];此外,无线传感器网络数据[85]、语音识别[15]、药物发现[94]、RNA测序[79]以及人类动作合成[69]中也存在流形结构。

在本研究中,我们提出一种视角:数据中嵌入的拓扑与几何结构可被解释为一种普遍的统计现象,无需参考数据生成机制的物理属性或其他特定领域的细节。

主要贡献。我们的第一项主要贡献是提出一个简单而通用的统计模型,该模型能在高维数据中生成隐藏的低维流形结构,从而为流形假设提供统计学依据

第二项主要贡献是描述该隐藏流形如何与模型所定义的真实潜在域相关联,例如解释为何图1右侧面板中的点虽非完美圆形(如相机位置所示),但仍构成环状结构。更准确地说,我们给出了流形与潜在域之间关系为同胚(一种拓扑等价)的温和条件,以及在更强条件下该关系可成为等距(一种度量等价)。



2 潜在度量模型

潜在度量模型(Latent Metric Model, LMM)由三种相互独立的随机性来源构建而成。



我们强调两点。首先,LMM的核心目的在于将数据中的流形结构解释并描述为一种普适的统计现象。这一目标的广泛性要求采用灵活的建模范式,因此除在具体示例中之外,我们并不施加特定的分布或函数假设(如高斯性)。本文所作的假设涉及更为一般的概念,例如连续性、光滑性或平稳性。其次,我们强调此处的视角:函数 f 与 ϕ 是由LMM的构成要素隐式定义的导出量,而非需要人为设定取值的模型参数或超参数。

3 潜在度量模型的统计性质与几何性质的联系

本节将阐释LMM的统计性质如何使我们能够将数据向量
(可视为 中的点云)的几何结构与流形 M 的结构,进而与潜在度量空间 Z 的结构相联系。这一联系具有双重重要性:其一,它揭示了数据中的流形结构如何从LMM的基本统计性质中自然涌现,从而阐明流形假设在何种意义上成立以及其成立的原因;其二,它构成了我们在第4节中详述的数据分析程序的理论基础。我们的论述将依循四个主要步骤展开:



3.1 数据内积与特征映射内积的关联



3.2 潜在变量的可区分性与同胚的关联

同胚(homeomorphism)是两个度量空间之间的一种映射,该映射连续、双射且具有连续的逆映射。若存在此类映射,则称这两个度量空间彼此同胚,或称其拓扑等价。为建立直观理解,可考虑所讨论的度量空间为我们周围三维欧几里得世界中的子集这一情形。在此情况下,符合同胚条件的映射包括通过弯曲、扭转、拉伸与折叠等方式进行的形状变换,但不包括切割、穿孔或粘合等操作[12]。拓扑等价意味着所涉两个度量空间必须具有相同数量的连通分支、相同数量的一维环圈,以及更一般地,相同数量的k维“空洞”。利用数据检测此类特征,正是拓扑数据分析(Topological Data Analysis)领域中持续同调(persistent homology)方法的目的[18, 21]。然而,拓扑结构的内涵远不止于其同调性质;例如,在转录组学应用中(引言及第5.2节),所假设的底层结构呈现出有趣的“树状”拓扑,却不具备有趣的同调特征。


3.3 平稳性与等距性的关联

LMM中任一随机函数 X j
的弱平稳性意味着:


命题3与命题4的证明见附录C.1末尾。

3.4 光滑性与低维子空间内集中性的关联



3.5 一个可视化示例







4 方法论

本节利用LMM的性质来解释并论证第1节中概述的工作流程。关于步骤1的讨论将推迟至步骤2讨论之后进行。

4.1 通过PCA进行线性降维



关于假设A4-A6的讨论


4.2 选择PCA维度





图6c)1-4展示了算法1计算的Wasserstein误差(对数尺度),维度范围至 ρ max ⁡ = 30
。可观察到:当核秩有限时(配置1-3,虚线黑线),最优解大致与真实秩重合;有趣的是,即使在核秩无限的情形(配置4),仍存在非退化解。若降低噪声水平,最优维度将增大(图17,附录),这反映了前述偏差/方差权衡。

为作对比,我们同时展示了基于'ladle'法[74]和'elbow'法[127]的选择结果(分别通过R包'dimension'(GitHub链接:https://github.com/WenlanzZ)和'igraph'(The Comprehensive R Archive Network)实现)。'ladle'法与Wasserstein法选择结果相似,但计算成本较高(限制了 m a x ( n , p ) = 1000 的模拟规模)。我们不建议在LMM框架下使用'elbow'法进行维度选择,因其倾向于选择过低维度。





4.3 球面投影

在进行数据分析时,我们可能希望考虑假设 f 属于命题3或4中核函数族之一,因为它们具有平稳性解释,并且相关的等距性质将支持使用PCA嵌入来恢复 Z 的几何特征。然而,所有这些核函数都具有以下性质:



4.4 最近邻图构建




5 示例


在其名著《探索性数据分析》(Exploratory Data Analysis)[113]中,Tukey 指出刑事司法过程中存在一种广为接受的分工:“搜寻证据——由警察及其他调查力量负责——与评估证据强度——由陪审团与法官裁决”。依此类比,我们所提出的工作流程旨在前者——即搜寻线索、迹象与表象。在后续示例中,除与均匀模型进行基线比较外,我们并不试图对所呈证据的强度进行形式化评估。我们认为此类验证性分析是一项重要但性质不同的任务,需采用不同的技术手段。所用代码与数据可在此获取:https://github.com/anniegray52/explore_manifold_hyp

原文链接:https://arxiv.org/pdf/2208.11665v5

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
图赫尔:非常高兴能够续约,邀请到来时我毫不犹豫地答应了

图赫尔:非常高兴能够续约,邀请到来时我毫不犹豫地答应了

懂球帝
2026-02-12 18:21:07
中国的社零增速,已经连降了6个月,转负甚至就在眼前

中国的社零增速,已经连降了6个月,转负甚至就在眼前

子业一说财经
2025-12-23 15:21:31
比赌博还狠的“隐形毒药”,正慢慢掏空中国家庭,无数人被它拖垮

比赌博还狠的“隐形毒药”,正慢慢掏空中国家庭,无数人被它拖垮

千秋文化
2026-02-10 20:55:47
64岁陈庭威现状:定居广州住豪宅,至今未婚,越老越帅一点不油腻

64岁陈庭威现状:定居广州住豪宅,至今未婚,越老越帅一点不油腻

查尔菲的笔记
2026-02-11 13:26:47
2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

2026年的春运,长途大巴结结实实给了“智能时代”一记耳光

老特有话说
2026-02-09 23:34:10
外交部:中美元首通话中 特朗普总统再次表达了4月访华的愿望

外交部:中美元首通话中 特朗普总统再次表达了4月访华的愿望

财联社
2026-02-12 15:26:07
最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

最令大龄剩女崩溃的一瞬间在什么时候?看网友的评论引起万千共鸣

夜深爱杂谈
2026-01-10 22:27:12
广州地块这条新线,明天正式开通!

广州地块这条新线,明天正式开通!

房地产导刊
2026-02-12 16:32:37
精明如安吉也走眼,全明星内线打3场就报销,爵士如释重负

精明如安吉也走眼,全明星内线打3场就报销,爵士如释重负

大飞说篮球
2026-02-13 00:54:21
变天!Seedance2.0全网刷屏,短剧成本暴跌九成,主播饭碗悬了!

变天!Seedance2.0全网刷屏,短剧成本暴跌九成,主播饭碗悬了!

川渝视觉
2026-02-11 16:50:08
为何中国军力吓不倒日本,石破茂说得一针见血,还会走老路的

为何中国军力吓不倒日本,石破茂说得一针见血,还会走老路的

瑛派儿老黄
2025-12-02 21:11:13
14年湖北妈妈肾衰竭,移植7岁儿子的肾,得救后:孩子,你安心走

14年湖北妈妈肾衰竭,移植7岁儿子的肾,得救后:孩子,你安心走

奇思妙想生活家
2026-02-12 20:02:31
拉爵言论引发争议,曼联官方声明:我们坚持平等、多元与包容

拉爵言论引发争议,曼联官方声明:我们坚持平等、多元与包容

懂球帝
2026-02-13 00:53:07
U17国足抽好签!媒体人热议:重返世少赛稳了,印尼人崩溃了

U17国足抽好签!媒体人热议:重返世少赛稳了,印尼人崩溃了

奥拜尔
2026-02-12 15:51:54
官宣!24小时连换三人,欧冠双冠王换帅,新帅英超首秀面对利物浦

官宣!24小时连换三人,欧冠双冠王换帅,新帅英超首秀面对利物浦

嗨皮看球
2026-02-12 16:03:26
伊朗政权生存逻辑:靠反美立权,用贫穷维稳,道歉只是演戏

伊朗政权生存逻辑:靠反美立权,用贫穷维稳,道歉只是演戏

老马拉车莫少装
2026-02-12 17:38:03
降落伞失灵,法国翼装飞行冠军坠亡!

降落伞失灵,法国翼装飞行冠军坠亡!

新欧洲
2026-02-12 19:51:16
美日台联手科技合围,高市下黑手卡中国脖子,这招比稀土还厉害!

美日台联手科技合围,高市下黑手卡中国脖子,这招比稀土还厉害!

安珈使者啊
2026-02-11 14:24:01
除夕当天,家里这3个地方千万别熄灯!老辈人传下的“引财方”

除夕当天,家里这3个地方千万别熄灯!老辈人传下的“引财方”

小陆搞笑日常
2026-02-08 17:24:09
着急求援,日本军工截瘫,高市派人赴美,先废中国王炸

着急求援,日本军工截瘫,高市派人赴美,先废中国王炸

阿讯说天下
2026-02-12 16:39:22
2026-02-13 03:03:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1218文章数 18关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

钟南山:会用证据让全世界服气

头条要闻

钟南山:会用证据让全世界服气

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

时尚
手机
游戏
家居
艺术

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

手机要闻

科技记者古尔曼:预计苹果将在未来几周内推出iPhone 17e以及M4芯片版iPad Air

内存涨价缘故?美国Steam Deck所有版本都已售罄

家居要闻

本真栖居 爱暖伴流年

艺术要闻

震惊!罗布泊的模特竟然如此美艳动人!

无障碍浏览 进入关怀版