网易首页 > 网易号 > 正文 申请入驻

Leinster-Cobbold多样性指数作为子聚类的判据

0
分享至

THE LEINSTER-COBBOLD DIVERSITY INDEX AS A CRITERION FOR SUB-CLUSTERING*

Leinster-Cobbold多样性指数作为子聚类的判据

https://arxiv.org/pdf/2505.09234



摘要
本文提出了一种对大样本进行自动子聚类的程序。在每一次迭代中,选择多样性最高的聚类进行子聚类,并将新分类的全局多样性与前一次进行比较。若未发现改进,则过程停止。本方法的关键在于使用了一种定量的多样性度量指标,称为Leinster-Cobbold指数,该指数考虑了聚类之间的相似性。尽管该程序已成功应用于大量星系光谱样本,但本文通过两个实例来展示其有效性。

关键词:天体统计学,无监督分类,子聚类,多样性度量

1 引言
无监督分类(或聚类)是从数据集中发现可识别为聚类的结构的技术。尽管存在多种准则可用于确定最佳聚类数量,但该最佳值取决于所研究的具体样本。实际上,聚类数量由各结构之间的分离程度以及聚类算法区分这些结构的能力共同决定。如果某些聚类相对于样本中的其他聚类彼此靠得较近,则它们很可能被忽略。因此,通过单独对已有聚类进一步进行聚类(即子聚类),提高分类的分辨率,可能是明智的做法。

这在生物学中是一种众所周知的做法,在诸如“生命之树”这样的层次分类框架下很容易理解。然而,在其他领域的高维大样本中,这种情况也同样存在。在天体物理学中,Fraix-Burnet 等人([1], 2021)发现,对于一个包含 702,248 个星系光谱的样本,需要进行三步子聚类。在前两步中,最优聚类数量仅为 3。其中一到两个聚类相对非常小,其性质与样本其余部分显著不同。在第三步中,最优聚类数仍为 3,但这些聚类已足够大,值得进一步子聚类,分别产生了 50、25 和 10 个子聚类。

在高维问题中,降维是必不可少的。子聚类的另一个合理性在于:用于区分大类别的潜在变量,未必与用于探测其内部更精细结构所需的变量相同。

在大多数情况下,必须通过人工检查来判断是否需要进行子聚类,以及何时停止该过程。例如,Dubois 等人([2], 2024)任意规定,对样本大小超过 5% 的所有聚类进行一次子聚类。据我们所知,大多数提供更客观判断标准的统计方法,都需要所有子聚类结果都生成后,才能对整体分类方案进行比较。在这些方法中,聚类树(clustering tree)较为流行(例如 Zappia 和 Oshlack,[3], 2018)。然而,对于大样本而言,避免不必要的子聚类可以节省大量计算时间。

可以通过某些指标(如轮廓系数,silhouette score)预先筛选可能受益于子聚类的聚类,该系数用于衡量异质性水平。但该方法并非硬性标准,因为“较高异质性”通常表现为“聚类的轮廓系数中位数较低,或分数分布存在较大波动”(Leary 等人,[4], 2023)。这种方法显然需要人工观察和判断,因此难以实现自动化。

在本研究中,我们提出使用一种定量指标——聚类内部多样性的度量,来预先决定是否进行子聚类;并通过比较新分类相对于前一次的全局多样性,决定是否继续迭代。本文中,“分类”指所有聚类和子聚类的集合。为此,我们采用 Leinster-Cobbold 多样性度量(Leinster 和 Cobbold,[5], 2012),该指标最初为生物多样性设计,但也可广泛用于信息度量。

本文结构如下:第 2 节介绍 Leinster-Cobbold 多样性指数,随后介绍我们用于星系光谱无监督分类的方法。第 3 节通过一个具有明确物理解释的实际例子,展示 Leinster-Cobbold 多样性度量在天体物理学中的适用性。第 4 节以一个大型星系光谱样本为例,详细说明我们的完整子聚类流程,该样本属于一项更全面研究的一部分,完整研究结果将发表于天体物理学期刊。第 5 节为简要讨论与结论。

本文所有示例均采用名为 Fisher-EM(Bouveyron 和 Brunet,[6], 2012)的聚类算法。该算法基于判别性潜在子空间中的高斯混合模型,可在 R 语言中以程序包形式使用。该方法已在多篇天体物理学论文中被使用和描述。读者可特别参考 Fraix-Burnet 等人([1], 2021)、Dubois 等人([2], 2024)以及 Chambon 和 Fraix-Burnet(即将发表)的研究,这些工作与本文背景密切相关。

2 方法

我们的策略是在一个自动且迭代的过程中使用定量的多样性度量。给定一个分类结果,执行以下步骤:1)计算每个单独聚类的多样性(见第 2.2 节);2)对多样性最高的聚类进行子聚类;3)计算新分类的全局多样性(见第 2.3 节)。如果全局多样性有所提高,则以新的分类结果重新执行第 1 步;如果多样性未得到改善,则停止该过程,并保留前一次的分类结果。

在该流程中,我们采用同一种类的多样性度量方法,但在两种不同情境下进行计算:一是针对单个聚类,二是针对整体分类。

2.1 Leinster-Cobbold 多样性指数

多样性是衡量变异程度的指标,常用于生态学,且与信息论密切相关。著名的香农熵(Shannon entropy):






2.2 决定对星系光谱进行子聚类


我们在研究中使用的聚类算法是一种在潜在判别子空间中的高斯混合模型,称为 Fisher-EM(Bouveyron 和 Brunet,[6],2012)。每次子聚类都会生成一个不同的子空间,从而揭示新的潜在特征。为了在某一给定步骤中比较所有聚类和子聚类,聚类内多样性的计算(或等价地计算 dij)是在之前所有子聚类步骤所生成的潜在子空间的拼接空间中进行的。因此,每个单独的光谱被投影到这个新的子空间中。

公式 (6) 中的常数 u被选择为:


2.3 停止准则

在对具有最高类内多样性的聚类进行子聚类后,使用新生成的子聚类计算新分类的全局多样性,并与前一次分类的全局多样性进行比较。距离 dij是在各个聚类和子聚类的拼接潜在子空间中计算的(见上文)。我们在此选择:




3 聚类内多样性与子聚类:天体物理学的验证

积分视场光谱技术是一种每个图像元素(称为像元,spaxel)都对应一个光谱的技术。在本例中,我们采用了 Chambon 和 Fraix-Burnet([11], 2024)所提出的对典型Ⅱ型赛弗特星系 NGC 1068 的高光谱图像中包含的光谱进行聚类的结果。该星系表现出强烈的星暴活动,主要集中在一个显著的星暴环中,同时还有一股喷流与星系盘中的气体相互作用。此外,气体还受到源自喷流源头的活动星系核辐射的照射。因此,这是一个相当复杂的天体,其不同区域呈现出多样的光谱特征。

第一次聚类步骤识别出16个具有特定光谱特征的聚类。这意味着图像中的所有不同区域都可以被归为16种光谱类别,而与它们在图像中的位置无关。Chambon 和 Fraix-Burnet([11], 2024)注意到,第15号聚类(在他们的论文中称为“类别15”)分布在多个区域中,尤其是星系中两个明显且较大的区域,而这两个区域本不应受到相同的物理机制照射。这些光谱被归为一类,是因为它们具有一项共同特征,使其区别于高光谱图像中的其他所有光谱:它们具有更高的连续谱水平。对这一类别15进行子聚类后,得到了22个子聚类,清晰地将星系核区与其他区域区分开来(见图1)。


本文提出的多样性度量方法在 Chambon 和 Fraix-Burnet([11], 2024)的研究时尚未可用。然而,从各聚类的类内多样性结果(图2)可以看出,聚类16和聚类15是多样性最高的两个聚类。聚类16包含来自星系中心区域的光谱,这些光谱明显受到较差的定标和对齐的影响。因此,该聚类在当前讨论中可被忽略。而类别15的多样性显著高于其他聚类,这为其进行子聚类提供了充分理由。这一实例为 Leinster 和 Cobbold([5], 2012)提出的多样性度量在天体物理学中的适用性提供了物理解释上的有力验证。


4 在高维样本上应用所提出的程序

本文所述的程序最初是为研究来自 SDSS DR16(Abdurro’uf 等,[12],2022)和 DESI DR1(DESI 合作组,[13],2023)巡天的 814,404 个红移在 1.2 至 4 之间的星系光谱而设计的。完整的研究结果将发表于另一篇论文中(Chambon 和 Fraix-Burnet,即将发表)。本文中,我们以其中一个子样本为例来展示该程序的应用,该子样本对应于将整个样本划分为23个红移区间的其中一个区间(参见 Dubois 等,[2],2024)。该子样本包含 43,826 个红移介于 1.303 至 1.358 之间的光谱。由于 Fisher-EM 算法通常无法收敛,我们未对成员少于25个的聚类进行子聚类。

整个过程共生成了四个层级的子聚类(见图3)。结果显示,在大多数情况下,每一步中多样性最高(在拼接的子空间中)的聚类,通常也对应于原始变量空间中光谱离散度最高的聚类。这在理论上是可以预期的,但仅基于类内离散度的判据与轮廓系数(见第1节)一样存在局限性,且无法提供客观的停止规则。图3中的例子也表明,多样性和离散度并非完全相关。

在一次子聚类步骤后获得新的分类结果时,下一步最多样化的聚类常常是之前步骤中某个(子)聚类(见图3)。因此,整个过程可以用树状图(dendrogram)表示,但若要在图中展示所有聚类的平均光谱和离散度,将难以清晰呈现。需要注意的是,此处树状图的“叶节点”是最终的分类结果,而非单个光谱。最终得到的各个聚类具有大致相当且通常较低的离散度,但大小各不相同。



5 讨论与结论

尽管Leinster-Cobbold指数是一个数学上严格定义的概念,但其中仍需做出两个选择。第一个是相似性矩阵的选择,本文中我们采用其一般表达式(公式6),该表达式由两个量决定:距离和一个常数因子。这两个量均依赖于具体的数据以及研究的视角。在本文中,数据的高维特性对距离的选择施加了一定限制。

第二个选择是用于终止子聚类过程的判据。多样性剖面(diversity profile)的概念提供了简单且定量的检验方法,但可能需要根据实际情况进行调整。例如,本文中设定多样性指数在0阶上增加30%作为阈值,这是在深入进行多级子聚类(以探测更小的聚类)与识别具有显著差异的子聚类(避免过拟合)之间的一种权衡。仅依赖这一判据是不够的,因为它本质上只计算聚类的数量,而其他阶数(特别是1阶和2阶)则通过考虑相对不那么稀有的聚类,提供了补充信息。

我们发现,最初为生物多样性开发的多样性度量在天体物理学中同样非常有用。它帮助我们以一种自动且客观的方式解决了对大量星系光谱进行聚类的问题。在之前的研究中(Dubois 等人 [2],2024),是否对某一聚类进行子聚类仅由其成员数量决定,目的是确保子聚类的大小至少不小于变量数量(以避免无监督分类中“样本数小于变量数”即 n < p 的问题)。这种方法引入了偏向于较大聚类的偏差,导致较大的聚类更优先被子聚类。而本文提出的新方法则更倾向于那些能显著提升多样性的稀有光谱聚类。此外,该方法对子聚类的层级数量没有先验限制,是否继续仅由多样性指数决定。

原文链接:https://arxiv.org/pdf/2505.09234

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今晚7点欧冠抽签:16队厮杀 8队晋级16强!穆帅或再遇皇马

今晚7点欧冠抽签:16队厮杀 8队晋级16强!穆帅或再遇皇马

叶青足球世界
2026-01-30 08:51:32
退役倒计时!湖人将要求詹姆斯大幅降薪 客战尼克斯票价因他飙升

退役倒计时!湖人将要求詹姆斯大幅降薪 客战尼克斯票价因他飙升

罗说NBA
2026-01-30 06:28:14
重磅打虎!孙绍骋被查

重磅打虎!孙绍骋被查

新京报政事儿
2026-01-29 18:15:03
美国总统特朗普已听取针对伊朗的多种打击方案

美国总统特朗普已听取针对伊朗的多种打击方案

极目新闻
2026-01-30 10:50:13
曝贝克汉姆与维多利亚下最后通牒:布鲁克林不离婚,就别再回家!

曝贝克汉姆与维多利亚下最后通牒:布鲁克林不离婚,就别再回家!

可乐谈情感
2026-01-30 01:58:55
山东省纪委监委通报2025年全省纪检监察和巡视巡察工作情况

山东省纪委监委通报2025年全省纪检监察和巡视巡察工作情况

齐鲁壹点
2026-01-30 11:40:22
掘金再遭重创!戈登因右腿筋拉伤至少缺席4-6周 曾因此连歇19场

掘金再遭重创!戈登因右腿筋拉伤至少缺席4-6周 曾因此连歇19场

罗说NBA
2026-01-30 06:48:13
杨瀚森机会来了!开拓者中锋突然赛季报销,拓记:瀚森在改变打法

杨瀚森机会来了!开拓者中锋突然赛季报销,拓记:瀚森在改变打法

你的篮球频道
2026-01-30 08:01:30
内蒙古:坚决拥护党中央决定

内蒙古:坚决拥护党中央决定

澎湃新闻
2026-01-30 10:17:11
有色暴跌7%!资金反向大举加仓,短短15分钟净申购超1.4亿份

有色暴跌7%!资金反向大举加仓,短短15分钟净申购超1.4亿份

每日经济新闻
2026-01-30 09:54:36
父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

起飞做故事
2026-01-28 18:56:29
新西兰决定:拒绝特朗普

新西兰决定:拒绝特朗普

扬子晚报
2026-01-30 07:26:20
你被中国保护得太好了,所以很傻很天真

你被中国保护得太好了,所以很傻很天真

一个坏土豆
2026-01-27 19:51:27
河南伴郎一己之力毁掉一场婚礼!有一种朋友,比小三还可怕100倍……

河南伴郎一己之力毁掉一场婚礼!有一种朋友,比小三还可怕100倍……

脆皮先生
2026-01-29 20:02:26
32岁程序员猝死后续:公司邮件通报,将死因归为没体检,撇清责任

32岁程序员猝死后续:公司邮件通报,将死因归为没体检,撇清责任

王大嘴评说
2026-01-29 09:08:59
航母就位,狠话“刷屏” 专家:美已错过最佳打击时间,目前主要是逼伊“核让步”

航母就位,狠话“刷屏” 专家:美已错过最佳打击时间,目前主要是逼伊“核让步”

红星新闻
2026-01-29 18:13:29
上海“下车推行”惹众怒!市民:55公斤的车配24%陡坡,谁敢推?

上海“下车推行”惹众怒!市民:55公斤的车配24%陡坡,谁敢推?

据说说娱乐
2026-01-28 12:16:13
金晨60秒视频报价70万

金晨60秒视频报价70万

雷达财经
2026-01-29 14:50:11
事发上海!雇主离世仅12分钟,保姆就陆续转走银行卡内50万元现金,还变卖玉器

事发上海!雇主离世仅12分钟,保姆就陆续转走银行卡内50万元现金,还变卖玉器

新民晚报
2026-01-26 14:44:31
"换心风波"仅1个月,李连杰小心思藏不住,“撕碎”了自己的体面

"换心风波"仅1个月,李连杰小心思藏不住,“撕碎”了自己的体面

青橘罐头
2026-01-29 20:04:53
2026-01-30 12:31:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1187文章数 18关注度
往期回顾 全部

科技要闻

单季狂赚3000亿;iPhone 17 全球卖疯了!

头条要闻

两名公民在本土死于联邦执法人员枪下 特朗普"退缩"了

头条要闻

两名公民在本土死于联邦执法人员枪下 特朗普"退缩"了

体育要闻

敢揍多尔特,此子必成大器?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

财经要闻

血铅超标工人,挡在“劳动关系”门槛外

汽车要闻

全面科技化 新款梅赛德斯-奔驰S级发布

态度原创

艺术
家居
数码
公开课
军事航空

艺术要闻

风景画选刊 | 中国油画学会三十年艺术展

家居要闻

蓝调空舍 自由与个性

数码要闻

“存储荒”将愈演愈烈?行业人士敦促消费者抢先购买手机、电脑

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中方被指支持俄生产武器 外交部回应

无障碍浏览 进入关怀版