高光谱解混层级|丰度|端元|算法|鲁棒性

分享至

Hyperspectral Unmixing Hierarchies

高光谱解混层级

https://arxiv.org/pdf/2604.16969

摘要

——解混揭示了高光谱图像中不同成分（称为端元）的空间分布与光谱细节。由于解混对真实标签需求有限、能够处理混合像元，且与光传播过程紧密关联，它成为分析高光谱图像的独特有力工具。然而，光谱变异性制约了解混性能，确定端元数量的恰当方法尚不明确，且随着端元数量增加，其清晰度会下降。层次结构可能是解决上述三个问题的潜在途径。

本文通过在深度非负矩阵分解上施加层次化丰度求和约束来定义层次化解混。二元线性解混触觉层级网络（BLUTHs）以简洁的网络架构求解该层次化解混问题。稀疏调制解混增长算法则为每个场景定制BLUTH的拓扑结构。BLUTHs所施加的结构约束使得具有不同光谱对比度的端元得以揭示，从而缓解光谱变异性带来的挑战。

在实验室场景中，BLUTHs的性能超越当前最先进解混算法，尤其在丰度估计方面；在遥感场景中，其性能仍保持竞争力。此外，本文还展示了BLUTHs在HYPSO与PACE卫星获取的高光谱场景上进行海洋水色解混的应用。

索引术语——成像光谱学，原型分析，模拟退火，海洋水色，支持向量机

I、引言

高光谱成像（有时称为成像光谱学[1]）以精细间隔的波长逐像素收集场景对入射电磁辐射响应的详细信息。该技术被用于研究涂层[2],[3]、微塑料[4],[5]、地质[6],[7],[8]、艺术品[9]、食品[10]，以及无人机与卫星遥感[1],[11]等应用。近期发射的浮游生物、气溶胶、云、海洋生态系统（PACE）卫星每日对全球成像，为大规模生态系统动态的长期一致监测奠定基础[12]；同时，若干小型卫星高光谱星座（如HYPSO、珠海一号与Hyperfield[13],[14],[15]）定期获取少数地点的较高分辨率影像，以及EnMAP、PRISMA与EMIT等演示任务[16],[17],[18]。高光谱数据特别适用于水生环境监测，尤其是光学复杂水体。亟需开发分析工具以处理来自众多且多样化的高光谱成像卫星的影像。

解混用于识别场景中存在的成分（即端元），并估计从像素反射的光如何在它们之间分配[19]（例如图1）。解混过程包含若干任务：端元数量估计、端元提取与丰度估计，以及根据所需监督程度进行分类[20]。解混的有效性使其成为高光谱图像处理中许多其他流程的基础，例如多光谱-高光谱融合[21]与高光谱基于内容的图像检索[22]。尽管高光谱解混已取得诸多成功，但仍存在一些反复出现的问题，其中部分问题困扰着所有算法。首先，算法必须适应端元的光谱变异性，即使在最简单场景中该现象也显而易见[23]。其次，解混算法通常需预先确定端元数量，但各类预先估计端元数量的技术往往给出不一致的估计结果[24]。这些挑战相互关联：对于任一给定场景，若纳入的端元数量较少，则端元内部将存在更大的光谱变异性。

海洋水色（OC）是探索这些挑战如何影响解混的理想应用场景。海洋水色的主要贡献者为浮游植物、非藻类颗粒（包括沉积物）以及溶解性有机物（cDOM）[25]。光学复杂水体（如内陆水体、河口与峡湾系统）所含光谱以具有可变特性的沉积物与cDOM为主导，导致水质估计算法泛化能力较差。此外，由于生物与拓扑变化（岸线迁移、沉积物特性、浮游植物、溶解物质），确切成分数量始终未知。由于深水通常极暗，薄云或大气校正不完善引起的微小系统性效应可能产生显著影响。另外，水体呈现快速变化的空间模式，且水上测量仅在数小时内有效。解混可通过揭示陆地与云像元对信号的贡献（称为邻接效应[26]）来应对第一个挑战；通过识别端元光谱，使后续分析可与光谱本身而非特定地理坐标关联，从而缓解第二个挑战。有害藻华识别[27]与范围估计[28]、采矿污染[29]，以及自然[30]与实验室[31],[32]中的藻类物种组成等水生现象，均已通过解混进行探索。此外，解混与光学水体类型（OWT）框架相似，后者基于光谱测量对水体观测进行聚类。OWT为根据光学条件选择或融合后续算法提供依据。OWT已通过k均值聚类[25]、模糊c均值聚类[33],[34]、层次聚类[35]及高斯过程[36]等技术构建。

层次结构已被用于适应光谱变异性或端元数量的不确定性。多端元光谱混合分析（MESMA）以半监督方式引入端元束[37],[38]，而其自动化变体使其可在无监督下运行[39]。端元束引入两层层次结构，并增强解混对光谱变异性的鲁棒性。MESMA已应用于藻华检测与野火过火区监测等诸多场景[40],[30],[41],[42]。一类相似方法以概率分布替代层次结构的最低层[43],[44],[45],[46]。

少数方法将层次结构扩展至两层以上。层次化MESMA将端元束概念延伸至最多4层深度、20个端元，但仍依赖部分监督[47]。在"基于秩二非负矩阵分解的高光谱图像层次聚类"（H2NMF）中，非负矩阵分解（NMF）将高光谱数据聚类为二叉决策树并提取代表性端元光谱[48]。多层解混通过重复应用NMF构建丰度层次结构，每一层的输出作为下一层目标函数的输入[49]。相比之下，深度非负矩阵分解（DNMF）同时训练各层[50],[51],[52],[53]。然而，[54]指出原始更新规则与原始DNMF目标函数不一致，并提出了自洽的数据中心与层中心版本目标函数。近期一项比较表明，尽管层次化方法在基准数据集上精度略低，但其鲁棒性增强了其在PRISMA卫星真实数据上的适用性[55]。

本文引入层次化丰度求和约束（HASC）并将其施加于DNMF，使网络的后续层可被解释为对不同端元光谱的持续更精细区分。

本文的主要贡献如下：

提出一种新的层次化网络——二元线性解混触觉层级（BLUTH），证明HASC可应对光谱变异性与端元数量不确定性。
提出稀疏调制解混增长（SMUG）算法，可在无预定义结构条件下生长BLUTH网络。

上述主要贡献建立在两项可独立使用的较小进展之上： a) 两种兼容小批量处理的原型分析[56]变体。 b) 两种基于退火的解混[57]变体，一种随机，一种确定性。

BLUTH网络在8个标准高光谱解混场景上与其他解混技术进行比较，并在来自PACE与HYPSO卫星的藻华影像上评估其海洋水色解混性能。

II. 背景

A. 什么是解混？

解混是对光谱图像像元进行分解的过程。线性混合模型（LMM）描述了在光子仅与单一材料相互作用这一假设下的解混过程。在 LMM 框架内，解混是识别图像中端元的光谱（S）及其在每个像元中的丰度（A）的过程：

B. 解混的变体

已经开发了数百种变体，因为解混既是高光谱图像处理中的一项必要任务，同时也具有挑战性和非凸性 [19]。最近的一篇综述 [58] 对许多算法进行了分类，而 HySUPP 实验则提供了几种方法的清晰数值比较，重点关注标注程度 [59]。

解混算法可以分为几何类、基于非负矩阵分解（NMF）类或基于深度学习类 [58]。本文重点关注基于 NMF 的方法，因为它们提供了足够的性能且易于定制 [60]。解混算法在所需的监督量上也有所不同：无监督（有时称为盲解混）、半监督（例如使用光谱库）或有监督（使用标记像元）[59]。此处仅测试无监督算法，因为它们适用于特定的端元事先未知的遥感场景。此外，虽然基于库的解混会有益处，但在实践中其性能较差 [59]。

由于观察到过度平滑的输出是解混算法的一种常见失效模式，促进稀疏的正则化已变得普遍，[58] 中列出了超过 30 种变体。尽管稀疏性（即矩阵 A 中消失/为零的元素数量）是不可微的，但可以使用针对丰度或端元光谱的相关惩罚项。稀疏度（Sparseness），指的是缩放至 0 和 1 之间的 L1 和 L2 范数之比，是量化 NMF 内稀疏性的一种方法 [61], [62]。此外，群稀疏性已应用于上述端元束，显示了促进稀疏的惩罚项与层次结构的兼容性 [63]。在 HySUPP 实验中，据报道，直接将稀疏正则化应用于丰度的方法表现出较差的性能 [59]。稀疏性的悖论在于，解混产生的场景相对于人工标签往往稀疏度不足，但直接将稀疏性纳入目标函数却会降低性能。

其他算法包含的稀疏正则化不是作为目标函数中的惩罚项，而是作为约束。许多早期的几何方法涉及一个识别仅包含一个端元非零丰度的像元的过程，称为纯像元（pure pixels）[64]。最近，原型分析（Archetypal Analysis），其中所有端元光谱均为单个像元的凸和，已成为一种诱导稀疏性的简单方法 [56], [65], [66]。

用于解混的目标函数是非凸的，这意味着局部极小值的存在。熵下降原型分析（EDAA）通过运行一组初始条件并根据次要标准选择最佳运行来解决非凸性问题 [66]。马尔可夫随机场已被采用作为建模空间依赖性的工具。模拟退火和哈密顿蒙特卡洛已被提出作为允许它们逃离局部极小值的工具 [44], [45]。类似地，确定性退火 NMF（DA-NMF）包含一个用于减少（而非增加）目标函数稀疏性的项，取其极限，这使得目标函数变为凸函数 [57]。DA-NMF 目标函数的非凸性是通过减小正则化的幅度逐渐引入的。虽然 DA-NMF 在正则化时具有单一极小值，但最大稀疏目标函数将拥有 p N 个退化的局部极小值，这说明了稀疏性与非凸性之间的联系。

少数算法旨在解混更大的数据集，尽管大多数解混算法是为少于个像元的小型测试场景量身定制的。分布式并行几何距离法（Distributed Parallel Geometric Distance method）专注于如何分别为数据的子部分估计端元，以便它们稍后可以融合 [67]。虽然高光谱场景可以单独分析，但它们通常是多年来收集的更大数据存储库的一部分。多时相场景的联合解混已被证明可以减轻如果场景被单独解混时会出现的不一致性 [68], [69]。例如，FM-MESMA 展示了 MESMA 如何在多时相图像序列上加速 [70]。在较大数据集上的实验通常集中在增加分析的像元数量，而不是端元数量。为了富有成效地增加端元数量，需要施加某种结构。层次化解混是必要的，以便为较大数据集的分析配备考虑成分之间关系的能力。

C. 解混与其他高光谱处理技术

解混与其他高光谱处理技术相关 [71]。在场景中纯像元比例（PPP）趋于零的极限情况下，解混可被解释为降维；而在相反极限情况下，它可被解释为聚类（图2）。少数技术已利用了聚类与解混之间的联系。由于 H2NMF 使用分裂式层次聚类来初始化解混，它隐式地遵循 HASC。Veganzones 等人的方法类似地使用解混来初始化层次聚类，但与 H2NMF 不同，该方法不尝试从聚类中提取端元 [72]。类似地，凝聚式层次聚类已被用于估计适当的端元数量 [73]。在该研究中，初始聚类是通过 k 均值聚类形成的，因为高光谱图像通常对于完全的凝聚式层次聚类而言过大，因其所需的计算时间随缩放 [74]。

III、解混层次结构的机制

A. 符号

B. 什么是解混层次结构？

D. 二元线性解混触觉层级

二元解混框架通过采用多层结构，被扩展至处理包含两个以上端元的图像。二元线性解混触觉层级（BLUTH）对端元进行结构化，旨在保留二元解混的清晰性。BLUTH 并非直接更新丰度，而是通过公式 5 中定义的权重隐式地对其进行更新。随后，每当权重更新时，整个丰度图都会被隐式更新，从而便于批处理。权重 w ζ 和 d ζ并非由每个像元的光谱计算得出，而是进行全局学习。BLUTH 中的“触觉”（tactile）一词指的是，尽管网络的权重是学习得到的，但可以通过公式 5 将其解释为超平面并进行直接修改。当在二元解混中强制执行 HASC 时，单个像元在层级 m + 1处的端元丰度可根据层级 m处的丰度计算得出：

E. 训练概览

BLUTH 的训练分为两个阶段：生长阶段和微调阶段（图 5）。这两个阶段均采用交替最小化框架，分别更新丰度 A 和端元光谱 S 。分裂权重 w ζ 通过分块坐标（梯度）下降策略 [76] 顺序更新，而 A A则通过它们隐式更新。在每一步中，首先计算梯度的方向，随后利用线搜索方法沿该方向寻找目标函数的最小值。关于丰度更新的数学细节可在附录 F 和 G 中找到。

在生长阶段，端元光谱是从数据中的光谱里选取的，这一过程在此称为纯像元分析（PPA）。PPA 对 S 的更新步骤施加了约束，使得已经代表某个端元的光谱无法被再次选中。对于此处报告的测试，微调阶段运行两次。第一次像生长阶段一样使用 PPA 进行光谱更新，而第二次则使用 A（原型分析）。这两种端元光谱更新变体均在附录 E 中描述。

稀疏度调制模态：BLUTH 训练过程的各个独立更新步骤通过一种稀疏度调制模式链接在一起，在该模式中，稀疏度正则化参数 ( γ ) 在生长和微调阶段均会发生变化。此处开发为去稀疏化模态（DeSM）的、原为 DA-NMF 提出的指数衰减模式，辅以另外 3 种模态（图 2 和 4 以及表 I）。

SMUG 算法解决了一个核心挑战：当丰度非常稀疏时，新端元的初始化最为清晰，但在系统松弛之后，关于新端元将如何影响目标函数的估计会变得更加准确。因此，SMUG 的总体策略是：(i) 对原始 p 个端元的丰度进行稀疏化；(ii) 在网络副本中分裂每个端元；(iii) 对每个副本进行去稀疏化；(iv) 使每个副本的丰度达到均衡；(v) 如果未满足停止准则，在从 (i) 重新开始之前选择保留哪个副本。每个阶段 (i-iv) 通过应用上述列出的模态来运行（图 5）。在 (i) 期间，SpM 应用于整个网络。

随后比较每个副本的目标函数最低层级的值 (v)。具有最小目标函数的副本成为新的基础 BLUTH。如果网络已达到所需的端元数量，则训练进入微调阶段，否则从步骤 (i) 开始重复该序列。

微调阶段：在微调阶段，丰度和端元光谱会被更新，但网络的整体拓扑结构保持不变（图 5b）。在从 SMUG 过渡到微调的过程中，应用 SpM 对整个网络进行稀疏化。在微调阶段的第一部分，DeSM 将网络从过度稀疏的局部极小值中提取出来。 γ < 0 的部分允许网络探索更多的松弛路径，而 ShM 防止小型端元消失。

最终松弛阶段旨在让系统平缓地停在目标函数的一个合理稀疏的极小值处。在此阶段，目标函数中仅考虑最低层级的项，且所有更新均使用较大的批量大小。最终阶段运行两次，一次继续使用 PPA 更新丰度矩阵，另一次使用 AA 更新丰度矩阵，以便对光谱矩阵更新技术进行比较。该阶段完成后，网络被保存。

IV、实验

A. 评估场景

测试同时使用了遥感图像和实验室采集的场景。

遥感场景使用了六组人工标注标签，包括 Samson、Jasper Ridge、APEX、Urban 和 Washington DC 场景，其中 Urban 场景包含两组标签。这些场景是为 [66] 中的测试而汇编的，由多种高光谱相机在电磁光谱的可见光和短波红外部分记录。这些标签是通过 [78] 中描述的过程手动应用于场景的。这些标签并不表示真实值（ground truth），而是反映了人类分析员如何对数据集进行解混。

实验室记录的两个场景作为遥感场景的补充 [20]，其标签可作为真实值，因为可以精确确定每个像元中每种材料的比例。然而，由于实验室环境，许多使遥感场景复杂化的因素（如大气影响、平台抖动、光谱变异性）要么不存在，要么大幅减弱。因此，这些场景能清晰地估计算法在实验室条件下的表现，但不一定能反映其在野外的实际表现。

这两组场景相互补充。遥感场景包含真实数据的所有伪影和复杂性，但标签仅具有表面真实性（非绝对客观真值）；而实验室场景标签可靠，但缺乏遥感中的复杂性。结合起来，它们为不同解混算法的性能提供了更全面的视角。

开发 BLUTH 的一个目标是对水体团块进行解混。在缺乏带有真实值的测试数据集的情况下，本研究对一个颗石藻（Coccolithophore）水华场景进行了解混。测试的目标是观察 BLUTH 能否根据其光谱特征将不同水体相互分离，并将水体与云和陆地分离。来自大型且极其精确的 PACE 卫星以及 HYPSO-2 立方星的该水华高光谱图像均进行了解混 [13], [12]。两张图像均显示了 2025 年 5 月 28 日奥斯陆峡湾（Oslofjord）口与斯卡格拉克海峡（Skagerrak）交汇处的景象。对于 PACE，使用了 L2 级近实时大气底反射率数据。选取了一个包含 122 个波段的 200 × 150 像素子场景（图 10b）。HYPSO 场景被裁剪为 200 × 200 像素的子场景，保留了原始 120 个波段中的 105 个。分析中排除了前 8 个波段、760 nm O₂ 吸收线附近的 5 个波段以及最后 2 个波段。对 L1D 级大气顶反射率 HYPSO-2 场景应用了逐列平滑暗像元减法，作为近似的大气校正 [79]。

B. 被评估的技术

实验包含依赖 BLUTH 架构不同方面的解混方法：隐式端元光谱约束（EDAA, DAAA, SAPPA）[66]、层次结构（H2NMF, DC-DNMF）[48], [54] 以及动态优化过程（DAAA, SAPPA）[57]（表 II）。这些方法与最近在 HySUPP 解混对比中达到最先进性能的三种解混技术进行了对比：MiSiCNet [80]、MSNet [81] 和非负矩阵分解-二次最小体积（NMF-QMV）[82], [59]。BLUTH 架构本身以纯像元分析（PPA）和原型分析（AA）两种形式进行训练。为测试 BLUTH 算法对端元数量估计误差的鲁棒性，两种变体均额外增加两个端元进行训练。

C. 评估标准

丰度与端元光谱分别根据其相对于人工处理端元的相似性进行评估。重建端元光谱的准确性通过其与人工处理光谱之间的光谱角（以度为单位）进行评估：

V、结果

解混技术在大多数数据集上通常取得了不错的性能（表 S-II 和 S-III）。采用端元最小光谱角以上 10 度的阈值来评估某项技术是否找到了该端元。

所有解混技术在视觉上似乎都在 Samson 场景中找到了三个正确的端元（图 S2 和 S3）。基于 AA（原型分析）光谱更新的算法在所有端元上表现最佳。带有额外端元的两个 BLUTH 网络仅表现出轻微的性能下降，其中水体端元的下降最为显著。

一半的技术在 Jasper Ridge 场景中找到了四个端元（图 S4），而另一半要么缺少道路端元，要么缺少泥土端元。除 DAAA 外，最佳性能再次由基于 AA 的算法取得，而 NMF-QMV、MiSiCNet、MSNet 和 DC-DNMF 这些技术均预测出的端元丰度稀疏度不足。带有额外端元的两个 BLUTH 网络确实检测到了人工标签中的所有端元，但表现出过度的稀疏性。

七种技术在 Apex 场景中找到了正确的端元（图 6）。最常见的失效模式是遗漏了道路端元，转而将树木端元分裂为两个，DAAA、NMF-QMV、MiSiCNet、MSNet 和 DC-DNMF 即是如此。如前所述，依赖 AA 的技术实现了最佳的光谱估计，但每个端元光谱均由不同的技术估计得最好。虽然 EDAA 在四个端元中的三个上实现了最高的 IoU，但第二高的 IoU 是由某种 BLUTH 技术实现的。带有额外端元的两个 BLUTH 网络表现出的性能与使用原始端元数量的网络相当，甚至实现了两个最低的屋顶光谱角。

Urban 场景使用了两组不同的标签进行处理：一组包含 4 个端元，另一组包含 6 个端元。当仅考虑 4 个端元时，由于稀疏度不足的失效模式，7 种技术遗漏了屋顶端元（根据光谱角阈值）（图 S5）。然而，当考虑 6 个端元时，只有 EDAA 找到了所有 6 个端元（图 S6）。大多数技术定位到的是阴影而非金属端元。在这些场景中，带有两个额外端元的 BLUTH 网络在对应人工标签方面产生了可比的结果，但它们也表现出更高的稀疏度，特别是在 4 端元的情况下。

在使用指定数量的端元时，没有哪种技术能清晰地解混 Washington, DC 场景中的所有 6 个端元，尽管带有额外端元的两个 BLUTH 网络做到了（图 S7）。只有 H2NMF、DAAA、DC-DNMF 和 SAPPA 定位到了超过一半的草地丰度，但它们都缺少屋顶端元。在使用指定数量端元的技术中，只有 BLUTH-AA 和 NMF-QMV 找到了屋顶端元。

真实混合微型场景（Realistic Mixing Miniature Scenes）中的简单混合场景（Simple Mixing Scene）导致所有技术产生的端元丰度稀疏度不足（图 7）。然而，光谱角计算表明，尽管混合像元过多，部分技术还是找到了所有 4 个端元。只有当使用过量端元的 BLUTH 或 BLUTH-PPA 进行解混时，苔藓（moss）端元的 IoU 才超过 0.5。没有哪种技术将鹅卵石（Pebbles）解混到 IoU 超过 0.5，但只有 NMF-QMV 和 MSNet 低于 0.1。尽管由于树枝（sticks）端元存在的像元数量极少，导致其 IoU 值都非常小，但不同技术之间存在明显差异。BLUTH-AA、BLUTH+2 和 MiSiCNet 这些技术均检测到了它。BLUTH+2 网络对其检测最为清晰，其中 AA 变体实现的光谱角低于 5 度，不到任何使用指定数量端元技术的光谱角的一半。

真实混合微型场景中的复杂混合场景（Complex Mixing Scene）也导致所有技术产生的端元丰度稀疏度不足（图 S8）。场景中所有的端元都至少被一种解混技术遗漏。对于所有层次化技术，苔藓的 IoU 均超过 0.5，而其他技术则没有。除了 DC-DNMF 外，只有层次化技术的鹅卵石端元 IoU 超过了 0.1。树枝端元特别具有挑战性，其 IoU 仅在 BLUTH+2 网络中超过了 0.02。在检测真实植被类别时观察到了更一致的行为，除 EDAA、MiSiCNet 和 MSNet 外，所有技术的 IoU 均超过 0.2 且光谱角低于 4 度。除 MiSiCNet 和 DC-DNMF 外，所有技术在虚假植被（false vegetation）端元上实现的 IoU 均超过 0.5 且光谱角低于 5 度。

带有额外端元的 BLUTH 的性能促使我们调查其架构在简单混合场景中随着端元数量增加是如何生长的（图 8）。BLUTH 网络分别使用 4、6 和 8 个端元进行了训练。当有四个端元时，端元出现在层次结构的不同层级。最高层级显示出植被与非植被之间的清晰分裂，但植被被划分为三个端元，而非植被完全没有被划分。恢复的端元光谱更详细地显示了发生的情况（图 9）。叶片的光谱恢复得相当好，但被识别为鹅卵石、树枝和苔藓的端元光谱均明显比人工标签中的端元更暗。被识别为苔藓的光谱实际上比人工标签中的任何光谱都要暗得多。本质上，图像中的阴影被分配给了苔藓端元，而树枝端元则是人工标签中树枝和苔藓光谱的组合。总体而言，丰度屈服于丰度稀疏度不足的失效模式。具有 4 个端元的 BLUTH-PPA 显示出类似的结果，但由于其丰度的微小变化，苔藓和树枝的最终识别发生了互换。

随着网络中包含的端元数量增加，所选端元的丰度变得更加稀疏，尽管最高层级的稀疏度有所下降。对于包含 6 和 8 个端元的网络，人工标签中包含的端元均位于第二层级。当有 6 个端元时，被选为苔藓的端元在第三层级被分裂为两个端元，根据图 9b 中的光谱，这两个端元大致对应苔藓本身和阴影。随后，对应苔藓的光谱又被分裂为另外两个端元，它们分别位于场景的中心和边缘。此外，当有 6 个端元时，鹅卵石、树枝和叶片的光谱比人工标签指示的更亮，而苔藓仍然更暗。当再增加两个端元时，6 端元层次结构的基本结构保持不变。新的端元仅仅是分裂了鹅卵石和阴影端元。与人工标签中那些端元相对应的丰度没有发生明显变化。然而，图 9c 中的光谱显示，虽然苔藓接近人工标签中的光谱，但树枝和叶片都比标签中的更亮，而鹅卵石更暗。对于 6 和 8 个端元，BLUTH-AA 和 BLUTH-PPA 显示出相似的结果。

在最后的测试中，BLUTH 对 Skagerrak 场景的解混能够清晰地分辨水体的不同部分（图 10）。对于 PACE 和 HYPSO 图像，陆地与水体的分裂发生在层次结构的第一层，云层紧随其下被分裂。与颗石藻水华（蓝色）以及以 CDOM 为主的河流径流（黄色）相关的光谱特征在两组解混光谱中均清晰可辨，尽管 PACE 的噪声要小得多。根据初步测试，添加了权重以标准化每个像元对目标函数的贡献，从而防止陆地像元贡献不成比例的量。

VI、讨论

总体而言，上述实验表明，BLUTH 在多个方面表现出所有技术中最强的性能，同时在整体上也具有竞争力。为了帮助解释在不同端元之间差异较大的 IoU 和光谱角指标，表 III 统计了每种解混技术在各场景中遗漏的端元数量。尽管基于 BLUTH 的技术在遥感场景上的 IoU 通常略低于 EDAA，但它们在大多数端元上表现出相当的光谱角。在实验室场景中，基于 BLUTH 的技术在每个端元上都取得了前两名的 IoU 表现，并在 4/9 个端元上取得了最小的光谱角，其余的则由退火技术和 H2NMF 取得。将 BLUTH 网络的深度增加 2 个端元仅在一个场景（Jasper Ridge）上损害了性能，而在实验室场景中则提升了性能。BLUTH-AA 似乎比 BLUTH-PPA 略具鲁棒性，但与其他技术之间的差异相比，这种差异很小（图 S1）。此外，当 BLUTH 算法失效时（例如在 Urban6 场景中找到了阴影而非金属），这并不一定意味着在海洋水色应用场景中表现会更差。这仅仅表明 BLUTH 对暗像元敏感，而这对于划分（相对较暗的）水体团块而言并非严重的阻碍。

在其他被测试的技术中，还显现出若干其他模式。具有约束端元选择（AA 或 PPA）的技术整体表现远优于无约束的技术。这种效应非常显著：所有使用 AA 或 PPA 的技术遗漏的端元数量均少于所有未施加这些约束的技术。此处的一个复杂因素是，所有这些技术也都结合了应对非凸目标函数的策略：SMUG（用于 BLUTH）、退火（用于 DAAA 和 SAPPA）或多轮运行（用于 EDAA）。

层次结构的影响则更为模糊。虽然 BLUTH 本身表现良好，且 H2NMF 记录了可比的性能，但 DC-DNMF 的表现相对较差。H2NMF 在其聚类阶段隐式遵循 HASC（尽管 [48] 中未明确说明），而 BLUTH 在所有阶段均遵循 HASC，相比之下，DC-DNMF 仅遵循普通的 ASC（丰度和约束）。DC-DNMF 的性能不佳可能正是由于缺乏 HASC。

遥感场景与实验室场景之间存在显著差异。例如，EDAA 在超过一半的遥感端元上取得了前两名的 IoU 表现，但在任何实验室端元上均未取得该成绩；而 BLUTH 在实验室场景上的表现优于其在遥感场景上的表现。一个直观的视觉差异是，实验室端元标签比遥感场景的标签稀疏得多。然而，图像中可能还存在其他因素导致了这种表现差距。除 H2NMF 外，丰度稀疏度不足似乎是最常见的失效模式。

VII、结论

上文引入的层次化丰度求和约束（HASC）为 BLUTH 解混奠定了基础。用于生长 BLUTH 网络的 SMUG 算法能够实现稳定的训练和准确的端元估计。BLUTH 本身虽然构建于简单的架构之上，但在所评估的数据集上，其性能超越或媲美当前最先进的解混技术。在未标记的水体图像上的测试表明，BLUTH 网络适用于分割高光谱海洋水色图像。

在这些测试过程中，一些相对被忽视的解混技术，包括 H2NMF 和确定性退火（因与提出的 BLUTH 具有技术相似性而被纳入），显示出与最先进技术相媲美的性能表现。这表明，其他具有惊人良好性能的算法可能存在于较早期的解混文献中，且 2015 年之前的方法仍应被纳入解混性能的对比中。值得注意的是，尽管 BLUTH 在技术上属于深度神经网络（具有神经元和激活函数的多层网络），但它们在功能上与深度学习鲜有共同之处：其输出在层次结构的每一层级都是可解释的，每个节点的权重可以独立解释，且 BLUTH 可以在小型数据集上进行训练。

网络还存在许多微小的改动，上述结果表明这些改动可能带来显著的性能提升。首先，可以更详细地探索逐层目标函数加权，因为我们预期它会对输出产生显著影响。纯像元比例（Pure Pixel Proportion）设定点和批量大小似乎对输出没有太大影响，但仍可进一步探索。此外，批处理是随机性进入 SMUG 算法的唯一途径，因此它可用于调制随机性。

除了 BLUTH 之外，HASC 还开启了许多新的解混可能性。例如，一个简单的推广可以是允许一个节点一次分裂成两个以上的新端元。这将有助于存在二义性分裂的情况。例如，云应该与水体还是陆地归为一组？此外，该约束可以整合到较旧的深度 NMF 技术中，例如 DC-DNMF。尽管 SMUG 是为网络生长而开发的，但稀疏度调制的框架可以为探索非凸解混问题的解空间带来普遍益处，或许可以与 EDAA 使用的多解方法相结合。

原文链接：https://arxiv.org/pdf/2604.16969

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.