机器学习中的范畴理论和拓扑理论框架:综述|算法|聚类|贝叶斯|新论文|马尔可夫|神经网络

分享至

Category-Theoretical and Topos-Theoretical Frameworks in Machine Learning: A Survey

机器学习中的范畴理论和拓扑理论框架:综述

https://www.mdpi.com/2075-1680/14/3/204

摘要：

在本综述中，我们从四个主流视角提供了范畴论衍生的机器学习的概述：基于梯度的学习、基于概率的学习、基于不变性与等价性的学习，以及基于拓扑斯的学习。对于前三个主题，我们主要回顾了过去五年的研究，更新并扩展了 Shiebler 等人先前的综述。第四个主题深入探讨了高阶范畴论，特别是拓扑斯论，是本文首次进行综述的。在某些机器学习方法中，函子的组合性起着至关重要的作用，推动了特定范畴框架的发展。然而，当考虑网络的全局性质如何反映在局部结构中，以及几何性质和语义如何用逻辑表达时，拓扑斯结构变得尤为显著和深刻。

关键词：机器学习；范畴论；拓扑斯论；基于梯度的学习；范畴概率；贝叶斯学习；函子流形学习；持久同调

1. 引言与背景

近年来，涉及机器学习中范畴论的研究日益增多。本综述主要回顾了范畴论与各种机器学习范式相结合的近期研究。大致而言，我们将这些研究分为两个主要方向：

针对特定机器学习方法的特定范畴框架研究。反向传播在笛卡尔微分范畴内被形式化，从而结构化基于梯度的学习。包括贝叶斯推断在内的概率模型在马尔可夫范畴中被研究，以捕捉随机依赖关系。聚类算法在度量空间范畴中被分析，为基于相似性的学习提供了结构化的视角。
从广泛的数学视角探索范畴论在机器学习各方面潜在应用的方法论途径。例如，研究考察了拓扑斯如何捕捉神经网络的内部性质，2-范畴如何形式化学习模型中的组件组合，以及拓扑斯和栈如何为编码学习动态和不变性提供结构化框架。

我们首先为可能不熟悉这些数学概念的读者介绍关键术语：范畴论、函子性和拓扑斯。范畴论是数学的一个分支，它提供了一个统一的框架，以抽象的方式描述数学结构及其关系。代数、拓扑和逻辑等数学领域都可以在这个框架内进行描述。范畴论中的一个基本概念，函子性，指的是将一个范畴映射到另一个范畴的方法。它提供了一种系统的方法，将概念和结果从一个数学语境翻译到另一个数学语境，使得研究不同数学领域之间的相似性和连接成为可能。作为一个高阶范畴，拓扑斯的表现类似于集合范畴，因为它支持诸如取极限、余极限和指数运算等操作，并且它还具有内部逻辑（通常是直觉主义的而非经典的）。拓扑斯被用于逻辑、几何和计算机科学等领域，特别是在类型理论和编程语言语义等领域，它们为表示数据结构和推理计算提供了一个通用且抽象的框架。我们提供如下具体定义。

定义 1（范畴论）。一个范畴由对象以及这些对象之间的态射（也称为箭头）组成，满足两个关键性质：结合律（态射的组合是结合的）和恒等性（每个对象都有一个恒等态射，它在组合下充当单位元）。

定义 2（函子）。函子是范畴之间保持结构的映射，它将一个范畴中的每个对象指派给另一个范畴中的一个对象，并将第一个范畴中的每个态射指派给第二个范畴中的一个态射，同时保持态射的组合和恒等态射。

定义 3（拓扑斯）。拓扑斯是一个推广了集合范畴的范畴，并配备了额外的逻辑和拓扑结构。它作为一个广义空间，各种数学概念可以在其中被解释。

我们的框架（如图 1 所示）将范畴衍生的学习结构化为两个层次。低阶范畴论提供函子框架，其中组件——定义为具有各自的输入、输出和参数——使用函子进行组合。这种模块化视角与编程语言类似，并影响了基于梯度的学习、贝叶斯学习以及用于不变性和等价性的函子流形学习中的方法。高阶范畴论捕捉与学习相关的全局性质。例如，粗粒化和细化可以使用网络上的位点来结构化，而诸如栈这样的构造性框架可能会提供进一步的见解。

对于第一个方向，Shiebler 等人 [1] 的综述提供了截至 2021 年的主要结果的详细概述。在本综述中，我们通过包含 2021 年至今的更近期结果来补充他们的综述。此外，我们介绍了超出这些主流结果的一些其他分支。第二个方向，即高阶范畴论衍生的学习，未在 Shiebler 等人的综述中涵盖，在本综述中得到强调，并通过利用层和预层的丰富结构来探索因果性。这些构造有效捕捉了数据集中的局部 - 全局关系，例如局部干预对全局结果的影响。此外，拓扑斯的内部逻辑为推理反事实和干预提供了坚实基础，这两者都是因果推断的核心。例如，基于函子组合的系统框架提供了一种稳健的面向设计的方法，并通过描述独立过程有效编码了“并行性”。然而，它难以完全编码“并发”，即事件可以同时被“触发”和“使能”，并且难以建模这些事件的动态状态转移。另一方面，拓扑斯凭借其固有的（余）层结构，自然容纳图状网络。当在此语境中应用时，它隐式支持佩特里网结构，后者擅长捕捉事件的动态激活和交互，包括并发和状态变化 [2]。我们的工作与 Shiebler 等人工作的比较总结在表 1 中。

接下来，我们提供实际示例，说明将拓扑斯理论融入机器学习的好处。

•示例 1. 降维：传统方法有风险导致信息丢失。拓扑斯理论利用其代数性质，从而能够在保持结构完整性和提取关键特征的同时实现降维。

•示例 2. 机器学习模型的可解释性：深度学习模型通常是“黑盒”。拓扑斯理论提供逻辑推理来解释大规模模型中的内部结构、输出和涌现现象。

•示例 3. 动态数据分析：传统静态分析难以应对演化数据。拓扑斯理论自然地捕捉时间变化和局部 - 全局关系。

图 2 中的图表将范畴论机器学习说明为一个统一框架，整合了基于梯度的学习、基于概率的学习、基于不变性与等价性的学习以及基于拓扑斯的学习，每一部分将在后续章节中介绍。基于梯度的学习与基于概率的学习双向交互，其中梯度下降等优化技术细化概率模型，而概率分布增强优化效率。基于概率的学习进一步连接到流形学习和聚类，将概率度量推广为结构化的几何表示。基于不变性与等价性的学习建立在这些基础之上，结合持久同调来捕捉拓扑不变量和结构一致性。基于拓扑斯的学习将范畴结构扩展到高阶逻辑，提供了一个框架来分析神经网络中的组合关系和逻辑推理。这一集成框架强调结构化学习，确保不同学习范式之间的一致性。

以下内容阐述了机器学习的一种范畴与拓扑斯理论方法，其结构如下：

在基于梯度的学习中，我们介绍基范畴、函子以及组合优化的结构。
在基于概率的学习中，我们呈现范畴概率模型、贝叶斯推断以及概率编程。
在基于不变性与等价性的学习中，我们探讨范畴聚类、流形学习以及持续同调。在基于拓扑斯的学习中，我们在拉福格报告的基础上，将层与叠结构应用于机器学习。
最后，我们讨论应用与未来方向，涵盖受挫型AI系统、范畴建模以及新兴挑战。
在下文中，我们通常使用无衬线字体表示范畴，使用粗体表示函子，尽管偶尔会用不同字体来强调层/拓扑斯。

2. 基于梯度的学习进展

将范畴论概念整合到具体、可模块化的学习过程或方法中的主要目标，是利用组合性，使现有过程能够通过图形化（图表化）表示和演算来呈现，其中模块化设计便于对各个组件进行替换。对于现有方法，在文献[3]中，作者列举了不同的梯度下降优化算法并比较了它们的行为。而范畴论方法则突出了它们的相似性，并将不同的算法/优化器整合到学习过程中的一个统一框架内。我们在表2中总结了范畴框架内梯度下降优化器的差异与特征。在文献[4]中，作者发展了聚焦于最经典、最直接的基于梯度的学习方法的范畴框架，展示了通过组合他们所定义的范畴组件所能实现的各种变体。具体而言，图形化表示、语义性质以及图表化推理——这些范畴论的关键方面——被视为学习的严格语义基础。它们还通过组合性促进了可扩展深度学习系统的构建。

在本节中，我们旨在阐释如何应用（低阶）范畴语义来理解梯度学习的基本结构，这是深度学习范式的核心组成部分。主流方法是将学习过程分解为若干独立组件：参数组件、双向数据流组件以及微分组件。这些组件——尤其是双向组件，即透镜与光学器件——在其他机器学习范畴框架中得到了广泛应用。在介绍完基本框架之后，我们将在第2.3节中呈现相关研究。

谢布勒等人[1]在他们的综述中概述了基本结构。然而，对于没有数学背景的普通读者来说，他们的定义和解释可能相当具有挑战性。因此，我们以更易于理解的方式简要勾勒出最常用的概念。

为了在技术层面介绍本工作中关键的参数化透镜结构，我们首先概述文献[4,5]中确定的基于梯度学习的三个关键特征。每个特征分别对应一个特定的范畴构造。

这些概念总结在表3中。该表提供了神经网络学习的关键特征及其范畴构造。参数性由Para表示，它捕捉了监督学习中的参数化映射。双向性由Lens（透镜）建模，描述了信息的前向与反向流动，这对于反向传播至关重要。微分性使用CRDC表达，通过对参数进行微分以最小化损失，从而形式化了损失函数的优化过程。这些构造为神经网络结构和学习动态提供了范畴论的视角。

这些基本设置可以扩展或修改，以适应不同的学习任务、方法或数据集。例如，基于双范畴和作用范畴的方法适用于不同的对象（如多项式电路）或方法论（如使用格罗滕迪克透镜而非标准透镜函子的贝叶斯学习）。背景范畴的笛卡尔性质能够实现对偶性，特别是通过积与余积。文献[6,7]等研究通过引入参量化/协参量化态射以及代数/余代数等概念，利用对偶组件扩展了这一框架。这些丰富化将不同的网络（如GCNN、GAN）整合到一个统一的框架中，同时笛卡尔结构还允许Lawvere理论在基范畴内建模代数结构。

在复杂的网络架构中，仅靠基于梯度的组合是不够的，因为它缺乏确保语义一致性、逻辑有效性和全局一致性的结构约束。因此，基于拓扑斯的学习通过引入层和叠结构提供了解决方案，这些结构强制了层次化依赖关系并维持了局部-全局一致性。此外，子对象分类器和纤维范畴对模块组合进行调节，防止信息失真。同伦论和范畴不变量进一步支持了可扩展的建模，在架构扩展过程中保持结构完整性。因此，拓扑斯理论扩展了组合优化，确保了AI系统的可解释性、适应性和逻辑一致性。

现在我们依次给出这些函子和范畴的定义。

定义8（笛卡尔反向微分范畴，由[8]首次提出，并由[9]首次应用于机器学习和自动微分领域）。一个笛卡尔反向微分范畴是一个配备了反向微分组合子 R R的笛卡尔左加性范畴 X ，其推理规则如下给出：

其中，满足文献[9]中列出的八个公理的 R [ f ] 被称为 f 的反向导数。我们尤其要强调其中的反向链式法则公理，该公理定义了复合映射上的微分运算。

在标准计算中，就函数近似而言，前向导数与反向导数之间更直接的关系如下：

2.2. 组件的复合

本节重点介绍《基于参数化透镜的深度学习》[5]中的主要成果，该文将参数化透镜描述为在基于梯度的学习过程中发挥作用的同质组件。

对于最基本的情形，他们讨论了一个典型的监督学习场景及其范畴化。该场景涉及寻找一个参数化的模型f f，其参数为 p ∈ P ，这些参数逐步更新直至满足特定条件。基于梯度的更新算法称为优化器，它基于损失映射迭代更新这些参数，并由学习率α α控制。文献[5]的作者强调，每个组件（包括模型、损失映射、优化器和学习率）都可以独立变化，但都被统一形式化为参数化透镜。它们的图形化定义和类型总结在表4中。该表总结了使用参数化透镜进行范畴化监督学习的以下关键组件：

模型：一个参数化函数 f : P × X → Y
，将输入映射到输出，并通过重参数化实现参数更新。
损失映射：计算误差；其反向映射 R [ loss ]
用于基于梯度的更新。
梯度下降：利用梯度信息迭代更新参数。
优化器：包括基本变体和带状态变体，后者结合了记忆以实现自适应更新。
学习率：控制更新步长的标量。
角结构：确保学习组件之间的兼容性。

这种形式化方法将学习过程统一到一个模块化、可组合的框架中。此外，

可以作为同一框架中数字电路（作为输入）学习的基范畴被引入[10]。

在文献[5]中，作者提出了一个全面的参数化透镜框架，该框架能够容纳广泛的变体，包括不同的模型（如线性-偏置-激活神经网络、布尔电路[11]和多项式电路）、损失函数（如均方误差和Softmax交叉熵）以及梯度更新算法。这些算法包括众所周知的优化器，如动量法、涅斯捷罗夫动量法和自适应矩估计（ADAM），所有这些都可以在参数化透镜框架中进行描述。

因此，作者引入的参数化透镜框架为建模不同的优化算法提供了一种统一的方法，每种算法都具有各自独特的特征。参数化透镜的图形化定义依赖于三种类型的接口：输入、输出和参数，这些接口构成了基于组件方法的基础。

作为另一个案例研究，范畴论在基于梯度的学习中的一个显著实践应用是“numeric-optics-python”库，该库将透镜和反向导数等范畴概念应用于神经网络构建与优化[12]。该库遵循组合性方法，使得神经网络架构能够从原始范畴组件中系统地组装而成。其框架增强了模块化和可解释性，同时保持与传统深度学习框架的兼容性。该库包含了在标准机器学习基准测试（如Iris和MNIST）上的实践实验，展示了其在实际任务中的有效性。此外，使用Keras的等效实现提供了直接比较，突显了其将范畴方法集成到现有基于梯度的优化流程中的能力。通过利用范畴光学和函子式微分，该案例研究 exemplifies 了范畴论如何改善基于梯度的学习模型的结构、模块化和可解释性，为更具组合性和数学基础的机器学习框架铺平了道路。在文献[4,5]的基础上，数据并行算法已在弦图中得到探索，这些算法能够基于反向导数高效计算基于梯度的学习者的符号表示[13]。基于这些高效算法，多个Python实现[14–16]已经发布。这些实现的特点是速度快、具备数据并行能力以及与GPU兼容；它们所需的基本组件/依赖极少，且易于正确实现。

2.3. 其他相关研究

Cruttwell 等人 [4] 提出的基于梯度的学习范畴框架，在后续工作 [5,17,18] 中得到完善，该框架建立在 Fong 等人 [19,20] 的基础研究之上。该框架最初为监督学习而开发，后来融入了概率学习以处理不确定性 [7,21]。

Cruttwell 等人强调了学习过程的组合性质，将模型、优化器和损失函数统一为参数化透镜。这种抽象使得系统具有模块化和可集成性，组件通过函子复合进行交互，并使用图形化符号进行视觉表示。由此产生的开放系统结构与开放佩特里网等框架相一致，确保了学习模型设计的灵活性。

透镜的一种扩展是“光学器件”。它们对应于学习过程不涉及“微分”的情况，因此不要求背景范畴具有笛卡尔性质。虽然基范畴仍然需要允许过程的并行复合，但它退化为一种幺半结构 [7,20]。

在文献[22]中，作者讨论了使用光学结构在数据库中进行数据聚合。他们还考虑了 Poly 范畴，该范畴与（模拟）电路设计中的机器学习密切相关 [10,23]。另一项工作[24]表明，具有可组合性的服务器也可以使用透镜结构进行抽象。

在文献[25]中，特别提到了光学的更高范畴（2-范畴）性质，用于对其内部设置进行编程。具体而言，光学的内部配置由2-胞腔描述。从另一个角度来看，2-胞腔封装了同伦性质，这通常被视为范畴系统的内部语义。这与文献[26]中基于拓扑斯的研究相一致。一些相关内容在文献[27]中也有所提及。

在文献[28]中，博弈论因素也被整合到这个范畴框架中，该研究更侧重于反馈机制而非学习算法。我们认为将他们的思想与强化学习[29]（见下一段）相结合是一个有趣的方向，文献[30]中提供了现有实例。

一个关键的实例是，贝叶斯学习过程的组合使用的是光学器件而非透镜[31]。我们将在下一节详细介绍这项工作。由于决策是基于策略和贝叶斯推理做出的，他们引入了“作用范畴”的概念来表达范畴上的作用，这也与幺半结构相关（笛卡尔范畴是具有附加结构的一类特定幺半范畴，例如对称张量积和投影映射）。此外，文献[29]中采用了类似的结构，将组件组合框架扩展到了强化学习。他们展示了如何将强化学习的几种主要算法纳入范畴参数化双向过程的框架中，其中强化学习智能体的可用动作取决于马尔可夫链的当前状态。在文献[32]中，作者考虑了如何同时以自上而下的方式指定约束和以自下而上的方式进行实现。这种方法引入代数结构来扮演“动作”的角色，或者更准确地说，是动作下的不变性或等变性。在这种背景下，他们选择引入单子结构，并使用单子代数同态来描述等变性。他们框架的一个重要实例是几何深度学习，其主要目标是找到神经网络层，这些层是与群作用相关联的单子的单子代数同态。值得注意的是，这种结构与文献[26]中的“层作用”进一步相关。

当这个框架进一步扩展到流形学习时，流形上的点具有附加数据（在其切空间中），仅考虑数据本身的反向微分范畴就不够充分了。文献[18]将基范畴扩展到了反向切范畴，即其微分丛具有对合运算的范畴。

将范畴论应用于基于梯度的学习的其他研究包括文献[33]。这项工作主要为具有表达性特征的编程语言服务。作者将他们的结果建立在原始自动微分算法之上，将其视为从源编程语言的语法到目标语言语法的同态（保结构）函子。这种方法可扩展到高阶原语，例如对构造性数据结构的映射操作。因此，他们可以利用自动微分来构建诸如微分方程和代数方程求解器等实例。

一些研究，如文献[13,34,35]，也提供了关于范畴学习在神经电路图和深度学习中的组合性、图形化和符号化性质的全面思路。他们的工作还讨论了相关的语义。

3. 基于概率的学习进展

概率在机器学习中扮演着关键角色，特别是在概率建模、贝叶斯推理和生成模型等领域。许多机器学习任务可以构架为优化问题，其目标是最小化损失函数。在此背景下，有效解决问题需要仔细考虑数据集的来源和局限性，例如偏差和数据质量。在概率方法中，不确定性通过概率论和贝叶斯推理进行建模，将监督学习转化为对输出分布进行近似的问题。

在范畴论中，随机行为在马尔可夫范畴和随机映射范畴（例如Stoch、FinStoch）等范畴中进行研究，其中态射表示概率转移，对不确定性随时间的演化进行建模。

以下是机器学习中关键概率类型的概述：

•经验概率：定义为事件发生次数与总观测次数的比率。在范畴论背景下，经验概率以三种不同方式表示：首先，作为将观测值 A A映射到分布 Δ ( A )
的函子；其次，通过捕捉有限测度的吉里单子；第三，在测度论概率框架内，通过Meas等范畴形式化可测空间和可测函数。

•理论概率：定义为有利结果与可能结果的比率。在范畴论中，理论概率使用吉里单子来表示概率分布，并使用Meas等范畴来形式化可测空间和函数。此外，幺半范畴为组合分布提供了结构化的框架，有助于对机器学习中的概率过程进行建模。

•联合概率：联合概率 P ( A ∩ B ) = P ( A ) × P ( B ) 量化了两个事件同时发生的可能性。在范畴论中，它通过马尔可夫范畴中的复制结构或幺半范畴中的张量积进行建模。

•机器学习中的条件概率与贝叶斯定理：条件概率在概率推理中发挥着基础性作用，允许基于新信息更新信念。在机器学习中，它广泛应用于概率模型，如贝叶斯网络和隐马尔可夫模型。两个事件的联合概率可以表示为：

这构成了学习算法中顺序决策与推理的基础。条件概率的一个直接应用是贝叶斯定理，它根据新证据更新假设的概率，其表达式如下：

该定理在贝叶斯推理中至关重要，广泛应用于生成模型、强化学习和不确定性量化。

用范畴论的术语来说，概率转移可以使用马尔可夫范畴进行建模，其中条件依赖关系被自然地表示出来。然而，对于实际的机器学习应用，重点仍在于高效的近似技术，如变分推断和蒙特卡洛方法，以处理复杂分布。

统计学构成了机器学习的支柱，为数据分析、解释和推断提供了基本的方法论。具体而言，其在机器学习中的应用包括：泊松过程、鞅、概率度量、经验过程、Vapnik-Chervonenkis（VC）理论、大偏差、指数族，以及马尔可夫链蒙特卡洛等模拟技术。我们特别指出，代数几何领域也与机器学习中的统计方法密切相关[36]。机器学习中的统计方法大致分为两个关键领域：

•描述性统计：通过集中趋势、离散程度和可视化技术等度量来总结数据特征，提供对分布模式和趋势的洞察。

•推断性统计：利用样本数据估计总体参数，为假设检验、区间估计和预测建模提供支持。

3.1. 概率与统计学习的范畴背景

在机器学习中，预定义数据集通常被用来构建优化问题。要有效解决这些问题，需要深入理解数据的来源、偏差及其固有局限性。理解数据分布对于机器学习至关重要。随机不确定性通过概率论和贝叶斯推理进行建模，从而在监督学习中实现从函数近似到分布近似的转变。这种转变有效地处理了偶然不确定性，这种不确定性无法通过单纯增加数据集规模来降低。

范畴论是一个强大的框架，用于分析和解释各类模型中的随机性，将概率论、统计学和信息论联系起来。这种方法为开发稳健且广泛适用的学习模型奠定了坚实的基础。

该领域的一个重大进展是贝叶斯学习框架的范畴化形式化。贝叶斯学习将先验知识与观测数据相结合，以优化模型参数。先验分布在观测数据之前表示信念，而后验分布则通过纳入新证据来更新这些信念。贝叶斯法则从先验和似然推导出后验分布，确保参数估计与观测数据一致。贝叶斯方法不仅提供最优参数估计，还通过后验分布量化不确定性，后验分布既捕捉了数据变异性，也包含了固有随机性。这使得贝叶斯学习成为一个稳健且自适应的模型开发框架。概率论的范畴论方法提供了一个抽象且统一的框架，可大致概括如下：

•传统概率论结构的范畴化：概率空间和积分等结构可以通过吉里单子等结构进行范畴化，吉里单子将可测空间映射到概率测度，同时保持可测结构。这些框架形式化了空间与概率测度之间的关系，从而能够构建组合性概率模型。

•综合概率与统计概念的范畴化：某些公理和结构被视为概率逻辑中的“基础”，由此推导出推理过程。测度论模型是这些抽象框架的具体实例。马尔可夫范畴用于表示随机映射、条件概率以及概率系统中的组合推理。

早期的范畴框架形式化了概率测度。Lawvere [37] 和 Giry [38] 引入了概率测度的范畴视角。文献[39]聚焦于由此产生的超滤子单子，这是一种当概率单子由没有伴随的函子诱导时得到的结构，称为余密度单子。他们证明了集合上的超滤子单子可以解释为将子集映射到二元素集的功能性映射，满足有限可加概率测度的性质。文献[40]随后推广了这一框架，将这种概率测度描述为一个弱平均的、仿射可测泛函，映射到 [ 0 , 1 ] 中。空间上的概率测度被证明构成了吉里单子的子单子的元素。

在处理离散性起着关键作用的现实世界数据集时，这一点具有更深层的意义。文献[41]表明，吉里单子可以限制在具有离散 σ -代数的可数可测空间上，从而从余密度单子得到一个受限的吉里函子。这表明自然数 N 对于此类应用是“足够”的。在这里，标准可测空间被波兰空间取代，而波兰空间这一类别在范畴概率相关的机器学习中尚未得到充分探索。

吉里单子结构已被应用于许多领域，例如文献[42]中，随机自动机被构建为幺半群和吉里单子上的代数。这篇综述重点介绍了使用吉里单子对贝叶斯网络[21]、贝叶斯推理和推断[43,44]的范畴论方法。为了说明测度论视角如何融入机器学习中的概率推断，我们在表5中总结了吉里单子的作用。

马尔可夫范畴通过随机函数来表示“随机性”，为理解概率提供了一种独特的综合方法。对马尔可夫范畴的研究最早可追溯到 Lawvere [37] 和 Chentsov [45]。相关研究包括早期的综合研究[46–48]，以及 Kallenberg [49]、Fritz [50,51,51–54] 和 Sabok [55] 等人对马尔可夫范畴的带限制的专门化研究。马尔可夫范畴的优势在于其图形演算，这简化了将基于图表的操作转换为编程语言的过程[31,55,56]。

范畴论在概率机器学习中的应用旨在阐明性质并促进数据更新，特别是针对概率分布和不确定性推断。关键步骤包括形式化随机变量、在范畴框架中对学习过程进行建模，以及建立概率推理的原则。例如，随机变量被视为范畴中的态射，学习过程被视为数据范畴与模型范畴之间的函子。贝叶斯机器学习使用范畴方法对函数空间进行参数化和非参数化推理，用范畴结构表示先验、似然和后验。这些框架使得组合推理成为可能，其中概率更新以组合方式进行建模，尤其是在监督学习中。范畴贝叶斯概率形式化了先验知识以及基于数据的信念更新。

概率建模的范畴方法提供了实际优势，如简化证明、补充测度论方法，以及直观地表示复杂的概率关系。例如，马尔可夫范畴为推理随机过程、条件概率和独立性提供了一个框架。相关研究包括文献[1,21,31,43,44]等贡献。实验研究，如文献[57]，展示了范畴理论在自动推理系统[58–60]中的应用，证明了其在机器学习中的实际价值。

3.2. 预备知识与基本概念

在本节中，我们将介绍与研究相关的关键预备知识和基本概念。

关键操作，如推前和积分，在 QBS 中也是定义良好的，确保了概率结构的保持。此外，在概率机器学习的应用中，QBS 促进了贝叶斯推理、随机映射和概率编程中的结构化推理，为复杂模型提供了一个组合性框架。

总之，拟博雷尔空间恢复了笛卡尔闭性，使其成为在机器学习中构建高阶概率计算、同时确保与传统概率论兼容的强大工具。

随机映射通过指定状态之间的概率性转移而非确定性转移来对不确定性进行建模。在机器学习中，它在马尔可夫决策过程、强化学习和概率图模型中扮演着基础性角色。具体而言：

在马尔可夫链中，随机映射描述了状态之间的转移概率，构成了序列依赖性建模的基础。
在强化学习中，策略函数和转移模型通常被表示为随机映射，捕捉环境动态中的固有随机性。
在概率推断中，随机映射定义了贝叶斯网络和隐马尔可夫模型中的条件分布。

随机核将随机映射推广到连续空间，允许在 Y 的任意可测子集之间进行概率性转移，而不仅仅是在离散点之间。它是以下领域的关键工具：

贝叶斯学习：对贝叶斯推理中的后验分布进行建模。
顺序决策：表示随机控制和强化学习中的转移动态。
变分推断：在随机优化和蒙特卡洛方法中定义概率测度。

在机器学习中，随机映射和随机核能够对不确定性进行结构化建模，从而在概率假设下促进稳健的决策制定。

利用随机核和马尔可夫核，我们可以定义范畴概率学习研究中常用的以下范畴，其中这些核作为态射（见表6）。

基于概率的学习过程的范畴化涉及使用以下单子来处理概率测度（定义参见文献[46,63]）。

如前所述，马尔可夫范畴是其态射编码“随机性”的范畴。在基于范畴的概率学习中，马尔可夫范畴背景对于描述贝叶斯反演、随机依赖关系以及随机性与确定性之间的相互作用是必要的。

接下来，表7列出了此背景下一些常用的概率单子。

构建马尔可夫范畴最常见的方法之一是将其构建为克莱斯利范畴，这涉及在基范畴上添加一个交换单子结构。下面我们介绍一个典型例子：Meas上的吉里单子。

Meas（及其相关子范畴）上吉里单子的克莱斯利态射即为马尔可夫核。因此，其克莱斯利范畴即为Stoch范畴，这是马尔可夫范畴的一个重要实例。

相应的克莱斯利范畴（在基范畴基础上附加单子结构，具有如 C ( X , D ( Y ) )形式的态射）可以描述一个对象与另一个对象相关联的概率分布，从而构成一个马尔可夫范畴。因此，一旦存在概率分布，就自然存在一个对应的马尔可夫范畴。

接下来，我们介绍概率学习中的另一个常用分布单子。

离散熵始终非负，而连续熵由于使用密度函数，可能取负值。在这两种情况下， H ( X ) 都衡量随机变量 X 的平均不确定性或惊奇度。

3.3. 范畴贝叶斯学习框架

在神谷等人 [31] 的工作中，作者引入了一个用于贝叶斯推断和学习的范畴框架。他们的方法主要基于文献[4,19]的思想，并引入了马尔可夫范畴的相关概念来形式化整个框架。其关键思想可概括为两点：

贝叶斯推断与反向传播的结合产生了贝叶斯逆。
基于梯度的学习过程被进一步形式化为一个函子GL。

由此，他们发现贝叶斯学习是文献[4]中描述的学习范式的最简单情形。作者还构建了批量贝叶斯更新和序贯贝叶斯更新的范畴表述，并在一个特例中验证了这两者的一致性。

3.3.1. 概率模型

他们工作的基本思想是使用条件概率 p ( y ∣ x ) 来建模两个随机变量之间的关系。与基于梯度的学习方法不同，贝叶斯机器学习使用贝叶斯定理来更新参数 θ θ上的先验分布 q ( θ )
。后验分布由下式定义（直至归一化常数）：

这种方法对于贝叶斯机器学习至关重要，因为它利用贝叶斯定理来更新参数分布，而不是固定在某个确定值上。通过关注这些分布而非固定的点估计，贝叶斯框架增强了其管理数据不确定性的能力，从而提高了模型的泛化能力。

文献[4]中的模型作为一个具有输入、输出和参数的函数 f f，被调整为以下模型：对于输入数据和参数而言，当它们为分布时，数据并行和数据融合就变得复杂得多。因此，以下概念（如联合分布、反解、条件分布）变得十分必要。

3.3.3. 最终组合：BayesLearn 函子

最终目标是将整个贝叶斯过程综合成一个函子BayesLearn，使其构造能够捕捉贝叶斯学习的特征。除了前述的Para函子之外，还需要纳入一个反向反馈机制（透镜）。在此背景下，为了保持作用范畴的特征，构造中使用了格罗滕迪克透镜。

以下是从图片中提取的文字：

BayesLearn函子不像梯度学习函子那样包含更新或移位操作。这是因为贝叶斯学习的本质相对简化；在此，参数更新对应于使用先验和似然获得后验分布，而不是作为相对于损失函数优化的结果。

使用后验分布进行预测的方法可以在范畴内形式化，即通过考虑以下复合：

3.4. 其他相关研究

3.4.1. 范畴概率框架与贝叶斯推断

Fritz 等人 [53] 发展了一个概率论的范畴框架，该框架为许多基于概率的机器学习现代方法奠定了基础。通过利用吉里单子和马尔可夫范畴等概念，该框架在经典概率论与范畴结构之间架起了桥梁。类似模型，如文献[31,43,59]中的模型，进一步细化了这种联系，强调了连贯性和适应性。

该框架的一个主要应用是贝叶斯推断，其中使用对数线性模型来表达多元分类数据中的关系和条件独立性。Categorical-from-binary 模型使得对广义线性模型的高效贝叶斯分析成为可能，特别是在类别数量众多的情况下。这些模型简化了计算，降低了数据编码和操作的复杂性。贝叶斯方法，包括共轭先验、非对称超参数和 MCMC 技术，被无缝集成，在保持与范畴结构兼容的同时促进了高效推断。例如，MCMC 过程可以被解释为马尔可夫范畴内的态射，这与概率系统固有的随机转移相一致。

该框架内的概率测度被视为弱平均的仿射可测泛函，它们保持极限，在可测空间范畴Meas上构成了双重对偶单子的子单子。该子单子与吉里单子同构 [54]，强化了其经典适用性。此外，吉里单子作为描述和操作概率测度的形式化桥梁。

除了经典概率论，该框架还能容纳广义模型，包括模糊概率论。通过使用富范畴和子单子对概率测度进行建模，它提供了一种灵活的方法来处理不同背景下的不确定性。这种适应性使该框架能够与未来处理数据不精确性或模糊性的模型进行整合。

3.4.2. 广义模型与概率编程

Baez 等人 [67] 首次讨论了范畴视角与统计场论之间的联系，包括其欧几里得形式的量子力学和量子场论。他们发现了与非参数贝叶斯方法的相似性，并探索了使用单子构建概率论的方法。这种构造与贝叶斯视角下的分布上的分布（如狄利克雷过程）相一致。在文献[68]中，作者强调，在统计学习理论中，假设空间的丰富程度并非由参数数量决定，而是由衡量可证伪性的 VC 维数决定。因此，在此背景下引入逻辑分类（如拓扑斯结构）是自然的。

进一步的研究强调了句法在机器学习中的作用，特别是在自然语言处理等领域。句法确保了数据编码过程中结构和关系属性的保持。范畴方法通过函子框架，在维持结构一致性和阐明数据关系传播方面提供了鲁棒性 [69,70]。

为了应对这一挑战，文献[70]引入了一种分类伪距离，该距离源自 softmax 函数，用于将数据集转换为广义度量空间。这种方法量化了结构差异，并在保持关系信息的同时促进了基于句法的比较。

在应用层面，贝叶斯综合通过有效管理复杂统计模型中的不确定性，推动了概率编程的发展。该方法的核心是贝叶斯网络，它使用有向无环图表示依赖结构。它们简化了联合分布的表示，并通过提取条件独立性关系来实现高效推断，从而降低了计算复杂度。此外，概率图模型中的马尔可夫随机过程支持可扩展的推断 [59]。

另一个关键组成部分是基于 Strassen 定理 [71] 的概率耦合，它能够在采样空间之间无需双射的情况下实现分布之间的耦合。这增强了概率编程的表达能力。最后，贝叶斯透镜简化了贝叶斯更新，类似于数值计算中的自动微分，为概率编程语言提供了灵活性和适应性 [60]。

3.4.3. 范畴结构的应用与先进技术

概率的综合方法关注概率对象之间的关系而非其具体定义，在马尔可夫范畴框架内为概率论与统计学提供了坚实的基础。通过从具体表示中抽象出来，它强调了概率系统的组合性和结构性，促进了诸如描述极端概率行为的零一律等基本结果的发展[52]。该框架还通过贝叶斯综合增强了概率编程，特别是在 Stan 和 WebPPL 等语言中。贝叶斯综合既支持软约束——允许灵活的正则化或部分观测，也支持精确条件化——确保严格遵守观测数据。这种双重能力使得精确且适应性强的统计建模成为可能，而高斯概率语言中的语义分析则展示了贝叶斯综合在马尔可夫范畴结构化框架内的运作。

Shiebler 等人 [1] 提供了因果性的范畴视角，涵盖了因果独立性、条件以及干预效应等关键组成部分。这一视角利用范畴论的抽象性和组合性来建模和推断因果关系。在贝叶斯因果推断框架中，潜在结果方法处理因果估计量、识别假设、贝叶斯估计和敏感性分析。倾向评分、可识别性技术和先验选择等工具是稳健因果建模不可或缺的部分。一个基于幺半范畴和因果理论的形式化图形框架引入了代数结构，增强了我们对因果关系的理解。幺半范畴使用张量积表示独立或并行的过程，而因果理论则形式化了它们之间的交互。特别是马尔可夫范畴，为推理随机映射和噪声处理单元提供了一个组合性框架[72,73]。马尔可夫范畴中的对象表示可能状态的空间，态射作为可能引入噪声的信道，从而能够精确解释因果关系[1]。

弦图作为可视化和分析因果模型的强大工具。当根据因果模型的规范进行分解时，这些图与马尔可夫范畴中的态射相对应。例如，弦图的分解可能表示一个因果系统，其中变量通过噪声信道相互影响，反映了概率依赖关系。这种兼容性凸显了因果结构与概率关系之间的深层联系[74]。诸如二阶随机占优和 Blackwell-Sherman-Stein 定理等关键概念进一步深化了我们对因果推断的理解[53]。在这个范畴框架中，因果模型抽象地表示了因果独立性、条件和干预效应，超越了结构方程模型或因果贝叶斯网络等特定模型的方法。相反，因果模型被形式化为弦图的概率解释，通过函子之间的自然变换（称为抽象和等价）建立等价关系。这种抽象使我们能够更一般、更统一地理解因果关系，为推理因果关系和干预效应提供了原则性的基础。

在文献[57]中，探讨了对称幺半范畴和 operad 等范畴结构与摊销变分推断在 DisCoPyro 等框架中的整合。对称幺半范畴能够对组合过程进行建模，而 operad 则形式化了层次化和模块化结构。这些结构与变分推断框架的迭代和模块化性质自然契合。这种整合展示了马尔可夫范畴如何连接抽象的数学基础与实际的机器学习应用，从而提高了贝叶斯模型的效率和表达能力。通过利用范畴方法，可以构建用于函数空间（如高斯过程）上参数化和非参数化贝叶斯推理的模型，并在对称幺半弱闭范畴内分析性地定义推断映射。这些发展凸显了马尔可夫范畴为监督学习和一般随机过程提供统一且稳健基础的潜力。

从代数角度来看，文献[75]引入了范畴体和函子体的概念来刻画条件独立性的普遍性质。范畴体扩展了传统范畴以适应概率结构，而函子体则推广了函子以捕捉条件独立性的关系。如前所述，关于拟博雷尔空间（它是笛卡尔闭的）的研究支持高阶函数和连续分布，为概率推理提供了一个稳健的框架[60]。这种方法与 Curry-Howard 同构相一致，为有限离散分布提供了通用表示。这些先进技术的整合促进了复杂模型和推理算法的发展，用于处理概率查询和为复杂事件分配概率[72]。

在应用方面，文献[76]利用单子结构对包含多个可训练变量的静态类型函数进行反向模式自动微分。

4. 基于不变性与等价性的学习进展

在机器学习中，不变性与等价性是关键概念，它们确保模型在图像分割、缩放或旋转等变换下产生一致的结果。这些变换通常反映了数据的几何结构，数据被视为位于流形上。同样，分析共享网络组件如何影响数据，或者在训练过程中语义如何演变，对于理解等价性至关重要。尽管存在差异，但这些概念都与某种形式的不变性或等价性相关。

范畴论提供了两种主要方法来研究这些概念。第一种方法使用函子，函子在保持结构关系的同时在范畴之间进行映射。这种方法直接、计算效率高且实用。第二种方法涉及高阶范畴——如拓扑斯、叠或无穷范畴——以捕捉复杂的关系和多尺度依赖。这些方法虽然强大，但计算密集且实现难度更大。后续章节将探讨这两种方法及其与机器学习的相关性。我们简要介绍常见的同调方法论，重点关注：
• Shiebler 的工作 [77,78]，利用了函子构造；
• 其他基于函子构造的方法；
• 用于分析数据中拓扑特征的持续同调方法 [79,80]。

在深入细节之前，我们将传统的不变学习方法与新颖的范畴方法进行比较，突出它们在理论表述和计算复杂度上的差异。

传统方法依赖于明确定义变换群（例如旋转、平移）以确保模型不变性。例如，CNN 使用共享滤波器实现平移不变性。然而，将这种方法扩展到其他对称性（如旋转或缩放）需要添加额外的层或数据增强，从而增加了计算开销和设计复杂性。范畴方法利用范畴论对这些变换进行抽象。数据点及其变换不是被手动应用，而是在范畴内被表示为对象和态射。函子和自然变换捕捉这些对象之间的关系，使模型能够泛化到预定义变换之外。这种抽象简化了处理复杂对称性的过程，无需进行特定的修改。

在阅读本节时，可以思考一个实际例子，如图像识别。传统的 CNN 使用卷积滤波器在图像上滑动处理图像数据，检测对空间平移不变的特征。然而，要使模型对旋转或缩放保持不变，需要额外的机制，增加了复杂性。平移、旋转和缩放等变换不是直接应用于数据，而是被表示为图像对象之间的态射。函子捕捉这些变换之间的关系，使模型能够泛化到不同的对称性，而无需额外的层。范畴方法通过函子和态射抽象变换，提供了更大的灵活性和效率，减少了对显式定义的需求，并增强了对复杂数据和对称性的可扩展性。

4.1. 函子构造与性质

文献[81]的论文探讨了机器学习系统的组合性与函子结构，重点关注假设、问题和模型如何相互作用并适应变化。它解决了两个关键问题：模型的结构如何反映其训练数据集？看似不同的机器学习系统是否可能具有共同的结构？

Shiebler [77] 将层次化重叠聚类算法建模为通过单纯复形范畴进行分解的函子。他定义了一对伴随函子，将单纯复形与聚类算法的输出联系起来。在文献[78]中，他基于层次聚类函子，将流形学习算法刻画为将度量空间映射到优化目标的函子。这种方法证明了细化界限，并根据其等变性质将流形学习算法组织成一个层次结构。

通过根据特定准则对这些算法进行投影，可以推导出新的流形学习算法。

在本节中，我们主要介绍从无标签数据中提取结构的算法，即无监督学习。研究这些算法的性质有助于理解它们如何从噪声中分离信号，重点关注函子的不变性和等变性。

下面，我们首先介绍基本概念，然后深入探讨核心思想。

4.1.1. 预备知识与基本概念

在许多学习系统中，尤其是在流形学习中，数据集被表示为有限点集。同时，不变性和等变性被表达为“保持点之间的距离”。超度量空间允许无穷距离以及非相同点之间距离为零的情况。

。。。。。。。。。。。。。。。。。。

原文链接：https://www.mdpi.com/2075-1680/14/3/204

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.