网易首页 > 网易号 > 正文 申请入驻

马尔可夫范畴与熵 Markov Categories and Entropy

0
分享至

Markov Categories and Entropy

马尔可夫范畴与熵

https://arxiv.org/pdf/2212.11719



摘要
马尔可夫范畴是一种用于描述和处理概率论与信息论问题的新颖框架。本研究将范畴论形式体系与熵、互信息、数据处理不等式等传统量化概念相结合,证明信息论的多个量化维度可以通过增强型马尔可夫范畴来捕捉——该范畴中的态射空间需配备散度甚至度量结构。

遵循信息论的常规实践,我们通过选定散度来量化联合信源与其独立分量状态之间的偏离程度,从而获得互信息的度量方法。更具突破性的是,马尔可夫范畴为信源与信道提供了确定性的定义方式,使得熵能够通过量化信源或信道偏离确定性的程度来精确界定。这一方法不仅重构了香农熵、雷尼熵以及生态学中用于量化多样性的基尼-辛普森指数,更为广义熵的概念化定义提供了理论框架。

本文无需读者具备范畴论基础知识。

引言
本研究致力于融合信息论的两大核心主题:一方面是对信息流的定性描述,例如通过随机依赖关系的图形化表示或范畴论思想进行刻画;另一方面是基于熵、互信息等度量以及数据处理不等式等工具的定量推理。我们借助丰富范畴理论将定量维度纳入范畴论框架(但理解本文无需预先掌握该理论)。

自信息论发展初期,学界便对用范畴结构描述概率过程产生兴趣(最早公开文献可追溯至钦佐夫1965年的著作)。近年来,由弗里茨在2020年系统定义的马尔可夫范畴引发持续关注¹,这类范畴可视为核范畴的抽象化,其内置的图形演算能忠实反映信息流特征。事实上,马尔可夫范畴的图形演算已被证明满足d-分离定理[FK22],因此可与贝叶斯网络、马尔可夫随机场并列,视作概率图模型的一般性理论。这种图形表示与数学结构间的对应关系,使我们得以通过图形操作简洁证明定理。

概率论及相关领域的多项定理已通过该方式被重新证明乃至推广,包括:充分统计量相关定理[Fri20, Jac22]、科尔莫戈罗夫与休伊特-萨维奇零一律[FR20]、统计实验比较的布莱克韦尔-谢尔曼-斯坦定理[FGPR20]、德菲内蒂定理[FGP21, MP22b],以及遍历分解定理[MP22a]。马尔可夫范畴还被用于建模信息流特性[FGGHL+22],成功捕捉依赖性与独立性、信号传递等定性概念。

本研究转向信息论的量化概念,重点探讨散度与熵,并揭示其如何适配马尔可夫范畴体系。为将定量表述融入范畴论框架,我们采用丰富范畴理论[Kel82]——该理论以更广义结构替代传统范畴中对象间的态射集合。具体而言,我们引入度量或散度空间,用以衡量两态射间的"差异程度",即判定图表偏离交换性的程度。尽管度量看似比广义散度更具理想性质,但本文框架将保持普适性。我们重点考察三类散度:库尔贝克-莱布勒散度(相对熵)、更广义的雷尼散度,以及全变分距离。

信息论常将互信息定义为对随机独立性状态的偏离度量。这天然契合马尔可夫范畴体系——其中基于两个特定态射的等式关系(详见第3节)可抽象定义随机独立性。通过量化该等式的偏离程度,能精确重构香农互信息与雷尼互信息等度量。

马尔可夫范畴同样通过态射等式定义确定性概念(详见第4节)。通过量化该等式的偏离程度,并选择恰当散度,可完整复现香农熵与雷尼熵;若采用全变分距离,则得到生态学中用于量化多样性的基尼-辛普森指数[Lei21]。因此,本方法为(至少离散情形下的)广义熵提供了等价的抽象定义。

注¹:此处"当前形式"特指弗里茨2020年论文中确立的马尔可夫范畴公理化体系。

关于范畴论与熵的前期研究熵及其性质历来受到范畴论学界的关注。文献[BFL11][Lei19][FP21]从范畴论角度对香农熵进行了刻画,形式化了信息损失度量的思想;文献[BF14]针对离散情形,文献[GP18]针对一般标准博雷尔情形,通过贝叶斯推断刻画了相对熵(KL散度);文献[Ful22]给出了二维推广。熵可通过凸空间操作胚的视角研究,文献[Bra21]证明熵是该操作胚上的导子,其导子性质的同调视角研究见于[BB15]。熵的组合性质亦通过多项式函子得以探究[Spi22]。在量子领域,冯·诺依曼熵的范畴刻画[Par22]与量子相对熵的刻画研究[Par21]相继出现。从热静力学与热力学视角出发,熵及相关量的范畴意义研究可见[BLM21]。代数层面,文献[DGB13]给出了代数熵概念的范畴推广。此外,经典与量子熵及其与语境性的关联在[CD20]中亦有探讨。

本研究并非度量几何与范畴论结合研究熵的首例。该思想的早期雏形可追溯至格罗莫夫[Gro13],其工作除启发了本研究外,还催生了若干独立研究路径,如热带概率论[MP17, MP19c, MP19d, MP19b, MP19a]。最后,范畴论、度量几何与熵亦是专著[Lei21]的核心主题,该书探讨了作为多样性度量(如生态学语境)的类熵量。

本文结构第1节概述马尔可夫范畴,重点介绍两大实例:有限字母表与随机矩阵(含噪信道)构成的范畴FinStoch,以及无限可测字母表与马尔可夫核构成的范畴Stoch。

第2节回顾散度(统计距离)概念,定义马尔可夫范畴的丰富结构(定义2.5),解析相关不等式(特别是数据处理不等式,第2.1节)。通过回顾马尔可夫范畴中的联合分布与边缘分布概念,给出丰富结构的等价刻画——该刻画可视为观测变量数量单调性条件与广义链式法则的结合(第2.2节)。随后通过实例证明:KL散度(相对熵)、雷尼α散度、全变分距离均可赋予Stoch与FinStoch以丰富结构,而察利斯q散度一般无法实现此结构。第2.4节证明,在实例中,非离散概率测度间的散度可表示为可数划分上的上确界,并将此结果表述为本文框架的首个丰富泛性质。第2.5节进而定义条件散度,用以量化信道间几乎必然等价的偏离程度。

第3节回顾马尔可夫范畴中的独立性与条件独立性概念,将互信息定义为对独立性状态的偏离度量。该定义契合传统信息论视角,并在对应散度下重构香农互信息与α互信息(第3.2节)。通过构造证明:所有互信息度量均满足数据处理不等式(第3.1节),这再次导出观测变量数量的单调性条件。同时证明,用于量化几乎必然条件独立性偏离的条件散度度量,可复现经典条件互信息(第3.3节)。

第4节回顾马尔可夫范畴中的确定性信源与信道概念,将熵定义为对确定性状态的偏离度量。该定义在离散情形下复现若干经典随机性度量(第4.2节):KL散度对应香农熵,雷尼α散度对应(阶数为2-α的)雷尼熵,全变分距离对应基尼-辛普森指数。类似地,对几乎必然确定性偏离的量化可得条件熵(第4.4节)。在非离散情形下,这些熵度量对无原子分布取最大值(第4.3节)。我们论证此现象源于可测空间在描述连续情形的局限性,并提出更具几何性的研究路径(第4.5节)。

附录A详述作为马尔可夫范畴丰富基底的散度空间范畴结构。理解正文无需阅读附录或预先掌握丰富范畴论知识。

1 背景:马尔可夫范畴
马尔可夫范畴是对含噪处理单元及其可共享输入输出数据系统的抽象。

字母表与信道
首先,马尔可夫范畴由一系列对象(记为X、Y等)构成,我们将这些对象视为可能的状态空间、数据空间或字母表。在本文中,我们将其表示为水平走向的导线。




这些可视为无噪声的信道。
我们可以将概率测度建模为无输入的信道,具体方式如下。首先,我们有一个称为单位元的特定对象,记作 I,它在图示中不画出(以空白区域表示)。它代表无信息的状态。在 FinStoch 和 Stoch 中,它是单点空间,即无需对状态进行区分。X 上的一个信源或(随机)状态现在是一个态射 p : I → X,我们将其描绘如下。




在 Stoch 和 FinStoch 中,该态射只是以概率 1 交换坐标,即 ( x , y ) ↦ ( y , x )
。这些同构必须以构成所谓对称幺半范畴的方式兼容(更多信息参见例如 [ML98, 第七章第 1 节])。



在 FinStoch 中,这恰好是随机矩阵每列之和为 1 的条件,即转移概率归一化。

这些结构和性质正是构成马尔可夫范畴所需要的。为便于参考,以下给出严格而简洁的定义。

定义 1.1.马尔可夫范畴是一个对称幺半范畴 ( C , ⊗ , I )
,并为每个对象 X X选定一个与张量积相容的交换余半群结构,且满足所有态射都是余幺的。

有时会省略余幺性或归一化条件,此时不称马尔可夫范畴而称为垃圾共享(GS)范畴[Gad96, FL22] 或拷贝丢弃(CD)范畴[CJ19]。

关于马尔可夫范畴理论的更多信息,我们推荐原始文献 [Fri20] 以及引言中引用的其他材料。需注意,在大多数其他文章中,图形演算采用垂直方向(从下到上)而非从左到右。

2 马尔可夫范畴上的散度





不等式 (2) 和 (3) 的一个解释是:可以通过更简单的组件来界定通过顺序组合与并行组合获得的信源与信道复杂配置之间的散度。例如,下图所示两个系统之间的距离或散度:



熟悉丰富范畴论的读者可能会在定义 2.5 中识别出丰富结构。确实如此,感兴趣的读者可参阅附录 A 中的更多细节。另请注意,该定义中我们使用了 C 的幺半结构,但未使用其马尔可夫结构。然而后者将在定理 2.7 中用于给出更简洁的描述。


2.1 数据处理及其他不等式
在定义 2.5 中,我们已看到,为了通过 (4) 式在马尔可夫范畴上定义散度,对于如下形式的每个图表:




我们实际上可以得到序贯不等式 (10)。

张量积条件 (3) 同样是一种三角不等式,但作用于另一种"方向",即并行处理的方向。它表明我们可以通过独立过程的各组件来界定并行组合后的散度。同样,这通常与散度是否满足度量三角不等式无关。

2.2 用联合分布与边缘分布刻画
我们拥有带散度马尔可夫范畴的等价刻画,该刻画聚焦于联合态射、边缘态射及其分布,而非序贯组合。首先回顾:给定 X 上的有限支撑概率分布 p 和 Y 上的有限支撑概率分布 q,p 与 q 的联合分布(若将 X 与 Y 视为随机变量,亦可称为 X 与 Y 的联合分布)是 X × Y 上的一个概率分布 r,使得:






2.3 特定散度
信息论、概率论和统计学中使用的若干散度,都是定义 2.5 意义下 Stoch 与 FinStoch 上散度的实例。以下给出一些例子及一个反例(第 2.3.4 节)。对 Stoch 与 FinStoch 上所有散度的完整分类目前仍是一个开放问题。

原文链接:https://arxiv.org/pdf/2212.11719

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
终于,伦纳德顶不住了

终于,伦纳德顶不住了

只关于篮球
2026-02-21 15:15:22
为啥我们五次申请CPTPP都失败?原因在于第四条

为啥我们五次申请CPTPP都失败?原因在于第四条

老籣说体育
2026-02-21 12:00:33
教育部亮红牌!这些专业的学生“毕业即失业”,985也在连夜撤销

教育部亮红牌!这些专业的学生“毕业即失业”,985也在连夜撤销

小熊侃史
2026-02-18 20:11:34
震惊!小妈祖高兴时的样貌,才知被妈祖选中的孩子,果然与众不同

震惊!小妈祖高兴时的样貌,才知被妈祖选中的孩子,果然与众不同

火山詩话
2026-02-20 08:24:21
2球2助攻身价25万欧元,狼队要价5000万英镑,曝利物浦将签新马内

2球2助攻身价25万欧元,狼队要价5000万英镑,曝利物浦将签新马内

夏侯看英超
2026-02-22 02:00:30
说实话我真的不敢相信她已经61岁了,看起来竟然像四十岁左右

说实话我真的不敢相信她已经61岁了,看起来竟然像四十岁左右

王二哥老搞笑
2026-02-21 19:16:49
民企已经到了“斩杀线”:25%躺平,38%绝望,80%内卷

民企已经到了“斩杀线”:25%躺平,38%绝望,80%内卷

苏格拉高
2026-02-21 19:53:50
新化消防车救火后返程坠崖6名消防员牺牲,起火住户痛心不已,记者实探:事发地坡道陡峭,村民刨出便道协助救援

新化消防车救火后返程坠崖6名消防员牺牲,起火住户痛心不已,记者实探:事发地坡道陡峭,村民刨出便道协助救援

极目新闻
2026-02-21 17:51:05
42死300伤!北海道暴雪困住中国游客,有人喊话:祖国包机来接人

42死300伤!北海道暴雪困住中国游客,有人喊话:祖国包机来接人

青眼财经
2026-02-20 23:31:25
广东将迎冷空气+降雨!返程请注意

广东将迎冷空气+降雨!返程请注意

佛山发布
2026-02-21 11:29:10
湛江妈祖事件发酵升级!有网友称,当地年轻人外出找工作都难了…

湛江妈祖事件发酵升级!有网友称,当地年轻人外出找工作都难了…

火山詩话
2026-02-21 12:06:43
贝加尔湖7名遇难中国游客遗体已被发现,目击者:唯一幸存者在沉湖前最后一刻打开车门;司机为当地44岁男子,或涉违规私下接单

贝加尔湖7名遇难中国游客遗体已被发现,目击者:唯一幸存者在沉湖前最后一刻打开车门;司机为当地44岁男子,或涉违规私下接单

每日经济新闻
2026-02-21 12:38:14
再见了,私人账户避税!2月起,个人账户进账超过这个数要注意了!

再见了,私人账户避税!2月起,个人账户进账超过这个数要注意了!

祥顺财税俱乐部
2026-02-21 09:02:08
45万换新肝?海南明码标价的干细胞成果出炉,或惠及700万硬化者

45万换新肝?海南明码标价的干细胞成果出炉,或惠及700万硬化者

番茄健康
2026-02-21 18:20:03
这个春节,买了恒科的眼泪都流干了

这个春节,买了恒科的眼泪都流干了

贩财局
2026-02-21 09:35:42
6名精英女性在加州致命雪崩中遇难:她们因孩子结缘,装备齐全

6名精英女性在加州致命雪崩中遇难:她们因孩子结缘,装备齐全

极目新闻
2026-02-21 19:27:21
美联储官员发出警告:AI如果继续快速发展,将导致许多人终身失业

美联储官员发出警告:AI如果继续快速发展,将导致许多人终身失业

爆角追踪
2026-02-20 10:53:11
机器人集体亮相春晚后:“假蔡明”被送给了真蔡明,“春晚版熊猫”拍出近6万元高价

机器人集体亮相春晚后:“假蔡明”被送给了真蔡明,“春晚版熊猫”拍出近6万元高价

红星新闻
2026-02-21 20:39:13
特朗普宣布加征10%全球进口关税,白宫公布豁免范围

特朗普宣布加征10%全球进口关税,白宫公布豁免范围

界面新闻
2026-02-21 11:05:45
河北男子出差去厦门前关掉了家里地暖,当晚楼下阿姨在业主群里开骂,谁料,6天后整栋楼的人都懵了!

河北男子出差去厦门前关掉了家里地暖,当晚楼下阿姨在业主群里开骂,谁料,6天后整栋楼的人都懵了!

LULU生活家
2026-02-21 18:01:36
2026-02-22 02:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1232文章数 18关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

黄晓明澳门赌博输十几亿 本人亲自回应

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

本地
艺术
时尚
数码
健康

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

艺术要闻

他的肖像画和人体画,竟让人赞叹不已!

冬天穿衣尽量别露腿,这些基础穿搭可尝试,简单大方又不挑人

数码要闻

物理销毁SSD:结果根本没贯穿PCB!直接就扔到垃圾桶了

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版