★加星zzllrr小乐公众号数学科普不迷路!
本月主题:
1. 杰利蝾螈的数学
2. “蛋白质宇宙的拓扑特性”
作者:Tony Phillips(石溪大学数学教授)2025-10-8
译者:zzllrr小乐(数学科普公众号)2025-10-9
1. 杰利蝾螈的数学原理
杰利蝾螈(Gerrymandering)是指绘制不成比例地有利于某一政党的立法地图的做法。最近,德克萨斯州新制定的亲共和党立法地图 https://www.texastribune.org/2025/08/23/texas-congressional-map-lawsuit/ 引发了诉讼,民主党州甚至威胁要采取类似行动 https://www.nytimes.com/2025/09/10/opinion/gerrymandering-california.html 。哈佛大学经济学家罗兰·弗莱尔(Roland Fryer)在2025年8月12日刊登于《纽约时报》的一篇客座文章中 https://www.nytimes.com/2025/08/12/opinion/math-solution-gerrymandering.html ,分享了一个他认为有助于识别杰利蝾螈地图的指标。
这一指标被称为“相对接近指数”(RPI,Relative Proximity Index),由弗莱尔和理查德·霍尔登(Richard Holden)于2007年提出 https://www.nber.org/system/files/working_papers/w13456/w13456.pdf 。它对紧凑性进行了精确的数学解释,而紧凑性正是美国国家州议会委员会 https://www.ncsl.org/elections-and-campaigns/redistricting-criteria 制定公平立法地图的两大“传统标准”之一。(虽然不公正划分选区的做法并不被认为是好的做法,但法律并未明确禁止。各州只需尽可能划分人口比例相等的选区即可。)不同州对紧凑性的衡量标准有所不同,妇女选民联盟的这些例子 https://my.lwv.org/sites/default/files/leagues/wysiwyg/North%20Carolina/fs-compact.pdf 就证明了这一点。
目前的紧凑度衡量标准是基于选区的几何形状:狭长的选区或周长较长的选区会受到惩罚。然而,Fryer 和 Holden 的指数则基于选民的位置来衡量紧凑度——具体来说,是选区内选民之间的平均物理距离。该指数随后将这一平均物理距离与任何可能的选区划分方案所能达到的最小物理距离进行比较。RPI 实际上与目前的衡量标准呈负相关,因此可能会推荐与目前使用的地图截然不同的地图。
这个平均距离是如何计算的?我们首先将州 S 想象成一个二维平面,居住着编号为 1,2,...,N 的个人。如果该州选出 M 名立法者,则人口均等要求规定 S 应划分为 M 个选区 D₁, D₂, ..., Dᴍ,每个选区约有 N/M 名居民。要计算 Fryer 和 Holden 的平均距离测量值,请计算居住在同一选区的任意一对 i 和 j 之间的物理距离 d_{ij}。对于每个选区 D_k,将所有这些距离的平方相加:
∑_{i,j ∈ D_k} d_{ij}²
然后,将所有 M 个选区的结果相加,得到
π(D₁, ..., Dᴍ) = ∑_{k=1}^{M} ∑_{i,j ∈ D_k}d_{ij}²
Fryer 和 Holden 举了一个例子来说明这一点。下图改编自他们的文章,展示了一个假设的州,该州有两张可能的立法地图:一张是蓝色的(B ),另一张是橙色的( O )。蓝色地图中,同一选区选民之间的平均距离为π(B) = 24 ;橙色地图中,平均距离为 π(O) = 16。其他分区的π-得分均不低于 16 。
![]()
六个顶点排列成两行。第一行包含顶点 1、2、3;第二行包含顶点 4、5、6。
在这个简单的例子中,一个州有六名居民,位于一个 1 公里网格的顶点。他们将被分配到两个选区。图中展示了两种划分方案。在蓝色方案中,选区的人口分别为 {1,2,3}和{4,5,6} 。在橙色方案中,选区的人口分别为 {1,4,5}和 {2,3,6}。
图源:Tony Phillips
由于最小平均距离是橙色地图所达到的,因此为了计算特定地图的 RPI,我们取其平均距离与 π(O) 的比值。因此,蓝色分区的 RPI 等于 π(B) 与 π(O) 的比值,即 24/16 = 1.5。橙色分区的 RPI 当然是 π(O)/π(O) = 1。
这种自然的紧凑性度量方法的缺点在于,目前已知的唯一找到最小平均距离的方法需要测试所有可能分区集合中的每个元素,而该集合的大小会随着该州人口的增加而呈指数增长。作者以加利福尼亚州的简化模型为例,将该集合的大小设为 78.4×10⁵⁹³⁵¹。
事实上,正如他们所说,最紧凑分区问题是计算复杂性理论归类为“NP难”的一类计数问题之一。是否存在一种通用的方法来控制这些问题是数学中一个悬而未决的问题,其重要性足以成为价值百万美元的千禧年大奖难题之一 https://www.claymath.org/millennium-problems/ 。
因此,就目前情况而言,从实际角度来看,无法获得精确的解决方案。但作者找到了一种解决方法:利用人口普查数据(即该州每个立法选区的人口中心)中包含的额外信息,他们可以构建出一个接近最紧凑分区的近似值。
为了了解转向最紧凑选区的实际后果,作者回顾了2000年加利福尼亚州、纽约州、宾夕法尼亚州和德克萨斯州选举的数据,并研究了从现行制度转变为最佳制度将如何影响选举结果。针对这两种情况,他们分析了数百次选举模拟,记录了各政党赢得的席位比例如何随其得票率的变化。他们得出结论,最紧凑的选区将使选举结果在统计上更显著地反映实际投票情况。
2. “蛋白质宇宙的拓扑特性”
这是2025年8月13日发表在《自然通讯》Nature Communications上的一篇文章 https://www.nature.com/articles/s41467-025-61108-2 的标题。正如标题所示,这项工作的范围非常广泛:AlphaFold2 数据库 https://alphafold.ebi.ac.uk 中建模的2.14亿个独特蛋白质。作者指出,蛋白质科学的一个主要原则是“蛋白质的形状决定了它的功能”。这促使他们系统地清点数据库中的所有蛋白质形状。为此,他们运用了21世纪拓扑学的一项创新,即对形状进行数学研究,称为持久同调(persistent homology, PH,也称持续同调) https://www.ams.org/publicoutreach/feature-column/fc-2016-12 。(另见此综述文章 https://arxiv.org/pdf/2004.00738 )
持久同调是一种为点云 X 赋予有意义形状的方法。使用正实参数 ε,我们在距离小于ε的任意两点之间画一条边;当三个点可以放入直径为 ε 的球体中时,我们填充一个三角形;当四个点可以放入直径为 ε 的球体中时,我们填充一个四面体。这就得到了所谓的单纯复形(simplicial complex),我们记为 X^ε。单纯复形具体的意思是,每当一个四面体属于 X^ε 时,它的三角形面也必须属于 X^ε,等等。(这根据我们定义 X^ε 的方式自动实现)
通常将点、边、三角形和四面体称为单纯形(单数simplex,复数simplices),并按如下方式标记它们。 X 中的点 p 是 0-单纯形 ⟨p⟩, p 和 q 之间的边是 1-单纯形 ⟨pq⟩,等等。 k维单纯形(我们将使用 ₂ 中的系数,即 0 和 1 ,以及 1+1=0)的线性组合称为一个k-链(k-chain)。 X^ε的k-链形成一个 ₂-向量空间。我们将这个向量空间标记为 C_k^ε(X)。它的基是 k-单纯形的集合。
同调是围绕边界(boundary)运算建立的。四面体 3-单纯形 ⟨pqrs⟩的边界是其四个面之和, ⟨pqr⟩+ ⟨pqs⟩+ ⟨prs⟩+ ⟨qrs⟩,等等:三角形的边界是其三条边之和,边的边界是其两个端点之和,点的边界是 0 。这在基础元素上定义了边界,并且该定义扩展到线性变换 ∂_k:C_k^ε(X) → C_{k-1}^ε(X),在我们的例子中对应于 k=1,2,3 。
同调的基本原理是边界的边界为零。这在单纯形上很容易验证,因此它对任何链都成立。例如,四面体边界的每条边恰好出现两次,分别出现在两个相邻的三角形面上,得出系数 0 mod 2。
这尤其意味着,由某个 (k+1)-链的所有边界组成的空间是所有边界为零的 k-链的子空间。这让我们将第k个同调向量空间 H_k^ε(X) 定义为商空间:在 C_k^ε(X) 中,取由所有边界为 0 的 k-链组成的向量子空间,除以由某个 (k+1)-链的所有边界组成的子空间。因此,在商中,如果两个 k-环的和是 (k+1)-链的边界,我们就称它们等价;特别是,如果一个环本身就是边界,则它就等价于0。粗略地说,H_k^ε(X) 跟踪 X^ε 中的 k-环,它们不是任何边界。
从这个粗略的意义上讲,H₁^ε(X) 记录的是没有内部的多边形——作者称之为“洞”(hole)。 H₂^ε(X) 记录的是空的多面体表面,或称“空隙”(void)。同时, H₀^ε(X) 记录的是位于 X^ε中不同连通分量中的点对。
当我们改变 ε 时,持久性就会出现。假设两点 1 和 2 的距离 δ 大于我们选择的参数 ε。那么 C₀^ε(X) 中的链 ⟨1⟩+ ⟨2⟩ 是一个 0-环,它不是边界,因此表示 H₀^ε(X) 中的 0 维同调类。但如果我们增加 ε 直到它大于距离 δ,链 ⟨1⟩+ ⟨2⟩ 就成为 1-单纯形 ⟨12⟩的边界。也就是说,它的同调类现在为0。原始类没有持久化。下面是一个更详细的例子。
![]()
左图:四个点,标记为 1、2、3、4,参数为 ε。点 2 到 3、点 3 到 4 以及点 4 到 1 之间均存在线段。点 1 和 2 之间没有线段。
中图:参数已增加到 δ,点 1 和 2 之间现在存在一条线段。
右图:参数已增加到 δ',由点构成的四边形现在已填充。
一维同调类的生与灭
图a. 在 X^ε中,边 ⟨14⟩、⟨34⟩和⟨23⟩不构成环的一部分,因为边 ⟨12⟩不在 X^ε 中。
图b. 当 ε 增加到 δ 时,边 ⟨12⟩连接了单纯复形。这四条边现在构成一个无边界环,因此是 H₁^ε(X) 中的非零类。
图c. 此类不持久:当 δ 增加到 δ' 时,2-单纯形 ⟨123⟩和 ⟨134⟩连接复形 X^{δ'}。链 ⟨12⟩+⟨23⟩+⟨34⟩+⟨14⟩是⟨123⟩+⟨134⟩和的边界,因此这个环现在在 H₁^{δ'}(X) 中为0。
图源:Tony Phillips
Madsen及其合作者用点云对 2.14 亿个 AlphaFold2 蛋白质结构进行了近似,其中每个点都给出了该蛋白质骨架原子之一在三维空间中的位置。对于人类血红蛋白这种重要的蛋白质,点云中有 574 个点 https://pubmed.ncbi.nlm.nih.gov/8890557/ ;对于某些蛋白质,点云的数量则高达数千个。对于每个点云,他们记录了持久同调性。
![]()
左图:蛋白质模型,其中一个环以紫色突出显示。
右图:同一种蛋白质,其一组链构成一个多面体的边,以紫色突出显示。
在血红蛋白亚基之一的持久同调分析阶段中,一个“环”(loop,表示非零一维同调类的环)和一个“空隙”(表示非零二维类的环)。
图片1H摘自《自然通讯》16, 7503,根据 CC by-NC-ND 4.0 许可证使用。
作者详细阐述了拓扑丰富度(topological richness)的概念,并将其定义为“衡量每种蛋白质有多少独特、持久的拓扑特征,……以残基数 [即该蛋白质点云中的点数,如上所述] 进行归一化”。它是在点云的持久同调分析中出现的孔洞和空隙的数量,参数 ε从 0 变化到点云的大小。
在分析中,他们发现了一些非常惊人的现象:蛋白质的拓扑丰富度在生物学的三个基本领域——真核生物(eukaryota,细胞有细胞核的生物;包括所有动物、植物和真菌)、细菌(bacteria)和古菌(archaea)——之间存在很大差异。对于真核生物,32%的蛋白质表现出拓扑丰富度,而细菌和古菌仅为 10%,古菌仅为 8%。
参考资料
https://mathvoices.ams.org/mathmedia/tonys-take-august-2025/
https://www.texastribune.org/2025/08/23/texas-congressional-map-lawsuit/
https://www.nytimes.com/2025/09/10/opinion/gerrymandering-california.html
https://www.nytimes.com/2025/08/12/opinion/math-solution-gerrymandering.html
https://www.nber.org/system/files/working_papers/w13456/w13456.pdf
https://www.ncsl.org/elections-and-campaigns/redistricting-criteria
https://my.lwv.org/sites/default/files/leagues/wysiwyg/North%20Carolina/fs-compact.pdf
https://www.claymath.org/millennium-problems/
https://www.nature.com/articles/s41467-025-61108-2
https://alphafold.ebi.ac.uk
https://www.ams.org/publicoutreach/feature-column/fc-2016-12
https://arxiv.org/pdf/2004.00738
https://pubmed.ncbi.nlm.nih.gov/8890557/
小乐数学科普近期文章
出版社和作家自荐通道
小乐数学科普荐书
·开放 · 友好 · 多元 · 普适 · 守拙·![]()
让数学
更加
易学易练
易教易研
易赏易玩
易见易得
易传易及
欢迎评论、点赞、在看、在听
收藏、分享、转载、投稿
查看原始文章出处
点击zzllrr小乐
公众号主页
加星★
数学科普不迷路!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.