![]()
摘要
结构生物信息学聚焦于生物分子的三维结构及其功能,蛋白质的结构是其核心研究对象。深度学习引发的蛋白质结构预测革命,特别是AlphaFold2的突破,实现了仅凭氨基酸序列即可达到原子精度的蛋白质结构预测,从根本上重构了该领域的数据生态。统计物理学与大数据分析方法的深度融合,使研究者能够突破传统个案研究的局限,从海量数据中系统性揭示蛋白质设计的普适性规律。大规模蛋白质结构数据的积累为定量化研究蛋白质动力学中的长程关联及其与进化的对应关系奠定了重要基础,这不仅为理解蛋白质的结构、动力学、功能与进化提供了统一的理论框架,其揭示的普适规律与设计原则也为人工蛋白质设计提供了关键指导。在此基础上,基于AlphaFold数据库的跨物种蛋白质结构对比统计分析,突显了数据驱动方法在揭示蛋白质进化过程中随生物复杂性增加而呈现的普适统计规律方面的核心作用,为理解生命进化的分子机制提供了全新视角。鉴于蛋白质功能的实现往往依赖于多种构象状态间的动态转换,蛋白质动力学的精确预测已成为当前研究的核心方向。统计物理与人工智能相结合的研究范式将持续引领蛋白质科学的创新发展,通过提升高通量筛选和理性设计效率,加速从基础发现到实际应用的转化,为合成生物学、精准医学等领域开辟新的可能性。
关键词:结构生物学,生物信息学,蛋白质动力学
夏辰亮,张泽成,管星悦,唐乾元丨作者
论文题目:Protein structural bioinformatics empowered by statistical physics and artificial intelligence 论文地址:DOI: 10.12211/2096-8280.2025-016
结构生物信息学与传统以序列分析为核心的生物信息学不同,其主要聚焦于生物分子的三维结构及其功能。蛋白质的结构是这一领域的核心研究对象,研究高度依赖于海量的结构数据,主要采用大数据分析、统计建模、机器学习以及计算模拟等方法,以揭示蛋白质结构与功能之间的复杂关系。近年来,深度学习技术的突破,特别是从氨基酸序列实现原子级精度的蛋白质结构预测,彻底重塑了该领域的数据生态。以AlphaFold2为代表的人工智能(AI)工具,不仅为蛋白质结构预测带来了革命性进展,其建立的AlphaFold数据库(AlphaFold database,AFDB)更提供了涵盖从细菌到人类等多个物种的超过2亿个蛋白质结构数据,为研究者从统计角度理解蛋白质的动力学、功能与进化规律创造了前所未有的机遇。2024年,AlphaFold2的主要开发者John Jumper及Demis Hassabis与蛋白质设计领域的先驱David Baker共同荣获诺贝尔化学奖,以表彰以AlphaFold为代表的AI技术在蛋白质结构预测与计算设计中的革命性影响。
合成生物学作为一门新兴交叉学科,旨在通过工程化设计生命系统实现特定功能,其中蛋白质的理性设计与功能优化是核心研究课题。无论是代谢途径中的酶分子、生物传感器的受体蛋白,还是分子机器的结构单元或细胞工厂的调控元件,蛋白质设计能力直接决定了合成生物系统的性能。然而,理性设计和优化蛋白质以实现预期功能仍是当前面临的核心挑战,其关键在于深入理解蛋白质的结构、动力学特性及其进化规律。
统计物理方法为解决上述问题提供了新的方案,其在蛋白质科学研究中早已发挥重要作用,而AI的发展进一步加速了这一领域的进步。通过将统计物理学原理与蛋白质结构大数据(其中也包含由AI预测得到的海量蛋白质结构)的分析相结合,研究者能够超越单一蛋白质的个案研究,从整体上把握蛋白质设计的普遍原则。本文将系统阐述相关方法在解析蛋白质科学基本问题方面的潜力。这种基于数据和统计物理的研究方法正在为合成生物学领域的蛋白质设计开创新的范式,推动该领域向更精准、更可控的方向发展。
1. 蛋白质的动力学与进化的对应关系:
数据驱动研究
1.1 蛋白质动力学:分子机制与研究方法
蛋白质是生命体系中执行各种功能的分子机器的重要组成部分,在催化、免疫、运输、能量转化和各种生命活动的调控中都发挥着关键作用。研究蛋白质的动力学特性对于理解其功能机制至关重要,因为生物体内蛋白质功能的执行往往需要依赖于构象变化。从物理环境来看,生命体系存在于一个高度涨落的环境中。虽然蛋白质的天然态结构对应于自由能最低的高度特异性的稳定状态,但这种天然态并非固定的静态结构——生物体内的蛋白质分子始终处于动态的涨落之中,有时甚至会相对于天然态发生大尺度的构象变化。这些丰富的动力学特性反映出蛋白质分子的柔性,体现了蛋白质作为软物质体系的典型特征。蛋白质的动力学特性在各种生物学过程中扮演着关键角色,例如:酶催化过程中的底物结合和产物释放、信号蛋白响应环境变化时的构象转变、离子通道蛋白的开关功能等等。因此,揭示蛋白质动力学的基本规律,不仅有助于深入理解生命过程,也为蛋白质的功能设计和调控提供理论基础。
传统的蛋白质动力学研究主要通过实验测量和理论计算两种方法开展。实验方面,核磁共振(nuclear magnetic resonance,NMR)可以探测蛋白质在溶液中的动态变化,但其时间尺度和样品适用性有限,并非所有动力学过程都能测量;X射线晶体学和冷冻电镜虽然能够提供高精度的静态结构信息,但直接获取动力学信息的能力有限。时间分辨率冷冻电镜(time-resolved EM,trEM)在一定程度上提高了观察的精度,但仍受到时间分辨率、样品异质性和数据处理等因素的限制,特别是对非平衡态的研究。此外,质谱技术也为蛋白质动力学的研究提供了重要补充。尽管这些实验方法在蛋白质动力学的研究方面提供了强有力的工具,但它们通常只能捕捉动力学过程的某一方面,难以同时兼顾时间与空间分辨率。
在理论计算方面,分子动力学模拟作为一种重要的研究手段,能够在原子尺度上描述蛋白质的运动细节,为全面揭示蛋白质动力学的普遍规律提供了重要途径。然而,受限于计算资源,分子动力学模拟难以实现对大量不同蛋白质的系统研究。随着结构生物学和生物信息学的发展,数据驱动的统计研究方法为理解蛋白质动力学提供了新的视角。这种方法不再局限于研究具体的蛋白质,而是致力于发现蛋白质动力学的普适性质。在物理学研究中,普适性具有特殊的重要性:不同体系可能表现出相似的宏观行为,这种普适性往往反映了更深层的物理规律。
1.2 蛋白质动力学中的长程关联与临界性
随着大规模蛋白质结构数据的积累,基于统计物理学的研究方法揭示了蛋白质动力学的普适规律,推动蛋白质动力学研究进入定量化、高通量、系统化的新阶段。在蛋白质动力学的刻画中,氨基酸残基的关联运动(correlated motion)描述了残基之间通过协同运动实现功能调控的物理机制。这种关联不仅体现在局域结构的热涨落(如α螺旋的伸缩或β折叠的扭曲)引发的构象变化,而且局域扰动可通过“长程关联”(long-range correlations)传递到空间远端的残基,驱动蛋白质整体构象发生重排。这种跨越空间尺度的动态协同性,是蛋白质执行催化、变构调控、分子识别等多样化生物功能的物理基础。
下面具体介绍氨基酸残基间关联运动的定量刻画。图1(a)展示了由NMR测定的结构系综(即NMR测定的蛋白质在天然态结构附近的构象集合)。如图1(b)所示,以Cα原子坐标代表残基的坐标,将其中第i个残基的坐标涨落记为(是相对于平均坐标的偏移量),则i与j两个残基的协同运动的方向交叉相关可以计算为:
![]()
式中,代表涨落的大小。
![]()
图1 蛋白质动力学分析方法示意图
本文重点讨论该方向相关性(即运动方向关联性),而运动幅度相关性(主要取决于残基定位差异,如表面与内部残基的差异)不在讨论范围内。除了基于NMR构象系综的统计分析以外,也可以将蛋白质的X射线晶体学结构表示为弹性网络,如图1(c)所示,在弹性网络模型中,氨基酸残基被描述为一系列的节点,以相应残基的Cα的坐标表示,当两个节点的距离小于给定的截断距离时,这两个节点被视为以弹簧连接(节点间存在接触),弹簧的弹性系数可以取为固定的常数或者根据残基之间的相互作用强度来选取。对此弹性网络模型进行振动模式分析,便可以预测蛋白质在天然态附近的动力学,如图1(d)所示,图中箭头反映的是特定振动模式下氨基酸残基的运动方向。
NMR研究与弹性网络模型的预测结果均可以观察到残基运动中相似的模式。将如图1(e)所示的残基运动交叉关联矩阵的矩阵元φij按照对应的残基对之间的距离rij分组后进行平均操作,可以得到随距离变化的交叉关联函数φ(r),使得φij≈φ(rij)。关联函数φ(r)的规律如图1(f)所示,随着两个残基之间距离的增加,残基之间的运动首先呈现随距离衰减的正相关性(同向运动),当残基之间的距离达到某一特定的长度(记作关联长度ξ)时,运动关联会经过一个零点(此时两残基的运动呈现统计意义上的无相关性),而随距离继续递增,残基的运动关联呈现反相关性(反向运动)。统计不同蛋白质的天然态涨落可以发现,涨落的关联长度与蛋白质分子的尺寸成正比,这正是长程关联的体现,也是有限尺寸物理体系处于临界态的典型特征。此外,长程关联所揭示的非局域性以及蛋白质振动谱中的幂律分布也都是蛋白质处于临界态的有力证据。
蛋白质长程关联的形成是分子尺度自然选择的体现。通过分析两个互补的结构参数:形状因子(基于结构分析,表征蛋白质整体形状偏离密堆椭球形的程度)与结构模块度(基于网络拓扑分析,量化网络结构被分割为模块的难易程度),我们发现,统计分布中最高频率出现的形状因子或结构模块度,与蛋白质在动力学达到最高敏感性(susceptibility)的最优形状或模块度恰好是一致的,同时,天然态蛋白质结构与三维空间中的密堆结构或随机几何图不同,会表现出更低的分形维度。这表明进化压力普遍选择具有特定构型的蛋白质,在结构稳定性与功能必需的柔性间达到最优平衡。该平衡与蛋白质尺寸密切相关:短链蛋白倾向于形成紧凑的球状结构,而长链蛋白往往形成多结构域以实现构象柔性。这项研究为蛋白质结构与动力学之间的关系提供了一个新的视角,也为揭示不同尺寸蛋白质的进化原理提供了理论依据。
从统计物理学的角度来看,蛋白质天然态结构同时满足稳定性与高敏感性,这反映了蛋白质“有序”与“无序”之间的微妙平衡。直观而言,稳定性和敏感性这两个需求是相互制约的:增强天然结构的稳定性会抑制体系的涨落,而维持系统的敏感性又可能削弱特定天然结构的稳定性。这种矛盾在进化过程中通过自然选择得到了巧妙解决。天然态蛋白质体系表现出类似于物理学中“相变临界点”的特征,一方面,天然态结构能够保持足够的稳定性以确保分子的结构完整性与功能特异性;另一方面,蛋白质可以保持适度的构象柔性,以实现对外部信号的高灵敏响应和必要的构象调控,从而精确执行复杂的生物学功能。这种双重特性恰恰是临界点的独特属性。
1.3 蛋白质动力学与进化的对应关系
蛋白质的动力学特性与进化过程之间存在着深刻的内在联系,这种联系是理解其生物功能与环境适应性的关键。进化选择了那些动力学特性能够最优支持生物功能的蛋白质序列及其所编码的结构变形,使得蛋白质动力学表现出的结构变化模式与其功能需求达到精确匹配。因此,生物体内的蛋白质展现出如图2(a)所示的两种不同时间尺度下的“变形”机制:在较短的时间尺度上,热力学涨落驱动蛋白质构象在天然态附近发生涨落,这种动力学特性与蛋白质的功能实现密切相关;而在漫长的时间尺度上,氨基酸序列通过突变和自然选择实现进化,导致结构发生适应性改变。尽管这两种过程分别对应着截然不同的时间尺度:前者涉及细胞内快速发生的生物化学反应,维持生命的日常活动;后者则建立在随机突变和自然选择的基础上,需要经年累代的积累。但越来越多的研究表明,它们具有许多相似性:蛋白质热涨落与结构突变都具有一定的低维特征,热涨落幅度较大的残基同样是突变率较高的残基,两种来源不同的结构改变会引起相似的力学性质改变等。一种经典观点认为:蛋白质的三维结构比其氨基酸序列具有更强的进化保守性,这种保守性在蛋白质的核心区域尤为显著。数据驱动方法为揭示蛋白质动力学与进化之间的内在联系提供了新的定量分析视角,对多种蛋白质家族的大规模统计分析还发现,蛋白质的稳定性与进化速度之间存在显著关联,这种关联受到选择压力、蛋白质表达水平等多因素的复杂调控。
![]()
图2 关联分析方法在蛋白质结构动力学及突变引起的结构变化研究中的应用
作者利用包含数十万个蛋白质结构(来自上百个蛋白质家族)的大型数据库,系统分析了蛋白质的天然态动力学与突变引起的结构变化中残基对的运动方向所出现的关联模式,所采用的计算方法(包括交叉关联矩阵与关联函数)与上一节所述方法一致。对数据集中的各个蛋白质家族,分别计算其代表蛋白内数百个残基的热扰动的交叉关联矩阵(动力学)与刻画突变引起的结构变化(进化)的交叉关联矩阵[图2(b)],结果发现,在不同蛋白质家族中,蛋白质残基在动力学中与在突变中出现的结构变化关联呈现高度相似性,从而揭示了二者间的深层对应关系。这种相似性具体表现在以下几个方面:首先,在同一家族的不同蛋白质结构中,对热扰动敏感、易发生较大涨落的残基,也更易因序列突变而发生显著结构变化;其次,描述蛋白质动力学的关联矩阵与描述蛋白质进化的关联矩阵的特征值分布与特征向量均高度相似;此外,动力学中的随距离变化的交叉关联函数φ(r)也表现出相似性,均呈现显著的长程关联模式。这种进化中的长程关联机制是对前文提到的蛋白质动力学中的长程关联的重要补充,具有重要的生物学意义:其一,残基的局域扰动可以对远端残基产生影响,促进蛋白质的大尺度构象变化;其二,单个位点的突变可导致远端位点的协同变化;其三,上述两种变化之间存在定量对应关系。这些发现为理解蛋白质功能动力学以及分析其进化约束条件提供了统一的理论框架。
尽管蛋白质的动力学和进化都涉及高维自由度(数百甚至上千个残基的涨落或突变),但主成分分析等数据驱动的降维方法,可将复杂的高维动力学约化到低维流形。这种描述揭示了蛋白质体系的“准低维”特征:虽然系统具有极高的自由度,但功能相关的构象变化被限制在由主成分分析确定的低维流形上,这使得蛋白质能够在保持结构稳定性的同时,通过有限维度的构象涨落高效执行复杂生物功能。
在低维描述框架下,数据驱动研究进一步证实了蛋白质动力学与进化的高度吻合。一方面,蛋白质天然态结构对热扰动表现出整体稳定性,同时保留特定敏感的运动方向;这些特定方向对应于动力学主成分,是功能实现的关键。另一方面,在蛋白质序列发生突变时,蛋白质承担生物功能的运动方向仍能够保持相对稳定,避免功能剧变导致的适应度降低。这种“准低维”特征的限制既保证了蛋白质功能的稳定性,又扩充了对应于特定结构的序列空间,提高了蛋白质的可设计性。
综上,数据驱动方法通过整合大规模蛋白质结构数据与统计物理模型,系统揭示了蛋白质动力学与进化间的内在联系。基于弹性网络分析与主成分降维的研究表明,天然态蛋白质普遍具有临界态特性。统计物理框架下的关联分析进一步证明,局域热涨落与远端残基的协同进化均受相同物理规律支配。这些发现不仅为理解蛋白质的动力学、功能与进化提供了统一理论模型,更为人工蛋白质设计确立了普适性的准则:通过模拟临界态的长程关联模式,可为优化人工设计蛋白的构象调控能力与进化适应性提供有力的指导,从而突破传统设计的思路限制。
2. 从蛋白质的结构预测
到基于结构预测的统计分析
2.1 蛋白质结构预测概述
结构生物信息学的传统研究主要依赖实验解析的蛋白质结构数据库(如PDB),然而由于实验方法的高成本与低通量特性,相关研究极大程度受到结构数据库的规模制约。截至2024年,PDB数据库中通过实验解析得出的蛋白质结构仅约23万个,而UniProt数据库已收录超过2.46亿条蛋白质序列,这种显著的鸿沟促使科学家们开发更高效的方法以基于序列信息预测蛋白质结构。而深度学习技术引发的蛋白质结构预测革命,特别是AlphaFold2(AF2)等AI工具的涌现,通过基于氨基酸序列实现原子级精度的结构预测,重构了该领域的数据生态与研究范式。当前,主流的蛋白质结构预测方法可分为三大范式:
其一为同源建模方法:基于“相似序列编码相似结构”的基本原理,利用已知结构的同源蛋白作为模板预测目标蛋白结构。该方法计算效率高,对具有同源模板的蛋白质(序列相似性>30%)预测较准确,但缺乏适合模板时性能显著下降。典型工具包括MODELLER和SWISS-MODEL。
其二为从头建模(ab initio)方法:该方法模拟蛋白质折叠的物理过程,通过搜索构象空间中能量最低状态预测结构,早期方法采用晶格模型,用能量函数关联序列与折叠,如代表性方法Rosetta。该方法核心在于构建准确的势能函数以描述残基间相互作用,以及开发高效的构象空间采样算法。尽管从头建模适用范围广,但蛋白质构象空间巨大的自由度导致计算成本非常高。
其三为机器学习方法:基于机器学习的预测方法在近年取得了突破性进展。例如,AlphaFold2将Transformer架构与进化信息相结合,整合了注意力机制(用于处理序列中的长程相互作用)、几何约束(用于引导构象搜索)以及多尺度预测(从全局折叠到原子级定位)等创新方法,从而实现了原子级精度的蛋白质结构预测,对大多数单体蛋白质的预测结果达到了接近实验解析的精度(TM-score>0.9),在本文2.2节中,将更具体地介绍其工作原理。此外,RoseTTAFold引入三轨交互网络实现了多层次结构信息的并行处理,显著提高了计算效率,而ESMFold基于蛋白质语言模型,通过大规模序列预训练实现了高精度预测,特别适用于宏基因组数据的快速分析,为未知蛋白质的功能解析提供了高效工具。机器学习方法为蛋白质科学带来革命性变革,使对海量蛋白质开展结构生物信息学研究成为可能。
2.2 AlphaFold系列模型的工作原理
作为蛋白质结构预测领域的里程碑式突破,AlphaFold系列模型的成功源于其对进化信息与深度学习技术的创新性整合。在深入探讨AlphaFold的工作原理之前,有必要回顾其理论基础——基于共进化分析的结构预测方法。共进化分析源于对蛋白质序列中协同突变模式的观察:序列中协同突变的位点在空间上通常紧密接触且存在物理相互作用。如图3(a)所示,当一个残基位点发生突变时,与之在三维空间接近的其他位点往往在进化选择的压力之下需要发生补偿性突变,从而维持蛋白质结构与功能稳定性。这种现象为从序列信息推断结构信息提供了可能性。然而,两个位点的相关性可能源于它们与第三位点的相互作用,而非彼此间的直接物理接触,为解决这一问题,研究者开发了直接耦合分析(direct coupling analysis,DCA)方法。DCA通过统计物理方法分离直接相互作用和间接相互作用,通过同源序列中各位点残基的联合分布推断位点间的直接耦合强度。该方法首先基于多序列比对(multiple sequence alignment, MSA)统计每个位点的氨基酸残基出现频率以及位点之间的残基对组合频率,然后通过最大熵原理构建能重现这些观测频率的最简统计模型,模型中的直接耦合参数反映了残基在三维结构中形成接触的可能性。
AlphaFold系列模型展现了共进化信息提取方式的不断深化。第一代AlphaFold采用卷积神经网络处理DCA衍生的特征,在CASP13中表现出色。而AF2的核心突破在于设计了一种专为结构预测问题优化的Transformer架构——Evoformer,直接处理原始多序列比对MSA数据,实现了MSA表示(提取共进化信息)与结构表示(提取残基配对信息)的协同优化。AF2的基本工作原理如图3(b)所示,这种架构突破了传统特征分离处理的局限性,使模型可以在利用自注意力机制的长程建模能力学习MSA中的共进化模式的同时,确保残基间的距离和方向建模符合局部立体化学规则。同时,AF2通过3次循环迭代逐步修正预测结构,实现精度累积提升;它还采用了自蒸馏技术,利用高置信度预测结果构建增强训练集,提升对低同源度序列的泛化能力。
![]()
图3 基于共进化的残基接触预测与AlphaFold2蛋白质结构预测模型架构示意图
2024年发布的AlphaFold 3(AF3)基于扩散模型架构,实现了生物分子复合物的全原子联合预测,进一步拓展了蛋白质结构预测的应用边界。AF3采用三阶段架构:输入模块新增构象生成功能;Pairformer模块减少对MSA的依赖,并通过跨蒸馏训练增强泛化能力;扩散模块以原子级表征替代AF2中的几何约束。相较于AF2的确定性预测框架,AF3通过扩散过程的逐步迭代去噪生成结构,显著提升了柔性区域的建模能力,在蛋白质-配体结合、抗原-抗体复合物结构的预测中表现出显著优势。这一模型标志着AI驱动的结构预测从单一蛋白质向多分子互作网络的范式转变,对药物设计和蛋白质工程具有直接的应用价值。
尽管AF等机器学习方法在蛋白质结构预测领域取得了革命性进展,但仍面临若干关键挑战。例如,在多结构域蛋白预测方面,由于结构域间仅存在弱进化关联(表现为MSA冗余度低),导致预测结构容易出现较大的偏差,此外,长链蛋白质结构预测中的注意力计算存在计算瓶颈,这些问题可以利用分治式组装策略与基于扩散模型的混合架构来提升预测精度。对于内禀无序结构的采样挑战,目前主要采用融合PAE/pLDDT置信度指标与分子动力学模拟的方法来捕获其动态构象系综。在蛋白质复合物结构预测领域,AlphaFold-Multimer通过改进AF2损失函数与训练流程提升了预测精度,此外,基于Monte-Carlo树搜索和扩散模型的新方法也在不断优化预测性能。此外,针对模型的可解释性问题,结合高通量实验与力学模型分析可显著提升AF2对突变诱导的力学响应变化的预测能力。综上所述,要突破这些挑战,需要构建“生成式AI+物理约束+实验验证”的协同创新体系,全面推动蛋白质结构预测从静态结构解析向动态功能研究的新范式转变。
2.3 基于AlphaFold数据库的统计研究
AFDB的建立是结构生物信息学领域的一个重要进展。这一规模空前的蛋白质结构数据库为从统计角度系统性理解蛋白质结构、功能与进化提供了坚实基础,并促进了多种创新性研究方法的发展。
在结构与功能方面,研究者以结构预测结果为桥梁,将海量序列与功能联系起来,从而提高了“从序列到功能”的注释精度。例如,基于结构比对的FoldSeek工具通过对蛋白质结构域进行聚类分析,系统性地组织和分类了AFDB中的结构。研究者利用AFDB中的结构数据,揭示了全新的β-花折叠(β-flower fold)等此前未知的折叠结构,并将多个未知序列家族归类到已知结构超家族中;同时,针对内禀无序蛋白或无序片段,研究者也得以通过AFDB的数据对传统方法难以定量刻画的结构特征进行分类与统计。这些成果表明,通过数据驱动的手段挖掘统计规律,不仅增进了我们对“蛋白质宇宙”中“暗物质”的了解,还能帮助识别全新模式或功能元件,为合成生物学设计提供更为丰富的元件库。
而在进化研究方面,AFDB也带来了全新的研究视角。如图4(a)所示,传统的蛋白质进化研究通常聚焦于单一蛋白质,进行跨物种或家族内的序列或结构分析。而随着AFDB的出现,研究者能够将研究范围扩展到大规模蛋白质集合,甚至可以直接对比不同物种的蛋白质组,从中挖掘统计规律。这种从单一家族到跨物种、从局部到全局的研究视角扩展,为理解蛋白质进化提供了更全面的框架。尽管AF2等AI蛋白质结构预测工具在个体蛋白质的结构预测中仍存在一定误差,但这些结果在统计研究和趋势挖掘方面依然非常可靠,因为统计规律往往不依赖于每个蛋白质结构预测的绝对准确性。基于AFDB,我们对40多种生物的蛋白质组进行了结构对比研究,揭示了蛋白质进化中的统计规律。随着物种复杂性的提高,如图4(b)所示,物种体内的蛋白质在结构方面趋向于具有更高的柔性和模块化程度;在序列方面表现出更显著的亲疏水片段分隔;同时,蛋白质的功能专能性也不断提高。这些基于AFDB的统计研究成果在分子进化和物种进化之间建立了重要联系,为理解生物复杂性的起源与进化提供了新的视角。
![]()
图4 基于AlphaFold数据库研究不同复杂度物种体内蛋白质结构与动力学的统计规律
此外,在物种复杂度的分析中,研究者也尝试引入基于AFDB的蛋白质动力学视角,即利用弹性网络模型对不同物种中链长相似的蛋白质进行了对比分析。结果显示,随着物种复杂性的提升,蛋白质天然态运动的主成分比例发生显著变化。例如,在大肠杆菌中,蛋白质运动的第1主成分与第2主成分的相对大小较为接近,而在更复杂的生物体内(例如人体中),两者之间的差距显著增大。
进一步的统计分析表明,从简单到复杂的物种演化过程中,物种体内的蛋白质动力学也呈现出“降维”趋势,增强了蛋白质动力学中的准低维特征,使蛋白质特定的功能运动模式更加突出。这种“进化降维”现象在其他理论生物学研究中也有类似报道,如图4(c)所示,在复杂性更高的生物体内,更多蛋白质倾向于沿着与特定功能相关的主成分方向运动,其蛋白质随进化呈现出从“通用”到“专用”的统计趋势,即高复杂性生物体内更可能出现高度功能专业化的蛋白质。
这种“专业化”的进化趋势与生物体基因组规模的扩张密切相关。较简单生物体虽然基因组较小,酶的种类有限,但其高混杂性的酶能够支持基本的生命活动。相比之下,复杂生物体拥有更大的基因组,能够编码更多样化的蛋白质,使其能够执行高度专业化的功能,从而更好地适应复杂的细胞环境,提高了对多样化外部环境的可塑性和适应能力。然而,需要强调的是,上述规律虽然具有普适性,但本质上是统计性的,在针对特定蛋白质进行定向进化和设计时,仍需具体问题具体分析。这些基于AFDB揭示的进化特征,充分体现了统计物理方法在解析蛋白质功能进化规律中的关键作用,为我们理解生命进化的分子机制提供了全新的视角。
3. 基于人工智能的蛋白质动力学预测
3.1 从静态结构到蛋白质动力学预测
尽管AF2在预测蛋白质天然态三维静态结构方面表现出色,但蛋白质功能的实现通常依赖于多种构象状态间的动态转换。对构象变化与动力学信息的预测已经成为当前AI结构预测领域的重要挑战。传统意义上,蛋白质动力学信息主要依赖于特定案例的实验观察或分子模拟,而AI结构预测的发展为这一领域带来了全新的研究思路。在药物设计领域,特别是针对变构蛋白的药物开发中,准确预测构象变化有助于设计更有效的药物分子。在蛋白质工程方面,对构象变化的深入理解有助于优化蛋白质的功能和稳定性。
为应对蛋白动力学预测这一挑战,研究者们提出了两种主要策略。第一种是AI模型的架构调整,通过重构模型架构、调整参数和优化训练方法,直接提升AI算法的动力学预测能力;第二种是“提示词调整”策略,保持AI模型的框架不变,通过微调输入信息(如MSA或结构数据库)引导构象预测。后者因其训练成本低、操作简单且能建立序列-结构定量联系的优势,成为蛋白质理性设计的实用解决方案。
“提示词调整”的基本原理在于,MSA提供的共进化信息是AF2预测天然结构的重要依据。蛋白质的不同构象(即残基不同的接触模式)间接反映的是不同的共进化信息。即使基于相同输入序列, 只要MSA不同(共进化信息不同),AF2仍可预测出不同的构象状态。如图5所示,待测蛋白序列的完整MSA可直接通过AF2生成“标准”预测结构,也可结合物理特征对完整的MSA进行重采样,得到若干MSA子集,对这些不同的MSA子集进行多轮结构预测,可以获得代表蛋白质动态特性的多构象系综。这种思路的物理基础在于:通过筛选或重组MSA中可能相互矛盾的共进化信号,引导模型捕获特定构象的能量面特征。在技术实现上,研究者开发了多种MSA序列调控策略以增强预测多样性,例如欠采样法通过减少MSA序列数量,降低互斥的进化信号,促使AI模型预测出其他构象;AF-Cluster通过将MSA序列聚类,将相互矛盾的共进化信息进行解耦,从而实现对已知变构蛋白不同构象状态的预测。这些方法虽然实现方式不同,但它们都增强了现有AI模型对蛋白质构象多样性的预测能力,为蛋白质构象动态的定向预测指明新的方向。
![]()
图5 基于物理学信息引导的人工智能预测蛋白质动力学方法示意图
3.2 用物理学信息引导人工智能预测蛋白质动力学
近年来,研究者开始将物理知识引入AI结构预测框架,这一趋势源于对蛋白质能量面理论的深入理解。虽然预测动力学信息对纯数据驱动方法仍然是一大挑战,但概述蛋白质折叠与动力学行为的理论规律则早已被提出:Peter Wolynes等人提出的蛋白质能量面理论指出,蛋白质折叠可被视为在漏斗状能量面内下降至能量最低点的过程,而根据“最小阻挫原理”(minimal frustration principle),蛋白质序列在进化中被优化,使能量面尽可能光滑,减少局部极小值或能垒,从而帮助蛋白质更容易找到全局能量最低的天然态构象。然而,与自旋玻璃等物理系统类似,完全消除能量面的局部阻挫在生物学上既不可能也无必要。事实上,天然态蛋白质为执行功能,需要保留一定的“局部阻挫”(local frustration)。这些局部阻挫并非缺陷,而是蛋白质灵活利用动力学以实现功能的精巧策略。例如,研究表明,变构蛋白通过局部阻挫调节构象转变,实现高效的功能运动。局部阻挫的存在体现了结构稳定性与其功能运动灵活性之间的微妙平衡。
研究表明,大尺度构象变化所涉及的关键残基位点(即残基接触发生断开的位点)往往具有更高的阻挫。因此,利用现有的阻挫分析工具Frustratometer识别蛋白质中局部阻挫较高的区域,可以预测构象变化中的关键位点。基于识别出的高阻挫位点,研究者们可以筛选和操纵MSA空间中包含的序列或其蕴藏的共进化信息,从而预测出天然态结构以外的其他构象,以此来获得蛋白质的变构路径细节。例如,采用序列筛选、序列混合、位点遮盖等方法筛选或屏蔽高阻挫位点的共进化信息,可以避免AF2在相关位点附近预测出特定残基接触。这种研究思路已成功应用于预测ADK、KaiB等蛋白的不同构象甚至变构路径,且预测结果与实验及分子模拟高度一致。这些发现表明,基于蛋白质能量面理论,识别高阻挫位点并在MSA空间理性筛选共进化信息,不仅能够突破AF2的静态预测限制,预测蛋白的亚稳态结构,还能获得变构路径等关键信息。
此外,近期研究进展表明,结合物理知识和机器学习方法可以更全面地理解和预测蛋白质的构象变化。研究者开始引入能量函数约束,考虑氢键网络和疏水作用等分子相互作用,并结合分子动力学模拟结果来增强采样和优化预测转变态结构。这种多学科融合方法显著提高了对复杂蛋白质动力学过程的预测准确性。
3.3 人工智能蛋白质动力学预测的挑战与前景
在蛋白质动力学预测领域,AI方法仍面临诸多挑战。目前主流方法包括基于深度学习的端到端预测、基于分子动力学的混合方法以及基于能量函数优化的方法。尽管有研究表明AF能够预测多个构象态,但批评者指出,这些预测主要依赖于对数据库的“记忆”,而非对蛋白质动力学本质的深入理解。更深层次的问题在于,现有AI方法尚未从能量景观和玻尔兹曼分布等统计物理角度真正理解蛋白质动力学。这一局限性在处理折叠切换蛋白(Fold-Switch)和包含内禀无序片段的蛋白质时尤为明显,因为AI模型倾向于生成与已知结构相似的结果,而忽略稀有构象。这表明,在缺乏先验知识的情况下,AI模型捕获未知构象的能力仍然有限。为克服这些局限性,研究者提出了多种改进策略,例如用生成模型产生虚拟的同源序列,结合实验结果指导预测等,旨在增强模型对蛋白质动力学与功能的理解。
近年来,扩散模型作为一种新兴生成模型,在蛋白质动力学预测领域展现出独特优势。与传统深度学习方法不同,扩散模型通过模拟从热力学平衡到非平衡的渐进过程,能够更好地捕捉蛋白质构象转换的连续性特征。具体而言,扩散模型通过逐步向蛋白质结构添加噪声,并学习去噪过程来生成构象转换路径。这种方法不仅能够自然生成连续的构象变化轨迹,还可以模拟不同时间尺度上的构象变化,在预测无序蛋白区域的构象集合方面显示出特殊优势。然而,扩散模型的应用也面临显著挑战,诸如如何将物理约束合理整合到模型中。一个可能的解决方案是将扩散模型与分子动力学模拟结合,例如使用分子动力学生成的轨迹训练扩散模型,同时引入物理能量项约束生成过程。
AI蛋白质动力学预测将引领蛋白质工程进入精确设计的新时代,指导基于动力学特征的蛋白质理性设计,通过预测并操控构象变化路径,实现酶活性或稳定性调控、配体特异性优化和变构路径的设计;AlphaMissense等工具进一步展示了AI结构预测在致病性分析等临床应用领域的潜力;在药物发现领域,AI动力学预测将推动靶向设计方法的革新,通过分析靶蛋白的动力学行为,指导设计更特异有效的药物分子,实现精准药效调控。
总结与展望
本综述围绕数据驱动方法如何揭示蛋白质动力学与进化之间的关联,系统梳理了相关研究进展与理论发展。AF的出现不仅推动了结构生物信息学的快速发展,更为蛋白质动力学研究提供了新视角。伴随着AI预测结构和实验数据不断涌现,越来越多的不同模态的数据也在不断扩充,为大规模的数据整合与统计分析提供了可能性。在后AF时代,统计物理学与生物大数据分析的结合,使研究者能够超越个例研究,从整体上把握蛋白质设计的普遍原则,启发与指导蛋白质设计任务。结合不断扩充的宏基因组和蛋白质组数据,数据驱动的研究范式将为我们理解生物复杂系统提供更全面的视角。
在方法学层面,物理学原理与AI的深度融合将催生新型数据分析方法,并推动建立多尺度计算模拟的新框架。这种方法学创新将显著提升对复杂生物系统的理解能力,使我们能从分子水平到系统水平全面把握蛋白质功能。随着结构数据库的快速扩充,多组学数据的整合分析将成为常态,大规模数据挖掘技术将从海量数据中提取更多有价值信息,推动“从数据到知识”的转变。
在理论与应用方面,基于AFDB的统计分析揭示的进化规律和结构-功能关系,为理性设计新型蛋白质提供了坚实的理论基础。深入了解不同复杂度生物中蛋白质的动力学特性差异,可以指导研究者针对特定应用场景设计具有适当柔性、热稳定性或功能专一性的蛋白质。此外,从数据库挖掘出的新型结构模块和功能元件,为合成生物学家提供了更丰富的“基本元件”,用于组装全新功能的人工蛋白质。这些进展将推动新型生物催化剂的开发、智能生物材料的设计以及精准医疗技术的进步,加速合成生物学从经验驱动向知识驱动的范式转变,为解决能源、环境和医疗等全球挑战提供创新解决方案。
在技术层面,AI预测与实验验证将形成高效闭环系统:高通量实验数据持续优化AI模型,而AI预测(尤其是基于最新的蛋白质语言模型的预测)则指导更精准的实验设计。这一闭环将推动自动化实验平台与AI系统的深度集成,最终构建“AI驱动的蛋白质工程工厂”,能够自主完成设计-预测-合成-测试-优化的全流程循环。这种整合平台已在抗体工程和酶优化中展现出显著潜力,未来有望成为合成生物学研究的核心基础设施,大幅缩短从设计概念到实际应用的时间。此外,数据驱动方法还为高通量筛选带来了变革,传统高通量筛选方法通常基于静态结构或经验规则,而整合动力学信息的AI方法能显著提高筛选精度,减少假阳性结果。更重要的是,这些方法能够针对具有特定动力学特性的候选分子,缩小实验筛选空间,从而大幅节省研究资源。
综上所述,数据驱动的结构生物信息学正为合成生物学、药物设计和精准医疗带来革命性变革。通过提升高通量筛选和理性设计的效率,这些方法加速了从基础发现到实际应用的转化过程。随着计算能力的持续提升和大型AI模型的不断发展,该领域有望在不久的将来实现重大突破,推动从蛋白质设计、蛋白质复合体与大型分子机器设计到复杂生物系统构建的技术飞跃。
AI驱动的计算医学前沿研讨会
生命科学与医学领域正经历着深刻的智能革命。大语言模型与多智能体技术快速发展,正在推动形成计算医学(Computational Medicine)新范式,为精准医疗、疾病诊断和健康管理开辟全新路径。AI驱动的计算医学在自主探索、跨尺度数据融合、个体建模与数字孪生等方面快速发展,然而跨学科合作与方法论整合仍是重要挑战。
为此,DAMO开发者矩阵(由阿里巴巴达摩院和中国互联网协会联合发起)与集智俱乐部共同主办,邀请多位国内外前沿学者与业界专家分享交流。系列研讨会将系统梳理计算医学与AI交叉领域的最新进展,自2025年7月6日(周日)开始,共5大议题分享与讨论。欢迎相关研究、应用领域的朋友报名参加,共同推动生命科学与医疗健康的智能未来!
本活动免费报名,实行审核入群制,请填写信息后入群参与交流并获得每期活动信息。
详情请见:
-计算医学研讨会第三期-
本期聚焦 AI 如何串联结构预测 → 功能设计 → 大规模蛋白质组解析→ 多组学融合,加速药物发现与精准医学。主要探讨:
1. AlphaFold3之后的蛋白质乃至生命科学研究,正在和即将发生的变化
2. 多组学、多模态、多尺度的数据融合,结构-功能-表达之间的关系发现
3. 面对复杂疾病与复杂数据,基础模型的有效性、潜力与限制
1.
2.
3.
4.
5.
6.
7.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.