![]()
编辑丨王多鱼
排版丨水成文
蛋白质是生命的基石,从催化化学反应到传递细胞信号,几乎参与了所有生命过程。长期以来,科学家们主要通过实验方法确定蛋白质结构,但这种方法成本高昂且通常只能获得少数静态结构。
随着人工智能(AI)的突破,特别是AlphaFold2的出现,让仅依赖蛋白质的氨基酸序列准确预测蛋白质的稳定结构成为可能。然而,这些 AI 模型主要预测的是蛋白质最稳定的单一构象,就像只给一个人拍了一张标准证件照。
实际上,蛋白质在细胞内是动态变化的,它们在不同构象状态之间转换,这种灵活性对它们的功能至关重要。例如,酶在与底物结合时会改变形状,受体蛋白在传递信号时会切换构象。因此,要全面捕捉蛋白质的构象全貌及其动态灵活性,仍颇具挑战性。
2026 年 2 月 25 日,华东理工大学药学院/华东师范大学药学院/人工智能新药创智中心李洪林团队、华东师范大学计算机学院张凯团队、复旦大学类脑智能科学与技术研究院张捷团队合作(王保利、王成林、陈劲杨为论文共同第一作者),在 Nature 子刊Nature Machine Intelligence上发表了题为:Conditional diffusion with locality-aware modal alignment for generating diverse protein conformational ensembles 的研究论文。
该研究开发了一个 AI 模型——模态对齐条件扩散模型(Mac-Diff),用于生成未知蛋白质的构象集合。Mac-Diff的核心是一个注意力模块,该模块通过实施精妙的局部感知对齐机制,在条件视图(蛋白质序列)与目标视图(残基对几何结构)之间建立关联,从而计算出高度语境化的特征以实现有效的结构去噪与生成。此外,Mac-Diff 利用来自 ESM-2 等蛋白质语言模型的语义丰富序列嵌入来强化蛋白质序列条件,该条件完整捕获了进化、结构和功能信息。Mac-Diff 在生成逼真且多样化的蛋白质结构方面展现出显著成效:成功复原了快速折叠蛋白质的构象分布,捕捉到仅在长程分子动力学模拟轨迹中观测到的多个亚稳态构象,并高效预测了变构蛋白的替代构象。
这项研究让蛋白质从单一静态结构走向多元动态集合,为增进蛋白质动力学和结构变异性认知提供了重要工具,对结构生物学、基于结构的药物设计及蛋白质工程具有广泛影响。
![]()
Mac-Diff:让蛋白质“动起来”
在这项新研究中,研究团队提出了一个名为“模态对齐条件扩散”(modal-aligned conditional diffusion,Mac-Diff)的新方法。
这项研究的关键在于,Mac-Diff能够生成给定蛋白质序列的多种可能构象,形成一个完整的“构象集合”,而不仅仅是单一结构。
Mac-Diff的核心创新是一种称为“局部感知模态对齐注意力”(locality-aware modal alignment attention,LAMA-attention)的机制。简单来说,这个机制就像一位精准的翻译官,在蛋白质的氨基酸序列(条件视图)和三维结构(目标视图)之间建立精细的对应关系。
与传统的文本到图像生成任务中松散的像素-词语对齐不同,LAMA-attention 强制每个氨基酸残基只关注其最可能相互作用的邻近残基,从而在序列和结构之间建立物理上更精确的对齐。
技术突破:从蛋白质语言中读懂结构密码
Mac-Diff的另一个关键特点是它使用了蛋白质语言模型(例如 ESM-2)来获取蛋白质序列的初始表示作为条件输入。这些模型通过无监督的掩码语言建模在大量蛋白质序列数据上训练,能够捕捉从进化模式、结构基序到功能特性的广泛信息。
这种语义丰富的序列表示作为条件,为生成多样化的蛋白质构象提供了强大的基础。相比之下,许多现有方法依赖于结构预测模型(例如 AlphaFold2)的序列嵌入,而这些模型在默认设置下倾向于预测单一主导结构。
Mac-Diff的架构基于分数扩散模型,采用 U-Net 结构,包含五个下采样/上采样阶段。每个阶段都有一个 ResNet 块来整合时间步嵌入和氨基酸残基对表示,以及一个 Transformer 块,通过自注意力和 LAMA-attention 更新氨基酸残基对表示。
![]()
Mac-Diff 架构概述
性能验证:超越现有方法的卓越表现
研究团队对Mac-Diff进行了全面评估,使用了精心策划的训练数据集和广泛使用的公共基准数据集。评估分为两个互补的任务类别:恢复构象集合的底层分布和预测蛋白质的替代构象。
在快速折叠蛋白质基准测试中,Mac-Diff在恢复构象分布方面表现出色。与现有的扩散和流基模型相比,Mac-Diff 在三个关键指标上均取得了竞争优势:成对 Cα 原子距离分布的 Jensen-Shannon(JS)散度降低了约 18%,回转半径分布降低了 22%,基于时间滞后独立成分分析(TICA)的 JS 散度降低了 5%。
特别值得注意的是,Mac-Diff 在多样性和保真度之间取得了良好平衡。评估显示,Mac-Diff 生成的构象既保持了高度的结构准确性,又展现了丰富的多样性,在 12 个测试蛋白质中的平均得分最高。
实际应用:从理论到实践的跨越
Mac-Diff不仅能够恢复快速折叠蛋白质的构象分布,还能预测具有潜在生物学相关性的替代构象,即使对于训练中未遇到的蛋白质也是如此。
例如,该模型成功恢复了牛胰蛋白酶抑制剂(BPTI)的重要构象亚状态,这些状态仅在 1 毫秒的长时分子动力学模拟中观察到。同时,它还预测了腺苷酸激酶(AdK)的闭合状态和开放状态,这是一种参与能量代谢的变构蛋白。
在效率方面,Mac-Diff 的采样速度比传统分子动力学模拟快约 3000 倍(即超过三个数量级)。这种速度优势使得大规模构象采样成为可能,为蛋白质动力学研究提供了强大工具。
未来展望:打开蛋白质研究的新大门
Mac-Diff的成功标志着蛋白质结构预测从静态向动态的重要转变。这项技术不仅有助于我们更好地理解蛋白质折叠动力学,还能揭示蛋白质序列、结构和功能之间复杂关系的奥秘。
在应用层面,Mac-Diff 预测构象异质性的能力将在基于结构的药物设计和蛋白质工程中发挥重要作用。通过更全面地了解蛋白质的可能构象,科学家可以设计更有效的药物,开发具有新功能的蛋白质,并深入探索疾病的分子机制。
随着人工智能技术的不断发展,像 Mac-Diff 这样的模型将推动结构生物学进入一个全新时代——蛋白质不再被看作静止的结构,而是被理解为动态的、多态的生命机器。
论文链接:
https://www.nature.com/articles/s42256-026-01198-9
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.