网易首页 > 网易号 > 正文 申请入驻

Nature系列综述:乔治·丘奇绘制 AI 蛋白质设计路线图,逐步指导利用AI工具设计蛋白质

0
分享至


编译丨王聪

编辑丨王多鱼

排版丨水成文

蛋白质设计(protein design)正在经历一场由人工智能(AI)驱动的革命,彻底改变了我们为药物发现、生物技术和合成生物学应用而设计蛋白质的方式。通过驾驭蛋白质序列空间的巨大复杂性,并克服结构和功能数据的局限性,AI 能够以前所未有的精准度和速度设计具有定制功能的新型蛋白质。

2025 年 9 月 8 日,哈佛大学医学院乔治·丘奇(George Church)、Li Li,格里菲斯大学潘世瑞等人在 Nature 旗下综述期刊Nature Reviews Bioengineering上发表了题为:AI-driven protein design 的综述论文。

该综述的核心是提供一个全面且可操作的蛋白质设计路线图,逐步指导如何将最先进的 AI 工具整合到蛋白质设计工作流程中,包括结构与功能预测工具以及用于从头设计的生成式模型。为了在实践中说明这一路线图,作者展示了 AI 驱动蛋白质设计的案例研究,涵盖从工程化治疗性蛋白质到设计解锁酶功能及重编程生物分子系统的新型蛋白质。展望未来,该综述勾勒出未来的发展方向,强调了 AI 在革新合成生物学、加速药物研发和推动可持续生物技术方面的巨大潜力,将其定位为蛋白质设计前沿的一股变革性力量。


该综述的要点:

  • AI 从根本上重塑了蛋白质设计,将曾经的反复试验过程转变为具有预测性的学科。如今,由 AI 驱动的工具能够以前所未有的速度和精度生成、评估和优化蛋白质。

  • 该综述为将 AI 工具融入蛋白质设计提供了一条切实可行的路线图:首先概述了定向进化和理性设计的工作流程,然后将不断扩大的 AI 工具套件分类为七个工具包,这些工具包支持工作流程中不同的任务。

  • 该路线图将从初始设计到蛋白质合成以进行实验验证的每个工作流程步骤与最合适的 AI 工具包相匹配,并指导设计人员组装端到端的 AI 驱动工作流程。

  • 案例研究展示了该路线图的实际应用,表明工具包如何协同作用创建由 AI 驱动的工作流程,从而缩短实验周期,并实现传统方法无法企及的功能。

蛋白质设计长期以来一直是科学创新的基石,在药物研发、生物技术和合成生物学等领域推动着突破性进展。然而,尽管已取得了许多显著进展,但传统方法在应对蛋白质序列的庞大复杂性和功能多样性方面已接近极限。

随着对精准、可扩展的设计解决方案的需求不断增长,人工智能(AI)正成为一股变革力量,以应对那些曾经被认为难以解决的挑战。

蛋白质设计主要依赖两种策略——定向进化(directed evolution)和理性设计(rational design)。定向进化通过引入随机突变、筛选大量突变文库并选择具有所需特性的蛋白质来模拟自然选择。相比之下,理性设计则依据结构和功能数据进行有针对性的、基于假设的修改。定向进化费时费力,而理性设计则受限于结构信息的可用性和准确性。

这两种方法都无法高效地遍历巨大的序列空间。即便采用传统的计算方法,寻找最优设计也颇具挑战性,因为这些方法往往无法充分利用现代硬件的能力,也无法弥补对蛋白质生物物理学理解上的不足。在蛋白质设计中,搜索空间本身极其庞大:一个典型的由 350 个氨基酸组成的蛋白质大约有 10455 种可能的序列,这显然是一个庞大到难以想象的数字(与之相比,可观测宇宙中的总原子数量约为 1082 个),用常规方法进行详尽探索是不切实际的。

人工智能(AI)驱动的进步推动了新工具的发展,这些工具定向进化和理性设计这两种策略提供了前所未有的速度、规模和精度。在定向进化中,AI 工具能够准确地提出有益的突变,并从序列预测功能,大大缩短了实验周期。在理性设计中,AI 工具能够在没有同源模板的情况下,以接近实验的精度从序列预测结构,并从零开始生成新的蛋白质。此外,生物分子共折叠模型现在可以直接从序列数据预测蛋白质、核苷酸和小分子之间的多分子复合物,扩大了 AI 驱动设计的范围。

基于深度学习方法的 AI 工具已经发展成熟,将其融入蛋白质设计工作流程不仅可行,而且至关重要。通过实现蛋白质结构和序列的准确生成、评估和优化,AI 已将蛋白质设计从一个反复试验的过程转变为一个具有预测性和高效性的学科。

为了理解 AI 在蛋白质设计这一快速发展的领域所发挥的作用,作者们提供了一份全面的路线图,探讨了 AI + 蛋白质设计的关键方面。首先,审视了定向进化和理性设计所涉及的工作流程,强调了 AI 的整合如何通过简化和优化各个阶段来增强这些策略;接下来,深入探讨了蛋白质设计工作流程中每个步骤可用的特定 AI 工具,说明了这些技术如何在每个阶段提高效率和精;最后,探讨了 AI 驱动的蛋白质设计在生物技术、药物发现和合成生物学等领域的当前应用,并讨论了该领域未来的发展方向。

AI 驱动的蛋白质设计工具的发展史


该时间线突出了蛋白质设计领域的重要事件,分为三个不同的阶段——

  • 蛋白质设计的基础(1950-1990 年代),建立了关键的序列和结构数据集,以及蛋白质分析和设计的基础工具;

  • 计算辅助蛋白质设计(1990-2010 年代),引入了同源建模和用于结构预测及蛋白质工程的计算工具,对蛋白质设计领域做出了重大贡献。深度学习在 2010 年代的变革性影响在其他领域也显而易见,比如 AlexNet 在图像识别方面的成功以及 AlphaGo 在围棋领域的突破。这些进展最终促成了 2017 年 Transformer 模型的问世,为蛋白质设计的进步奠定了基础。

  • AI 驱动的蛋白质设计(2018 年至今),随着诸如 AlphaFold 2 等 AI 工具的出现而彻底改变了这一领域,在蛋白质结构预测方面达到了接近实验精度。近期的创新包括结构和功能预测方法、生成式模型以及 DNA 合成工具,为蛋白质设计提供了前所未有的能力。展望未来,发展方向将集中在通过先进的 AI 架构来增强蛋白质设计,加速药物发现和开发,并拓展合成生物学的前沿。

蛋白质设计中的 AI 学习范式和模型架构


蛋白质设计中的人工智能学习范式和模型架构——

a、三种 AI 学习范式:(L1)监督学习,使用有标签的数据训练模型,包括两个子类别:标准监督学习,直接从有标签的示例中学习(例如序列-功能预测器或结构预测模型);标签高效监督学习,减少对大型有标签数据集的依赖;(L2)无监督学习,通过语言建模(预测下一个标记或推断被遮蔽的标记)、扩散模型(逆转噪声干扰以恢复有意义的数据)、变分自编码器(捕捉概率潜在空间)和对比学习(区分相似与不相似的样本)从无标签数据中学习模式;(L3)强化学习,通过与环境交互来优化智能体的长期决策,其中智能体观察状态、采取行动并接收奖励以指导学习。关键组件包括策略(将状态映射到行动)、价值函数(估计预期奖励)和模型(预测未来状态和奖励)。

b、具有代表性的模型架构:(M1)循环神经网络:将输入数据视为序列,逐步处理以捕获序列内的依赖关系,例如氨基酸链;(M2)Transformer:使用注意力机制,为输入序列(或“标记”)中的每个单元分配不同的重要性(或“注意力”),使模型能够学习蛋白质序列中残基或结构中的结构段的长程关系;(M3)卷积神经网络:通过应用滑动窗口捕获局部结构特征,适用于网格状数据;(M4)图神经网络:将蛋白质表示为图,节点为原子或残基,边为化学键或相互作用;(M5)几何 3D 网络:捕获蛋白质的 3D 空间结构,在提供 3D 蛋白质结构时可提高折叠和功能预测的准确性。

蛋白质设计策略与工作流程


蛋白质设计策略与工作流程——

a、蛋白质设计项目首先明确目标,并从功能、结构和可开发性这三个维度对其进行评估,这些评估结果将指导设计策略的制定,以在广阔的可探索序列空间中寻找最优序列。然后通过三个阶段的迭代循环来实现设计目标:(I)确定策略:在定向进化和理性设计策略之间做出选择,以指导寻找最优序列。定向进化是一种结果驱动的方法,通过反复筛选突变的蛋白质变体来实现目标,而理性设计是一种知识驱动的方法,依赖于对序列 - 结构 - 功能关系的理解来指导设计。(II)库设计:此阶段设计一系列序列以最大程度地提高找到功能性蛋白质的机会。对于定向进化,首先选择具有有利特性的现有蛋白质(亲本选择),然后使用诱变和多样化来寻找改进的变体;对于理性设计,首先阐明驱动蛋白质功能的机制和随后进行有针对性的修改。(III)筛选与优化:设计的文库序列进行 DNA 合成和蛋白质表达以进行实验验证,完成一轮设计流程,实验结果指导后续轮次。重复循环直至获得满足目标的蛋白质,通常涵盖活性、特异性、可开发性和稳定性等多个关键特性。项目可能会结合这两种策略来解决蛋白质设计的各个方面。

b、利用 AI 工具包推进蛋白质设计:AI 工具支持设计的每个阶段,从策略定义到蛋白质数据库搜索(T1)、结构预测(T2)和功能预测(T3),再到蛋白质序列(T4)和结构(T5)生成,最后进行虚拟筛选(T6)和 DNA 合成(T7),以实现高效的筛选和验证。

用于蛋白质设计的人工智能工具包




作者们将 AI 工具分为七个工具包,每个工具包包含特定的子工具包:(T1)蛋白质数据库搜索使用序列比对(T1a)和结构模板(T1b)来检索候选蛋白质;(T2)蛋白质结构预测从序列预测折叠(T2a 和 T2b),评估结构稳定性(T2c)以及建模构象动力学(T2d);(T3)蛋白质功能预测涵盖基因本体论(T3a)、结合位点识别(T3b)以及翻译后修饰分析(T3c);(T4)蛋白质序列生成基于进化模式(T4a)、功能标签(T4b)或结构模板(T4c)创建序列;(T5)蛋白质结构生成设计满足特定折叠目标的结构;(T6)虚拟筛选包括结合和功能活性预测(T6a)以及可开发性和免疫原性评估(T6b);(T7)DNA 合成执行反向翻译和密码子优化以增强蛋白质合成。

AI 驱动的蛋白质设计路线图


该路线图展示了 AI 工具包(a)如何贯穿两个阶段:库设计(b)和筛选与优化(c),作为从概念到验证开发人工智能驱动的蛋白质设计项目的指南。该路线图应在明确目标并选定设计策略之后应用。在每个阶段,编号步骤(1-6)表示更精细的任务操作。b,定向进化和理性设计都遵循其自身的三步库设计序列(步骤 1-3,蓝色图标)。c,步骤 4-6(红色图标)涉及筛选和优化。在每个步骤中,特定的设计任务(黄色图标)指明所需的操作,“工具包:T\。a,人工智能工具包:工具被组织成七个主要工具包(T1-T7),并细分为服务于蛋白质设计各个方面的小工具包,成熟度水平(萌芽、高级和成熟)反映了真实世界中的验证和部署准备情况。b,定向进化设计候选库三个步骤:第一步(DE.1),选择具有基本功能和适应性的“母体”蛋白质;第二步(DE.2),确定关键的突变区域;第三步(DE.3),引入突变以产生多样性,从而便于寻找改进的变体。相比之下,理性设计在三个步骤中构建库:第一步(RD.1),设计满足特定标准的功能性结构;第二步(RD.2),生成预测可折叠成该结构的序列;第三步(RD.3),进行有针对性的修改以增强符合设计目标的特性。c,筛选和优化:在库设计之后,第四步(SO.4)虚拟筛选库以提高效率;第五步(SO.5)将蛋白质设计转化为 DNA 以便在宿主细胞中表达;第六步(SO.6)通过实验验证设计。如果设计通过验证,则目标达成;否则,将重复使用 AI 预测和/或实验验证,提供反馈以指导库设计的下一轮迭代。请注意,该路线图具有灵活性;步骤可以跳过或在中途启动。例如,在理性设计中,如果只需对现有蛋白质进行细微修改以实现优化,则直接从第三步(RD.3)开始。

AI 驱动的蛋白质设计案例研究


a、AI 能驱动的腺相关病毒(AAV)衣壳定向进化:在野生型(WT)AAV2 亲本的指定位置引入随机突变,生成包含 1010 个 AAV2 序列的虚拟文库。利用集成 AI 模型高效筛选这些序列,以预测衣壳的存活能力。该过程将文库筛选至 20426 个序列,其中 110689 个(58.1%)经实验验证为存活序列,包括与野生型相比最多有 29 个突变的设计。

b、AI 驱动的抗体定向进化:使用 ESM 蛋白质语言模型生成重链和轻链突变体,通过预测最有可能提高总体适应性的突变来实现,无需依赖结构或特定功能指导。在每一轮中,对 ESM 生成的前 20 个或更少的抗体变体进行实验筛选。经过两轮此过程,四个高度成熟的抗体的结合亲和力提高了多达 7 倍,三个不成熟的抗体提高了多达 160 倍。

c、AI 驱动的理性抗体优化:使用 ESM-IF 反向折叠来当给定实验确定的抗体-抗原复合物时,识别用于序列生成的有益突变,然后对合成的变体进行实验筛选。

d、基于 AI 从头设计的荧光素酶的理性设计:使用 trRosetta 工具生成新的 NTF2 框架,该框架由从结构数据库中搜索到的类似 NTF2 的结构引导,并使用 Rosetta 进行拓扑引导突变预测。这些框架进一步使用 RifDock(一种蛋白质-配体对接模型)和 RosettaDesign 进行优化,以优化口袋结构,而 ProteinMPNN 则用于优化和虚拟筛选数千种新的蛋白质序列。实验筛选确定了几种活性变体,其中 LuxSit 表现出色,具有出色的热稳定性(熔点> 95°C)和对 DTZ 与合成底物的化学发光反应的高度特异性。

AI 已将蛋白质设计从优化抗体推进到创造新型荧光素酶。然而,设计复杂的多功能蛋白质,例如大型多结构域组装体或具有复杂别构网络的蛋白质,仍然具有挑战性,这凸显了未来创新的机会。

要应对这些挑战,下一代 AI 工具必须建立在坚实且多样化的数据基础之上。训练数据驱动模型学习,而验证数据则用于评估性能。训练集中的偏差或缺失会扭曲预测结果,不具代表性的验证数据会误导开发,掩盖其真正的效用。因此,稳健的数据协议至关重要。这包括全面的训练库、严格的验证以及诸如对代表性不足的序列进行重新加权等偏差缓解策略。同样重要的是,AI 工具能够动态整合新的生物学和实验数据。例如,Chai-1 通过纳入表位条件约束将预测准确率提高了一倍,而变分合成则能够以优化的实验参数实现千万亿级的合成。利用大规模、高质量的数据集可能会在诸如内在无序蛋白质等此前难以触及的领域开辟新的途径。

除了数据之外,可解释性仍然是一个关键障碍。许多 AI 工具都像黑箱一样运作,对其决策过程几乎毫无解释。为了促进采用和建立信任,需要可解释的 AI 方法来阐明计算机模拟设计的基础。早期使用稀疏自动编码器的努力显示出发现可解释特征的前景,让人们得以一窥这些工具背后的“思考”过程。

当这些方法论基础就位时,由 AI 驱动的蛋白质设计有望开启精准治疗的新时代,将诸如癌症相关但没有明显小分子结合口袋的蛋白质等曾经“不可成药”的靶点向蛋白质药物开放。先进的 AI 模型能够微调结合特异性,并增强诸如稳定性、溶解性和可制造性等特性。这种能力加快了设计-制造-测试-分析的循环,使个性化、可及的治疗成为可能。然而,实验验证仍然是瓶颈,生物的复杂性甚至会使准确的模型转向不相关的靶点或遗漏关键的疾病机制。关键属性(尤其是稳定性和免疫原性)的稀疏数据也限制了进展。扩大数据覆盖范围,例如纳入新的高通量稳定性测量或经过整理的免疫原性数据,将增强模型的稳健性和可转化性。

AI 驱动的方法也在超越传统的蛋白质工程,后者一直专注于对天然蛋白质进行改造或重组已知的功能域。新兴的方法现在能够设计出具有自然界中不存在的功能的全新蛋白质和生物系统。诸如 family-wide hallucination、RFDiffusion 和 AlphaProteo 等策略在从头生成结合蛋白方面实现了高精度。这种能力的影响不仅限于单个蛋白质,还延伸到了更广泛的合成生物学领域,在该领域,未来的 AI 工具或许能够预测和优化复杂的基因网络,从而实现具有精确控制功能的分子电路。然而,由于细胞系统的复杂性以及对蛋白质与其他细胞成分之间相互作用的新兴行为理解有限,设计分子电路仍然具有挑战性。此外,合成生物学的伦理问题也必须得到解决。

展望未来,AI 有可能设计出包含非标准氨基酸或全新化学骨架的系统,从而带来前所未有的稳健性和全新功能,甚至整个蛋白质组的设计也变得可以想象——基因组语言模型“Evo”已经开始构思整个蛋白质组,凸显了这种可能性(尽管这种能力尚未完全实现,而且由此产生的蛋白质组目前还不具备功能)。

论文链接

https://www.nature.com/articles/s44222-025-00349-8


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男人回避这个问题,100%有问题

男人回避这个问题,100%有问题

冷爱
2025-09-15 12:16:32
情感故事:女房东的干柴烈火

情感故事:女房东的干柴烈火

户外小阿隋
2025-09-15 16:11:00
每体:有球迷给克鲁伊夫球场周边居民500欧元,以进入阳台观赛

每体:有球迷给克鲁伊夫球场周边居民500欧元,以进入阳台观赛

直播吧
2025-09-16 11:26:08
上海市第六人民医院及其现任院领导基本情况

上海市第六人民医院及其现任院领导基本情况

王晓爱体彩
2025-09-16 11:03:18
离婚后只字不提尼格买提,一别两宽3年后,才发现他们不是一路人

离婚后只字不提尼格买提,一别两宽3年后,才发现他们不是一路人

山河月明史
2025-09-14 23:11:16
男生总吹的18CM到底怎么量的?妹子看完这测量神技天塌了哈哈

男生总吹的18CM到底怎么量的?妹子看完这测量神技天塌了哈哈

经典段子
2025-09-04 22:57:16
回顾:叫嚣“我爸是李刚”的李启铭,出狱后父母失联,沦落为粉刷工人

回顾:叫嚣“我爸是李刚”的李启铭,出狱后父母失联,沦落为粉刷工人

瓜哥的动物日记
2025-09-15 05:31:22
军事 | 中国究竟需要几艘航母?

军事 | 中国究竟需要几艘航母?

新民周刊
2025-09-15 09:06:37
美媒:唯一美以不敢轰炸的阿拉伯国家,用中国装备,试试就逝世

美媒:唯一美以不敢轰炸的阿拉伯国家,用中国装备,试试就逝世

墨山看客
2025-09-16 13:53:29
86年我考上复旦,去大老板叔叔家借钱,叔叔:行!但我有一个条件

86年我考上复旦,去大老板叔叔家借钱,叔叔:行!但我有一个条件

卡西莫多的故事
2025-09-16 10:03:55
女子散步误踩氢氟酸后离世引热议!官方通报!事发原因正在调查!

女子散步误踩氢氟酸后离世引热议!官方通报!事发原因正在调查!

振华观史
2025-09-16 09:00:46
25岁女子骑车至公园自缢身亡,现场留有遗书,警方已排除刑事案件,网传其为“外卖骑手”的信息与事实不符

25岁女子骑车至公园自缢身亡,现场留有遗书,警方已排除刑事案件,网传其为“外卖骑手”的信息与事实不符

都市快报橙柿互动
2025-09-16 10:02:18
“川超”成都队队服、队徽亮相,还有这句超燃口号!

“川超”成都队队服、队徽亮相,还有这句超燃口号!

红星新闻
2025-09-15 16:50:53
特朗普暗示要动手,委内瑞拉向中国公开求援,中方特殊船只抵达?

特朗普暗示要动手,委内瑞拉向中国公开求援,中方特殊船只抵达?

Ck的蜜糖
2025-09-16 13:52:03
程青松,人脉覆盖资本核心层,他在电影圈的地位高到让我无法理解

程青松,人脉覆盖资本核心层,他在电影圈的地位高到让我无法理解

阿废冷眼观察所
2025-09-16 02:09:56
艾美奖红毯斗艳,悉尼妹艳压斯嘉丽,Lisa脸型夸张引争议

艾美奖红毯斗艳,悉尼妹艳压斯嘉丽,Lisa脸型夸张引争议

疯狂影视圈
2025-09-16 00:49:38
俄大使:无人机进入罗马尼亚领空是乌方蓄意挑衅

俄大使:无人机进入罗马尼亚领空是乌方蓄意挑衅

参考消息
2025-09-15 20:34:08
15日党员民调出炉:夺魁者领先郑丽文10个百分点!赵少康有决定!

15日党员民调出炉:夺魁者领先郑丽文10个百分点!赵少康有决定!

李博世财经
2025-09-16 09:44:56
桥本凡乃香为什么不参加北京大满贯?不得不说原因真的太扎心!

桥本凡乃香为什么不参加北京大满贯?不得不说原因真的太扎心!

田先生篮球
2025-09-16 10:05:19
全红婵入学才三天,恶心一幕出现,评论区对她指指点点

全红婵入学才三天,恶心一幕出现,评论区对她指指点点

小杨侃事
2025-09-16 11:42:55
2025-09-16 14:40:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
8068文章数 144826关注度
往期回顾 全部

科技要闻

理想i6定档9月26日发布,定位纯电五座SUV

头条要闻

牛弹琴:特朗普又夸中国了 这次中方真有点接不住

头条要闻

牛弹琴:特朗普又夸中国了 这次中方真有点接不住

体育要闻

乌姆蒂蒂,为世界杯冠军赔上职业生涯

娱乐要闻

宋祖英事业巅峰隐退?李谷一道破原因

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

优质智能体验/1.5T增程 别克至境L7正式亮相

态度原创

游戏
健康
教育
房产
旅游

梦幻西游群雄109-159决赛:夕阳红取胜,南柯一梦翻盘齐开得胜

内分泌科专家破解身高八大谣言

教育要闻

官宣:研究生,实行大类招生!

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

无障碍浏览 进入关怀版