网易首页 > 网易号 > 正文 申请入驻

Nature子刊,快10倍,基于Transformer的逆向蛋白质序列设计方法

0
分享至

编辑 | 萝卜皮

借助深度学习的进步,蛋白质设计和工程正以前所未有的速度发展。然而,目前的模型无法在设计过程中自然地考虑非蛋白质实体。

在这里,瑞士洛桑联邦理工学院(EPFL)的研究人员提出了一种完全基于原子坐标和元素名称的几何 transformer 的深度学习方法,该方法可以根据不同分子环境所施加限制的主链支架,预测蛋白质序列。

使用该方法,研究人员可以以高成功率生产出高热稳定性、催化活性的酶。这有望提高蛋白质设计流程的多功能性,以实现所需的功能。

该研究以「Context-aware geometric deep learning for protein sequence design」为题,于 2024 年 7 月 25 日发布在《Nature Communications》。

设计蛋白质以实现功能性任务是一个具有重大生物学、医学、生物技术和材料科学影响的挑战。一个关键应用领域是蛋白质治疗药物的设计,通过定制蛋白质来精确针对特定疾病,可能比小分子药物更具竞争力。这种方法可能革新许多健康问题的治疗方式,从自身免疫疾病到癌症,提供更有效和个性化的治疗方案。

此外,设计酶功能也是蛋白质设计中的另一个重要挑战。酶作为天然催化剂在生物过程中起关键作用。通过设计新酶或改造现有酶,可以创造出促进自然界中罕见或不存在反应的催化剂。这对多个行业有深远影响,包括制药业和环保技术,例如合成复杂药物分子或分解污染物和塑料。

深度学习方法显著加速了蛋白质设计的成功率和多样性。然而,虽然目前的蛋白质设计模型可以处理多条蛋白质链,但在处理非蛋白质实体时表现较差,限制了其应用范围。

为解决这一问题,EPFL 的研究团队曾经引入了一种深度学习模型——Protein Structure Transformer(PeSTo),一种几何 transformer 架构,作用于原子点云。

PeSTo 结合了 transformer注意力机制,利用标量和矢量状态表示原子,可以预测几乎任何分子与蛋白质界面的相互作用,包括蛋白质、核酸、脂类、离子、小配体、辅因子或碳水化合物。

在最新的工作中,该团队利用该模型的独特功能,并引入了基于 PeSTo 的蛋白质序列生成器模型 CARBonAra(Context-aware Amino acid Recovery from Backbone Atoms and heteroatoms)。

CARBonAra 基于 PDB 中可用的结构数据进行独特训练,可预测给定主链支架所有位置的氨基酸置信度,这些主链支架可以单独提供,也可以与任何种类和数量的有助于推动序列设计的分子复合。

图示:CARBonAra的架构以及与 SOTA 方法的比较。(来源:论文)

CARBonAra 的组成与性能

CARBonAra 使用由几何 transformer 组成的深度学习模型,预测从输入主干支架中在蛋白质序列的每个位置找到给定氨基酸的可能性。CARBonAra 将主链原子(Cα、C、N、O)的坐标和元素作为输入,并使用理想的键角和键长添加虚拟 Cβ 原子。几何形状使用每个原子之间的距离和归一化相对位移矢量来描述。

几何 transformer 操作对所有相邻原子的相互作用进行编码,并使用 transformer 处理标量和矢量信息并更新每个原子的状态。最后,通过将原子状态从原子级别汇集到残基级别,研究人员训练模型以位置特定评分矩阵的形式预测蛋白质序列每个位置的氨基酸置信度。

实际上,这些置信度可以被解释为并映射到概率中,通过表征在给定每种氨基酸类型的预测置信度的情况下正确预测的概率。

图示:预测置信分析。(来源:论文)

与其他模型一样,CARBonAra 通过使用独热编码将特定氨基酸的先前序列信息印入主链原子来支持自回归预测。

最重要的是,CARBonAra 继承了 PeSTo 仅使用元素名称和原子坐标的能力,无需进行大量参数化,从而可以轻松适应各种场景。

因此,CARBonAra 可以解析和处理正在设计的蛋白质主链附近的任何分子实体,其中包括其他蛋白质、小分子、核酸、脂质、离子和水分子等一系列输入。

数据集

利用 CARBonAra 固有的灵活性,研究人员能够将 RCSB PDB 中的所有生物组装体纳入他们的训练数据集。

这包括与其他分子实体(如离子、配体、核酸等)复合的蛋白质。训练数据集由大约 370,000 个亚基组成,验证数据集中还使用了另外 100,000 个亚基,所有这些亚基均来自 RCSB PDB 生物组装体,并被注释为最佳可能。

与以前建立的方法相比,遵循稍微更严格的协议,测试数据集由大约 70,000 个亚基组成,与没有共享 CATH 域的训练集不同,并且在低于 30% 的序列同一性下进行过滤。

该选择标准确保了测试的稳健性,因为它排除了训练数据集中存在的类似折叠和序列。

图示:在 GPU 上运行时分析。(来源:论文)

对于从不含非蛋白质分子的骨架结构中分离蛋白质或蛋白质复合物的序列设计,CARBonAra 的表现与 ProteinMPNN 和 ESM-IF1 等最先进的序列预测方法相当,并且计算成本具有竞争力(在 GPU 上比 ProteinMPNN 快约 3 倍,比 ESM-IF1 快 10 倍)。

从主链结构重建蛋白质序列

该方法在从主链结构重建蛋白质序列时,蛋白质单体设计的序列恢复率中值为 51.3%,二聚体设计的序列恢复率中值为 56.0%。尽管恢复率相似,但三种方法的最佳序列之间的序列同一性中值为 54% 至 58% 不等。

此外,研究人员观察到 CARBonAra 可以生成高质量序列,当在单序列模式下使用AlphaFold预测时,这些序列可以按预期折叠,TM 分数高于 0.9。

CARBonAra 在蛋白质核心处学习了更紧密的氨基酸包装,从而导致更高的回收率并反映了对典型的埋藏氨基酸取代的较低耐受性,同时允许蛋白质表面具有更高的可变性,除非提供额外的功能或结构限制。

图示:埋藏于表面的氨基酸的分析。(来源:论文)

从主干支架进行序列预测的方法主要在具有理想主干几何形状的实验数据上进行训练,当应用于生成的主干时会导致性能下降。在训练过程中向几何图形添加噪声可以缓解此问题。

研究人员通过将 CARBonAra 应用于分子动力学 (MD) 模拟的结构轨迹来表征该方法的稳健性。由于主链构象变化和先前显示低恢复率的病例增加,序列恢复率(53±10%)与一致预测(54±7%)没有显著下降。

同时,研究人员观察到每个位置预测的可能的氨基酸数量普遍减少,这表明探索构象空间正在限制序列空间,从而使得能够设计有针对性的结构构象。

图示:主链构象对预测的影响。(来源:论文)

具有超出蛋白质设计本身的意义

研究人员在一个主力系统(即 TEM-1 丝氨酸 β-内酰胺酶)上进行了实验,展示了 CARBonAra 如何处理酶工程的挑战,设计出在高温下折叠并保持催化活性的实际蛋白质。此外,研究人员还探索了从 CARBonAra 的输出中采样蛋白质序列空间的重点策略。

由于不能确定由得分最高的氨基酸产生的蛋白质序列是否具有功能性,因此需要采用取样策略来产生可以在体外重组表达且稳定且具有功能的蛋白质。

目前为止,这尚未经过彻底测试。该团队在此表明,适当的采样策略不仅可以生成丰富的信息来产生起作用的蛋白质,而且还可以生成反映在自然序列中观察到的或通过诱变和选择实验采样的自然变异的合成多序列比对。

这具有超出蛋白质设计本身的意义,特别是为了解蛋白质在生物物理一致的蛋白质进化模型框架内如何进化打开了一扇窗户。

从根本上来说,提高计算设计的成功率对于真正掌握这一领域非常重要,更实际的是,可以在实验室中尝试实际表达和纯化时降低成本。

超高成功率

现在基于人工智能的方法开始稳定下来,这成为一个重要的讨论点。不同的方法和报告显示的成功率差异很大,但通常不清楚如何评估每种方法。

Chroma 进行了非常保守的评估,将其成功率设定为 3% 左右,而RoseTTAFold/ProteinMPNN 论文报告称几种蛋白质的平均成功率为 15%。

使用该研究报告的 TEM-1 β-内酰胺酶设计,成功率达到 40%。同样,TIM 桶和 NTF2 折叠的成功率也高达 40-55%,远高于之前的平均 15%。

适合提高蛋白热稳定性

除了直接应用于设计新蛋白质和调整蛋白质功能之外,CARBonAra 似乎还非常适合提高热稳定性,就像其他蛋白质设计方法一样,它们也能产生坚固、高热稳定性的蛋白质。

这一观察结果揭示的一个有趣方面与用于稳定制造和工业过程的酶的设计序列的知识产权有关:通常,设计的酶会以覆盖较小但相当大的序列相似性范围的方式受到保护。

从历史上看,这已经足够全面了;然而,包括 CARBonAra 在内的现代蛋白质设计方法可以设计出相似性低得多的蛋白质,这些蛋白质可以保留功能并高度稳定。

结语

展望未来,与其他蛋白质设计方法相比,CARBonAra 具有一些优势,主要与其仅基于元素名称和坐标的内部工作有关,不需要任何进一步的参数化或中间计算。

因此,CARBonAra 看起来比其他替代方案更灵活。因为它可以从本质上解析任何类型的分子系统,所以可以对其他类型的生物分子(例如核酸、小分子、离子,甚至水)或生物组合中未发现的分子(如材料和表面)进行训练,前提是有足够的数据。

总之,CARBonAra 独特地基于结构数据,是一种概念上不同的蛋白质序列预测和设计方法,具有解决分子设计和合成生物学未来挑战所需的额外灵活性。

论文链接:https://www.nature.com/articles/s41467-024-50571-y

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
都说孔子周游列国,可地图一摊开,这老爷子基本就没出过河南省

都说孔子周游列国,可地图一摊开,这老爷子基本就没出过河南省

长风文史
2026-04-18 16:39:15
78岁蔡志忠:每天要画800张画,一场直播能卖100多万元,“我过了普通人十辈子的人生”

78岁蔡志忠:每天要画800张画,一场直播能卖100多万元,“我过了普通人十辈子的人生”

澎湃新闻
2026-04-17 10:54:06
安徽一正处级干部被查!另有2人被通报

安徽一正处级干部被查!另有2人被通报

凤凰网安徽
2026-04-19 16:08:49
25万英镑!曼城废柴钱多活少离家近 一周收入堪比英超顶薪球员

25万英镑!曼城废柴钱多活少离家近 一周收入堪比英超顶薪球员

雪狼侃体育
2026-04-19 20:56:43
恭喜俄罗斯和乌克兰!打了1500多天,终于打成全世界都喜欢的样子

恭喜俄罗斯和乌克兰!打了1500多天,终于打成全世界都喜欢的样子

嫹笔牂牂
2026-04-15 10:03:39
CBA官方:广厦重新注册塔克 深圳注册火箭旧将+青岛注册勇士旧将

CBA官方:广厦重新注册塔克 深圳注册火箭旧将+青岛注册勇士旧将

醉卧浮生
2026-04-19 12:04:22
世纪大和解!37岁福原爱宣布三胎出生,前夫已祝福

世纪大和解!37岁福原爱宣布三胎出生,前夫已祝福

陈意小可爱
2026-04-19 17:29:46
大爆冷!湖人1-0火箭!詹姆斯历史首人,肯纳德27分,申京被高估

大爆冷!湖人1-0火箭!詹姆斯历史首人,肯纳德27分,申京被高估

篮球扫地僧
2026-04-19 20:37:28
重磅!王传福官宣比亚迪全固态电池已造出 4-19

重磅!王传福官宣比亚迪全固态电池已造出 4-19

风风顺
2026-04-19 09:41:48
心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

医学原创故事会
2026-03-29 23:50:13
广东队三消息:徐杰病情、杜锋下课、季后赛对手已确定

广东队三消息:徐杰病情、杜锋下课、季后赛对手已确定

逗比演员说体育
2026-04-19 17:43:58
4月17日,日本开始赌国运了

4月17日,日本开始赌国运了

闲闲碎
2026-04-18 20:34:49
真相大白!王宝强儿子近照,一眼认出亲爹是谁,宋喆是该哭还是该笑

真相大白!王宝强儿子近照,一眼认出亲爹是谁,宋喆是该哭还是该笑

八卦王者
2026-04-19 11:17:46
卢克-肖晒和加纳乔对抗图,热评第一是B费说这波是碾压

卢克-肖晒和加纳乔对抗图,热评第一是B费说这波是碾压

懂球帝
2026-04-19 20:59:56
中纪委深夜敲钟,这次查的不是贪钱,而是这三类隐形特权病

中纪委深夜敲钟,这次查的不是贪钱,而是这三类隐形特权病

细说职场
2026-04-18 12:11:35
加内特:文班亚马应该和美国黑女约会,需要去成人夜总会逛逛

加内特:文班亚马应该和美国黑女约会,需要去成人夜总会逛逛

懂球帝
2026-04-19 11:17:26
拼多多3元一斤的猪肺,我哭着看完评论区

拼多多3元一斤的猪肺,我哭着看完评论区

风味人间
2026-04-08 12:33:00
恒大集团许家印5个子女的不同命运

恒大集团许家印5个子女的不同命运

地产微资讯
2026-04-19 08:39:21
咽不下委国肥肉,美国尝尽苦果:中国一滴不买,特朗普降价求接盘

咽不下委国肥肉,美国尝尽苦果:中国一滴不买,特朗普降价求接盘

杰丝聊古今
2026-04-18 16:10:19
2026-04-19 21:31:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1280文章数 226关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

时尚
本地
游戏
旅游
房产

装修“精神角落”,就是这么上瘾

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

LCK第二阶段:NS三局战胜BRO,积分榜力压对手

旅游要闻

丰台王佐这片花海,真的藏不住了!春天必冲的打卡地标

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

无障碍浏览 进入关怀版