网易首页 > 网易号 > 正文 申请入驻

Nature子刊,快10倍,基于Transformer的逆向蛋白质序列设计方法

0
分享至

编辑 | 萝卜皮

借助深度学习的进步,蛋白质设计和工程正以前所未有的速度发展。然而,目前的模型无法在设计过程中自然地考虑非蛋白质实体。

在这里,瑞士洛桑联邦理工学院(EPFL)的研究人员提出了一种完全基于原子坐标和元素名称的几何 transformer 的深度学习方法,该方法可以根据不同分子环境所施加限制的主链支架,预测蛋白质序列。

使用该方法,研究人员可以以高成功率生产出高热稳定性、催化活性的酶。这有望提高蛋白质设计流程的多功能性,以实现所需的功能。

该研究以「Context-aware geometric deep learning for protein sequence design」为题,于 2024 年 7 月 25 日发布在《Nature Communications》。

设计蛋白质以实现功能性任务是一个具有重大生物学、医学、生物技术和材料科学影响的挑战。一个关键应用领域是蛋白质治疗药物的设计,通过定制蛋白质来精确针对特定疾病,可能比小分子药物更具竞争力。这种方法可能革新许多健康问题的治疗方式,从自身免疫疾病到癌症,提供更有效和个性化的治疗方案。

此外,设计酶功能也是蛋白质设计中的另一个重要挑战。酶作为天然催化剂在生物过程中起关键作用。通过设计新酶或改造现有酶,可以创造出促进自然界中罕见或不存在反应的催化剂。这对多个行业有深远影响,包括制药业和环保技术,例如合成复杂药物分子或分解污染物和塑料。

深度学习方法显著加速了蛋白质设计的成功率和多样性。然而,虽然目前的蛋白质设计模型可以处理多条蛋白质链,但在处理非蛋白质实体时表现较差,限制了其应用范围。

为解决这一问题,EPFL 的研究团队曾经引入了一种深度学习模型——Protein Structure Transformer(PeSTo),一种几何 transformer 架构,作用于原子点云。

PeSTo 结合了 transformer注意力机制,利用标量和矢量状态表示原子,可以预测几乎任何分子与蛋白质界面的相互作用,包括蛋白质、核酸、脂类、离子、小配体、辅因子或碳水化合物。

在最新的工作中,该团队利用该模型的独特功能,并引入了基于 PeSTo 的蛋白质序列生成器模型 CARBonAra(Context-aware Amino acid Recovery from Backbone Atoms and heteroatoms)。

CARBonAra 基于 PDB 中可用的结构数据进行独特训练,可预测给定主链支架所有位置的氨基酸置信度,这些主链支架可以单独提供,也可以与任何种类和数量的有助于推动序列设计的分子复合。

图示:CARBonAra的架构以及与 SOTA 方法的比较。(来源:论文)

CARBonAra 的组成与性能

CARBonAra 使用由几何 transformer 组成的深度学习模型,预测从输入主干支架中在蛋白质序列的每个位置找到给定氨基酸的可能性。CARBonAra 将主链原子(Cα、C、N、O)的坐标和元素作为输入,并使用理想的键角和键长添加虚拟 Cβ 原子。几何形状使用每个原子之间的距离和归一化相对位移矢量来描述。

几何 transformer 操作对所有相邻原子的相互作用进行编码,并使用 transformer 处理标量和矢量信息并更新每个原子的状态。最后,通过将原子状态从原子级别汇集到残基级别,研究人员训练模型以位置特定评分矩阵的形式预测蛋白质序列每个位置的氨基酸置信度。

实际上,这些置信度可以被解释为并映射到概率中,通过表征在给定每种氨基酸类型的预测置信度的情况下正确预测的概率。

图示:预测置信分析。(来源:论文)

与其他模型一样,CARBonAra 通过使用独热编码将特定氨基酸的先前序列信息印入主链原子来支持自回归预测。

最重要的是,CARBonAra 继承了 PeSTo 仅使用元素名称和原子坐标的能力,无需进行大量参数化,从而可以轻松适应各种场景。

因此,CARBonAra 可以解析和处理正在设计的蛋白质主链附近的任何分子实体,其中包括其他蛋白质、小分子、核酸、脂质、离子和水分子等一系列输入。

数据集

利用 CARBonAra 固有的灵活性,研究人员能够将 RCSB PDB 中的所有生物组装体纳入他们的训练数据集。

这包括与其他分子实体(如离子、配体、核酸等)复合的蛋白质。训练数据集由大约 370,000 个亚基组成,验证数据集中还使用了另外 100,000 个亚基,所有这些亚基均来自 RCSB PDB 生物组装体,并被注释为最佳可能。

与以前建立的方法相比,遵循稍微更严格的协议,测试数据集由大约 70,000 个亚基组成,与没有共享 CATH 域的训练集不同,并且在低于 30% 的序列同一性下进行过滤。

该选择标准确保了测试的稳健性,因为它排除了训练数据集中存在的类似折叠和序列。

图示:在 GPU 上运行时分析。(来源:论文)

对于从不含非蛋白质分子的骨架结构中分离蛋白质或蛋白质复合物的序列设计,CARBonAra 的表现与 ProteinMPNN 和 ESM-IF1 等最先进的序列预测方法相当,并且计算成本具有竞争力(在 GPU 上比 ProteinMPNN 快约 3 倍,比 ESM-IF1 快 10 倍)。

从主链结构重建蛋白质序列

该方法在从主链结构重建蛋白质序列时,蛋白质单体设计的序列恢复率中值为 51.3%,二聚体设计的序列恢复率中值为 56.0%。尽管恢复率相似,但三种方法的最佳序列之间的序列同一性中值为 54% 至 58% 不等。

此外,研究人员观察到 CARBonAra 可以生成高质量序列,当在单序列模式下使用AlphaFold预测时,这些序列可以按预期折叠,TM 分数高于 0.9。

CARBonAra 在蛋白质核心处学习了更紧密的氨基酸包装,从而导致更高的回收率并反映了对典型的埋藏氨基酸取代的较低耐受性,同时允许蛋白质表面具有更高的可变性,除非提供额外的功能或结构限制。

图示:埋藏于表面的氨基酸的分析。(来源:论文)

从主干支架进行序列预测的方法主要在具有理想主干几何形状的实验数据上进行训练,当应用于生成的主干时会导致性能下降。在训练过程中向几何图形添加噪声可以缓解此问题。

研究人员通过将 CARBonAra 应用于分子动力学 (MD) 模拟的结构轨迹来表征该方法的稳健性。由于主链构象变化和先前显示低恢复率的病例增加,序列恢复率(53±10%)与一致预测(54±7%)没有显著下降。

同时,研究人员观察到每个位置预测的可能的氨基酸数量普遍减少,这表明探索构象空间正在限制序列空间,从而使得能够设计有针对性的结构构象。

图示:主链构象对预测的影响。(来源:论文)

具有超出蛋白质设计本身的意义

研究人员在一个主力系统(即 TEM-1 丝氨酸 β-内酰胺酶)上进行了实验,展示了 CARBonAra 如何处理酶工程的挑战,设计出在高温下折叠并保持催化活性的实际蛋白质。此外,研究人员还探索了从 CARBonAra 的输出中采样蛋白质序列空间的重点策略。

由于不能确定由得分最高的氨基酸产生的蛋白质序列是否具有功能性,因此需要采用取样策略来产生可以在体外重组表达且稳定且具有功能的蛋白质。

目前为止,这尚未经过彻底测试。该团队在此表明,适当的采样策略不仅可以生成丰富的信息来产生起作用的蛋白质,而且还可以生成反映在自然序列中观察到的或通过诱变和选择实验采样的自然变异的合成多序列比对。

这具有超出蛋白质设计本身的意义,特别是为了解蛋白质在生物物理一致的蛋白质进化模型框架内如何进化打开了一扇窗户。

从根本上来说,提高计算设计的成功率对于真正掌握这一领域非常重要,更实际的是,可以在实验室中尝试实际表达和纯化时降低成本。

超高成功率

现在基于人工智能的方法开始稳定下来,这成为一个重要的讨论点。不同的方法和报告显示的成功率差异很大,但通常不清楚如何评估每种方法。

Chroma 进行了非常保守的评估,将其成功率设定为 3% 左右,而RoseTTAFold/ProteinMPNN 论文报告称几种蛋白质的平均成功率为 15%。

使用该研究报告的 TEM-1 β-内酰胺酶设计,成功率达到 40%。同样,TIM 桶和 NTF2 折叠的成功率也高达 40-55%,远高于之前的平均 15%。

适合提高蛋白热稳定性

除了直接应用于设计新蛋白质和调整蛋白质功能之外,CARBonAra 似乎还非常适合提高热稳定性,就像其他蛋白质设计方法一样,它们也能产生坚固、高热稳定性的蛋白质。

这一观察结果揭示的一个有趣方面与用于稳定制造和工业过程的酶的设计序列的知识产权有关:通常,设计的酶会以覆盖较小但相当大的序列相似性范围的方式受到保护。

从历史上看,这已经足够全面了;然而,包括 CARBonAra 在内的现代蛋白质设计方法可以设计出相似性低得多的蛋白质,这些蛋白质可以保留功能并高度稳定。

结语

展望未来,与其他蛋白质设计方法相比,CARBonAra 具有一些优势,主要与其仅基于元素名称和坐标的内部工作有关,不需要任何进一步的参数化或中间计算。

因此,CARBonAra 看起来比其他替代方案更灵活。因为它可以从本质上解析任何类型的分子系统,所以可以对其他类型的生物分子(例如核酸、小分子、离子,甚至水)或生物组合中未发现的分子(如材料和表面)进行训练,前提是有足够的数据。

总之,CARBonAra 独特地基于结构数据,是一种概念上不同的蛋白质序列预测和设计方法,具有解决分子设计和合成生物学未来挑战所需的额外灵活性。

论文链接:https://www.nature.com/articles/s41467-024-50571-y

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比亚迪再掀价格战:8.98万续航2110km,合资车彻底慌了

比亚迪再掀价格战:8.98万续航2110km,合资车彻底慌了

华庭讲美食
2026-04-10 17:03:23
洛夫顿伤情更新!卢伟亲承比较严重,就不应该带伤出战的!

洛夫顿伤情更新!卢伟亲承比较严重,就不应该带伤出战的!

篮球资讯达人
2026-04-10 22:52:56
985的教授教博士们研发摩托车发动机,为什么他们没把冠军干出来

985的教授教博士们研发摩托车发动机,为什么他们没把冠军干出来

狐狸先森讲升学规划
2026-04-08 16:10:03
美载人绕月飞船返回地球 溅落在预定海域

美载人绕月飞船返回地球 溅落在预定海域

财联社
2026-04-11 08:12:14
中央明确:社保最低缴费年限要提高,70、80后早做准备

中央明确:社保最低缴费年限要提高,70、80后早做准备

混沌录
2026-04-10 17:39:15
郑丽文想要的,大陆给得很爽快,随行人员有惊喜,蓝营一姐发话了

郑丽文想要的,大陆给得很爽快,随行人员有惊喜,蓝营一姐发话了

瑛派儿老黄
2026-04-11 11:24:15
争四形式不容乐观!杜兰特33分创纪录,火箭8连胜遭森林狼终结

争四形式不容乐观!杜兰特33分创纪录,火箭8连胜遭森林狼终结

全景体育V
2026-04-11 12:09:03
王浅秋发声!郑丽文收获满满,获一边倒力挺,卢秀燕改口有深意!

王浅秋发声!郑丽文收获满满,获一边倒力挺,卢秀燕改口有深意!

相思赋予谁a
2026-04-09 15:15:33
跳水运动员练俊杰社媒遭围攻,被网友指责曾在全红婵黑粉群

跳水运动员练俊杰社媒遭围攻,被网友指责曾在全红婵黑粉群

懂球帝
2026-04-10 23:15:10
7岁女童阴道炎反复难愈,手术后竟然取出一整支精华液!

7岁女童阴道炎反复难愈,手术后竟然取出一整支精华液!

深圳晚报
2026-04-09 16:19:33
后悔了!曼联弃将的真情告白:与阿莫林决裂是职业生涯最大的错误

后悔了!曼联弃将的真情告白:与阿莫林决裂是职业生涯最大的错误

体坛鉴春秋
2026-04-11 11:59:23
中国引进最成功的航空发动机,它的装备为空军缓解了30年的压力

中国引进最成功的航空发动机,它的装备为空军缓解了30年的压力

小熊侃史
2026-04-10 10:15:23
中东停火不到24小时,美国就调转枪口对准中国,F-35密集“压境”

中东停火不到24小时,美国就调转枪口对准中国,F-35密集“压境”

有范又有料
2026-04-09 15:55:08
男演员最新声明:已退出美国国籍,正式成为中国公民

男演员最新声明:已退出美国国籍,正式成为中国公民

美芽
2026-04-08 18:02:54
医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

奇妙的本草
2026-04-11 11:59:46
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
3-0横扫!中超黑马豪取3连胜,本土主帅李国旭神了:击败3大强队

3-0横扫!中超黑马豪取3连胜,本土主帅李国旭神了:击败3大强队

足球狗说
2026-04-10 21:32:30
郑丽文一行参访国家大剧院

郑丽文一行参访国家大剧院

京彩台湾
2026-04-11 09:10:09
特朗普称霍尔木兹海峡将“很快”开放

特朗普称霍尔木兹海峡将“很快”开放

界面新闻
2026-04-11 07:00:21
抢在郑丽文返台前,解放军定调统一,长鹰8升空,航程超三千公里

抢在郑丽文返台前,解放军定调统一,长鹰8升空,航程超三千公里

影孖看世界
2026-04-10 23:09:08
2026-04-11 12:31:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1274文章数 226关注度
往期回顾 全部

科技要闻

阿尔忒弥斯2号成功溅落,隔热罩惊险过关

头条要闻

"迟重瑞与陈丽华年轻时合影"热传 当事女子:张冠李戴

头条要闻

"迟重瑞与陈丽华年轻时合影"热传 当事女子:张冠李戴

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

浪姐7淘汰 该走的没走,不该走的走了

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

本地
时尚
家居
教育
手机

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

推广中奖名单-更新至2026年3月31日推广

家居要闻

复古风格 自然简约

教育要闻

电气专业直接就业还是考研?

手机要闻

橙色版OPPO Find X9 Ultra手机渲染图曝光

无障碍浏览 进入关怀版