网易首页 > 网易号 > 正文 申请入驻

比Rosetta快250倍,亲和力升百倍,David Baker蛋白序列设计新工具

0
分享至

编辑 | 萝卜皮

小分子、核苷酸和金属离子条件下的蛋白质序列设计,对于酶和小分子结合剂以及传感器设计至关重要。但是,当前最先进的深度学习序列设计方法无法对非蛋白质原子和分子进行建模。

华盛顿大学的 Cameron Glasscock、David Baker 团队提出了一种基于深度学习的蛋白质序列设计方法,称为 LigandMPNN,该方法可以模拟生物分子系统的所有非蛋白质成分。

对于与小分子(63.3% 对比 50.4% 和 50.5%)、核苷酸(50.5% 对比 35.2% 和 34.0%)和金属(77.5% 对比 36.0% 和 40.6%)相互作用的残基,LigandMPNN 在天然主链序列恢复方面明显优于 Rosetta 和 ProteinMPNN。

LigandMPNN 不仅能生成序列,还能生成侧链构象,以便详细评估结合相互作用。LigandMPNN 已用于设计 100 多种经过实验验证的小分子和 DNA 结合蛋白,这些蛋白具有高亲和力和高结构准确性;对 Rosetta 小分子结合剂设计的重新设计使结合亲和力提高了 100 倍。

该研究以「Atomic context-conditioned protein sequence design using LigandMPNN」为题,于 2025 年 3 月 28 日发布在《Nature Methods》。

从头蛋白质设计能够创造具有新功能的新型蛋白质,例如催化、DNA、小分子和金属结合以及蛋白质-蛋白质相互作用。

从头设计通常分三个步骤进行:首先,生成预测接近最佳的执行新期望功能的蛋白质主链;其次,设计每个主链的氨基酸序列,以驱动折叠到目标结构并产生功能所需的特定相互作用(例如,酶活性位点);第三,使用结构预测方法进行序列结构兼容性过滤。

在这里,重点介绍第二步,即蛋白质序列设计。为了解决这个问题,已经开发了基于物理的方法(例如 Rosetta)和基于深度学习的模型(例如 ProteinMPNN、IF-ESM 等)。

基于深度学习的方法在设计蛋白质骨架序列方面优于基于物理的方法,但目前可用的模型无法结合非蛋白质原子和分子。

例如,ProteinMPNN 明确仅考虑蛋白质主链坐标,而忽略任何其他原子背景,这对于设计酶、核酸结合蛋白、传感器和所有其他涉及与非蛋白质原子相互作用的蛋白质功能至关重要。

为了实现更广泛的蛋白质功能的设计,David Baker 团队着手开发一种用于蛋白质序列设计的深度学习方法,该方法可以明确模拟完整的非蛋白质原子背景。他们试图通过推广 ProteinMPNN 架构来纳入非蛋白质原子来实现这一点。

与 ProteinMPNN 一样,研究人员将蛋白质残基视为节点,并根据 Cα–Cα 距离引入最近邻边,以定义稀疏蛋白质图;蛋白质主链几何形状通过 N、Cα、C、O 和 Cβ 原子之间的成对距离编码到图边中。

然后使用具有 128 个隐藏维度的三个编码器层处理这些输入特征,以获得中间节点和边缘表示。他们尝试引入两个额外的蛋白质-配体编码器层来编码蛋白质-配体相互作用。

Baker 团队推断,当主链和配体原子在空间中固定时,只有在紧邻的(~10 Å 以内)配体原子会影响氨基酸侧链的身份和构象,因为配体和侧链之间的相互作用(范德华力、静电力、排斥力和溶剂化力)范围相对较短。

为了将信息从配体原子转移到蛋白质残基,他们构建了一个蛋白质-配体图,以蛋白质残基和配体原子为节点,以每个蛋白质残基和最近的配体原子之间的边为边。还为每个蛋白质残基构建了一个完全连通的配体图,以其最近邻的配体原子为节点;配体原子之间的信息传递增加了通过配体-蛋白质边传递给蛋白质的信息的丰富性。

蛋白质-配体编码器由两个消息传递块组成,它们会更新配体图表示,然后更新蛋白质-配体图表示。蛋白质-配体编码器的输出与蛋白质编码器节点表示相结合,并传递到解码器层。他们将这种组合蛋白质-配体序列设计模型命名为 LigandMPNN。

图示:LigandMPNN 模型。(来源:论文)

为了便于设计对称和多状态蛋白质,研究人员使用随机自回归解码方案来解码氨基酸序列,就像 ProteinMPNN 的情况一样。通过添加配体原子几何编码和额外的两个蛋白质-配体编码器层,LigandMPNN 神经网络拥有 262 万个参数,而 ProteinMPNN 拥有 166 万个参数。

这两个网络都是高速且轻量级的(ProteinMPNN 0.6 秒,LigandMPNN 0.9 秒,在单个 CPU 上处理 100 个残基),并根据蛋白质长度线性扩展。他们通过随机选择一小部分蛋白质残基(2-4%)并使用它们的侧链原子作为背景配体原子以及任何小分子、核苷酸和金属背景来扩充训练数据集。虽然这种增强并没有显著提高序列恢复率,但以这种方式训练也使得侧链原子坐标能够直接输入到 LigandMPNN 中,从而稳定相关的功能位点。

LigandMPNN 是在蛋白质数据库 (PDB;截至 2022 年 12 月 16 日) 中的蛋白质组装体上进行训练的,这些组装体通过 X 射线晶体学或低温电子显微镜确定,分辨率优于 3.5 Å,总长度小于 6,000 个残基。训练-测试拆分基于以 30% 序列同一性截止值聚类的蛋白质序列。

图示:LigandMPNN 序列设计的计算机评估。(来源:论文)

研究人员在包含 317 个蛋白质结构的测试集上评估了 LigandMPNN 序列设计性能,其中 317 个蛋白质结构包含小分子,74 个包含核酸,83 个包含过渡金属。

图示:评估 LigandMPNN 侧链填充精度。(来源:论文)

实验证明,基于深度学习的 LigandMPNN 在设计氨基酸与非蛋白质分子相互作用方面优于基于物理的 Rosetta。它的速度大约快 250 倍(因为完全绕过了对侧链成分进行昂贵的蒙特卡罗优化),并且配体周围天然氨基酸身份和构象的恢复率始终更高。

该方法也更易于使用,因为不需要专家对新配体进行定制(Rosetta 等基于物理的方法可能需要为新化合物提供新的能量函数或力场参数)。

图示:使用 LigandMPNN 对 Rosetta 小分子结合剂设计进行优化。(来源:论文)

最开始,Baker 团队不确定 ProteinMPNN 的准确性是否可以扩展到蛋白质-配体系统,因为可用的训练数据量很少,但其结果表明,对于绝大多数配体,数据是足够的。

尽管如此,研究人员仍然建议在使用 LigandMPNN 设计包含 PDB 中很少出现或根本不出现的元素的化合物的结合剂时要小心(在后一种情况下,需要映射到最接近出现的元素)。基于物理和基于深度学习的方法的混合可能会为低数据状态下的氨基酸和侧链优化问题提供更好的解决方案。

LigandMPNN 已广泛用于设计蛋白质与核酸和小分子的相互作用,这些研究为该方法提供了大量额外的实验验证。在这些研究中,LigandMPNN 要么被用作 Rosetta 序列设计的替代品,保留 RosettaFastDesign 的主链松弛,要么被单独使用而无需主链松弛。

例如,Glasscock 团队开发了一种基于 LigandMPNN 设计蛋白质-DNA 界面的计算方法,其设计的 DNA 结合蛋白晶体结构与模型高度吻合。还有研究团队利用 LigandMPNN 设计了针对小分子的结合蛋白,实验验证了 100 多个蛋白质-DNA/小分子结合界面,其中 5 个共晶结构显示与计算模型高度一致,证实了该方法的有效性。

与 ProteinMPNN 一样,Baker 团队认为 LigandMPNN 将在蛋白质设计中得到广泛应用,从而能够创建新一代小分子结合蛋白、传感器和酶。

GitHub 网址:https://github.com/dauparas/LigandMPNN

相关报道:https://www.nature.com/articles/s41592-025-02626-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不吹不捧!这4个“中产运动鞋品牌”,确实比安踏、李宁更值得买

不吹不捧!这4个“中产运动鞋品牌”,确实比安踏、李宁更值得买

白宸侃片
2026-02-19 12:01:04
轰动日本的最小“牛郎”成年了!?13年过去,他成了这样...

轰动日本的最小“牛郎”成年了!?13年过去,他成了这样...

今日日本
2026-02-22 10:34:59
史诗级裁决!黄金冲破5100,白银狂飙9%!

史诗级裁决!黄金冲破5100,白银狂飙9%!

格隆汇
2026-02-21 18:10:06
王宝强也没料到,释永信毁灭牵出前妻马蓉旧事,自己差点“垫背”

王宝强也没料到,释永信毁灭牵出前妻马蓉旧事,自己差点“垫背”

阿讯说天下
2026-02-19 17:27:11
“坏胆固醇”下降10%!Nature子刊:仅连续吃2天燕麦,就能显著降低胆固醇,且效果至少持续6周

“坏胆固醇”下降10%!Nature子刊:仅连续吃2天燕麦,就能显著降低胆固醇,且效果至少持续6周

梅斯医学
2026-02-20 07:53:33
销售额暴涨19%,New Balance凭“老爹鞋”逆袭耐克

销售额暴涨19%,New Balance凭“老爹鞋”逆袭耐克

新浪财经
2026-02-19 21:58:12
《镖人》连续3天逆跌,豆瓣分春节档第一了

《镖人》连续3天逆跌,豆瓣分春节档第一了

喜欢历史的阿繁
2026-02-22 08:38:31
年初二,章小蕙挤地铁被偶遇,穿10万香奈儿也难掩灰头土脸的样子

年初二,章小蕙挤地铁被偶遇,穿10万香奈儿也难掩灰头土脸的样子

乡野小珥
2026-02-21 13:18:28
觉醒的中产家庭:撤退,隐身,不鸡娃

觉醒的中产家庭:撤退,隐身,不鸡娃

洞见
2026-02-08 21:36:46
大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

夜深爱杂谈
2026-01-20 18:56:34
国家给我5个亿我就上交!福建男花2亿元珍藏了一张皇帝所睡的龙床

国家给我5个亿我就上交!福建男花2亿元珍藏了一张皇帝所睡的龙床

南权先生
2026-02-12 15:41:39
四川竟有三个全国独有的县级行政单位——“工农区”

四川竟有三个全国独有的县级行政单位——“工农区”

金哥说新能源车
2026-02-20 12:21:37
别碰!正在坍塌的5个行业:门外汉抢着接盘,聪明人已在卖设备。

别碰!正在坍塌的5个行业:门外汉抢着接盘,聪明人已在卖设备。

三农老历
2026-02-15 12:47:14
男女在海底捞当众亲热:现场视频流出,肮脏细节披露,店方沉默

男女在海底捞当众亲热:现场视频流出,肮脏细节披露,店方沉默

博士观察
2026-02-21 23:24:18
一个问题:爱泼斯坦的“邪恶”从何而来?

一个问题:爱泼斯坦的“邪恶”从何而来?

百味朱砂
2026-02-14 14:46:51
德国人点评高铁:日本优秀,法国先进,只有中国是用了4个字评价

德国人点评高铁:日本优秀,法国先进,只有中国是用了4个字评价

云舟史策
2026-02-19 07:13:27
为什么钱越来越不经用了?网友:是通缩,黄金价格越高越说明通缩

为什么钱越来越不经用了?网友:是通缩,黄金价格越高越说明通缩

带你感受人间冷暖
2026-01-12 00:10:11
“抽象顶流”那艺娜的塌房之路:假扮“俄罗斯娜娜”出圈,请“嘎子”当嘉宾遭质疑

“抽象顶流”那艺娜的塌房之路:假扮“俄罗斯娜娜”出圈,请“嘎子”当嘉宾遭质疑

上游新闻
2026-02-21 13:43:15
银行内部实话:存款达这个金额,会被系统盯上

银行内部实话:存款达这个金额,会被系统盯上

小陆搞笑日常
2026-02-10 03:30:26
征服中年女人,无需套路:两颗真心,一生相守

征服中年女人,无需套路:两颗真心,一生相守

青苹果sht
2025-11-04 06:10:40
2026-02-22 11:04:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1234文章数 224关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

游客自驾青海遭野牦牛拦路:车动一下 牦牛就想攻击

头条要闻

游客自驾青海遭野牦牛拦路:车动一下 牦牛就想攻击

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

家居
亲子
旅游
本地
公开课

家居要闻

本真栖居 爱暖伴流年

亲子要闻

为什么小男孩小时候要比小女孩难养好多?网友:通常精力充沛

旅游要闻

10岁男孩从北帝山景区悬崖栈道坠下,官方通报

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版