网易首页 > 网易号 > 正文 申请入驻

国内团队提出基于蛋白质语言模型的远同源蛋白质搜索算法

0
分享至

自从大语言模型问世以来,各种新的应用层出不穷。英语里有句俗语说,当你握着个锤子的时候,看什么都像是钉子。而研究人员现在手握强大的语言模型,看什么都像是“语言”,比如化学式、DNA 序列等等。现在,蛋白质序列也加入了“语言”的行列。

最近,来自复旦大学、山东大学以及上海交通大学的研究团队提出了 PLMSearch(Protein Language Model),一种仅以序列作为输入的同源蛋白质搜索方法。PLMSearch 从预先训练的蛋白质语言模型中获取深层蛋白质表示,并基于大量真实的结构相似度训练相似度预测模型。这使得 PLMSearch 能够捕获隐藏在序列背后的远同源信息。它能够在短短几秒内迅速检索数百万个查询目标蛋白质对。与传统方法相比,其灵敏度更是提升了三倍之多,足以与当今最尖端的结构搜索技术相抗衡。值得一提的是,与传统的序列搜索方法大相径庭,PLMSearch 能够精准地识别并召回那些序列差异显著但结构高度相似的远程同源对,从而展现出其独特的优势。

研究成果以 “PLMSearch: Protein language model powers accurate and fast sequence search for remote homology”为题发表于《自然·通讯》:

同源蛋白质搜索的序列方法与结构方法

同源蛋白质搜索是生物信息学方法的关键组成部分,常被用于蛋白质功能预测、蛋白质-蛋白质相互作用预测和蛋白质-表型关联预测等任务中。同源蛋白搜索的目标是,对于每个查询蛋白,需要从目标数据集(通常是像 Swiss-Prot 这样的大规模标准数据集)中找到同源蛋白。同源概率较高的目标蛋白应该排名靠前。这种搜索可以是基于序列的,也可以是基于结构的。

序列搜索方法(如 MMseqs2、BLASTp、Diamond)因序列数据成本较低而得到广泛应用,但在检测远同源关系方面存在局限性。而隐马尔可夫模型(如 HMMER、HHsearch、HHblits)在序列一致性较低(<0.3)时表现更好。

对于高度分歧的序列,通过三维叠加得到的结构相似性提供了更高的灵敏度。结构方法包括基于接触图/距离图的(如 Map_align、EigenTHREADER)、基于结构字母表的(如 3D-BLAST-SW、Foldseek)和基于结构比对的(如 CE、Dali、TM-align)。虽然这些方法功能强大,但它们还需要生化实验确定的蛋白结构或是成本更低的结构预测模型(如 AlphaFold2)的辅助。这在涉及大量新序列的场景中尤其费时费力,例如宏基因组序列 、蛋白质工程生成的序列和抗体变体序列。

基于数亿蛋白序列预训练的蛋白质语言模型(如 ESM、ProtTrans)显示了强大的性能,并应用于域分类(如 ProtENN)、检测 CATH 超家族的远同源物(如 CATHe)、注释转移(如 EAT)以及成对序列比对(如 DEDAL、DeepBLAST、pLM-BLAST)。

尽管语言模型在远程同源性检测方面具有优势,但之前它们在大规模序列搜索中的潜力尚未得到充分利用。

蛋白质语言模型

蛋白质语言模型(如 ESM 和 ProtTrans)在数亿条未标记序列上进行预训练,擅长处理与结构相关的任务。为了提升序列搜索的精准度,同时保持其易用性和效率,作者开发了 PLMSearch。

其工作流程主要包括三个核心环节。首先,利用 PfamClan 工具,就能够精准筛选出共享相同 Pfam Clan 结构域的蛋白质对。同时 SS-predictor(结构相似性预测器)发挥着至关重要的作用,它凭借蛋白质语言模型生成的深度嵌入信息,能够精准预测查询与目标蛋白质对之间的相似性。值得一提的是,PLMSearch 的灵敏性得益于蛋白质语言模型对远程同源信息的深度捕捉。此外,SS-predictor 的训练过程是以结构相似性(TM-score)为依据,从而确保了 PLMSearch 在没有结构输入时仍能提供可靠的相似性预测。PLMSearch 还会基于预测的相似性对 PfamClan 筛选出的蛋白质对进行排序,并针对每个查询蛋白质输出相应的搜索结果。随后,PLMAlign 工具会为 PLMSearch 检索到的排名靠前的蛋白质对提供精确的序列比对及比对得分,从而帮助研究者更深入地了解蛋白质间的相互作用与关联。

与结构搜索方法的灵敏度相当

经过对 SS-predictor、PLMsearch、PLMsearch + PLMAlign 及其他多种搜索方法在 SCOPe40-test 和Swiss-Prot数据集上的全面评估,结果显示,PLMsearch 在多数指标上表现优异,特别是在超家族和折叠层次,这些层次的序列相似性较低。PLMsearch 在家族、超家族和折叠水平的 AUROC 上显著超越 MMseqs2。这证明了 PLMsearch 在蛋白质序列搜索中的高效性和准确性。

在数秒内搜索几百万个查询-目标对

团队首先在 SCOPe40-test 数据集上进行了全对全搜索测试,详尽地比较了不同方法的总搜索时间,涉及了 2207 个蛋白质以及 4,870,849 个查询-目标对。

通过使用 SS-predictor 预测相似性,而非传统的计算所有蛋白质对结构相似性(TM-score)的方法,SS-predictor 和 PLMsearch 展现出了惊人的效率,仅需 10 秒和 4 秒即可完成搜索,这比 TM-align 所需的 11,303 秒快了四个数量级以上。

面向 Swiss-Prot(568K 个蛋白质)和 UniRef50(53.6M 个蛋白质)这两个目标数据集进行搜索 ,并使用 PLMAlign 将查询蛋白与 Top-10 目标蛋白进行比对分别需要约 0.15 分钟和 1.1 分钟。值得一提的是,在 Swiss-Prot 数据集上进行查询搜索时,PLMAlign 占据了总时间的 80% 以上(约 0.12 分钟),而PLMsearch 却仅需约 0.03 分钟,这主要归功于其提前生成并预加载了所有目标蛋白质的嵌入信息。

准确检测远程同源对

远程同源对指的是那些序列差异显著但结构高度相似的同源蛋白对。这类蛋白对由于其低序列相似性,使得传统的基于序列比对的方法难以有效检测其同源性。然而,基于结构的搜索方法(如 Foldseek、Foldseek-TM 和 TM-align)则能够识别它们。

这里作者把序列和结构相似度均较高的蛋白对定义为“易检测对”,而序列差异大但结构相似的蛋白对为“远程同源对”。相比易检测对,远程同源对的检测更具挑战性。尽管传统方法如 MMseqs2 和 Blastp 能完全召回易检测对,但在远程同源对的检测上表现不佳。而 SS-predictor 和 PLMSearch 则凭借蛋白质语言模型的优势,展现出卓越性能,成功识别出大部分远程同源对,其召回率甚至超过直接使用结构数据的 Foldseek 方法。

在数秒内搜索几百万个查询-目标对

团队首先在 SCOPe40-test 数据集上进行了全对全搜索测试,详尽地比较了不同方法的总搜索时间,涉及了 2207 个蛋白质以及 4,870,849 个查询-目标对。

通过使用 SS-predictor 预测相似性,而非传统的计算所有蛋白质对结构相似性(TM-score)的方法,SS-predictor 和 PLMsearch 展现出了惊人的效率,仅需 10 秒和 4 秒即可完成搜索,这比 TM-align 所需的 11,303 秒快了四个数量级以上。

面向 Swiss-Prot(568K 个蛋白质)和 UniRef50(53.6M 个蛋白质)这两个目标数据集进行搜索 ,并使用 PLMAlign 将查询蛋白与 Top-10 目标蛋白进行比对分别需要约 0.15 分钟和 1.1 分钟。值得一提的是,在 Swiss-Prot 数据集上进行查询搜索时,PLMAlign 占据了总时间的 80% 以上(约 0.12 分钟),而 PLMsearch 却仅需约 0.03 分钟,这主要归功于其提前生成并预加载了所有目标蛋白质的嵌入信息。

准确检测远程同源对

远程同源对指的是那些序列差异显著但结构高度相似的同源蛋白对。这类蛋白对由于其低序列相似性,使得传统的基于序列比对的方法难以有效检测其同源性。然而,基于结构的搜索方法(如 Foldseek、Foldseek-TM 和 TM-align)则能够识别它们。

这里作者把序列和结构相似度均较高的蛋白对定义为“易检测对”,而序列差异大但结构相似的蛋白对为“远程同源对”。相比易检测对,远程同源对的检测更具挑战性。尽管传统方法如 MMseqs2 和 Blastp 能完全召回易检测对,但在远程同源对的检测上表现不佳。而 SS-predictor 和 PLMSearch 则凭借蛋白质语言模型的优势,展现出卓越性能,成功识别出大部分远程同源对,其召回率甚至超过直接使用结构数据的 Foldseek 方法。

本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东男子殉情后续!岳母再曝猛料,不止妻子被亲戚侵犯这么简单

广东男子殉情后续!岳母再曝猛料,不止妻子被亲戚侵犯这么简单

奇思妙想草叶君
2026-06-09 01:12:22
误会大了!马筱梅妈妈迫不及待展示的金锁,原来是张兰送的

误会大了!马筱梅妈妈迫不及待展示的金锁,原来是张兰送的

叮当当科技
2026-06-08 19:33:08
王楚钦陈梦被传领证四年!同款队服当实锤,国乒要法律追责了

王楚钦陈梦被传领证四年!同款队服当实锤,国乒要法律追责了

十点体坛
2026-06-08 22:06:14
正义来的太晚了!如今62岁已经退休的朱军,终于看到女方受到惩罚

正义来的太晚了!如今62岁已经退休的朱军,终于看到女方受到惩罚

青橘罐头
2026-06-03 09:45:45
比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

白宸侃片
2026-05-19 11:56:50
儿子涉嫌“吃空饷”的医院院长,成领军人才考察对象,湖南省卫生健康委最新回应→

儿子涉嫌“吃空饷”的医院院长,成领军人才考察对象,湖南省卫生健康委最新回应→

封面新闻
2026-06-08 17:04:24
红馆演唱会这一夜!人情世故江湖地位,在胡枫身上展现的淋漓尽致

红馆演唱会这一夜!人情世故江湖地位,在胡枫身上展现的淋漓尽致

胡一舸南游y
2026-06-08 20:53:11
电车涨价,突然“傲娇”

电车涨价,突然“傲娇”

凤凰网财经
2026-06-07 20:44:19
1年2250万!拜拜了!掘金准备交易第一人

1年2250万!拜拜了!掘金准备交易第一人

篮球实战宝典
2026-06-08 23:23:49
全员倒戈?越来越多球星改口,詹姆斯真的超越乔丹成GOAT了?

全员倒戈?越来越多球星改口,詹姆斯真的超越乔丹成GOAT了?

小徐讲八卦
2026-06-08 16:31:19
TA:老佛爷通过大选找出卡西等反对者;穆帅亮相仪式预计本周举行

TA:老佛爷通过大选找出卡西等反对者;穆帅亮相仪式预计本周举行

懂球帝
2026-06-08 11:56:07
法国高官爆出扎心数据:欧盟还不如大清,衰败速度是清朝3倍!

法国高官爆出扎心数据:欧盟还不如大清,衰败速度是清朝3倍!

以史为鉴
2026-06-07 07:00:16
53年等待!尼克斯一旦夺冠,纽约将迎来何等壮观的史诗级狂欢?

53年等待!尼克斯一旦夺冠,纽约将迎来何等壮观的史诗级狂欢?

篮球小布丁
2026-06-09 01:38:10
裤衩开叉10厘米!被网暴5年!铁三女神夺亚军又被骂,裁判:合规

裤衩开叉10厘米!被网暴5年!铁三女神夺亚军又被骂,裁判:合规

番外行
2026-06-07 15:53:29
佛山一工业园区污水管网工程发生较大坍塌事故,广东省安委会挂牌督办

佛山一工业园区污水管网工程发生较大坍塌事故,广东省安委会挂牌督办

澎湃新闻
2026-06-08 13:02:26
许勤梁惠玲拜会全国政协副主席、民进中央常务副主席朱永新一行

许勤梁惠玲拜会全国政协副主席、民进中央常务副主席朱永新一行

黑龙江新闻网
2026-06-08 11:07:47
胜宏科技董事长陷“电梯亲密”传闻,公司回应 其夫妇身家一年暴涨560亿

胜宏科技董事长陷“电梯亲密”传闻,公司回应 其夫妇身家一年暴涨560亿

红星新闻
2026-06-08 18:26:22
国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

梦史
2026-01-19 14:16:23
一个好员工突然开始到点准时走,也不频繁汇报了,我好奇问原因,他说:领导上次说漏嘴了,今年已经没有提拔和涨薪名额了

一个好员工突然开始到点准时走,也不频繁汇报了,我好奇问原因,他说:领导上次说漏嘴了,今年已经没有提拔和涨薪名额了

励职派
2026-06-07 19:11:59
留神峪矿难“余震”不断:沁源这口锅,终于盖不住了

留神峪矿难“余震”不断:沁源这口锅,终于盖不住了

迷世书童
2026-06-08 11:16:39
2026-06-09 04:44:49
络绎科学 incentive-icons
络绎科学
专业的科研成果转化社区
105文章数 3关注度
往期回顾 全部

科技要闻

干掉聊天框,ChatGPT不只回答,还要办事

头条要闻

女主播拒绝男子追求被快递包裹炸伤 当事人最新发声

头条要闻

女主播拒绝男子追求被快递包裹炸伤 当事人最新发声

体育要闻

2026年世界杯?到底会是什么样?

娱乐要闻

越扒越有!奔跑吧文旅合作费近两千万

财经要闻

华润万家蜜薯被检查农药超标

汽车要闻

从真实事故场景出发 吉利银河星舰7 EV硬核安全“超纲”了

态度原创

健康
房产
本地
教育
公开课

干细胞新规落地,打干细胞更容易还是更难了?

房产要闻

10,000元大奖等你拿!广州城投地产IP形象设计大赛火热开启!以创意贏未来!

本地新闻

用杨柳青年画的方式,打开天津

教育要闻

高考数学的精明账:放弃压轴题!20分钟换12分,不如盯死前面题目

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版