网易首页 > 网易号 > 正文 申请入驻

量化617,462种人类微蛋白必需性,北大LLM蛋白质综合预测与分析

0
分享至

编辑 | 萝卜皮

人类必需蛋白(HEP)对于个体的生存和发育必不可少。然而,鉴定 HEP 的实验方法通常成本高昂、耗时费力。

此外,现有的计算方法仅在细胞系水平上预测 HEP,但 HEP 在活体人类、细胞系和动物模型中有所不同。

在这里,北京大学的研究团队通过微调预训练的蛋白质语言模型,开发了一个基于序列的深度学习模型,即蛋白质重要性计算器 (PIC,Protein Importance Calculator)。

PIC 不仅大大优于现有的预测 HEP 方法,而且还提供了跨人类、细胞系和小鼠三个层面的全面预测结果。

此外,团队定义了源自 PIC 的蛋白质必需评分,以量化人类蛋白质的必需性,并通过一系列生物学分析验证其有效性。他们还通过识别乳腺癌的潜在预后生物标志物和量化617,462 种人类微蛋白的必需性,来证明蛋白质必需评分的生物医学价值。

该研究以「Comprehensive prediction and analysis of human protein essentiality based on a pretrained large language model」为题,于 2024 年 11 月 27 日发布在《Nature Computational Science》。

必需蛋白由必需基因编码,对生物体的生存至关重要,通常参与基本的生物过程。因此,从人类蛋白质组中识别必需蛋白对于疾病的预防、诊断和治疗至关重要。然而,没有一种蛋白质是绝对必需的;只有功能才是绝对必需的。

人类蛋白质的必要性取决于环境,与细胞类型和生理阶段密切相关。此外,人类必需蛋白质在活体人类、人类细胞系和动物模型中存在很大差异。

为了全面系统地评估人类蛋白质的必要性,北京大学的研究人员提出了一种基于深度学习的方法—— PIC;通过微调 PLM,与现有方法相比,该方法在人类蛋白质必要性预测任务上取得了最先进的性能。

PIC 模型概述

PIC 是一系列用于全面预测人类必需蛋白质的深度学习模型,包括三个不同级别的共 325 个 PIC 模型:一个用于人类水平的模型(PIC-human),一个用于小鼠水平的模型(PIC-mouse)和 323 个用于细胞系水平的模型(PIC-cell)。

蛋白质必需性数据分别从 gnomAD、OGEE-MGI 和 Project Score数据库收集,以训练 PIC-human、PIC-mouse 和 PIC-cell(图 1a)。

图 1:整体工作流程。(来源:论文)

所有 PIC 模型都具有相同的架构,包括三个主要模块:嵌入、注意和预测(图 1b)。

对于 323 个细胞级 PIC 模型,研究人员在集成学习框架中使用软投票策略来汇总 323 个细胞级 PIC 模型的预测结果,从而得到高性能的 PIC 细胞模型。

此外,团队还利用集成学习开发了 28 个疾病级 PIC 模型和 19 个组织级 PIC 模型,能够预测人类蛋白质在特定疾病或组织中的必要性。

为了优化 PIC 模型架构,他们进行了一系列消融研究和超参数优化实验。结果促使研究人员选择具有 6.5 亿个参数的 ESM-2 模型进行蛋白质序列特征提取,应用平均池化方法生成完整蛋白质序列的表示(图 2)。

图 2:PIC 模型的消融研究。(来源:论文)

PIC 模型的整体性能

研究人员使用准确度、召回率、精确度、F1 分数、AUROC(area under the receiver operating characteristic curve)和 AUPRC(area under the precision-recall curve)等指标评估了 PIC 模型在各自独立测试数据集上的性能。

PIC-human 的 AUROC 最高,为 0.9132,其次是 PIC-mouse,AUROC 为 0.8736。

KYSE-70 细胞级模型的 AUROC(0.8579)是 323 个细胞级 PIC 模型的中位数,被选为代表 PIC 细胞模型的平均性能(图 3a)。

图 3 :PIC模型的性能展示及比较。(来源:论文)

为了进一步评估 PIC 模型的性能,研究人员将其与三种广泛使用的开源基于序列的蛋白质必要性预测模型进行了比较。在所比较的模型中,EP-EDL 和 EP-GBDT 是在细胞活力测定的综合数据集上进行训练的,而 DeepCellEss 是一个基于 323 个人类细胞系数据集数据的细胞系特定模型。

此外,团队设计了 PIC-base 作为自基线模型,该模型使用 ESM-2 直接输出的序列级特征向量进行蛋白质必要性预测。结果表明,与现有方法相比,PIC 将 AUROC 提高了 5.13–12.10%,并且还显著提高了准确率、精确率、F1 得分和 AUPRC。

鉴于DeepCellEss是细胞系特异性的,研究人员进一步在 323 个细胞系中分别比较了 PIC 和 DeepCellEss 的 AUROC 和 AUPRC 值。

结果显示,与 DeepCellEss 相比,PIC 在 323 个细胞系中的 AUROC 和 AUPRC 分别平均提高了 9.64% 和 10.52%(图 3b,c)。此外,19 种组织水平和 28 种疾病水平 PIC 细胞模型的 AUROC 值范围为 0.7543 至 0.9029。

图 4:PIC 模型产生的 PES 的生物学相关性。(来源:论文)

未来探索

这里的 PIC 模型考虑了人类蛋白质重要性在不同水平上的变化,同时预测活体人类、人类细胞系和动物模型中蛋白质的必要性分数。研究人员表示,他们相信 PIC 将有利于用户全面预测和了解人类蛋白质的重要性,有助于发现治疗靶点和预后生物标志物。

图 5:基于不同层级PES的跨层分析。(来源:论文)

未来该领域的探索和改进包括:(1)增强预测 PES 的可解释性。虽然该团队利用 PIC 输出的概率值定义了 PES,并对其生物学含义进行了初步的探索和分析,但对PES的核心生物学含义缺乏深入的解释,这在很大程度上是由于神经网络模型是一个黑盒子。

(2)预测和研究不同物种间蛋白质的必要性。目前,PIC 仅限于在三个层面上预测人类蛋白质的必要性,缺乏预测其他物种(如细菌或其他微生物)蛋白质必要性的能力。这种限制主要是由于非人类物种的必需性数据稀缺。

未来,构建一个统一的模型或多个物种特定模型来预测蛋白质的必需性,可以研究跨物种的共性和必需蛋白质的差异。这可能对药物发现具有重要意义,例如针对细菌中的必需蛋白质进行抗生素开发。

(3)结合蛋白质结构信息提升预测效果。PIC 模型是一种基于序列的深度学习模型,仅根据输入的蛋白质序列预测蛋白质的必要性。然而,结构信息的缺失可能会限制模型的性能。未来的模型可以整合蛋白质结构特征,从而可能更准确地预测蛋白质的必要性。

PIC 服务器:http://www.cuilab.cn/pic

论文链接:https://www.nature.com/articles/s43588-024-00733-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官方回应刘晓庆风波!王婆说话阴阳怪气,网友:庆奶75了还想怎样

官方回应刘晓庆风波!王婆说话阴阳怪气,网友:庆奶75了还想怎样

天天热点见闻
2026-05-02 17:15:14
苹果,杀疯了!

苹果,杀疯了!

Davey科技说
2026-05-02 18:49:11
河南博物院声明:严格核查,坚决打击

河南博物院声明:严格核查,坚决打击

澎湃新闻
2026-05-03 11:57:05
湖南多家企事业单位公开招聘!

湖南多家企事业单位公开招聘!

微湘西
2026-05-03 18:25:40
新娘确实漂亮,但我更喜欢戴眼镜那个。

新娘确实漂亮,但我更喜欢戴眼镜那个。

动物奇奇怪怪
2026-04-12 12:44:36
日本高层抵华后傻眼,中国未安排要员接见!高市早苗亲自去搬救兵

日本高层抵华后傻眼,中国未安排要员接见!高市早苗亲自去搬救兵

介知
2026-05-03 12:24:22
卧槽!再见奇才,浓眉或将被交易,一场都没打啊....

卧槽!再见奇才,浓眉或将被交易,一场都没打啊....

体育新角度
2026-05-03 20:21:14
CBA官宣!京粤大战赛程,三场两胜制,首战5月6日

CBA官宣!京粤大战赛程,三场两胜制,首战5月6日

篮球大陆
2026-05-03 21:55:50
主播明明离开东方甄选后开启首次直播,地点在陕西商洛老家,开播数分钟后主动关闭打赏:明明还可以,不用大家打赏

主播明明离开东方甄选后开启首次直播,地点在陕西商洛老家,开播数分钟后主动关闭打赏:明明还可以,不用大家打赏

极目新闻
2026-05-03 10:40:39
上海榴莲市场“双线作战”:多重利好让批发价下降15%,小众品种来抢滩

上海榴莲市场“双线作战”:多重利好让批发价下降15%,小众品种来抢滩

上观新闻
2026-05-03 19:57:05
美华裔医生下药迷奸女病人,被发现的原因太奇葩

美华裔医生下药迷奸女病人,被发现的原因太奇葩

韬闻
2026-05-03 11:50:17
拉什福德完美契合!巴萨计划买断,使用两年后转售沙特收回成本!

拉什福德完美契合!巴萨计划买断,使用两年后转售沙特收回成本!

海浪星体育
2026-05-03 12:26:42
两岸一家亲!国乒与中国台北队赛后大合影 声援遭性骚扰的女同胞

两岸一家亲!国乒与中国台北队赛后大合影 声援遭性骚扰的女同胞

念洲
2026-05-03 09:50:39
女子吃榴莲后喝白酒引发中毒呼吸衰竭 专家释疑:这跟头孢配酒没区别

女子吃榴莲后喝白酒引发中毒呼吸衰竭 专家释疑:这跟头孢配酒没区别

快科技
2026-05-03 22:59:06
身体这处毛发变白,暗示活得不长?看看你白了没有

身体这处毛发变白,暗示活得不长?看看你白了没有

白话电影院
2026-04-05 22:42:04
西安新地标爆火!36亿打造西北第一,全国前三,地铁直达太方便

西安新地标爆火!36亿打造西北第一,全国前三,地铁直达太方便

白浅娱乐聊
2026-05-03 21:19:52
官方:沃特福德主帅爱德华-斯蒂尔下课,上任15场仅取得3胜

官方:沃特福德主帅爱德华-斯蒂尔下课,上任15场仅取得3胜

懂球帝
2026-05-03 18:54:43
OB03成员:很奇怪,我对你真么好,我也没出轨差哪里了呢?

OB03成员:很奇怪,我对你真么好,我也没出轨差哪里了呢?

SwagFuck
2026-05-04 00:13:20
两连胜,献礼劳动节!2026齐鲁超赛烟台赛区激战正酣,汉鑫科技助燃城市足球梦

两连胜,献礼劳动节!2026齐鲁超赛烟台赛区激战正酣,汉鑫科技助燃城市足球梦

新浪财经
2026-05-04 00:42:35
从三聚氰胺到优思益:十七年过去,我们还在原地打转

从三聚氰胺到优思益:十七年过去,我们还在原地打转

凤眼论
2026-04-02 15:35:27
2026-05-04 01:03:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1292文章数 227关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

健康
本地
房产
教育
公开课

干细胞治烧烫伤面临这些“瓶颈”

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

教育要闻

期中考暨一模出分,大家考的怎么样?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版