网易首页 > 网易号 > 正文 申请入驻

量化617,462种人类微蛋白必需性,北大LLM蛋白质综合预测与分析

0
分享至

编辑 | 萝卜皮

人类必需蛋白(HEP)对于个体的生存和发育必不可少。然而,鉴定 HEP 的实验方法通常成本高昂、耗时费力。

此外,现有的计算方法仅在细胞系水平上预测 HEP,但 HEP 在活体人类、细胞系和动物模型中有所不同。

在这里,北京大学的研究团队通过微调预训练的蛋白质语言模型,开发了一个基于序列的深度学习模型,即蛋白质重要性计算器 (PIC,Protein Importance Calculator)。

PIC 不仅大大优于现有的预测 HEP 方法,而且还提供了跨人类、细胞系和小鼠三个层面的全面预测结果。

此外,团队定义了源自 PIC 的蛋白质必需评分,以量化人类蛋白质的必需性,并通过一系列生物学分析验证其有效性。他们还通过识别乳腺癌的潜在预后生物标志物和量化617,462 种人类微蛋白的必需性,来证明蛋白质必需评分的生物医学价值。

该研究以「Comprehensive prediction and analysis of human protein essentiality based on a pretrained large language model」为题,于 2024 年 11 月 27 日发布在《Nature Computational Science》。

必需蛋白由必需基因编码,对生物体的生存至关重要,通常参与基本的生物过程。因此,从人类蛋白质组中识别必需蛋白对于疾病的预防、诊断和治疗至关重要。然而,没有一种蛋白质是绝对必需的;只有功能才是绝对必需的。

人类蛋白质的必要性取决于环境,与细胞类型和生理阶段密切相关。此外,人类必需蛋白质在活体人类、人类细胞系和动物模型中存在很大差异。

为了全面系统地评估人类蛋白质的必要性,北京大学的研究人员提出了一种基于深度学习的方法—— PIC;通过微调 PLM,与现有方法相比,该方法在人类蛋白质必要性预测任务上取得了最先进的性能。

PIC 模型概述

PIC 是一系列用于全面预测人类必需蛋白质的深度学习模型,包括三个不同级别的共 325 个 PIC 模型:一个用于人类水平的模型(PIC-human),一个用于小鼠水平的模型(PIC-mouse)和 323 个用于细胞系水平的模型(PIC-cell)。

蛋白质必需性数据分别从 gnomAD、OGEE-MGI 和 Project Score数据库收集,以训练 PIC-human、PIC-mouse 和 PIC-cell(图 1a)。

图 1:整体工作流程。(来源:论文)

所有 PIC 模型都具有相同的架构,包括三个主要模块:嵌入、注意和预测(图 1b)。

对于 323 个细胞级 PIC 模型,研究人员在集成学习框架中使用软投票策略来汇总 323 个细胞级 PIC 模型的预测结果,从而得到高性能的 PIC 细胞模型。

此外,团队还利用集成学习开发了 28 个疾病级 PIC 模型和 19 个组织级 PIC 模型,能够预测人类蛋白质在特定疾病或组织中的必要性。

为了优化 PIC 模型架构,他们进行了一系列消融研究和超参数优化实验。结果促使研究人员选择具有 6.5 亿个参数的 ESM-2 模型进行蛋白质序列特征提取,应用平均池化方法生成完整蛋白质序列的表示(图 2)。

图 2:PIC 模型的消融研究。(来源:论文)

PIC 模型的整体性能

研究人员使用准确度、召回率、精确度、F1 分数、AUROC(area under the receiver operating characteristic curve)和 AUPRC(area under the precision-recall curve)等指标评估了 PIC 模型在各自独立测试数据集上的性能。

PIC-human 的 AUROC 最高,为 0.9132,其次是 PIC-mouse,AUROC 为 0.8736。

KYSE-70 细胞级模型的 AUROC(0.8579)是 323 个细胞级 PIC 模型的中位数,被选为代表 PIC 细胞模型的平均性能(图 3a)。

图 3 :PIC模型的性能展示及比较。(来源:论文)

为了进一步评估 PIC 模型的性能,研究人员将其与三种广泛使用的开源基于序列的蛋白质必要性预测模型进行了比较。在所比较的模型中,EP-EDL 和 EP-GBDT 是在细胞活力测定的综合数据集上进行训练的,而 DeepCellEss 是一个基于 323 个人类细胞系数据集数据的细胞系特定模型。

此外,团队设计了 PIC-base 作为自基线模型,该模型使用 ESM-2 直接输出的序列级特征向量进行蛋白质必要性预测。结果表明,与现有方法相比,PIC 将 AUROC 提高了 5.13–12.10%,并且还显著提高了准确率、精确率、F1 得分和 AUPRC。

鉴于DeepCellEss是细胞系特异性的,研究人员进一步在 323 个细胞系中分别比较了 PIC 和 DeepCellEss 的 AUROC 和 AUPRC 值。

结果显示,与 DeepCellEss 相比,PIC 在 323 个细胞系中的 AUROC 和 AUPRC 分别平均提高了 9.64% 和 10.52%(图 3b,c)。此外,19 种组织水平和 28 种疾病水平 PIC 细胞模型的 AUROC 值范围为 0.7543 至 0.9029。

图 4:PIC 模型产生的 PES 的生物学相关性。(来源:论文)

未来探索

这里的 PIC 模型考虑了人类蛋白质重要性在不同水平上的变化,同时预测活体人类、人类细胞系和动物模型中蛋白质的必要性分数。研究人员表示,他们相信 PIC 将有利于用户全面预测和了解人类蛋白质的重要性,有助于发现治疗靶点和预后生物标志物。

图 5:基于不同层级PES的跨层分析。(来源:论文)

未来该领域的探索和改进包括:(1)增强预测 PES 的可解释性。虽然该团队利用 PIC 输出的概率值定义了 PES,并对其生物学含义进行了初步的探索和分析,但对PES的核心生物学含义缺乏深入的解释,这在很大程度上是由于神经网络模型是一个黑盒子。

(2)预测和研究不同物种间蛋白质的必要性。目前,PIC 仅限于在三个层面上预测人类蛋白质的必要性,缺乏预测其他物种(如细菌或其他微生物)蛋白质必要性的能力。这种限制主要是由于非人类物种的必需性数据稀缺。

未来,构建一个统一的模型或多个物种特定模型来预测蛋白质的必需性,可以研究跨物种的共性和必需蛋白质的差异。这可能对药物发现具有重要意义,例如针对细菌中的必需蛋白质进行抗生素开发。

(3)结合蛋白质结构信息提升预测效果。PIC 模型是一种基于序列的深度学习模型,仅根据输入的蛋白质序列预测蛋白质的必要性。然而,结构信息的缺失可能会限制模型的性能。未来的模型可以整合蛋白质结构特征,从而可能更准确地预测蛋白质的必要性。

PIC 服务器:http://www.cuilab.cn/pic

论文链接:https://www.nature.com/articles/s43588-024-00733-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一斤烟丝能卷500支烟,不少网友图省钱跑网上购买违规烟丝

一斤烟丝能卷500支烟,不少网友图省钱跑网上购买违规烟丝

映射生活的身影
2026-02-03 21:27:43
噩耗传来!曝武汉失联16岁男学生身亡,细节痛心,母亲发声引争议

噩耗传来!曝武汉失联16岁男学生身亡,细节痛心,母亲发声引争议

大鱼简科
2026-02-03 14:16:54
娜扎透视裙惊艳全网!这身材这颜值,谁能顶得住?

娜扎透视裙惊艳全网!这身材这颜值,谁能顶得住?

娱乐领航家
2026-02-03 23:30:03
萝莉岛再爆猛料!没有最恶,只有更恶

萝莉岛再爆猛料!没有最恶,只有更恶

新动察
2026-02-03 11:39:03
一想到孩子将来还要接受这样的教育,就惆怅

一想到孩子将来还要接受这样的教育,就惆怅

观人随笔
2026-02-03 15:49:56
孙宇晨与谷爱凌的大瓜:自称以“咖位不同”被分手前女友再爆猛料

孙宇晨与谷爱凌的大瓜:自称以“咖位不同”被分手前女友再爆猛料

穿透
2026-02-03 21:45:13
“爱泼斯坦案”诡异录像曝光 女孩穿水手服跪地

“爱泼斯坦案”诡异录像曝光 女孩穿水手服跪地

看看新闻Knews
2026-02-03 20:15:03
梅德韦杰夫核言论遭俄著名宣传员怒怼:天天核平这个,核平那个

梅德韦杰夫核言论遭俄著名宣传员怒怼:天天核平这个,核平那个

史政先锋
2026-02-03 14:05:55
港中大校长段崇智,默许港独学生暴行,被英国颁奖,如今怎么样?

港中大校长段崇智,默许港独学生暴行,被英国颁奖,如今怎么样?

鬼菜生活
2026-02-03 18:35:49
响水月港大桥垮塌已造成2人死亡3人失联,该桥曾力争9月份建成通车,目前航段已临时封航

响水月港大桥垮塌已造成2人死亡3人失联,该桥曾力争9月份建成通车,目前航段已临时封航

极目新闻
2026-02-03 07:04:37
“蓝衣战神”确诊癌症,病因曝光:别放纵了,真的会后悔!

“蓝衣战神”确诊癌症,病因曝光:别放纵了,真的会后悔!

情感大头说说
2026-02-03 18:54:23
卡扎菲次子赛义夫丧生

卡扎菲次子赛义夫丧生

国际在线
2026-02-04 05:05:01
外交部:强烈谴责瓜达尔港袭击事件,中方坚决反对一切形式的恐怖主义

外交部:强烈谴责瓜达尔港袭击事件,中方坚决反对一切形式的恐怖主义

每日经济新闻
2026-02-03 20:28:42
知名调查记者刘虎被抓,应公开公正回应大众疑虑,以免人人自危

知名调查记者刘虎被抓,应公开公正回应大众疑虑,以免人人自危

互联网大观
2026-02-03 17:13:30
爱泼斯坦案文件再度曝光,各国政要都有哪些被“拉下水”?

爱泼斯坦案文件再度曝光,各国政要都有哪些被“拉下水”?

上游新闻
2026-02-03 15:13:08
法官问为何不交物业费,业主反问:不交税违法,不交费违法吗

法官问为何不交物业费,业主反问:不交税违法,不交费违法吗

蜉蝣说
2026-02-03 16:31:54
晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

蜉蝣说
2026-02-03 15:00:19
大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

古希腊掌管月桂的神
2026-02-03 10:20:14
特斯拉4680电池起死回生!攻克瓶颈打脸宁德时代,已上车Model Y

特斯拉4680电池起死回生!攻克瓶颈打脸宁德时代,已上车Model Y

智能车参考
2026-02-03 17:31:36
它是“叶酸小状元”,建议每周吃2次!一吃心脏好,二吃睡得香!

它是“叶酸小状元”,建议每周吃2次!一吃心脏好,二吃睡得香!

阿龙美食记
2026-01-27 13:15:02
2026-02-04 06:43:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1225文章数 223关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

旅游
艺术
房产
亲子
军事航空

旅游要闻

椰风裹暖意,人潮映开放:三亚湾立春前夕的自贸港活力图景!

艺术要闻

一篇文章看懂“传统吉祥图案”的寓意

房产要闻

大盘最低杀到8000+/㎡!海口59盘,最新房价曝光!

亲子要闻

突然觉得豁然开朗,固化的思维升华了过

军事要闻

特朗普:庞大兵力将很快抵达伊朗

无障碍浏览 进入关怀版