网易首页 > 网易号 > 正文 申请入驻

Nat Commun|郭天南团队开发端到端深度学习模型DDA-BERT; 提升蛋白质组学复杂样本的肽段鉴定性能

0
分享至


在蛋白质组学研究中,数据依赖型采集(DDA)是常用的质谱采集策略,其肽段鉴定结果直接影响下游生物学结论的可靠性。现有PSM重打分框架大多依赖搜库引擎打分与启发式特征的组合;尽管部分深度学习方法已引入谱图、保留时间或离子迁移率等信息,但在最终决策阶段通常仍依赖单独训练的浅层分类器。这种“分段式”设计在一定程度上限制了特征学习与判别决策之间的协同优化。

近日,西湖大学医学院郭天南团队在Nature Communications杂志发表了题为DDA-BERT: end-to-end training for data-dependent acquisition mass spectrometry-based proteomics的研究文章。研究团队开发了一种基于Transformer架构的端到端深度学习模型DDA-BERT用于DDA数据中的PSM重打分,以提升肽段鉴定性能。DDA-BERT基于11个物种、2.71亿条肽段-谱图匹配(PSM)进行大规模训练,并通过过拟合检验、序列记忆化分析和假阳性发现比例(FDP)评估验证模型可靠性,显著提升了复杂蛋白质组样本(尤其是痕量样本和HLA免疫肽段组学)中的肽段鉴定性能,为构建AI驱动的大规模蛋白质组学鉴定体系提供了新的方法学支撑。


DDA-BERT:基于Transformer的大规模PSM训练模型

DDA-BERT将原始质谱信号的表示学习与PSM重打分任务整合到一个统一框架中。不同于传统 “手工特征工程+浅层判别器” 的分析管线,DDA-BERT能够在统一模型内完成谱图特征提取、序列上下文建模和判别学习,从而减少多步骤处理带来的信息损失,并增强模型对复杂碎片离子模式和谱图结构的表征能力。为提升模型的泛化性能,本研究整合了人、酵母、拟南芥等11个物种的12,285个DDA文件,共计2.71亿条PSM用于模型训练。

DDA-BERT实现目标PSM与诱饵PSM的有效区分

DDA-BERT对目标PSM与诱饵PSM呈现出明显不同的评分分布。目标PSM的得分主要集中在高分区间,分布较为集中,并形成清晰的单峰特征;相比之下,诱饵PSM整体分布于低分区间。与Sage、FragPipe等工具相比,DDA-BERT在高置信目标PSM与低置信匹配之间形成了更清晰的评分边界。

DDA-BERT在多物种数据集中实现稳定的PSM鉴定提升

在人类、酵母、果蝇和拟南芥四个物种的数据集上,DDA-BERT在不同FDR阈值下均表现出稳定的鉴定优势。无论是在严格的1% FDR阈值下,还是在相对宽松的5% FDR阈值下,DDA-BERT鉴定到的PSM数量均超过现有工具。其中,在1% FDR阈值下,DDA-BERT相较于其他算法在人类、酵母、果蝇和拟南芥数据集上的PSM鉴定量分别提升了2.24%–269.35%、3.73%–141.46%、5.53%–45.64%和3.68%–62.77%,显示出其在跨物种DDA数据解析中的稳定优势。

DDA-BERT在多场景蛋白质组数据中实现稳定鉴定提升

在1% FDR阈值下,DDA-BERT在人类、酵母、果蝇和拟南芥数据集上均实现了稳定的肽段鉴定提升,相较于其他对比工具,鉴定数量分别提高2.24%–269.35%、3.73%–141.46%、5.53%–45.64%和3.68%–62.77%。DDA-BERT不仅能够稳定覆盖现有主流方法鉴定到的肽段,还额外识别出大量其他方法未能捕获的肽段,表明其在保持结果一致性的同时,进一步拓展了肽段鉴定深度。

痕量样本中低丰度信号条件下的高灵敏度表现

在痕量样本场景中,即使样本输入量低至约0.4个HeLa细胞,DDA-BERT仍能在1% FDR阈值下保持较高的鉴定灵敏度。相比FragPipe、Sage、MSRescore、AlphaPeptDeep和AlphaPept等工具,DDA-BERT在PSM层面的鉴定数量提升了7.63%–114.98%,在肽段层面的鉴定数量提升了4.14%–87.47%,体现出其在痕量蛋白质组数据解析中的稳定优势。

HLA免疫肽段组学中低丰度肽段识别能力的显著提升

在HLA免疫肽段组学数据中,DDA-BERT仍表现出稳定的鉴定优势:在1% FDR条件下,相较于其他对比工具,DDA-BERT的肽段鉴定数量提升了4.14%–87.47%。即使在更为严格的0.2% FDR阈值下,DDA-BERT仍获得最高的肽段鉴定数量,表明其在严格控制错误率的同时,能够更充分地保留低丰度、高置信度的HLA呈递肽段。

过拟合、序列记忆与FDP评估验证DDA-BERT鉴定可靠性

为验证DDA-BERT鉴定结果的可靠性,研究团队从过拟合风险、序列记忆效应和错误率控制三个方面进行了系统评估,重点回答模型是否真正学习了肽段-谱图匹配关系,而非简单 “记住” 训练序列。

首先,研究团队在肽段序列层面将训练集与held-out测试集完全分离,确保两组数据之间不存在共同肽段序列。结果显示,DDA-BERT在训练集与held-out集上的目标PSM和诱饵PSM评分分布基本一致,未观察到明显的系统性评分偏差,说明模型未表现出典型的过拟合倾向。

进一步地,在序列记忆测试中,研究团队对质谱m/z值进行随机扰动,同时保留肽段序列信息。此时,目标PSM与诱饵PSM的评分分布几乎完全重叠,表明DDA-BERT的判别能力依赖于真实的肽段-谱图对应关系,而不是对肽段序列本身的记忆。

此外,研究团队还引入FDP(False Discovery Proportion)评估,以检验DDA-BERT在FDR控制下的实际错误率。在1% FDR阈值下,无论采用联合法还是配对法估计,肽段水平FDP均未超过1%,进一步支持DDA-BERT在严格统计约束下具有可靠的错误率控制能力。

本研究构建并系统验证了端到端Transformer框架DDA-BERT,用于DDA数据中的PSM重打分,以提升肽段鉴定能力。基于2.71亿条PSM的跨物种大规模训练和多维度严格评估,DDA-BERT在肽段鉴定、低丰度信号识别、统计可靠性和跨数据集泛化能力等方面均展现出明显优势,为构建AI驱动的高通量、高可信蛋白质组学鉴定体系提供了新的方法学支撑。

同时,DDA-BERT仍有进一步优化空间。当前模型对GPU计算资源具有一定依赖,其性能提升也在较大程度上受益于大规模、多样化训练数据。未来,可进一步纳入更丰富的碎裂模式,例如EAD和ETD;融合谱图强度预测、保留时间预测等辅助任务;并在更多实验室、仪器平台和实验条件下开展独立验证,以进一步评估和提升模型的泛化能力、稳健性与实际应用价值。

西湖实验室助理研究员阿俊,西湖欧米AI工程师刘谱、西湖实验室助理研究员孙莹莹为该研究共同第一作者。西湖大学医学院郭天南教授、西湖实验室人工智能专家陈义博士为共同通讯作者。来自华中科技大学的大一学生刘靖南和来自湖南中医药大学的余志国作为暑期实习生参与了该项工作,主要负责模型的性能评测与基准测试。

论文链接:

https://www.nature.com/articles/s41467-026-72246-6

制版人:十一

BioArt

Med

Plants

人才招聘

学术合作组织

(*排名不分先后)


转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1985年,国安叛徒藏身南美,中国6名兵王万里锄奸,FBI颜面尽失

1985年,国安叛徒藏身南美,中国6名兵王万里锄奸,FBI颜面尽失

文史达观
2026-05-08 06:45:13
特斯拉:再次突破

特斯拉:再次突破

新浪财经
2026-05-11 10:29:59
快船传闻:内部人士透露卡哇伊·莱昂纳德续约或交易的最新消息

快船传闻:内部人士透露卡哇伊·莱昂纳德续约或交易的最新消息

好火子
2026-05-12 04:33:51
刘三姐“全裸演出”引争议,张艺谋惹怒全网

刘三姐“全裸演出”引争议,张艺谋惹怒全网

李东阳朋友圈
2026-05-10 12:12:45
张本美和不再沉默!说出全日本不想承认的事实:孙颖莎没任何弱点

张本美和不再沉默!说出全日本不想承认的事实:孙颖莎没任何弱点

老黯谈娱
2026-05-12 01:34:24
什么时候让你意识到这就是命,考公四次落榜,随便报个东大就中了

什么时候让你意识到这就是命,考公四次落榜,随便报个东大就中了

夜深爱杂谈
2026-05-11 07:41:40
郑强教授:我不承认中国大学生就业难,是享受的工作难找,建议少点抱怨少点索取

郑强教授:我不承认中国大学生就业难,是享受的工作难找,建议少点抱怨少点索取

高分子科学前沿
2026-05-11 14:40:42
西安分水岭车祸!逆行肇事者竖手指,目击者再曝细节,对方太不值

西安分水岭车祸!逆行肇事者竖手指,目击者再曝细节,对方太不值

千言娱乐记
2026-05-11 14:49:45
这跟不穿有区别?赵露思曼谷演唱会内衣外穿,底裤多次外露!

这跟不穿有区别?赵露思曼谷演唱会内衣外穿,底裤多次外露!

陈意小可爱
2026-05-12 03:13:06
15死33伤!以色列不宣而战,伊朗最高领袖下令,普京:美国已反悔

15死33伤!以色列不宣而战,伊朗最高领袖下令,普京:美国已反悔

温读史
2026-05-12 05:50:57
毛主席83岁给华国锋的珍贵书法,练字真的有意义吗?

毛主席83岁给华国锋的珍贵书法,练字真的有意义吗?

书画相约
2026-05-11 10:09:02
湖人vs雷霆G4:0比3悬崖边,詹姆斯独扛59分差距

湖人vs雷霆G4:0比3悬崖边,詹姆斯独扛59分差距

竞技风云录
2026-05-12 06:56:17
传来大消息,暴涨开启

传来大消息,暴涨开启

隔壁老投
2026-05-11 14:23:42
仅一夜!NBA状元签出炉,快船队成最大赢家,下赛季超级黑马诞生

仅一夜!NBA状元签出炉,快船队成最大赢家,下赛季超级黑马诞生

篮球扫地僧
2026-05-11 10:51:55
5月11日译名发布:毛焦尔·彼得

5月11日译名发布:毛焦尔·彼得

参考消息
2026-05-11 11:26:34
英国的大变化:就连苏格兰也坐不住了

英国的大变化:就连苏格兰也坐不住了

寰宇大观察
2026-05-11 17:57:41
出差被辞我直接回家,下午同事庆25亿单,老板怒:订单因他飞了

出差被辞我直接回家,下午同事庆25亿单,老板怒:订单因他飞了

麦子情感故事
2026-05-11 23:17:07
无法共情,理解不了

无法共情,理解不了

求实处
2026-05-10 22:34:56
特朗普访华前,美国临时改变行程,英媒:必须找中国谈一个问题

特朗普访华前,美国临时改变行程,英媒:必须找中国谈一个问题

与你挽月色清
2026-05-12 04:51:42
90年我落榜,班花塞我钱复读,如今她来面试,我问:户口本带了吗?

90年我落榜,班花塞我钱复读,如今她来面试,我问:户口本带了吗?

麦子情感故事
2026-05-12 00:21:09
2026-05-12 08:12:49
BioArtMED
BioArtMED
BioArt旗下科普媒体
4887文章数 2468关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

女子连上20多天瑜伽课被教练踢出群聊:天天来 不累吗

头条要闻

女子连上20多天瑜伽课被教练踢出群聊:天天来 不累吗

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

本地
健康
教育
手机
数码

本地新闻

用苏绣的方式,打开江西婺源

干细胞能让人“返老还童”吗

教育要闻

有公费海外交换机会的院校(妈妈!免费旷野!

手机要闻

苹果iOS/iPadOS 26.5发布 RCS 端到端加密上线 新增彩虹墙纸与地图推荐

数码要闻

苹果iPadOS 17.7.11正式版发布

无障碍浏览 进入关怀版