![]()
在蛋白质组学研究中,数据依赖型采集(DDA)是常用的质谱采集策略,其肽段鉴定结果直接影响下游生物学结论的可靠性。现有PSM重打分框架大多依赖搜库引擎打分与启发式特征的组合;尽管部分深度学习方法已引入谱图、保留时间或离子迁移率等信息,但在最终决策阶段通常仍依赖单独训练的浅层分类器。这种“分段式”设计在一定程度上限制了特征学习与判别决策之间的协同优化。
近日,西湖大学医学院郭天南团队在Nature Communications杂志发表了题为DDA-BERT: end-to-end training for data-dependent acquisition mass spectrometry-based proteomics的研究文章。研究团队开发了一种基于Transformer架构的端到端深度学习模型DDA-BERT,用于DDA数据中的PSM重打分,以提升肽段鉴定性能。DDA-BERT基于11个物种、2.71亿条肽段-谱图匹配(PSM)进行大规模训练,并通过过拟合检验、序列记忆化分析和假阳性发现比例(FDP)评估验证模型可靠性,显著提升了复杂蛋白质组样本(尤其是痕量样本和HLA免疫肽段组学)中的肽段鉴定性能,为构建AI驱动的大规模蛋白质组学鉴定体系提供了新的方法学支撑。
![]()
DDA-BERT:基于Transformer的大规模PSM训练模型
DDA-BERT将原始质谱信号的表示学习与PSM重打分任务整合到一个统一框架中。不同于传统 “手工特征工程+浅层判别器” 的分析管线,DDA-BERT能够在统一模型内完成谱图特征提取、序列上下文建模和判别学习,从而减少多步骤处理带来的信息损失,并增强模型对复杂碎片离子模式和谱图结构的表征能力。为提升模型的泛化性能,本研究整合了人、酵母、拟南芥等11个物种的12,285个DDA文件,共计2.71亿条PSM用于模型训练。
DDA-BERT实现目标PSM与诱饵PSM的有效区分
DDA-BERT对目标PSM与诱饵PSM呈现出明显不同的评分分布。目标PSM的得分主要集中在高分区间,分布较为集中,并形成清晰的单峰特征;相比之下,诱饵PSM整体分布于低分区间。与Sage、FragPipe等工具相比,DDA-BERT在高置信目标PSM与低置信匹配之间形成了更清晰的评分边界。
DDA-BERT在多物种数据集中实现稳定的PSM鉴定提升
在人类、酵母、果蝇和拟南芥四个物种的数据集上,DDA-BERT在不同FDR阈值下均表现出稳定的鉴定优势。无论是在严格的1% FDR阈值下,还是在相对宽松的5% FDR阈值下,DDA-BERT鉴定到的PSM数量均超过现有工具。其中,在1% FDR阈值下,DDA-BERT相较于其他算法在人类、酵母、果蝇和拟南芥数据集上的PSM鉴定量分别提升了2.24%–269.35%、3.73%–141.46%、5.53%–45.64%和3.68%–62.77%,显示出其在跨物种DDA数据解析中的稳定优势。
DDA-BERT在多场景蛋白质组数据中实现稳定鉴定提升
在1% FDR阈值下,DDA-BERT在人类、酵母、果蝇和拟南芥数据集上均实现了稳定的肽段鉴定提升,相较于其他对比工具,鉴定数量分别提高2.24%–269.35%、3.73%–141.46%、5.53%–45.64%和3.68%–62.77%。DDA-BERT不仅能够稳定覆盖现有主流方法鉴定到的肽段,还额外识别出大量其他方法未能捕获的肽段,表明其在保持结果一致性的同时,进一步拓展了肽段鉴定深度。
痕量样本中低丰度信号条件下的高灵敏度表现
在痕量样本场景中,即使样本输入量低至约0.4个HeLa细胞,DDA-BERT仍能在1% FDR阈值下保持较高的鉴定灵敏度。相比FragPipe、Sage、MSRescore、AlphaPeptDeep和AlphaPept等工具,DDA-BERT在PSM层面的鉴定数量提升了7.63%–114.98%,在肽段层面的鉴定数量提升了4.14%–87.47%,体现出其在痕量蛋白质组数据解析中的稳定优势。
HLA免疫肽段组学中低丰度肽段识别能力的显著提升
在HLA免疫肽段组学数据中,DDA-BERT仍表现出稳定的鉴定优势:在1% FDR条件下,相较于其他对比工具,DDA-BERT的肽段鉴定数量提升了4.14%–87.47%。即使在更为严格的0.2% FDR阈值下,DDA-BERT仍获得最高的肽段鉴定数量,表明其在严格控制错误率的同时,能够更充分地保留低丰度、高置信度的HLA呈递肽段。
过拟合、序列记忆与FDP评估验证DDA-BERT鉴定可靠性
为验证DDA-BERT鉴定结果的可靠性,研究团队从过拟合风险、序列记忆效应和错误率控制三个方面进行了系统评估,重点回答模型是否真正学习了肽段-谱图匹配关系,而非简单 “记住” 训练序列。
首先,研究团队在肽段序列层面将训练集与held-out测试集完全分离,确保两组数据之间不存在共同肽段序列。结果显示,DDA-BERT在训练集与held-out集上的目标PSM和诱饵PSM评分分布基本一致,未观察到明显的系统性评分偏差,说明模型未表现出典型的过拟合倾向。
进一步地,在序列记忆测试中,研究团队对质谱m/z值进行随机扰动,同时保留肽段序列信息。此时,目标PSM与诱饵PSM的评分分布几乎完全重叠,表明DDA-BERT的判别能力依赖于真实的肽段-谱图对应关系,而不是对肽段序列本身的记忆。
此外,研究团队还引入FDP(False Discovery Proportion)评估,以检验DDA-BERT在FDR控制下的实际错误率。在1% FDR阈值下,无论采用联合法还是配对法估计,肽段水平FDP均未超过1%,进一步支持DDA-BERT在严格统计约束下具有可靠的错误率控制能力。
本研究构建并系统验证了端到端Transformer框架DDA-BERT,用于DDA数据中的PSM重打分,以提升肽段鉴定能力。基于2.71亿条PSM的跨物种大规模训练和多维度严格评估,DDA-BERT在肽段鉴定、低丰度信号识别、统计可靠性和跨数据集泛化能力等方面均展现出明显优势,为构建AI驱动的高通量、高可信蛋白质组学鉴定体系提供了新的方法学支撑。
同时,DDA-BERT仍有进一步优化空间。当前模型对GPU计算资源具有一定依赖,其性能提升也在较大程度上受益于大规模、多样化训练数据。未来,可进一步纳入更丰富的碎裂模式,例如EAD和ETD;融合谱图强度预测、保留时间预测等辅助任务;并在更多实验室、仪器平台和实验条件下开展独立验证,以进一步评估和提升模型的泛化能力、稳健性与实际应用价值。
西湖实验室助理研究员阿俊,西湖欧米AI工程师刘谱、西湖实验室助理研究员孙莹莹为该研究共同第一作者。西湖大学医学院郭天南教授、西湖实验室人工智能专家陈义博士为共同通讯作者。来自华中科技大学的大一学生刘靖南和来自湖南中医药大学的余志国作为暑期实习生参与了该项工作,主要负责模型的性能评测与基准测试。
论文链接:
https://www.nature.com/articles/s41467-026-72246-6
制版人:十一
BioArt
Med
Plants
人才招聘
学术合作组织
(*排名不分先后)
![]()
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.