
原 噬菌体 是 温和噬菌体感染细菌后,将其 自身基因组 整合到 细菌 染色体中的特殊存在形式 。 它在细菌群落的结构与功能调控中扮演着 重要 角色。对原噬菌体进行准确鉴定,成为深入研究其功能的首要步骤。 然而,这一鉴定工作面临两大挑战:首先,噬菌体基因组具有极高的变异性,导致基于序列相似性的蛋白鉴定方法效力大幅降低;其次,原噬菌体与宿主基因组的边界往往模糊不清,使得整合位点附近的基因难以准确判定是源自细菌本身,还是来源于原噬菌体。
近日,清华大学基础医学院梁冠翔课题组在GenomeBiology杂志上发表了 一项 题为Highly accurate prophage island detection with PIDE的 研究 ,该研究开发了一款名为PIDE( Prophage Island Detection using ESM-2 )的工具。该工具基于蛋白质大语言模型,能够高效且精准地从宏基因组或细菌基因组中识别原噬菌体区域,同时可以用于病毒组数据中噬菌体基因组的挖掘。为宏基因组与病毒组数据分析提供了基于人工智能模型的有力工具。
![]()
该工具的核心思想是,通过使用带有细菌和噬菌体蛋白标签的数据 对ESM2模型进行微调实现对细菌基因组中噬菌体蛋白的准确预测 ,进而 采用基于基因密度的聚类算法,精确界定原噬菌体的基因组 蛋白表达基因 边界(图1)。
![]()
图 1 PIDE 流程框架
在与VirSorter2、PHASTER和 geNomad 等现有高性能原噬菌体/噬菌体识别工具进行比较时,PIDE所识别出的原噬菌体区域不仅与已有工具的结果存在部分重叠,还补充了其他工具未覆盖的区域,展现出PIDE在特异性方面的显著优势,进一步凸显了其与现有工具不同的检测能力(图2)。
![]()
图2 不同工具之间预测出的原噬菌体的重合程度
此外 , 该研究并未依赖 传统使用的 模拟数据评估工具性能,而是通过细菌菌株 原噬菌体诱导 病毒组测序 ,构建了一套准确反映活跃原噬菌体区域的 标准 实验数据集,为不同工具的评估提供了可靠基准。结果显示,PIDE在原噬菌体边界的碱基水平预测中,在召回率与精确度之间取得了更优的平衡(图3)。
![]()
图 3 各工具在碱基水平上对原噬菌体预测精确度与召回率
研究团队进一步将PIDE应用于UHGG 2.0数据库中4744个代表性肠道细菌基因组,发现88.5%的细菌处于溶原状态。通过对原噬菌体编码基因的功能注释,研究揭示这些原噬菌体区域携带的基因可能广泛参与细菌的多个关键生物学过程,包括生长调控、抗生素抗性、代谢途径及毒力等。 此外,PIDE基于 Uniprot 数据库进行微调,具备广泛的适用性,不仅适用于人体肠道微生物组,还可扩展至土壤、海洋等多种生态环境 ,将 为原噬菌体及病毒组的相关研究提供强有力的技术支持。
清华大学基础医学院梁冠翔助理教授为本文通讯作者,清华大学基础医学院2020级已毕业博士生高鸿雁、2022级博士生李博文、2021级博士生郭子菡合作完成框架构建、算法整合以及数据产 出 等工作,为该论文的共同第一作者。清华大学基础医学院2021级博士生郑磊、2023级博士生陈俊楠等也为本研究做出了重要贡献。
工具主页:https://github.com/chyghy/PIDE
原文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03733-0
制版人:十一
BioArt
Med
Plants
人才招聘
学术合作组织
(*排名不分先后)
![]()
战略合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.