
近日,Genomebiology杂志发表了题为:iPro-MP: a BERT-based model for the prediction of multiple prokaryotic promoters的研究,本研究构建了覆盖23种原核生物的多物种启动子序列综合数据集,并在统一的数据清洗与评价协议下,基于DNABERT的序列表示,实现了多物种启动子序列的高精度预测。通过 五折交叉验证与独立测试,结果表明 iPro-MP具有良好的稳健性与泛化能力;同时模型在 − 10/ − 35(细菌)与近 − 26 位点(古菌)呈现清晰的注意力聚焦,具备一定可解释性与计算效率。为解析原核生物基因表达调控机制提供了高精度、可扩展的计算工具,可用于非模式生物启动子识别、跨物种比较分析与合成生物学元件挖掘,并为后续的启动子设计与功能预测奠定方法学基础。
![]()
启动子( promoter )是决定转录起始的关键顺式调控元件,通常位于转录起始位点( TSS )上游,可通过特定的保守基序(如 -10 区)招募并定位 RNA 聚合酶及相关因子,从而影响基因表达的时空与强度。对启动子的准确识别不仅是解析原核转录调控网络的前提,也是构建设计可编程表达系统与改造代谢通路的基础。实验手段(如 dRNA-seq 、 Cappable-seq 、 5’RACE )可提供高分辨率标注,但成本高、流程繁琐、在非模式生物上难以规模化;同时,新测序基因组数量快速增长,迫切需要借助计算方法进行高通量、低成本、跨物种的一致性判定,以支撑功能注释、调控网络重建与下游合成设计。然而,现有工具多以单一或少数模式物种为主,跨物种泛化有限;负样本构建与数据清洗不一致,导致不同研究间难以可比;特征工程或浅层模型难以同时捕捉局部 motif 与长程依赖,深度模型虽有提升但常受限于样本规模不均、类别不平衡与可解释性不足。
为应对上述挑战,本研究( 1 )构建覆盖 23 种代表性原核生物的多物种启动子综合数据集与统一评价协议;( 2 )提出基于 DNABERT 的多物种启动子预测框架 iPro-MP ,结合 6-mer 分词与轻量分类头,实现对局部保守基序与长程依赖的协同建模; ( 3 )在五折交叉验证与独立测试上系统评估并与主流基线 / 工具对比,验证其准确性、稳健性与资源效率;( 4 )通过注意力热图与嵌入可视化解析判别依据与谱系差异,提升模型可解释性与生物学可用性。最终,我们期望为原核基因表达调控研究提供标准化数据基线与可扩展的高性能工具,并为非模式生物场景与合成生物学的启动子设计奠定方法学基础。
本研究开发了基于大语言模型的多物种启动子预测工具 iPro-MP ,在 23 个原核物种的系统评测中,五折交叉验证阶段取得平均 Acc ( 0.88 )、 AUC ( 0.93 )、 AUPRC ( 0.89 )、 MCC ( 0.73 )、 F1 ( 0.82 ),且 17 个物种的 AUC 超过 0.90 ;在独立测试集中, 18 个物种 AUC>0.90 ,总体与交叉验证保持一致甚至部分提升,体现出良好的外部泛化;在类别不均衡的物种上, MCC 与 AUPRC 指标持续高位,更能反映真实判别力,进一步验证了 iPro-MP 的稳健性与实际可用性。
iPro-MP 的可解释性主要体现在 “ 学到了什么 ” 与 “ 为何判定 ” 为正样本两个层面:一方面,序列嵌入的 t-SNE 可视化显示,启动子与非启动子在表示空间中清晰分离,同一谱系物种的启动子样本呈现簇状聚集、亲缘近者簇间更接近,并可与 motif 对齐分析相互印证;另一方面,注意力热图在细菌样本中对 −10 区域及 TSS 附近显著聚焦,在古菌样本中则于近 −26 的 TATA-like 位点形成主峰,表明模型能同时捕捉局部保守基序与上下文依赖。由此可见, iPro-MP 不仅给出高分判别,还能将判别依据回溯到可生物学解释的序列元素与谱系差异,体现出对 “ 调控语法 ” 的可视化与可验证理解。
iPro-MP 相较传统机器学习基线模型(如 LR 、 RF 、 XGBoost 、 LSTM )在 Acc 、 AUC 等核心指标上整体领先;同时,与现有工具相比, iPro-MP 在 21/23 个物种中保持前列,体现出更强的稳健性与泛化能力;在实用性方面,推理更快、显存占用更低并提供可解释的注意力模式,使其在准确性、效率与可解释性之间取得更均衡的综合表现。
原文链接:https://doi.org/10.1186/s13059-025-03819-9
制版人:十一
BioArt
Med
Plants
人才招聘
学术合作组织
(*排名不分先后)
![]()
战略合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.