长非编码 RNA ( Long non-c oding RNA, lncRNA ) 作为肿瘤诊断和治疗的新型生物标志物,其研究价值日益凸显,亟需开发生物信息学工具以实现肿瘤 lncRNA 的系统性识别。现有研究方法多聚焦于基因突变特征,而利用表观基因组等其他组学特征的研究较少 。同时,使用突变特征对于识别肿瘤 lncRNA 是否仍然有效,且 不同 组 学特征对于识别肿瘤 lncRNA 的贡献程度如何尚不明晰。
针对这一现状, 该 研究创新性地整合了表观基因组、基因组、转录组、表型、网络和突变六大类共 44 个多组学特征,开发出具有可解释性的机器学习方法 POCALI(图1)。 该方法不仅能全面预测肿瘤 lncRNA ,更能深入解析 lncRNA 在肿瘤中的潜在作用机制。相关代码已开源发布于 https://github.com/starrzy/POCALI 。
图1POCALI方法流程图
近日, 北京大学基础医学院医学生物信息学系赵东宇研究员团队 在SmallMethods期刊发表了题为POCALI: Prediction and Insight onCAncerLncRNAsby Integrating Multi-Omics Data with Machine Learning的研究论文。
POCALI 采用 LightGBM 框架结合 EasyEnsemble 方法构建预测模型,并创新性地引入 SHAP 方法实现全局和局部双维度的结果解释。 研究 发现 : 二级结构和基因表达相关特征是肿瘤 lncRNA 的强预测因子,表观基因组特征 为 中等预测因子 , 突变特征的预测贡献相对有限(图2)。 该方法 还 可 良好地 解析 每个特征对于预测单个肿瘤 lncRNA 的贡献程度(图3),并 提供在线 分析 工具( https://huggingface.co/spaces/rzy99/POCALI_feature_analysis ) , 支持用户深入探索特定 肿瘤 lncRNA 的潜在作用机制。与现有方法相比, POCALI 展现出更优的性能表现(尤其在敏感性指标上),并成功鉴定出更多潜在肿瘤 lncRNA 。值得注意的是,这些新发现的 肿瘤 lncRNA 与已知肿瘤 lncRNA 具有相似的特征谱,均表现出 明显 的肿瘤相关表型。
图 2 全局角度特征重要性分析
图 3 局部角度特征重要性分析
综上所述 ,POCALI作为预测和理解肿瘤lncRNA的新方法,为全面预测肿瘤lncRNA提供了新工具,同时为探究lncRNA在肿瘤中的潜在机制提供了新的角度。通过整合六大类共44个多组学特征,POCALI能够揭示不同组学对于预测肿瘤lncRNA的贡献程度,对于理解lncRNA在肿瘤中的潜在机制具有重要意义,其新发现的肿瘤lncRNA为肿瘤诊疗提供了新的潜在靶点。
北京大学基础医学院医学生物信息学系赵东宇研究员为本文的 独立 通讯作者 ,北京大学基础医学院医学生物信息学系博士研究生饶紫嫣为本文的 唯一 第一作者 。
论文链接:https://onlinelibrary.wiley.com/doi/10.1002/smtd.202401987
制版人:十一
BioArt
Med
Plants
人才招聘
会议资讯
学术合作组织
(*排名不分先后)
战略合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.