![]()
增强子( enhancer )通过与 靶基因的启动子 ( promoter )相互作用,在转录调控中发挥关键作用。全基因组关联研究( GWAS )表明,超过 90% 的疾病相关非编码变异可能通过增强子发挥调控功能。然而,增强子与靶基因之间的关系具有位置不固定、不局限于最近基因、以及多对多等复杂特征,使得二者的关联预测面临巨大挑战。现有的实验方法如 Hi-C 、 eQTL 和 CRISPR-Cas9 等,存在成本高、难度大、分辨率有限等问题。近年来,单细胞染色质开放测序( scATAC-seq )和单细胞 RNA 测序( scRNA-seq )技术的发展,使得在单细胞分辨率下通过计算手段识别增强子及其潜在靶基因成为可能。然而,现有基于单细胞多组学数据的调控推断方法,主要依赖基因表达与染色质可及性之间的统计相关性。这类方法对噪声敏感,且隐含“相关即因果”的假设,这在共调控、间接调控或转录因子、染色质构象及细胞状态共同作用的情境下往往不成立。
近日,中国科学院上海营养与健康研究所工程实验室人工智能与数字健康部王振团队在国际学术期刊 Nucleic Acids Research 在线发表题为Predicting enhancer–gene links from single-cell multi-omics data by integrating prior Hi-C information的研究论文。在这项研究中,团队提出了一种名为SCEG-HiC(全称:single-cell enhancer-gene linking with prior Hi-C)的新计算策略。该方法将群体细胞平均染色质构象图谱作为先验知识引入单细胞多组学数据分析,从而能够高精度地预测增强子与靶基因之间的关联。
![]()
方法原理
SCEG- HiC 的核心 原理 在于采用加权图形套索( wglasso )模型,利用来自多种细胞类型的群体细胞染色质构象( Hi-C ) 图谱 作为先验信息,对增强子与基因之间的相关性施加 “ 软约束 ” ,从而构建调控模型。该方法既能保留单细胞数据中的特异信号,又能有效抑制假阳性关联。模型主要包含三个步骤(图1):第一,对单细胞多组学数据( scATAC /RNA- seq )进行预处理,获得增强子与基因(启动子)之间的相关性矩阵;第二,从群体细胞 Hi-C 数据中提取标准化的增强子 - 基因罚分矩阵,即若某对增强子与基因在物理空间中的接触频率较高,则模型对其施加的惩罚较小;第三,利用 wglasso 模型计算偏相关系数,以预测增强子 - 靶 基因之间的调控关系。
![]()
图 1 : SCEG- HiC 的 框架 。 SCEG- HiC 整合 了单细胞多组学数据和 群体细胞 平均 Hi-C 图谱,推断增强子与基因的关联。左侧面板展示了 SCEG- HiC 的详细流程。右侧面板展示了示意的基因组区域 。
基准测试
研究团队 利用来自人类和小鼠的 10 个单细胞多组学数据集,围绕三个场景对 SCEG- HiC 进行了全面验证与 基准测试 :一是在人类数据集上,将 其 与 scATAC /RNA- seq 配对多组学相关方法进行对比;二是同样在人类数据集上,对比 其 与仅适用于 scATAC-seq 的方法;三是在小鼠数据集上,对 其 与配对多组学方法展开性能比较。 基准测试 采用细胞特异性 Hi-C 以及 eQTL 数据作为验证依据,以 AUPRC 和早期精准率为核心验证指标。 结果显示, SCEG- HiC 在多种组织与细胞类型中对增强子 - 基因关联的预测均表现出高准确性与优异的稳健性,整 体性能显著优于当前主流的单细胞模型, 为该方法在单细胞多组学研究中的广泛应用 奠定 了坚实 基础。
方法应用
研究团队进一步拓展了 SCEG- HiC 的应用场景,展现了其在复杂疾病分子机制研究中的潜力。利用 COVID-19 轻症和重症患者外周血单个核细胞( PBMC )的单细胞多组学数据,研究团队证明了 SCEG- HiC 在两个方面的应用价值:一方面,通过结合转录因子结合位点分析,该方法能够系统构建由增强子 介 导的基因调控网络( eGRN ),为解析生理病理过程中的转录调控程序提供了重要思路;另一方面,该方法可精准定位 GWAS 中发现的 非编码遗传变异与其潜在靶基因的关联,助力实现对这些变异的功能优先级排序,为复杂疾病的遗传机制研究提供了有力支撑。
总的来说, SCEG- HiC 为从单细胞层面解析复杂性状和疾病中的增强子 - 靶基因调控 关系 提供了 全新的分析工具 。 SCEG- HiC 既支持配对的 scATAC-seq 与 scRNA-seq 数据 输入 ,也支持单独的 scATAC-seq 数据输入 。 目前,该方法的 R 语言实现已作为开源软件包发布 于 GitHub 平台。
中国科学院上海营养与健康研究所 博士研究生 梁萱 为论文第一作者, 王振 研究员 (现任职于国科大杭州高等研究院) 为通讯作者。 该 研究 也 得到中国科学院上海营养与健康研究所汪思佳研究员与黄涛研究员的支持与帮助。
https://academic.oup.com/nar/article/54/9/gkag437/8672760
制版人:十一
BioArt
Med
Plants
人才招聘
学术合作组织
(*排名不分先后)
![]()
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.