![]()
随着单细胞多组学技术的迅速发展,研究者已能够在同一细胞中同时获取转录组( RNA )、蛋白质组( ADT )与染色质可及性( ATAC )等多层分子信息,为理解细胞异质性和基因调控机制提供了前所未有的视角。然而,不同组学模态之间存在极端的稀疏性、维度不平衡与分布差异,现有方法在整合 多 模态时往往面临模态对齐不足、局部细胞拓扑丢失以及缺乏可解释性等核心挑战,难以在保留生物信号的同时实现高精度的细胞类型鉴定与调控解析。
近日, 河北工业大学王云鹤和吉林大学李向涛团队 在Nature Communications期刊上 发表 题为Interpretable Modality-Aware Mapping of Gene Regulation in Single-cellMultiomicswithscMAGCA的 研究论文 ,提出了面向单细胞多组学分析的新方法scMAGCA( single-cell Multi-omics Adversarial Graph Convolutional Autoencoder )。该方法为复杂生物系统中多组学数据的联合表示与调控解析提供了新的计算框架。
![]()
与传统方法将不同模态数据直接压缩 进统一 潜在空间不同, scMAGCA 显式保留了细胞间的局部拓扑关系,并对跨模态分布差异进行主动校正。 scMAGCA 的核心设计融合了三个协同工作的关键模块:图卷积编码器通过构建细胞图并聚合邻域信息,在潜在空间中保留细胞间的局部拓扑结构;对抗对齐模块利用生成对抗学习将不同组学的潜在嵌入对齐至共同先验,消除模态间的分布偏移; ZINB 解码器则对多组学 计数数据进行概率建模,将真实生物变异与技术噪声有效解耦。在此基础上,模型采用 预训练 与聚类优化两阶段策略,通过 KL 散度迭代精化细胞亚群边界,实现多组学嵌入与聚类的端到 端联合 优化。
为系统评估 scMAGCA 的性能,研究团队在 28 个单细胞多组 学 公开 数据集上,与 多 种主流方法开展了大规模基准测试。结果表明, scMAGCA 在 大多数 RNA+ADT 和 RNA+ATAC 数据集上取得了最优或接近最优的聚类性能,并在多批次整合任务中同样保持领先,显示出在消除批次效应的同时有效维持生物学差异的能力。更值得关注的是, scMAGCA 的 优势不止体现在整体指标的提升上,还体现在对精细亚群的分辨能力上 。 在包含 27 种细胞类型的大规模 PBMC 数据集中, scMAGCA 成功区分了其他方法难以分离的 CD8 Naive 与 CD4 Memory 细胞等精细亚群,体现出更强的细胞异质性解析能力。
scMAGCA 支持 RNA+ADT+ATAC 三模态数据的联合分析。研究团队将其应用于人外周血单核细胞 TEA- seq 数据集( GSE158013 ),验证了逐步添加模态( RNA → RNA+ADT → RNA+ADT+ATAC )对聚类性能的递进提升效果。在中性粒细胞系和 B 细胞 群体中, RNA 和 ADT 信息无法区分的精细亚群, scMAGCA 通过引入 ATAC 染色质可及性分数后被成功分辨为高染色质可及性( HCA )和低染色质可及性( LCA )两个功能不同的亚群。进一步的潜在因子分析与 GO/KEGG 富集分析揭示, HCA B 细胞富集 MHC II 类分子呈递与免疫受体活性程序,而 LCA B 细胞则呈现与肠道免疫网络及同种异体移植排斥相关的功能特征,展示了三模态整合对免疫调控异质性的解析能力。
在疾病应用层面,研究团队将 scMAGCA 分别应用于阿尔茨海默症和肾癌的多组学数据分析。在阿尔茨海默 症数据 集中, scMAGCA 解析出 4 种兴奋性神经元亚型,发现 EX-3 神经元比例显著减少,与其在 AD 进程中的选择性退化高度吻合,并通过转录因子基序富集揭示了 MEF2 家族在突触重塑中的关键调控角色。在肾癌数据中, scMAGCA 鉴定出疾病相关的内皮细胞与近端小管细胞亚型。 基于潜在因子的分析将 LACTB2 和 NCOA2 识别为肿瘤进展中的关键调控因子,并通过 qPCR 在多种肾癌细胞系及患者肿瘤组织中对这两个基因的表达进行了实验验证,为其作为肾癌潜在生物标志物提供直接的实验支撑。此外, siRNA 介 导的 HNF4A 敲低实验 证实其对肾癌细胞增殖和迁移具有促进作用,进一步验证了 scMAGCA 所预测的调控关系。
scMAGCA 还提出了一种基于 GCN 权重反向追踪的特征归因框架,通过逐层筛选标准差最大的权重维度,从潜在空间反向溯源至输入层,识别出对细胞表示贡献最大的关键基因、染色质峰或 ADT 特征,实现对深度图神经网络学习表示的生物学可解释性分析。
![]()
图: scMAGCA 技术路线图
这项工作表明,单细胞多组学整合不应止步于 “ 把不同模态放在一起 ” ,更关键的是在保留细胞间局部拓扑的同时对齐跨模态分布差异,并将技术噪声与真实生物信号有效区分。 scMAGCA 不仅在聚类 精度和批次校正上取得了全面的性能提升 , 还通过可解释的潜在因子分析将计算结果与具体的生物学调控程序相连接,更在阿尔茨海默症和肾癌等复杂疾病场景中将计算预测与实验验证有机结合,为多组学驱动的疾病机制解析与生物标志物发现提供了强有力的工具支撑。
原文链接:https://www.nature.com/articles/s41467-026-73055-7
制版人:十一
BioArt
Med
Plants
人才招聘
学术合作组织
(*排名不分先后)
![]()
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.