
近日,Genome Biology在线发表了来自国家蛋白质科学中心(北京)、清华大学团队的研究成果,论文题为Cell Decoder: decoding cell identity with multi-scale explainable deep learning。该研究提出了一种融合生物先验知识的多尺度可解释深度学习框架 —— Cell Decoder,实现了从基因、通路到生物过程的分层表征与推理,为单细胞水平上解码细胞类型提供了新的思路。
![]()
从“黑箱”到“可解释”:建立细胞身份的多尺度知识图谱
细胞是生命的基本单位,其功能和命运由复杂的分子网络共同决定。传统的深度学习方法虽在单细胞转录组数据的细胞类型识别中表现良好,但缺乏生物学可解释性。Cell Decoder 通过将蛋白质互作网络、基因-通路映射及通路层级关系嵌入图神经网络架构,构建出跨尺度的生物知识图谱。模型通过同尺度与跨尺度的信息传递层,实现基因至通路、通路至生物过程的逐级聚合,获得具有生物学意义的细胞表征。
![]()
图1 Cell Decoder的模型架构
性能优越:在多物种、多组织数据上实现稳健识别
在七个公开单细胞数据集的人体和小鼠样本上,研究团队对 Cell Decoder 与 9 种主流方法进行了系统评测。结果显示,Cell Decoder 在预测准确率(0.87)与 Macro F1 (0.81)上均居首位,且在存在噪声扰动、细胞类型不平衡及跨批次分布偏移等复杂情形下仍保持稳定性能。模型的稳健性验证表明,引入生物先验知识的层级图结构显著增强了深度学习的泛化能力与抗噪性。
跨批次整合与新类型发现:从表征到推理的双向闭环
通过在通路与生物过程层面学习的低维嵌入,Cell Decoder 能够在无标签条件下消除批次效应,并保留生物差异,实现高质量的数据整合。在“未知细胞类型发现”任务中,模型可根据预测置信度自动识别潜在的新型细胞群体,并通过后验可解释分析揭示其关键分子特征。例如,在人肾数据集中,Cell Decoder 以 0.94 的召回率准确识别出被遮蔽的 Mono/Macro 细胞类型,显著优于其他方法。
解码发育过程中的细胞异质性
在小鼠胚胎发育数据上,Cell Decoder 成功整合了不同技术平台的 E6.25 至 E6.75 阶段细胞,揭示了胚内外内胚层(EmVE/ExVE)在发育早期的动态变化。模型进一步将这两类细胞划分为四个亚型,展示出从脂质代谢、细胞增殖到结构重塑和神经上皮形成的连续转录程序,为解析早期胚胎细胞命运提供了新的计算框架。
多视角解释:从基因到生物过程的机制映射
Cell Decoder 在模型训练后引入分层 Grad-CAM 分析,从基因、通路及蛋白互作等多个层面解释模型决策来源,明确不同细胞类型的关键分子模块与信号路径。该多视角归因分析为深度学习结果提供了机制化的生物学解释,为理解细胞身份提供了更透明的计算依据。
综上所述,Cell Decoder 通过融合多尺度生物知识与自动化模型优化技术,建立了一个兼具高精度与高可解释性的细胞类型识别框架。该方法不仅在单细胞转录组学中展现出优越性能,也为未来多组学数据整合及新细胞状态发现提供了可推广的思路。随着单细胞多组学与图神经网络技术的不断发展,Cell Decoder 有望成为研究细胞多样性与系统功能的重要计算支撑工具。
本研究共同第一作者为清华大学/国家蛋白质科学中心(北京)博士研究生朱俊,清华大学博士研究生张泽阳,清华大学/国家蛋白质科学中心(北京)博士研究生向宇嘉。国家蛋白质科学中心(北京)贺福初院士、常乘副研究员,清华大学朱文武教授、张子威博士(现北京航空航天大学副教授)为本文共同通讯作者。国家蛋白质科学中心王晓文副研究员、李杨副研究员、谢林海助理研究员及北京大学周沛劼教授、清华大学周帆教授为本工作提供了重要支持。
https://doi.org/10.1186/s13059-025-03832-y
制版人:十一
BioArt
Med
Plants
人才招聘
学术合作组织
(*排名不分先后)
![]()
战略合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.