组织的细胞架构 —— 即不同细胞类型在空间中的组织方式 —— 是细胞间通讯、器官功能和病理学的基础。近年来,新兴的空间转录组学( Spatial Transcriptomics , ST )技术为在原位绘制精细粒度的转录细胞类型图谱提供了重要机遇,例如在人类肺组织中可以鉴定多达 80 种细胞类型。然而,现有的 ST 技术由于成本高昂且通量有限,难以大规模应用于临床样本;而传统的数字病理学方法通常只能识别 2–4 种粗粒度的细胞类型,对于深入分析组织微环境提供的信息十分有限。因此,人们迫切需要一种低成本且可扩展的方法,能够直接从常规的组织病理学图像中解析精细粒度的细胞组成。
![]()
图 1 Hist2Cell 工作流程及下游应用概览
近日,香港大学计算与数据科学学院 余乐全 教授团队和生物医学学院 黄元华 教授团队在Cell Genomics期刊在线发表了题为 Hist2Cell: Deciphering fine-grained cellular architectures from histology images 的研究论文。该研究提出了Hist2Cell——一种视觉图-Transformer框架,能够直接从苏木精-伊红( H&E )染色的组织病理学图像中准确解析精细粒度的转录细胞类型(多达 80 种),实现可扩展的超分辨率细胞图谱绘制与精准癌症预后。
![]()
图 2 Hist2Cell 论文
技术路线
Hist2Cell 的核心创新在于提出了一种 “ 一阶段 ” 预测框架。与以往方法需要对每个新样本从空间转录组数据中进行参考依赖的估算不同, Hist2Cell 将该问题重新定义为监督学习任务:首先利用 Cell2location 算法从空间转录组数据中获得高质量的细胞丰度标注作为训练标签,然后训练模型直接从 H&E 图像预测细胞类型丰度,将预测过程与分子数据解耦。
![]()
图3 Hist2Cell模型架构
在模型架构设计上, Hist2Cell 采用了图 -Transformer ( Graph-Transformer )架构,将全切片图像( WSI )建模为空间图,每个 spot 作为节点、空间邻近关系作为边。模型通过从 WSI 中随机采样局部子图作为训练输入,利用图注意力层( Graph Attention layers )学习 spot 与空间邻居之间的局部上下文关系,同时通过 Transformer 层建模远程相关性,最终融合多尺度特征进行精细粒度的细胞丰度预测。这种设计使 Hist2Cell 同时兼具局部方法和全局方法的优势,避免了各自的局限性。
研究团队首先在健康人肺数据集上验证了 Hist2Cell 的有效性。该数据集来自 4 位供体的 5 个从近端到远端的位置,包含 11 张 H&E 染色组织切片、共 20,770 个 spots 和 80 种精细粒度转录细胞类型。通过 “ 留一供体交叉验证 ” 的方式, Hist2Cell 展现出显著优于已有方法( STNet 、 DeepSpaCE 、 Hist2ST 和 THItoGene )的细胞类型丰度预测性能,平均 Pearson 相关系数为 0.31 ,相比最佳基线方法提升了约 50% 。特别值得一提的是, Hist2Cell 在多个关键细胞类型上表现尤为突出,如纤毛细胞( Pearson R = 0.79 )、 CD4+ 效应记忆 T 细胞( Pearson R = 0.68 )和 CD8 EM 细胞( Pearson R = 0.68 ),这些细胞类型在人类气道系统中发挥着关键的免疫和稳态功能。此外, Hist2Cell 还能够准确捕获细胞类型之间的共定位模式。以 SpatialDM 中的双变量 Moran's R 统计量衡量, Hist2Cell 在余弦相似度和相关性两个指标上均显著优于对比方法。例如, Hist2Cell 成功识别了 IgA 浆细胞与粘膜下腺( SMG )之间的共定位关系,而这正是原始研究中的一项重大发现。
进一步地,通过将Hist2Cell的预测结果与原始研究中病理学家的手动注释进行对比,研究团队发现Hist2Cell预测的细胞类型能够准确对应其已知的解剖学位置:纤毛上皮细胞定位于气道腔内、基底细胞围绕其周围、I型和II型肺泡细胞(AT1和AT2)分布于肺实质区域、软骨细胞则定位于软骨组织中。此外,Hist2Cell还准确定位了一类富集于气道的成纤维细胞亚群——支气管周围成纤维细胞(PB-fibro),将其精确地映射到气道上皮周围区域,而PB-fibro已被认为是肺部疾病中的关键细胞类型,这也验证了Hist2Cell在临床研究中的应用价值。
为了评估泛化能力,研究团队在 her2st 乳腺癌数据集( 8 位患者、 36 个切片)上训练 Hist2Cell ,然后 不经任何重新训练或微调 ,直接应用于来自不同实验室的 STNet 乳腺癌数据集( 23 位患者、 69 个切片)。在该外部数据集上, Hist2Cell 对全部 39 种细胞类型的预测均呈正相关,平均 Pearson 相关系数为 0.29 (最佳基线方法仅为 0.19 ),其中乳腺导管上皮细胞( Pearson R = 0.87 )和成纤维细胞( Pearson R = 0.71 )等关键细胞类型表现尤为突出。这表明 Hist2Cell 具有强大的跨数据集泛化能力,能够克服不同实验室间的批次效应和技术差异。同时,该团队还将验证扩展到了一种完全不同的组织类型 —— 人类皮肤组织(炎症性皮肤病), Hist2Cell 在该数据上取得了 0.67 的平均 Pearson R ,显著优于所有基线方法,进一步证实了框架的鲁棒性。
得益于出色的泛化性能, Hist2Cell 被直接应用于 565 例 TCGA 乳腺癌样本的 H&E 切片(无需重新训练),实现了大规模队列的共识细胞分析。尽管 TCGA 切片来自不同机构、采用不同扫描设备,且仅有 bulk RNA-seq 数据(而非来自同一组织的空间转录组数据), Hist2Cell 的预测结果与 26/39 种细胞类型呈正相关,其中 13 种达到统计显著性。通过聚合数百名患者的细胞架构信息, Hist2Cell 释放了大规模公共 H&E 队列的巨大潜力,能够为研究者提供当前 ST 技术因成本限制而无法规模化实现的共识性生物学分析。
更为重要的是,该团队验证了 Hist2Cell 在精准癌症预后方面的应用价值。在肺鳞状细胞癌( LUSC )、三阴性乳腺癌( BRCA-TNBC )和 HER2 阳性乳腺癌( BRCA-HER2+ )三种癌症亚型的生存风险预测任务中,基于 Hist2Cell 预测的细胞丰度训练的 Cox 回归模型在所有三种癌症中均优于此前先进的病理学模型 HIPT—— 特别是在 BRCA-HER2+ 中 C-index 提高了约 10% 。值得注意的是, Hist2Cell 仅在 114 张乳腺癌切片和 34 张肺癌切片上训练,远少于 HIPT 所需的 10,000 张 WSI 。更令人振奋的是, Hist2Cell 的表现甚至可与昂贵的 bulk RNA-seq 相媲美,在 BRCA-TNBC 上 C-index 还超出了 4% 。这表明 Hist2Cell 有望作为一种低成本替代方案,在真实临床场景中辅助癌症预后评估。此外,利用积分梯度( Integrated Gradients )方法, Hist2Cell 揭示了不同细胞群体与患者死亡风险之间的关系,发现 CD8 活化 T 细胞在 HER2+ 癌症的长期生存分析中具有更强的效应,为后续的癌症研究提供了有价值的生物学见解。
Hist2Cell 还能够生成超分辨率的精细粒度细胞图谱。通过从更高分辨率的 spot 坐标采样子图, Hist2Cell 可以通过两种策略提供超分辨率细胞图谱:一是从低分辨率细胞图谱进行插值微调,二是直接从 H&E 图像预测。研究展示了高达 16 倍的超分辨率结果,分辨率接近单细胞水平,为理解复杂组织微环境中的精细细胞模式提供了前所未有的视角。
Hist2Cell 的推出证明了直接从组织病理学图像预测转录水平的精细粒度细胞类型是可行的,且比预测单个基因表达更为准确。 该框架为大规模空间生物学研究和精准癌症预后提供了一种低成本、可扩展的解决方案。值得一提的是, Hist2Cell 的架构设计具有天然的灵活性,将其图像编码器替换为最新的病理学基础模型( UNIv2 )后,在所有测试数据集上获得了显著且一致的性能提升(如人肺数据集上平均相关性提高 16% ),展现了该框架随计算病理学领域发展持续进化的潜力。 Hist2Cell 有望在诊断和个体化医学中发挥广泛的应用价值。
香港大学计算与数据科学学院 余乐全 教授和生物医学学院 黄元华 教授为论文共同通讯作者,计算与数据科学学院博士 毕业 生 赵尉钦 为论文第一作者。
原文链接:https://doi.org/10.1016/j.xgen.2025.101137
制版人:十一
BioArt
Med
Plants
人才招聘
学术合作组织
(*排名不分先后)
![]()
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.