![]()
编辑丨coisini
单细胞转录组学技术为测量跨物种、跨疾病及各类生物条件下的细胞表型多样性提供了可能。去年,Arc 研究所发布了一个名为「State」的虚拟细胞模型,证明了使用细胞集合进行分析能提升扰动响应的预测能力。
然而,最核心的挑战依然存在:能否构建一个通用模型,无需特定环境的扰动数据即可预测细胞在全新环境中的反应?
现在,Arc 研究所宣布推出开源基础模型 Stack—— 该模型通过两项关键创新延伸了「细胞集合」理念,并在上述问题上取得突破性进展。
![]()
论文地址:https://www.biorxiv.org/content/10.64898/2026.01.09.698608v1
开源地址:https://github.com/ArcInstitute/stack
Stack 基础模型在 1.49 亿个标准化预处理的人类单细胞数据上进行训练,通过表格注意力机制生成基于上下文细胞信息的细胞表征。与基线模型相比,Stack 在零样本场景的下游任务中实现了显著性能提升。
开源基础模型 Stack
Stack 能够从代表任意条件的未标记细胞中进行上下文学习,并预测这些条件对目标细胞群的影响,而无需针对特定数据进行微调。通过两项关键创新,Stack 拓展了「细胞集合」理念:
首先是架构创新。Stack 采用表格化 Transformer 模块,将单细胞数据处理为包含细胞与基因的二维表格,使信息既能在单个细胞内流动(基因间关联),也能在细胞间传递(细胞间关联)。这种设计使模型能更好地捕捉生物学背景:炎症组织中的 T 细胞行为差异不仅源于自身基因,更受细胞环境影响。
![]()
Stack 还创新性地引入可训练的「基因模块表征符」,通过多基因衍生的生物组件描述细胞状态,而非独立建模每个基因,使模型兼具更强可解释性与更高训练效率。
其次是训练策略创新。Stack 基于 scBaseCount 数据库中 1.49 亿个细胞(涵盖数百种组织、疾病、供体及状态)进行预训练,使其内化决定细胞环境的生物学关联。随后通过对公共数据库 CellxGene 和 Parse PBMC 中 5500 万个细胞进行后训练,Stack 学会了将一组细胞作为「提示指令」,指导其对另一组细胞的预测。
正如文本提示能引导语言模型生成回应,对 Stack 来说,细胞就是 prompt,界定着影响预测的生物学条件。例如,Stack 可观察经药物处理的免疫细胞,进而预测上皮细胞对同一药物的反应。
Stack 是首个能够在推理时无需重新训练即可学习新任务的单细胞基础模型。这种能力使其在标准测试中表现卓越。
研究团队采用严谨的扰动预测评估框架 cell-eval,结合疾病分类与细胞类型整合等标准任务对 Stack 进行评估。在各项测试中,Stack 的表现始终优于其他方法。在扰动预测指标上,Stack 更是全面超越现有方案,证明了零样本基础模型足以与专业定制方法相媲美。
Perturb Sapiens:
预测性细胞反应全景图谱
为了展现 Stack 模型的能力并为该领域创建新资源,研究团队开发了 Perturb Sapiens—— 一个基于 Tabula Sapiens 数据预测细胞反应的图谱。
![]()
Perturb Sapiens 解决了基础实验的空白:绝大多数「细胞类型 - 组织 - 扰动」组合从未被测量过。即便仅全面测试其中一小部分组合,也需要耗费数百万美元和数年实验工作。
为创建该图谱,该研究利用模型的上下文学习能力,将免疫细胞反应「翻译」至整个人体系统。针对每种扰动,Stack 模型通过观察免疫细胞反应,预测 Tabula Sapiens 中每种组织内所有细胞类型的反应,最终生成了约 20000 个预测的「细胞类型 - 组织 - 扰动」组合。
Perturb Sapiens 有何用途?某种对免疫细胞作用强烈的药物,可能对同组织的上皮细胞或基质细胞几乎无影响。干扰素信号在肺上皮与肠上皮中会产生不同的转录组特征。某些药物和细胞因子能在差异显著的细胞类型中激活相似的反应程序,暗示其存在共同的易感性机制。
![]()
Perturb Sapiens 开源地址:https://huggingface.co/datasets/arcinstitute/Perturb-Sapiens
感兴趣的读者可以阅读论文原文,了解更多研究内容。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.