撰文丨王聪
编辑丨王多鱼
排版丨水成文
在生物医学研究领域,科学家们一直梦想能拥有一个“虚拟细胞”(Virtual Cell)——一个可以像计算机模拟天气一样,精准模拟真实细胞状态、并能预测细胞在药物或基因扰动下如何反应的数字模型。如今,这个梦想正被人工智能(AI)推向现实。
对细胞状态进行建模并预测其对干扰的反应,是计算生物学和虚拟细胞开发中的核心挑战。现有的单细胞转录组学基础模型提供了强大的静态表示,但它们并未明确地对细胞状态的分布进行建模以用于生成模拟。
近日,阿里达摩院的研究团队在预印本平台 arXiv 上发布了题为:Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells 的研究论文。
该研究发布了生成式细胞世界模型——灵枢细胞(Lingshu-Cell),该模型能够以前所未有的精度模拟细胞的转录组状态,并预测细胞在面对遗传改变(例如基因扰动)或外界刺激(例如细胞因子药物)时的整体反应,为药物研发、疾病机制研究和个性化医疗打开了新大门。这项工作突破了静态表征学习,朝着细胞状态分布和扰动响应的生成式建模迈进了一步,向虚拟细胞迈进了重要一步。
![]()
灵枢细胞的亮点——
提出了一种基于掩码离散扩散框架的单细胞转录组学生成式细胞世界模型。
可直接在与单细胞 RNA 测序数据的稀疏性和非连续性相兼容的离散标记空间中对约 18000 个基因进行全转录组建模,无需事先选择基因。
在不同组织和物种中能够准确捕捉细胞状态分布、标记基因表达模式和细胞亚型比例。
在预测基因和细胞因子扰动下的细胞反应方面也表现出色。
从“拍照存档”到“动态模拟”:单细胞研究的范式转变
过去十年,单细胞 RNA 测序技术让我们能够以前所未有的分辨率窥见生命的基本单元——细胞内部的基因活动图谱。然而,现有的分析方法大多停留在“拍照存档”和分类描述的阶段,缺乏预测和动态模拟的能力。
传统的 AI 模型,例如 scGPT、Geneformer 等,虽然能学习细胞的静态特征,但无法生成新的、逼真的细胞状态,更难以预测“如果对细胞进行某种操作,它会变成什么样”。而一些生成模型,又受限于其连续数据的假设,与单细胞数据本身稀疏、离散的特性不匹配,效果大打折扣。
该研究推出的灵枢细胞(Lingshu-Cell)的核心突破,在于它找到了一条更贴合生物学数据本质的技术路径。灵枢细胞是一种用于细胞状态全转录组生成建模的掩码离散扩散模型。其通过通过离散基因表达词元的掩码和预测目标进行训练。这种设计能够实现全转录组谱的非自回归双向优化,同时与单细胞 RNA 测序数据的稀疏性和非序列性相兼容。
技术核心:掩码离散扩散模型
就像教 AI 玩一个“基因填空”游戏,研究团队将单个细胞中约 1.8 万个基因的表达量(活跃程度)转换成离散的“词元”(Token)。然后,随机遮盖(掩码)其中一部分基因,让 AI 模型根据上下文去预测被遮盖基因应有的表达水平。通过海量数据的训练,模型逐渐学会了细胞内部复杂的基因调控网络和表达规律。
这种“掩码离散扩散模型”(masked discrete diffusion model)架构,完美契合了单细胞数据没有固定顺序、高度稀疏的特点。它无需事先筛选“重要基因”,而是直接在全转录组层面进行建模,从而能更完整、更真实地捕捉细胞的异质性。
![]()
灵枢细胞框架概述
两大核心能力:创造与预测
1、高保真“创造”虚拟细胞
研究团队在涵盖人类 8 种组织(包括大脑皮层、心脏、肺)和 4 个其他物种(小鼠、猕猴、斑马鱼、果蝇)的海量数据上测试了灵枢模型。结果表明,灵枢模型生成的虚拟细胞,不仅在整体基因表达分布上与真实细胞高度一致,还能精确复现不同细胞类型特有的“标记基因”表达模式,以及各种细胞亚型的比例。这意味着 AI 模型已经学会了生命在不同组织和物种中“设计”细胞的基本法则。
2、精准预测细胞“应激反应”
更令人兴奋的是它的预测能力。研究团队将细胞类型和扰动信息(例如要敲除的基因、或要添加的细胞因子)作为条件输入模型,灵枢细胞便能预测出细胞在扰动后的全转录组表达变化。
在“虚拟细胞挑战赛”的基因扰动基准测试中,灵枢细胞在 25 支顶尖团队中取得了最佳综合排名,尤其在预测表达变化的绝对误差和相关性上表现最优。
在预测细胞因子对免疫细胞的影响时,灵枢细胞同样表现卓越,它能准确预测不同供体的外周血单核细胞在 90 种不同细胞因子刺激下的反应,为理解免疫应答和个人化用药提供了强大工具。
![]()
灵枢细胞准确预测细胞系对基因扰动的单细胞转录组反应
![]()
灵枢细胞准确预测外周血单个核细胞(PBMC)对细胞因子干扰的单细胞转录组反应
迈向“虚拟细胞”时代:无限的应用想象
灵枢细胞的成功,标志着单细胞生物学从“静态图谱”迈向“动态模拟”的关键一步。它作为一个统一的细胞世界模型,为未来的生物医学研究带来了革命性的可能性:
加速药物发现:在计算机中大规模、低成本地模拟药物对各类细胞的影响,快速筛选候选药物,降低实验成本和失败率。
揭示疾病机制:模拟疾病状态下细胞的异常变化,或预测基因突变导致的后果,从而深入理解癌症、自身免疫病等复杂疾病的根源。
个性化医疗:结合个人的细胞数据,预测其对特定治疗方案的反应,实现真正的精准医疗。
“灵枢”一词,源自中医经典《黄帝内经》,意指生命活动的关键与枢纽。达摩院以此命名,寓意其模型旨在捕捉细胞生命活动的核心规律。灵枢细胞不仅是 AI 在计算生物学领域的一次技术胜利,更是我们向理解生命复杂性、并最终驾驭它来改善人类健康迈出的坚实一步,也标志着虚拟细胞的时代正在到来。
论文链接:
https://arxiv.org/abs/2603.25240
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.