网易首页 > 网易号 > 正文 申请入驻

清华AIR,水木分子等首创开源多尺度空间转录组学基础大模型SToFM

0
分享至



作者 | 论文团队

编辑 | ScienceAI

AI 大模型竞赛风起云涌,垂直领域竞争激烈。AI 基础大模型的能力正进一步向各科学研究领域渗透,而生物及生命科学就是 AI 大模型的下一个战场。

2025 年可以视为AI 虚拟细胞元年。2024 年底斯坦福大学、基因泰克制药公司和陈 - 扎克伯格基金会的研究团队在《Cell》杂志上发表一篇利用大模型 AI 技术构建虚拟细胞可能性的论文,题为《How to build the virtual cell with artificial intelligence: Priorities and Opportunities》,开启了细胞多组学、虚拟细胞和大模型 AI 等前沿生物与 AI 技术交叉创新的讨论和思潮,生物医药和人工智能领域的前瞻者正在积极探索新方向,掀开 AI 制药和揭示生命终极奥秘的新篇章。

继蛋白质建模之后,转录组学建模成为下一个重大攻关课题。尤其是空间转录组学扩展了单细胞转录组学,让科学家们对细胞的研究可以从单细胞维度进一步扩展到空间多细胞维度,更加接近揭示细胞对于生命现象的真实意义。

2025 年 7 月,清华大学智能产业研究院(AIR)、水木分子等联合研究成果 ——《SToFM:多尺度空间转录学基础大模型》(SToFM: a Multi-scale Foundation Model for Spatial Transcriptomics)正式入选第 42 届国际机器学习学术大会 ICML 2025,SToFM 也是目前性能最强的空间转录组学基础大模型。



论文链接:https://arxiv.org/abs/2507.11588



SToFM 标志着细胞组学人工智能研究的全新起点,也是推进 AI 虚拟细胞落地的重大进展。SToFM 已经在 Github 上公开代码,清华AIR 团队也即将在OpenBioMed开源平台上发布SToFM。



  • 代码链接:https://github.com/PharMolix/SToFM
  • Github 开源链接(SToFM will soon be added to the OpenBioMed toolkit):https://github.com/PharMolix/OpenBioMed
  • OpenBioMed 开源平台在线试用请访问:http://openbiomed.pharmolix.com/

AI 虚拟细胞建模

AI 虚拟细胞(AIVC)即在大模型 AI 技术的基础上,构建从基因分子层面到微观的细胞层面再到宏观的组织和器官层面的细胞数字孪生,既能表达细胞状态,也能以各种方式与虚拟的器官和人体环境进行互动,用数字方式实现细胞的生物功能。

虚拟细胞涉及到了原子、分子、细胞、组织等不同尺度层面,近年来在模拟细胞核、线粒体、内质网、高尔基体、溶酶体、细胞骨架、细胞膜等领域也有了初步尝试的机器学习、深度学习、有限元分析等算法,而大模型能够统一这些尺度和模态的算法与数据,呈现更为完整的虚拟细胞或细胞数字孪生,让启迪生命现象「智能涌现」的 AI 虚拟细胞「呼之欲出」。

细胞多组学是近年来生物信息学和系统生物学领域的重要进展,通过高通量测序技术对细胞内的各种分子进行大规模、高分辨率的检测。高通量技术能够快速、大规模处理样本并获取海量数据,广泛应用于基因组学、蛋白质组学、代谢组学等领域,主要包括高通量 RNA 测序技术、高通量蛋白质组学分析技术以及其他高通量检测方法。

随着高通量技术的发展,细胞多组学数据急剧增长,如何分析和表达这些海量数据,特别是融合多尺度、多组学数据,从而获得更为全面、深入的细胞功能信息,成为了下一个挑战。机器学习、大模型等 AI 技术为分析和融合多尺度、多组学海量数据,提供了前所未有的机遇,也推动了虚拟细胞的实现。

SToFM:空间转录领域开创性研究

综上所述,为了更好地构建 AI 虚拟细胞,单细胞和多细胞的 AI 建模十分重要。根据上述《Cell》论文,构建 AI 虚拟细胞的统一表达(Universal Representation,UR)乃重中之重。

AI 虚拟细胞包括分子尺度、单细胞尺度和多细胞尺度,分子尺度包括 DNA、RNA 和蛋白质表达,单细胞尺度需要在组织和器官空间表达细胞,多细胞尺度则进一步表达细胞与细胞、细胞与器官组织的关系与互动。



图示:AI 虚拟细胞统一表示 UR 框架,来源:《How to build the virtual cell with artificial intelligence: Priorities and opportunities》,《Cell》

业界已经在原子、分子和单细胞尺度的生物信息模态表达取得了重要进展,例如清华大学 AIR 与水木分子等研发的基于原子统一表征的分子大模型 PhamolixFM、蛋白质大模型 ESM-AA、基于单细胞 RNA 测序数据的单细胞大模型 LangCell 等,但是在组织和器官空间的多细胞表达方面还处于研究阶段,这也是构建 AI 虚拟细胞统一表达 UR 的关键一环。SToFM 研究者之所以选择建立多尺度空间转录组学基础大模型,正是将 AI 虚拟细胞模式从单细胞扩展到多细胞,是迈向「AI 虚拟细胞」的重要一步。

什么是「多尺度空间转录组学基础大模型」?空间转录组学技术是结合组织和器官不同位置的单细胞测序,从而将组织和器官的不同功能区域与细胞分布结合起来,或者可以理解为识别细胞在不同组织器官空间的异质性,例如肿瘤核心和边缘的细胞异同。因此构建空间转录组学基础大模型,就需要结合基因、细胞和组织等不同尺度的模态和数据。



图示:空间转录数据的多尺度信息,来源:ICML 2025 学术论文《SToFM: a Multi-scale Foundation Model for Spatial Transcriptomics》

空转数据的特性为建模带来了挑战。从含有大量细胞的组织切片中捕获多尺度信息至关重要,如图所示,ST (Spatial Transcriptomics, 空间转录组学,简称空转) 数据包含来自多个尺度的生物信息。从宏观尺度可以提取组织形态和器官结构信息,如功能区和解剖层;从微观尺度可以通过分析与空间相邻细胞的细胞间关系来捕获细胞上下文和细胞间互动;从基因尺度可以通过分析基因表达谱来深入研究每个细胞的详细信息。分析空转数据需要全面了解不同尺度上的生物信息。

空间转录数据包括了多个尺度的生物信息。从宏观尺度,可以提取组织形态和器官结构信息,如功能区和解剖层;从微观尺度,可以通过分析空间相邻细胞间关系,捕获「上下文」和细胞间的互动;从基因尺度,可以通过分析基因表达谱,深入研究每个细胞的详细信息。

建立空间转录组学基础大模型的一大挑战是海量的空间转录数据及不同尺度数据的融合分析。空间转录是对器官或组织进行切片,再对切片上的单细胞测序,每个切片上有上万的细胞或测序点,形成了 2D 点云,而每个点又含有高达 2 万个基因表达数据,因此形成了多维度海量数据。对于不同尺度的海量数据进行融合分析,就需要借助大模型的能力。

为了解决这一挑战,SToFM 作者提出了一个多尺度的 ST 空间转录组学基础模型,捕捉和融合分析大量切片上的多尺度数据。SToFM 在每一个 ST 切片上提取了多尺度信息,即在子切片内提取基因、微观和宏观层面的信息,对每一个子切片采用 SE (2) Transformer 神经网络模型将转录数据与空间信息结合起来进行表示学习,同时 SToFM 论文对于预训练目标和策略进行了详细阐述。

具体来看 SToFM 的算法框架。



图示:SToFM 算法模型框架,来源:ICML 2025 学术论文《SToFM: a Multi-scale Foundation Model for Spatial Transcriptomics》

首先,在基因尺度,SToFM 采用一种经过了应用域自适应的细胞编码器,表达了每一个单细胞;在微观层面,SToFM 将 ST 切片分为若干子切片,将虚拟细胞加入每一个子切片,每一个 ST 子切片都包含上千个细胞和超过 50 个虚拟细胞。请见 SToFM 算法模型框架图(a)绿色部分。

其次,SToFM在预训练阶段,经过了应用域自适应 (Domain Adaptation) 的细胞编码器,被用于重新计算细胞嵌入词,采用反向传播算法对细胞编码器进行训练。请见 SToFM 算法模型框架图(a)蓝色部分。

之后,SToFM采用一种通用 3D 分子表示学习模型 SE(2)Transformer 对随机掩码细胞嵌入词和噪声增强的距离矩阵进行联合建模,输出表达被用于重建之前的细胞嵌入词和空间距离,这两个过程被称为掩码细胞建模(Masked Cell Modelling,MCM)和成对距离恢复(Pairwise Distance Recovery,PDR)。请见 SToFM 算法模型框架图(b)。

细胞编码器的应用域自适应(Domain adaptation)。因为单细胞基因表达谱的高维和稀疏特性,需要先训练一个高质量细胞编码器进行降维处理。由于技术限制,ST 数据经常有缺陷,例如有限的基因覆盖、数据过拟合等,因此对于单细胞转录数据而言,ST 数据质量相对较低。那么,在已有的单细胞转录模型基础上进行增量训练,有助于将单细胞转录的经验和知识应用于具有不同数据分布特征的 ST 数据。SToFM 采用目前最先进的基于 Transformer 的单细胞基础模型Geneformer,用于初始化细胞编码器。然后,SToFM 用细胞编码器对于 ST 数据中的细胞进行增量训练,以实现应用域自适应。

微观和宏观信息整合。SToFM 设计了多尺度方式,从而有效整合来自微观和宏观的信息。SToFM 根据空间坐标将 ST 切片再切分为若干子切片,每个子切片有约 1000 个细胞。切分成子切片,有助于在计算效率和保留足够的细胞间相互作用取得平衡。SToFM 采用 Leiden 算法,基于细胞嵌入词和细胞空间位置,将子切片上的所有细胞进行聚类,将每一个聚类族纳入到一个虚拟细胞(Virtual Cell,简称 VC)中,该虚拟细胞的词嵌入和位置坐标经过了集群内所有细胞的平均化。虚拟细胞保留了子切片的主要形态,用于代表宏观信息的压缩。SToFM 将虚拟细胞纳入到每一个子切片上,从而让 SToFM 算法既能够学习微观信息,又能获得宏观空间结构。

多尺度 ST 表示学习。多尺度 ST 表示学习包括两大部分:基于细胞编码器的二次前向传播和基于 SE (2) Transformer 的表示学习。SToFM 执行了细胞编码器的二次前向传播,以通过梯度反向传播对细胞编码器的参数进行更新,该步骤只能在训练阶段执行,而嵌入词可直接用于推理阶段。在基于 SE (2) Transformer 的表示学习方面,SToFM 采用了 Uni-Mol 提出的 SE (2) Transformer 架构,该 3D 分子表示学习模型已经在蛋白质表示和小分子表示方面取得了很好的效果,能够实现细胞嵌入词与细胞位置的联合编码。距离矩阵被用于获得初始的成对表示,在 Transformer 的每一层,来自细胞表示的注意力矩阵都被加入到了成对表示中,更新后的成对表示再被用于实际上的注意力打分以更新细胞表示,该方法已经在 AlphaFold 等算法中被验证。SToFM 作者认为,由于 ST 数据中细胞与细胞间互动的强空间距离属性,距离信息很适合成对表示。

实验验证

为了训练 SToFM,作者构建了迄今为止最大的高分辨率 ST 预训练语料库 SToCorpus-88M,该语料库包括约 2000 个通过 6 种 ST 技术获得的高分辨率 ST 切片,总计达 8800 万个细胞。

为了验证 SToFM 在整合 ST 数据的多尺度信息方面的有效性,作者建立了一个包含多个重要生物任务的综合基准,并在两个具有生物学意义的实验场景中评估了 StoFM 在组织区域语义划分上的性能:人类胚胎结构划分和大脑背外侧前额叶皮层(DLPFC)层次划分。结果表明,在不同组织区域语义分割任务中,SToFM 优于现有方法。

值得注意的是,作者观察到在跨切片设置中,SToFM 大幅超越了其他模型,表明其稳健性和可迁移性。作者将这归因于 SToFM 中微观和宏观信息的整合,因为组织形态和细胞间互作用模式更有可能在不同的 ST 切片之间迁移。



作者的实验还证明了 SToFM 在空间细胞类型注释和零样本细胞类型聚类任务上的出色性能。这证实纳入空间信息可以帮助理解 ST 数据上的细胞类型。具体而言,即使在低质量基因表达数据的场景中,细胞所在的组织区域以及细胞邻域中的细胞类型组成也可以帮助推断细胞类型。





此外,SToFM 还在空间测序点解卷积、空间基因表达谱数据插补等空转研究中的重要数据分析任务上表现出色,这进一步展现了其在细胞生信分析中的应用价值。





作者将 SToFM 在不同下游任务中的出色表现归功于多尺度信息的整合,因为组织形态、细胞 - 细胞相互作用模式和基因表达语义都有助于在不同的 ST 切片上获得一致且可迁移的表征。

小结

空间转录组学已经积累了海量数据,但缺乏一个能够统一理解这些数据的通用框架,而 SToFM 正是填补这一空白的起点。SToFM 不仅填补了空间转录组学基础大模型的空间,也是迈向 AI 虚拟细胞统一表示的重要一步。未来,AI 虚拟细胞不仅能有效建模细胞信号通路、组织环境、细胞邻域关系,还能模拟基因敲除、药物作用等外界扰动,实现前所未有的生物智能表示,助力开辟人工智能技术用于组织再生、癌症诊断、药物开发等领域的全新路径。

作者团队

Suyuan Zhao, Yizhen Luo, Ganbo Yang, Yan Zhong, Hao Zhou, Zaiqing Nie

Suyuan Zhao(赵苏原 , 清华大学智能产业研究院 AIR 博士),Yizhen Luo(罗弈桢, 清华大学智能产业研究院 AIR 博士),Ganbo Yang(杨淦博,清华大学计算机系, 清华大学智能产业研究院 AIR 实习生),Yan Zhong(钟岩,北京大学博士),Hao Zhou(周浩,清华大学智能产业研究院 AIR 副研究员、副教授),Zaiqing Nie(聂再清, 清华大学国强教授, 清华大学智能产业研究院 AIR 首席研究员, 水木分子首席科学家)。

参考内容:

1.《How to build the virtual cell with artificial intelligence: Priorities and opportunities》,《Cell》

https://www.cell.com/cell/fulltext/S0092-8674 (24) 01332-1

2.《Uni-Mol: A Universal 3D Molecular Representation Learning Framework》

https://openreview.net/forum?id=6K2RM6wVqKu

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海,八旬独居老人独居无靠,居委会联系送养儿子,儿子:凭什么

上海,八旬独居老人独居无靠,居委会联系送养儿子,儿子:凭什么

街声巷闻
2025-11-17 14:36:54
惊天大瓜!原来川普和希拉里不止是政敌,同时还是情敌。

惊天大瓜!原来川普和希拉里不止是政敌,同时还是情敌。

电动猫
2025-11-18 00:18:26
聚焦“十五五”规划建议|保持制造业合理比重

聚焦“十五五”规划建议|保持制造业合理比重

新华社
2025-11-17 15:54:02
王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

懂球帝
2025-11-18 17:17:31
张家界荒野求生赛宣布14名选手全部进入决赛:气温骤降,不再按原计划淘汰4人

张家界荒野求生赛宣布14名选手全部进入决赛:气温骤降,不再按原计划淘汰4人

极目新闻
2025-11-18 15:19:03
捷克“炮弹计划”或终止!斯洛伐克法院关键裁决,援乌战斗机合法

捷克“炮弹计划”或终止!斯洛伐克法院关键裁决,援乌战斗机合法

鹰眼Defence
2025-11-18 17:53:12
捅完琉球窝!中国再掀北海道老底,日本80年前埋的雷,炸了

捅完琉球窝!中国再掀北海道老底,日本80年前埋的雷,炸了

南宫一二
2025-11-17 07:17:39
全运乒乓男团四强巅峰对决:马龙樊振东领衔,四大豪门谁主沉浮?

全运乒乓男团四强巅峰对决:马龙樊振东领衔,四大豪门谁主沉浮?

带你逛体坛
2025-11-18 18:34:10
罗伯逊:距离世界杯只差90分钟,我相信我们能战胜丹麦

罗伯逊:距离世界杯只差90分钟,我相信我们能战胜丹麦

懂球帝
2025-11-18 14:25:08
日韩股市,开盘暴跌!

日韩股市,开盘暴跌!

证券时报
2025-11-18 09:47:04
湖人最不需要担心的人!里夫斯:GOAT詹皇回归将有4打3优势

湖人最不需要担心的人!里夫斯:GOAT詹皇回归将有4打3优势

体育妞世界
2025-11-18 14:08:30
乡镇编制膨胀:从12人到100人,时代变了乡镇变了,初心还在吗?

乡镇编制膨胀:从12人到100人,时代变了乡镇变了,初心还在吗?

君好伴读
2025-10-27 10:33:08
付某梅(女),已被大连警方抓获归案!

付某梅(女),已被大连警方抓获归案!

半岛晨报
2025-11-18 12:40:05
因文件问题无法靠港,3000头奶牛被困土耳其海上58天,船只恶臭弥漫、尸体堆积

因文件问题无法靠港,3000头奶牛被困土耳其海上58天,船只恶臭弥漫、尸体堆积

起喜电影
2025-11-18 15:29:35
赢麻了!现在全网最想哭的人估计是冷美人,30多天拿到30000多元

赢麻了!现在全网最想哭的人估计是冷美人,30多天拿到30000多元

火山诗话
2025-11-18 18:36:08
华为Mate 80系列备货比例曝光 标准版和Pro Max成主力

华为Mate 80系列备货比例曝光 标准版和Pro Max成主力

手机中国
2025-11-18 16:50:44
钟丽缇168cm的大块头,一般男人征服不了她吧?

钟丽缇168cm的大块头,一般男人征服不了她吧?

小椰的奶奶
2025-11-18 13:14:26
毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

南书房
2025-09-28 23:01:03
日本天下第一香木,传为隋炀帝所赐,仅有三位人物切下小块使用

日本天下第一香木,传为隋炀帝所赐,仅有三位人物切下小块使用

收藏大视界
2025-11-09 20:38:12
只待2天!全红婵火速从北京飞回广州,去医院看望梁小静,姐妹情深

只待2天!全红婵火速从北京飞回广州,去医院看望梁小静,姐妹情深

乡野小珥
2025-11-18 07:31:38
2025-11-18 19:39:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1155文章数 218关注度
往期回顾 全部

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

手机
教育
时尚
数码
军事航空

手机要闻

努比亚海外推P9 Pro手机,搭载紫光展锐T8300处理器

教育要闻

论区老师“拗柴”与中考体育满分之间的逻辑必然性

从百元到大牌,《新闻女王2》的职场穿搭,每种预算都能找到参考

数码要闻

天马全球首发真610Hz无极电竞屏,还有108英寸4K巨幕Micro LED

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版