![]()
来源:ScienceAI
编辑:&
单细胞转录组已经把「细胞有多复杂」这件事推到了前所未有的尺度。但除开它为人们带来的理解上的改变,跨物种比较仍卡在一个问题之上:不同物种往往共享很少的直系同源基因,传统整合方法越来越难把远缘物种放到同一坐标系里。
来自美国斯坦福大学、Biohub 等的研究团队正是为了补上这一缺口而来。他们把 12 个物种、最多 1.12 亿个细胞、覆盖约 15 亿年的进化历史一起送进模型里,试图让模型自己学会「细胞表达的语法」。
相关研究以「TranscriptFormer: A generative cell atlas across 1.5 billion years of evolution」为题,于 2026 年 5 月 7 日发布在《Science》。
![]()
论文链接:https://www.science.org/doi/10.1126/science.aec8514
生成式细胞引擎
TranscriptFormer 的诞生旨在解决跨物种比较转录程序这一长期挑战。它不是传统的单细胞表征模型,而是一个自回归生成模型。
该模型将基因表达谱视为「细胞语言」,通过自监督学习捕捉基因间的复杂关联与表达分布。这种大规模、多物种的数据策略,使模型能够学习到跨越物种界限的通用生物学表征,而非仅局限于单一物种的特征提取。
![]()
图 1:TranscriptFormer概览。
模型输入包括来自 ESM-2 的蛋白嵌入和测序技术标记,并通过 expression-aware multi-head self-attention、causal masking 和 count likelihood 处理转录本计数的变化。团队训练了三个版本:TF-Metazoa、TF-Exemplar 和 TF-Sapiens,三者架构一致,但训练语料分别覆盖 12 个物种、5 个代表物种以及纯人类数据。
在性能测试中,TranscriptFormer 在细胞类型分类任务上达到了领域领先水平。研究中,该模型表现出极强的跨物种迁移能力,即使对于在进化上与人类相隔 6.85 亿年的物种(如刺胞动物门的珊瑚),它依然能够实现精准的细胞分类。
![]()
图 2:未见物种的泛化与跨物种迁移学习。
此外,模型在人类细胞的疾病状态识别中展现了出色的「零样本(Zero-shot)」能力,即在未接触特定疾病标注数据的情况下,仍能通过对正常生理状态的深刻理解来识别异常的病理表征。
生物学结构感
TranscriptFormer 的嵌入并不只是能分类,它们还自发呈现出发育轨迹、系统发育关系和细胞层级。
在研究中,团队发现了一个有趣的现象:contextualized gene embeddings 会按细胞种类聚类,而且这种结构在不同组织里都能看到。
![]()
图 3:上下文基因嵌入与跨物种分析。
这种发育轨迹、系统发育关系以及细胞层级结构在 TranscriptFormer 的表征空间中自然涌现的现象,代表着该模型无需人工标注或元数据引导。这意味着模型自发掌握了生命的组织原则。
TranscriptFormer 还可作为一种「虚拟实验仪(Virtual Instrument)」,通过模拟转录因子的扰动来预测目标基因的反应。团队用 TranscriptFormer 的生成接口做了提示式推断,去预测转录因子与其他蛋白编码基因的功能关联,并用 point-wise conditional mutual information(PMI)找出高置信度配对,再拿 STRING 数据库交叉验证。
除此之外,团队还用细胞类型条件化的提示重建了与 Tabula Sapiens 相似的转录因子热图,让模型自己说出哪些因子更像普遍表达,哪些更偏向细胞类型特异。
这种生成式模拟能力为研究人员提供了一个交互式知识库,能够在计算机上预先测试复杂的生物实验方案,从而加速药物发现与细胞工程的研究进程。
可调用的知识系统
TranscriptFormer 训练时没有用细胞类型标签、发育阶段标签或系统发育注释,却仍然学出了跨层级的生物学结构:基因、细胞、组织、物种都被串进了同一套表示里。
它的价值不只是分类更准,而是把单细胞数据变成一种可以查询、可以迁移、还可以做虚拟实验的生成式基础模型。
团队表示:多物种预训练更利于跨物种泛化,单物种训练则可能在纯人类疾病任务上更有优势;未来还将继续扩展物种、加入更多模态,并改进提示策略。
阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”
![]()
未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.