网易首页 > 网易号 > 正文 申请入驻

包含10亿参数!谢澎涛等团队开发全新单细胞转录组学基础模型scLong,可实现全基因组范围基因上下文捕获

0
分享至

单细胞转录组学通过在单个细胞层面解析基因表达,能够揭示细胞间的异质性,为稀有细胞群鉴定、细胞间互作分析和基因调控研究提供核心支撑,是推动精准医学、药物研发与细胞多样性研究的核心工具。近年来,基于自注意力机制的基础模型通过自监督学习预训练,在单细胞转录组数据分析中展现出巨大潜力,能捕捉复杂的基因表达模式,适配多种下游任务。

尽管现有模型仍存在显著局限,大多数模型为降低计算成本,仅对少量高表达基因进行自注意力运算,忽略了大量具有低表达基因的关键调控作用,无法捕捉全基因组尺度的基因互作与调控信号;同时模型缺乏对基因特异性外部功能知识的整合,仅依赖表达数据建模,限制了对复杂细胞功能与基因调控网络的全面理解,进而制约了模型对单细胞数据的深度挖掘与精准解析能力。

为解决上述难题,阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)的Eric Xing、谢澎涛团队开发了新型单细胞转录组基础模型scLong,其基于4,800万个细胞预训练,共包含10亿参数。scLong能够对整个人类基因组中约28,000个基因进行自注意力运算,完整捕捉所有基因间的长程互作与依赖关系,包括低表达与未表达基因,构建无偏倚、全面的基因调控网络。其次,scLong创造性地利用图卷积网络整合来自基因本体论(GO)的外部基因知识,增强对基因功能及关联的上下文理解,提升了复杂场景下的预测能力。经评估验证,scLong在基因和化学扰动转录反应预测、癌症药物反应预测等多项关键下游任务中表现出卓越性能,显著优于现有SOTA基础模型和特定任务模型。总之,scLong有效突破了现有局限,为单细胞转录组数据的深度挖掘与功能解析提供了更强大、更全面的新工具。


文章发表在

Nature Communications

scLong由基因编码器、表达编码器和上下文编码器三大模块构成表达编码器为多层感知器(MLP),负责将单个基因的表达标量值转化为表征向量;基因编码器则基于GO构建基因功能关系图谱,并通过图卷积网络(GCN)提取基因的功能表征向量;然后将基因表征与表达表征向量融合,形成每个基因-表达元素的初始表征,输入上下文编码器,通过自注意力机制捕获全基因范围基因长程关系。

为平衡计算效率与表示质量,scLong引入分级Performer编码器结构先将基因按表达水平分为高低表达两组,再经大小不同的Performer编码器进行分别处理最后由统一的全长Performer编码器进行集成。其中,高表达基因由层数和参数更多的大编码器建模,以捕捉核心生物学信息与复杂互作;低表达基因由小编码器解析,在保留信息的前提下提升计算效率。

预训练阶段,scLong采用掩码基因表达重建策略,预训练数据集涵盖4,800万个人类细胞27,874个基因,包括20,000个蛋白编码基因和8,000个非编码基因,覆盖超50种人体组织。


图1.scLong模型

接下来,研究团队在多项关键下游任务中对scLong进行了系统评估

在基因扰动转录结果预测任务中,研究团队使用Norman数据集(含5,045基因、236种扰动条件),在4种泛化场景中将scLong与7种模型进行对比,包括Geneformer、scGPT等4个基础模型和GEARS、ALM等2个特定任务模型。结果显示,scLong在Pearson相关系数、MSE等评估指标上均显著优于其他模型,在各种测试场景中表现优异;训练集未出现的扰动场景表现尤其突出,Pearson相关系数0.625,显示出强大的泛化能力。

在识别双基因扰动的协同或抑制相互作用类型时,scLong预测结果与真实值的相关性更高、分类一致性更好,识别精度更高。此外,scLong预测误差因基因调控强度而异,整体误差模式符合生物学规律。


图2. scLong预测基因扰动引起的转录结果

在化学扰动转录结果预测任务中,研究团队利用包含7种细胞系、978基因、810种化合物的L1000数据集对scLong进行测试。在RMSE、前100基因预测精度等多项指标上,scLong模型均显著优于现有基础模型与特定任务模型DeepCE,且统计检验显示差异具有显著性。这证实该模型在药物发现场景中具有高精度的转录结果推断能力,为高通量药物筛选和机制研究提供了更精准的计算工具。


图3.scLong在预测化学扰动引起的转录结果

癌症药物反应预测也是scLong的重要应用方向,通过精准预测药物反应,科研人员可以加速药物发现、制定个性化治疗方案,提高治疗效果并减少不良反应。在单药反应预测任务(DeepCDR数据集)中,scLong预测的半数抑制浓度(IC50)值与实验测定值间的Pearson相关性达0.878;在联合用药反应预测任务(阿斯利康药物组合数据集)中,scLong的AUROC达0.652,均显著高于其他对比模型,并表现出强泛化能力


图4. scLong预测癌症药物反应

在基因调控网络推断任务中,研究团队使用来自758个人胚胎干细胞的基因表达数据(涵盖17,735个基因)对scLong进行评估,以精确率-召回率曲线下面积(AUPR)和早期精确率比(EPR)为评估指标。结果显示,scLong的两项指标均最高,其中AUPR达1.35,显著优于主流基础模型以及DeepSEM、GENIE3等特定任务模型,表明该模型能有效捕获基因间相互作用,为基因调控机制研究提供了可靠工具。


图5.scLong推断基因调控网络推断

单细胞数据普遍存在批次效应,会干扰真实生物学信号。为此,研究团队利用未经训练的胰腺数据集评估了scLong模型的零样本批次整合能力,包含6个批次、1.6万余个细胞。相较原始数据、高变基因筛选法(HVG)、专用整合方法scVI及其他模型,scLong的批次平均轮廓宽度(ASW_batch)评分最高,为0.96,证明其可在零样本条件下有效抑制技术批次效应,同时保留真实的生物学差异,具备优异的跨数据集泛化与数据整合能力


图6. scLong实现零样本批次整合

最后,研究通过核心消融实验,验证了scLong模型中建模低表达基因和整合基因本体图谱两项关键设计的必要性。在基因扰动转录结果预测、基因调控网络推断、批次整合等下游任务测试中,完整的scLong模型在绝大多数情况下均显著优于去除低表达基因、随机化低表达基因处理模块、去除GO图谱或使用随机图谱替代GO图谱的变体模型。此外,基于Zheng68K 数据集的实验表明,scLong能将不同细胞类型的标记基因精准聚类,与非标记基因清晰区分,有效捕捉细胞类型特异性的基因共表达模式

综上所述,scLong突破了现有单细胞转录组基础模型的核心局限,首次实现全基因组范围的基因自注意力分析,并整合基因功能先验知识,大幅提升了多类下游分析任务的性能,为解析基因长距离互作、挖掘低表达基因的调控功能提供了新手段,也为精准医学、药物发现与细胞生物学研究提供了更强大的计算工具。

https://www.nature.com/articles/s41467-026-69102-y

01

02

03

04

05

快点亮"在看”吧!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普的深层恐惧,资本家不允许再出现第二个罗斯福

特朗普的深层恐惧,资本家不允许再出现第二个罗斯福

月满大江流
2026-02-27 07:00:03
谷爱凌回应冬奥神图出圈:当时在自己的眼神里看到了王者

谷爱凌回应冬奥神图出圈:当时在自己的眼神里看到了王者

懂球帝
2026-02-25 13:42:11
樊振东也没想到,德国总理访华仅1天,自己竟因一段采访口碑暴涨

樊振东也没想到,德国总理访华仅1天,自己竟因一段采访口碑暴涨

法老不说教
2026-02-27 15:10:32
遭多国退货,演习不敌歼10C,实战被击落,中国的苏35还有啥用?

遭多国退货,演习不敌歼10C,实战被击落,中国的苏35还有啥用?

书纪文谭
2026-02-25 20:51:08
1960年,毛主席在杭州听戏,演出结束,主席兴犹未尽,想见一人

1960年,毛主席在杭州听戏,演出结束,主席兴犹未尽,想见一人

舆图看世界
2026-02-25 10:45:04
大批F16出动,美重兵逼近黄海,不到1天,特朗普:中方实力太强大

大批F16出动,美重兵逼近黄海,不到1天,特朗普:中方实力太强大

通文知史
2026-02-22 22:57:13
在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

南权先生
2026-02-12 15:39:07
买前白月光,买后真垃圾!这6个家居物品,坑了太多人!

买前白月光,买后真垃圾!这6个家居物品,坑了太多人!

室内设计师有料儿
2026-02-24 15:06:49
为什么梅威瑟要复出对战泰森和帕奎奥?他太穷了

为什么梅威瑟要复出对战泰森和帕奎奥?他太穷了

仰卧撑FTUer
2026-02-26 18:01:03
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

揽星河的笔记
2025-11-12 12:36:17
大二年入百万的唐尚珺,要为母亲盖别墅了,坦言这是他第三次流泪

大二年入百万的唐尚珺,要为母亲盖别墅了,坦言这是他第三次流泪

江山挥笔
2026-02-26 17:08:46
耗资12亿建世界最高佛,如今水喝不起拜不起

耗资12亿建世界最高佛,如今水喝不起拜不起

时光流转追梦人
2026-02-20 13:09:13
“开光改命”的瓜?

“开光改命”的瓜?

文刀万
2026-02-25 18:50:04
业绩大增300%,机器人独角兽,登顶全国第一!

业绩大增300%,机器人独角兽,登顶全国第一!

飞鲸投研
2026-02-26 19:01:05
67岁岳跃利:与二婚妻子住北京,不敢退休,边拍戏边伺候33岁女儿

67岁岳跃利:与二婚妻子住北京,不敢退休,边拍戏边伺候33岁女儿

白面书誏
2026-02-27 14:09:31
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
李嘉欣15岁儿子回香港过年,与父母外出拜年,身高近1.9米太瞩目

李嘉欣15岁儿子回香港过年,与父母外出拜年,身高近1.9米太瞩目

树娃
2026-02-26 11:34:21
还原小米SU7成都事故最后时刻:撞击后9秒断电致门把手失效,燃爆前6.5s曾三次制动

还原小米SU7成都事故最后时刻:撞击后9秒断电致门把手失效,燃爆前6.5s曾三次制动

第一财经资讯
2026-02-26 20:59:11
黄晓明恋情疑曝光仅1天,女方被扒底朝天,暴露了小圈子的恶俗

黄晓明恋情疑曝光仅1天,女方被扒底朝天,暴露了小圈子的恶俗

往史过眼云烟
2026-02-26 23:54:49
詹姆斯和保罗可能卖公司,筹集资金加入拉斯维加斯扩张团队计划

詹姆斯和保罗可能卖公司,筹集资金加入拉斯维加斯扩张团队计划

篮球看比赛
2026-02-27 14:21:34
2026-02-27 16:07:00
测序中国 incentive-icons
测序中国
基因行业领航新媒体
263文章数 16关注度
往期回顾 全部

科技要闻

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

头条要闻

24岁女子生下1男4女五胞胎 孩子爸爸称"心情像过山车"

头条要闻

24岁女子生下1男4女五胞胎 孩子爸爸称"心情像过山车"

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

宝马X5传承版发布:给经典G05的一场体面谢幕?

态度原创

家居
旅游
游戏
房产
时尚

家居要闻

素色肌理 品意式格调

旅游要闻

春光加“碚”!北碚春季赏花攻略出炉

爪哇海海战84周年!战舰世界上线纪念活动,3艘史实船超低价入手

房产要闻

重磅!海南“十五五”规划出炉!未来五年,方向定了!

今年春天最美搭配:西装+半裙,怎么穿都好看!

无障碍浏览 进入关怀版