网易首页 > 网易号 > 正文 申请入驻

清华系细胞大模型登Nature子刊!能对人类2万基因同时建模

0
分享至

白交 发自 凹非寺
量子位 | 公众号 QbitAI

生命科学领域的基础大模型来了!

来自清华、百图生科的团队提出的单细胞基础大模型scFoundation,登上Nature Methods。

该模型基于5000万人类单细胞测序的数据进行训练,拥有1亿参数,能够同时处理约20000个基因。

团队在模型架构上进行了创新,相同参数量下计算时间是传统Transformer架构的3%左右。相关研究成果也被NeurIPS2024接收。

清华大学自动化系博士研究生郝敏升为该论文的第一作者。清华大学张学工教授,马剑竹教授,百图生科宋乐教授为通讯作者。

作为基础模型,它在细胞测序深度增强、细胞药物响应预测和细胞扰动预测等下游任务中表现出卓越的性能提升,并为基因网络推断和转录因子识别提供了新的研究思路。

细胞基础大模型登Nature子刊

通过在大规模语料库上的训练,大模型才具备了基本的语言理解和识别能力。

在生命科学领域,细胞可以被视为拥有自身“语言”的基本结构和功能单元,由DNA序列、蛋白质和基因表达值等构成无数“词语”的“句子”。

那么随之而来的问题是:

能否基于大量细胞的“句子”来开发细胞的基础模型?

目前训练大规模单细胞数据主要存在以下三点挑战:

1、基因表达预训练数据需要涵盖不同状态和类型的细胞景观。然而目前大多数单细胞数据组织松散,全面完整的数据库仍然缺失。

2、在训练过程中,传统的transformer难以处理近20000个蛋白质编码基因构成的“句子”,这使得现有工作通常不得不将模型限制在一小部分预选的基因列表上。

3、 不同技术和实验室的单细胞转录数据在测序深度上存在差异,这妨碍了模型学习统一且有意义的细胞和基因表示。

针对这些问题,研究团队首先收集了超过5000万个涵盖各个器官、肿瘤和非肿瘤的大规模人类单细胞数据集用于训练。

与大型语言模型中的“词-向量”转换不同,scFoundation通过巧妙设计,将连续的基因表达值转化为向量。

针对单细胞数据的高稀疏性以及零值和非零值所包含信息量的差异,研究团队设计了一个非对称编码模块

该模块在保持相同参数规模的情况下,所需的计算量仅为传统语言模型Transformer的3.4%。

此外,研究团队还提出了一种测序深度感知的预训练任务“read-depth-aware (RDA)”,能够对测序深度进行降采样,使得模型在预训练阶段在完成传统的掩膜恢复任务外,还能够由低质量细胞恢复高质量细胞的基因表达信息。

△scFoundation模型及下游应用场景

两种应用范式

scFoundation的应用范式主要包括开箱即用和微调两种:

  1. 从scFoundation得到表征,进一步利用下游方法分析。
  2. 训练scFoundation一层和针对各个任务的MLP头,进行标签预测。

在开箱即用范式上,受益于RDA预训练任务,将scFoundation应用于细胞测序深度增强任务,在不需要进一步微调的情况下达到了比现有训练方法相当甚至更好的效果。

此外,通过构建模型预测细胞对癌症药物干预的反应,对指导抗癌药物的设计及理解癌症的生物学机制至关重要。

基于scFoundation提取的Bulk基因表达数据,能够预测药物半最大抑制浓度IC50及单细胞水平的药物敏感性,显示出在几乎所有药物和癌症类型上预测效果均有显著提升。

而在细胞扰动预测任务中,通过提取单个细胞的基因表征来构建特定的基因共表达网络,scFoundation成功捕捉了不同条件下的细胞和基因表征,显著提高了单/双扰动预测的准确度。

此外,基因表征还可用于构建针对特定细胞类型的基因网络。研究团队在T、B和Monocyte细胞类型中识别出了特异的基因模块和转录因子。在微调应用方面,scFoundation在细胞类型标注任务中的效果远超传统方法。

研究人员还进行了丰富的消融实验,揭示了不同模块设计对性能的影响,相关模型细节已在NeurIPS 2024的xTrimoGene模型中发表。

综上所述,scFoundation模型为建立细胞预训练大模型的模型架构、训练框架,和下游示范应用体系都提供了新的思路和方法,为生物医学任务的学习提供了基础功能,拓展了单细胞领域基础模型的边界。

目前模型权重及代码已开源。同时为了减少计算负担,支持更多用户轻量使用,研究团队也提供了模型相应的API,用户可在线获取scFoundation模型表征,支持CLI、Python SDK和网页端调用。

论文链接
https://www.nature.com/articles/s41592-024-02305-7
https://papers.nips.cc/paper_files/paper/2023/file/db68f1c25678f72561ab7c97ce15d912-Paper-Conference.pdf
代码权重开源:https://github.com/biomap-research/scFoundation
https://aigp.biomap.com/models/1760957084760342530/1760957084772925441

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方支起谈判桌后,伊朗终于醒悟,最该小心的不是美国

中方支起谈判桌后,伊朗终于醒悟,最该小心的不是美国

灿若银烂
2026-02-11 21:22:18
冬奥短道速滑混合2000米接力被绊倒的韩国女选手 凭借初恋脸走红

冬奥短道速滑混合2000米接力被绊倒的韩国女选手 凭借初恋脸走红

Emily说个球
2026-02-11 14:13:00
《太平年》:南唐后主李煜都投降了,李元清为什么还在战斗?

《太平年》:南唐后主李煜都投降了,李元清为什么还在战斗?

烟花五月下苏州
2026-02-11 22:59:21
售罄、断货!山姆宣布:加价!

售罄、断货!山姆宣布:加价!

中吴网
2026-02-09 16:19:27
台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

混沌录
2026-02-10 22:36:08
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

小马达情感故事
2026-02-10 11:50:09
7-0后3-2!U17国足绝杀印尼,邝兆镭半场被换,22号中卫主力不保

7-0后3-2!U17国足绝杀印尼,邝兆镭半场被换,22号中卫主力不保

小火箭爱体育
2026-02-11 21:38:07
《生命树》四大反派上线,孟耀辉杀死多杰,白椿成卧底,白菊复婚

《生命树》四大反派上线,孟耀辉杀死多杰,白椿成卧底,白菊复婚

阿废冷眼观察所
2026-02-11 18:50:07
1973年曾志给毛主席写信诉苦:“我是最早的红军战士,如今却没有军装穿。”

1973年曾志给毛主席写信诉苦:“我是最早的红军战士,如今却没有军装穿。”

文史明鉴
2026-01-20 15:11:14
28岁挪威运动员冬奥会获奖后公开承认出轨,在镜头面前哭泣,还称“想挽回女友”

28岁挪威运动员冬奥会获奖后公开承认出轨,在镜头面前哭泣,还称“想挽回女友”

潇湘晨报
2026-02-11 15:03:45
佛山一大学,发布严正声明!

佛山一大学,发布严正声明!

南方都市报
2026-02-11 17:30:10
“广州前首富”被判无期!“雪松系”200亿集资窟窿何偿?

“广州前首富”被判无期!“雪松系”200亿集资窟窿何偿?

野马财经
2026-02-11 20:40:17
应该装上雷达了,已逼近至服役阶段,美媒:成六代第四原型机曝光

应该装上雷达了,已逼近至服役阶段,美媒:成六代第四原型机曝光

啸鹰评
2026-02-10 23:36:59
周恩来晚年揭秘:若没有毛主席,在苟坝红军将全军覆没!

周恩来晚年揭秘:若没有毛主席,在苟坝红军将全军覆没!

近史谈
2026-02-11 11:30:03
左小青母女同框惊艳全网,女儿清秀颜值超越妈?

左小青母女同框惊艳全网,女儿清秀颜值超越妈?

娱乐领航家
2026-02-11 20:30:07
大胜20分到溃败!哈登被低估,杜兰特赛后明牌,并向火箭提出要求

大胜20分到溃败!哈登被低估,杜兰特赛后明牌,并向火箭提出要求

巴叔GO聊体育
2026-02-11 15:42:21
冯德伦这些年戒烟戒酒、好好生活,守着那间空了整整八年的婴儿房

冯德伦这些年戒烟戒酒、好好生活,守着那间空了整整八年的婴儿房

小光侃娱乐
2026-02-11 16:45:06
中日韩最大财团对比:三星3.2万亿,三菱21万亿,中国第一是谁?

中日韩最大财团对比:三星3.2万亿,三菱21万亿,中国第一是谁?

阿器谈史
2026-01-30 08:40:58
12万吨核动力!004航母分段合拢收官,歼50或将改写海战史

12万吨核动力!004航母分段合拢收官,歼50或将改写海战史

瞩望云霄
2026-02-11 18:42:26
2026-02-11 23:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12154文章数 176382关注度
往期回顾 全部

科技要闻

V4来了?DeepSeek 灰度测试新版本

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

头条要闻

遭特朗普威胁 卡尼一个电话打过去:47亿美元我们付的

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

大孤山风波愈演愈烈 超50位明星扎堆

财经要闻

广州前首富被判无期 200亿集资窟窿何偿

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

教育
亲子
家居
时尚
手机

教育要闻

齐鲁时评:炫富、恶搞、擦边球?八部门联合立新规,这次能管住算法伸向孩子的手吗?

亲子要闻

保护孩子宝妈必学,警惕孩子的卫生强迫行为!

家居要闻

简雅闲居 静享时光柔

3种美翻天的穿搭,换个方式过春天

手机要闻

网传魅族23项目已经停止,公司手机业务即将解散

无障碍浏览 进入关怀版