网易首页 > 网易号 > 正文 申请入驻

科学家打造元细胞推断方法MetaQ,让百万级测序数据分析成为可能

0
分享至

近日,四川大学彭玺教授团队开发出一款准确、高效的元细胞推断方法 MetaQ,将时间复杂度从现有方法的指数级降低到线性,并具有常数级的空间复杂度。

课题组告诉 DeepTech,这也是首个可以处理任意规模单细胞数据的元细胞推断方法。相较于当前最优的 SEACell 方法,MetaQ 方法在处理 10 万个细胞时,时间效率提升大约 100 倍,内存开销仅有前者的 1/25。由于内存限制的原因,当该团队使用 SEACell 方法的时候,在他们的服务器上无法处理更大规模的数据,但是理论上本次方法在更大规模数据上的计算效率优势会更加明显。

将现有元细胞推断方法复杂度从指数级降低到线性

课题组表示,MetaQ 的最大贡献在于将现有元细胞推断方法的复杂度从指数级降低到线性,在保留生物特性的同时能够显著减少待分析的细胞数量,从而让传统单细胞分析工具处理百万级的测序数据成为可能。

MetaQ 方法显著的效率和可扩展性优势得益于从一种新的视角来理解元细胞。之前的 SEACell 等方法都是通过直接计算细胞间的距离,以“判别式”的方式寻找相近的细胞合并成元细胞。但是,当数据规模增大之后,全局的相似性计算和细胞合并过程会面临巨大的时间成本和内存开销。

与现有方法不同的是,他们受到细胞发育分化过程的启发,发现元细胞的推断过程可以看作是细胞分化的逆过程,即若干个相似的细胞可以回溯到同一个元细胞,而这个元细胞保留了这些细胞共有的特征,它能有效地分化出其下的全部原始细胞。

基于这一思想,他们提出通过“生成式”的细胞量化过程来实现元细胞推断。简单来说,MetaQ 将所有原始细胞量化到一个具有若干可学习条目的码本,每个细胞会被分配到与其最相似的条目,而码本里的每个条目则对应一个元细胞,用于重构它所量化的所有原始细胞。为了更好地重构效果,模型会倾向于把相似细胞量化到同一个条目中,从而去识别同质细胞进而实现元细胞推断。

本次所提出的细胞量化框架主要具备两方面优势:一是避免了细胞间全局相似性的计算,从而能够显著提升计算效率;二是通过改变量化重构的目标,可以轻松适配不同组学或多组学的测序数据,大大提升了方法泛用性。

除了效率上的显著提升,在细胞类型注释、发育轨迹推断和差异表达分析等多个下游任务上,本次 MetaQ 方法也取得了更优性能。

MetaQ 在上游层面实现了测序数据的有效压缩,突破了各类单细胞数据下游分析的计算瓶颈,对于精准医疗、疾病机制解析、药物研发及再生医学等不同应用领域具有深远影响。

首先,MetaQ 有望推动个性化治疗迈向更精细的层面,使得癌症、神经退行性疾病和自身免疫病等复杂疾病的异质性得到前所未有的解析,同时促进靶向治疗方案的优化。

其次,在新药开发过程中,大规模的单细胞数据可用于高通量药物筛选,从而精确揭示药物作用机制及细胞耐药性演化,提高先导化合物筛选的效率。

再次,在免疫治疗领域,大规模单细胞数据可以描绘完整的免疫细胞图谱,指导个体化疫苗设计和细胞治疗策略的优化。

最后,在再生医学方面,干细胞分化的精确调控依赖于对细胞命运决定机制的深入理解,而大规模单细胞分析可提供系统性指导,从而提高组织工程和器官再生的成功率。

总而言之,MetaQ 提供了一个实用的单细胞数据压缩增强工具,显著降低了大规模单细胞数据分析的计算开销,对于各类下游任务均具有推动作用,能够助力研究人员从海量数据中发现新的生物规律。

一劳永逸解决大规模单细胞分析计算复杂度难题

近几年来,该团队尝试开展了一些单细胞智能分析方面的工作。在与华西医院的同行交流的时候,得知目前单细胞测序技术已经非常成熟,可以获得大量高质量的测序数据。而现在单细胞领域研究的瓶颈更多是在下游分析阶段。

简单来说,目前常用的 Seurat、Scanpy 等单细胞分析工具并没有针对大规模数据进行优化,很多分析算法的复杂度都是指数级,这就导致处理几十万个细胞一次可能要等一天多的时间。如果数据规模再大一些就会直接出现内存不足的情况,曾有一支来自华西医院的团队把内存加到 2T 发现也没能从根本上解决计算开销的问题。

尽管一些新开发的基于深度学习的单细胞分析算法,对于大规模数据分析有着比较好的支持能力,但是这些算法大都是只面向某一个特定的任务,比如细胞分群、数据整合等等。

而在实际分析流程中可能会涉及到一连串的任务,需要依次调用不同的算法。然而,不同算法之间的数据接口往往又不互通,这就造成了较高的部署成本和学习成本,因此大家还是更倾向于使用 Seurat、Scanpy 等经典的成熟分析工具,以便在一个框架下完成各种常用任务。

那么,如何让传统的分析工具也能处理大规模数据呢?一种最直接的想法就是对数据进行压缩,其中元细胞推断方法便是通过聚合生物学上相似的细胞群体,将若干个单细胞压缩为单个代表性的元细胞,从而在最大程度上保留生物信息的情况下显著减少待分析的细胞数量。

之前的 SEACell 等元细胞推断方法已经验证所推断得到的元细胞能够很好地作为原始细胞数据的代理,根据元细胞得到的分析结果和根据原始细胞得到的分析结果具有良好的一致性,甚至前者还可能更好一些,因为元细胞在一定程度上缓解了测序数据的稀疏性。

但是在实际使用中他们又发现一个问题:虽然对元细胞进行分析能够显著提升效率,不过从海量数据中准确推断出元细胞这个过程非常的耗时,比如当前效果最好的 SEACell 方法从十万个细胞中推断一千个元细胞需要花费一天多的时间。

换而言之,现有的元细胞推断方法本质上是将计算瓶颈从下游分析转移到元细胞推断阶段,并未真正解决计算复杂度问题。

因此,他们就想开发一个准确、高效的元细胞推断算法,一劳永逸地解决大规模单细胞分析中的计算复杂度问题,助力高通量测序时代单细胞智能分析领域的发展。

解决问题比使用高级方法更重要

沿着上述思路他们开始了文献调研,发现已经有一些元细胞推断方法具备一定能力。然而,试了一下之后发现虽然推断出的元细胞能够作为代理较好地保留原始数据中的信息,但是这些元细胞推断方法还是很慢,并没有从根本上解决计算复杂度的问题。

因为他们课题组是计算机出身,想到人工智能领域用于数据或者模型压缩的经典思路便是量化(Quantization),于是开始尝试设计面向单细胞数据的量化重构框架。

在具体开发中,他们调研了不同组学的单细胞数据的分布特点,做了针对性的数据建模。在初步实验中,他们发现当量化码本的条目个数增大之后,可能会出现码本的坍缩问题,于是他们又进行了方法改进,设计了条目的调整机制。

在实验验证中,他们找到不同规模和不同组学的若干个单细胞数据集,在不同下游任务上验证了此次方法的有效性,借此发现本次方法能在显著提升计算效率的情况下,取得和现有方法差不多甚至稍优的元细胞推断结果。

日前,相关论文以《MetaQ:通过单细胞量化实现快速、可扩展和准确的元细胞推理》(MetaQ: fast, scalable and accurate metacell inference via single-cell quantization)为题发在Nature Communications[1],李云帆是第一作者,彭玺担任通讯作者。

彭玺表示:“我认为在 AI4Science 研究中,最重要是找到合适的研究问题。只要所开发的方法能够真正解决一个哪怕很小、但却是生命科学研究过程中很棘手的一个问题,那我觉得这个研究就是有意义的,并不需要刻意去追求方法设计中用到了多少前沿的、复杂的技术,有效且能解决真问题才是最重要的。”

关于这个方法本身,他们认为现在目前的整体框架已能较好地实现大规模单细胞数据压缩,后续可能会在细节上进行改进。

比如,尝试利用最新的单细胞基座模型来进一步提升性能,面向更多的组学设计相应的数据建模方法,或者针对空间转录组等数据类型进行针对性的方法优化等等。

参考资料:

1.Li, Y., Li, H., Lin, Y. et al. MetaQ: fast, scalable and accurate metacell inference via single-cell quantization.Nat Commun16, 1205 (2025). https://doi.org/10.1038/s41467-025-56424-6

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

健康科普365
2025-12-18 10:01:25
外媒:卢卡申科首次访问朝鲜

外媒:卢卡申科首次访问朝鲜

参考消息
2026-03-25 19:37:47
这辈子走不出牢门,尹锡悦报复李在明的手段,就只剩下折磨狱警了

这辈子走不出牢门,尹锡悦报复李在明的手段,就只剩下折磨狱警了

奥字侃剧
2026-03-26 11:07:34
青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

林子说事
2026-03-26 13:57:35
开火之日就是全军覆灭之时!万万没想到,菲律宾导弹已经瞄准台海

开火之日就是全军覆灭之时!万万没想到,菲律宾导弹已经瞄准台海

黑翼天使
2026-03-24 07:50:52
1971年,陈毅在病房拍了照片,49岁的张茜,一脸憔悴和忧伤

1971年,陈毅在病房拍了照片,49岁的张茜,一脸憔悴和忧伤

抽象派大师
2026-03-26 10:57:02
事发48小时,日方终于表态了,中国小题大做,设套让日本往里钻?

事发48小时,日方终于表态了,中国小题大做,设套让日本往里钻?

我不叫阿哏
2026-03-26 16:46:00
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

阿凫爱吐槽
2026-03-25 15:24:29
《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

阿纂看事
2026-03-26 16:03:34
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
800亿!泉州首富家族,太可怕了

800亿!泉州首富家族,太可怕了

深蓝财经
2026-03-26 18:58:45
7000 家央国企春招,本科却成废纸?门槛高到离谱求职者彻底破防

7000 家央国企春招,本科却成废纸?门槛高到离谱求职者彻底破防

眼界看视野
2026-03-24 11:00:18
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

林轻吟
2026-03-25 19:25:45
勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

司峰阿道
2026-03-26 14:45:09
伊朗伊斯兰革命卫队海军指挥官身亡

伊朗伊斯兰革命卫队海军指挥官身亡

财联社
2026-03-26 16:23:15
张雪峰离世不到48小时,治丧组曝光追悼会内幕,女儿成了“心病”

张雪峰离世不到48小时,治丧组曝光追悼会内幕,女儿成了“心病”

丁丁鲤史纪
2026-03-26 14:49:19
第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

健身狂人
2026-03-26 10:14:34
“能劝一个是一个,海肠捞饭就是智商税”

“能劝一个是一个,海肠捞饭就是智商税”

风味人间
2026-03-26 13:32:37
真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

金山话体育
2026-03-26 08:29:20
伊朗武装部队向以色列发射新一轮导弹

伊朗武装部队向以色列发射新一轮导弹

财联社
2026-03-26 19:42:42
2026-03-26 21:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
亲子
手机
本地
公开课

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

亲子要闻

你好,我是馒头,快开门!

手机要闻

15年经典落幕!MIUI正式停更,澎湃OS全面接棒

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版