Nat Commun | 于吉洋课题组开发新的单细胞转录组数据标准化和混合样本细胞类型反卷积算法|rna|seq

Nat Commun | 于吉洋课题组开发新的单细胞转录组数据标准化和混合样本细胞类型反卷积算法

2025-02-04 10:35:07　来源: BioArt

上海举报

分享至

2025年2月1日，美国圣裘德儿童研究医院 (St. Jude Children’s Research Hospital)于吉洋课题组在Nature Communications上发表了文章Transcriptome size matters for single-cell RNA-seq normalization and bulk deconvolution, 开发了一种新的细胞类型反卷积（cell type deconvolution）模型——ReDeconv。

ReDeconv提出了一种创新的方法，用于标准化scRNA-seq data (单细胞RNA测序数据) ，及拥有bulk RNA-seq data (整体RNA测序数据) 的混合样本的细胞类型反卷积（图1）。细胞类型反卷积的基本思路是：从scRNA-seq data，可以得知不同细胞类型的expression profile (表达谱) 。如果有一个混合样本的expression profile，就可以用各种细胞类型的expression profile去估算混合样本中每一种细胞类型的百分比。ReDeconv的重要贡献在于，它能够解决scRNA-seq data标准化和bulk RNA-seq data反卷积中的关键问题。

图1:ReDeconv框架的全面视图。a，用于scRNA-seq data分析的ReDeconv整合工作流程。b，对scRNA-seq data进行CLTS标准化的过程，以解决与转录组大小相关的（类型I）问题。c，使用CLTS标准化的scRNA-seq data reference进行bulk RNA-seq反卷积的ReDeconv算法的总体方案

scRNA-seq data通常受到RAN测序过程中各种因素的影响，这常常导致同一种细胞类型的转录组大小（细胞的总RNA原始表达计数 - total raw count of RNAs in each cell）在不同的样本或标本中的存在显著差异。在基因级别上，这些因素常常导致同一细胞类型的基因表达在不同样本中有显著变化。例如，细胞类型AS （astrocytes）的Plcb1基因在样本II中的的平均表达大大高于在样本I中的的平均表达，使得样本I和II中的基因表达无法直接比较。

为了解决这个问题，当前scRNA-seq data的分析处理算法模型，如Seurat，对数据进行CP10K标准化处理（把所有细胞的转录组大小变为10,000）。尽管这种标准化有效地使同一细胞类型的基因的平均表达在不同样本中变得相似，但它也引入了一个新问题：它以不均匀的比例放大了不同细胞类型的 cell expression profiles。这种不均匀的放大过程使得转录组大小较小的细胞的expression profile被过度放大，而转录组大小较大的细胞的expression profiles被缩小，这导致在比较不同细胞类型的基因表达时产生了一个严重的问题。例如，基因Plcb1在L5 （L5 IT细胞）中的表达量应该比在AS细胞中的更高。然而，在CP10K标准化后，Plcb1在AS细胞中的表达变得更高。因此，如果使用Plcb1作为marker gene （标记基因）来确定Seurat cluster （Seurat簇）的细胞类型，会错误地将AS细胞标注为L5 IT细胞。除了有导致细胞类型标注的问题，如果使用CP10K标准化的scRNA-seq data作为reference (背景参考) ，CP10K还会导致细胞类型反卷积的问题（对于bulk RNA-seq data and spatial transcriptomics 都是如此），ReDeconv称之为Type-I问题。另外，如果在细胞类型反卷积计算时，用作reference 的scRNA-seq data存在细胞类型标注错误，得到的某细胞类型的百分比可能是属于另一种细胞类型的。顺便说一句，这个问题并不仅限于CP10K标准化方法，其他的方法，如CPM，TPM，SCnorm，和SCTransform等等，也存在这个问题。

ReDeconv 的作者们开发了一种新的scRNA-seq data标准化方法（图1b），CLTS，它可以解决RNA测序过程中的各种因素引起的主要问题，同时不会出现不均匀比例放大不同细胞类型的expression profile的问题。通过将Seurat与CLTS结合，可以避免由CP10K引起的错误细胞类型标注的问题（ ReDeconv网站有提供怎样将Seurat与CLTS结合的样本程序）。如果使用CLTS来标准化用作细胞类型反卷积的scRNA-seq data reference，反卷积中的Type-I问题也可以避免。

CLTS模型的基本假设是：

细胞转录组大小的真实值，或者说细胞真实表达的RNA的总量，对于任何类型的细胞都应稳定在一个狭窄的区间范围内。然而，需要注意的是，不同类型的细胞的转录组大小真实值可能存在显著的差异。
从任何scRNA-seq data中得到的细胞的总原始计数，实际上是细胞转录组大小的测量值。并且，同一样本中所有细胞的转录组大小的测量值应与其真实值成比例。整体上，这个比例对同一样本中的所有的细胞有比较相似的值。为了简便，通常将细胞的“转录组大小的测量值”称为“转录组大小”。
转录组大小的测量值与其真实值的比例对于不同样本中的细胞可能存在很大差异。这就是导致同一种细胞类型的基因在不同样本中的表达有显著差别的原因。

研究人员的假设得到了很多scRNA-seq data的支持。这些包括：

不同类型的细胞的转录组大小表现出相当大的变化，而同一类型的细胞则保持在一个狭窄的区间范围内（图3a）。
不同样本中不同类型的细胞的平均转录组大小显示出强烈的线性关系。基本上，通过将任何两个样本中其中一个样本中的所有细胞类型的平均转录组大小乘以一个常数，可以使这两个样本中所有匹配细胞类型的平均转录组大小变得相似。
这种线性关系不仅在同一物种的样本之间保持，如在两个小鼠脑样本之间，也在不同物种的样本之间保持，如在一个小鼠脑样本和一个人脑样本之间。

在使用CLTS模型时，输入应该是原始计数的scRNA-seq data。如果一个原始计数scRNA-seq data中的所有细胞都来自一个样本，CLTS模型不需要进行任何调整，并输出相同的原始计数scRNA-seq data。相反，如果原始计数scRNA-seq data中的细胞来自多个样本，CLTS会将一个样本设定为基线。对于任何其他样本，CLTS将利用不同样本中不同类型的细胞的平均转录组大小的线性关系进行标准化。使得基线样本和其他样本中所有匹配细胞类型的转录组大小平均值在标准化后变得相似。很明显，不同于CP10K方法，会使有的细胞的转录组大小变得一样大，用CLTS标准化后的scRNA-seq data，不同类型细胞的平均转录组大小的相对比例的信息是得到保持的。

尽管细胞类型反卷积问题已经研究了十多年，一些模型，如CIBERSORTx，已经被广泛用于癌症研究，但还有一些关键问题没有得到解决或被注意到。研究人员将这些问题分为三类：Type-I，Type-II和Type-III问题。对于顶级模型BayesPrism、CIBERSORTx和MuSiC，如果按照它们的软件手册选择scRNA-seq和bulk RNA-seq data的标准化方法，那么这三个模型都有Type-II和Type-III问题，而BayesPrism和CIBERSORTx还有Type-I问题。这些问题对这些模型的反卷积结果产生了重大影响。研究人员开发ReDeconv的动机是有效解决这三种类型的问题。

之前提到，将CP10K标准化应用于scRNA-seq data reference可以在细胞类型反卷积中引起Type-I问题。由于CP10K可以放大转录组大小较小的细胞的expression profiles，同时缩小转录组大小较大的细胞的expression profiles，在bulk RNA-seq data反卷积的计算中，这将导致减少转录组大小较小的细胞类型的百分比，并增大转录组大小较大的细胞类型的百分比。这并不难理解。假设混合样本中某一细胞类型有1000个细胞，这种细胞类型的某个基因的平均表达量是4，那么这种细胞类型对混合样本中该基因表达的贡献应该是4000。如果CP10K将这种细胞类型的这个基因的表达量放大到8，那么在计算中，这种细胞类型的500个细胞就足够对混合样本中该基因的表达贡献4000。因此，在模型评估时，可以发现，对于任何具有Type-I问题的方法，预测的细胞类型百分比会被放大或缩小。并且放大或缩小与细胞类型的转录组大小有关。作者特别指出，由于知名方法，CIBERSORTx和BayesPrism总是将CP10K或CPM标准化应用于scRNA-seq data reference，即使使用原始计数（raw-count）或CLTS标准化的scRNA-seq data作为输入，它们总是有Type-I问题。

Type-II问题是由于在反卷积中使用未匹配基因长度标准化的scRNA-seq和bulk RNA-seq data作为输入引起的。许多人可能没有注意到，由于scRNA-seq和（total） bulk RNA-seq的协议差异，在原始计数下，scRNA-seq data中的基因表达与基因长度无关，而在bulk RNA-seq data中与基因长度有关。因此，如果使用原始计数的scRNA-seq和bulk RNA-seq data作为反卷积的输入，那么会有Type-II问题。从MuSiC的结果，可以看到Type-II问题对反卷积影响非常大。类似，如果scRNA-seq和bulk RNA-seq data都是TPM，Type-II问题同样回发生。注意：大部分的bulk RNA-seq data 一般是用total RNA-seq技术。如果是用mRNA-seq技术，其原始计数的基因表达与基因长度无关。

Type-III问题与模型的稳定性有关。对于任何类型的细胞，scRNA-seq data和bulk RNA-seq data中基因的表达平均值通常有差异。因此，对于任何只利用从scRNA-seq data中获得的细胞类型基因表达平均值信息进行反卷积的方法，这种差异将强烈影响解卷积的性能。为了解决这类问题，ReDeconv模型首先选择表达更稳定的特征基因。然后，ReDeconv模型还将基因表达的方差信息整合到新模型中。因此，ReDeconv的性能得到了极大的提高。

最后，ReDeconv的通讯作者于吉洋教授提到，由于真实的bulk RNA-seq data通常没有细胞类型百分比的准确数据，而合成的bulk RNA-seq data可能没有这些问题，所以大多数人在进行模型评估时并没有意识到这些问题的存在。例如，如果使用CP10K scRNA-seq data去合成bulk RNA-seq data，并且也用作反卷积的reference，那么Type-I和Type-II问题可能不存在，Type-III问题也会最小化。这就是为什么这些问题之前没有得到解决的一个重要原因。

组织内不同细胞类型的复杂排列对于组织功能和稳态至关重要。细胞组成的变化往往与疾病进展相关。研究组织内的细胞组成对于推进生物医学研究至关重要，它可以提供对疾病进展的生物学或病理学过程（如肿瘤发生和肿瘤-肿瘤微环境交互）的深入理解。反卷积模型能够利用以前研究中的大量bulk RNA-seq data进行这种研究。由于类型I，类型II和类型III的问题会严重影响反卷积的结果，因此当准备使用某个模型做反卷积前，应该确定一下这个模型是否受到上述三种类型的问题影响。在使用ReDeconv时，如果用CLTS 方法去标准化raw-count scRNA-seq data 以及用TPM (total) bulk RNA-seq data 作为输入，就不会有Type-I, Type-II, 和Type-III问题。ReDeconv可以更准确地标注scRNA-seq data的细胞类型以及计算bulk RNA-seq data 的各种细胞类型的百分比。为探索复杂疾病组织中的细胞组成和功能提供了一个全新的工具。

想得知更多关于ReDeconv的功能及使用手册，请查看网站：

https://redeconv.stjude.org。

https://www.nature.com/articles/s41467-025-56623-1

制版人：十一

参考文献

1. Lu, S., Yang, J., Yan, L. et al. Transcriptome size matters for single-cell RNA-seq normalization and bulk deconvolution.Nat Commun16, 1246 (2025). https://doi.org/10.1038/s41467-025-56623-1

BioART战略合作伙伴

（*排名不分先后）

BioART友情合作伙伴

（*排名不分先后）

转载须知

【非原创文章】本文著作权归文章作者所有，欢迎个人转发分享，未经作者的允许禁止转载，作者拥有所有法定权利，违者必究。

BioArt

Med

Plants

人才招聘

会议资讯

近期直播推荐

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.