正文共:1117字
预计阅读时间:3分钟
大多数单细胞RNA测序实验使用人类或小鼠组织、器官样体或细胞培养进行。尽管这些基因组的第一版已经在大约20年前发表,但组装和注释会经常更新。有两个常用的组装文件来源:UCSC(它们的组装被命名为hg19、hg38、mm10等)和GRC(GRCh37、GRCh38、GRCm38)。
UCSC和GRC组装的主要版本在主要染色体上是匹配的(例如,hg38的chr1和GRCh38的chr1相同),但在”contigs“和所谓的”ALT loci“上有区别,这些在次要版本中会发生变化(例如,GRCh38.p13)。基因组组装通常以fasta文件的形式分发,这是一个包含序列名称和序列的简单文本文件。
基因组注释过程包括定义基因组的转录区域(基因),以及注释具有外显子-内含子边界的确切转录本,并为新定义的特征分配类型,例如蛋白质编码、非编码等。下图显示了一个基因(典型真核生物基因的转录本和内含子-外显子结构),它包含5个转录本:3个蛋白质编码(红色)和两个非编码(蓝色)。
基因组注释通常以GTF或GFF3文件格式提供,这些文件以层次结构组织。每个基因由唯一的基因ID定义;每个转录本由唯一的转录本ID和它所属的基因定义。外显子、UTR和编码序列依次分配给特定的转录本。
人类和小鼠基因组注释的流行来源是RefSeq、ENSEMBL和GENCODE。RefSeq是其中最保守的,倾向于每个基因具有最少的注释转录本。RefSeq转录本ID以NM_或NR开头,例如NM_12345。ENSEMBL和GENCODE非常相似,可以在我们的目的中互换使用。这些中的基因名以ENSG(用于人类)和ENSMUSG(用于小鼠)开头;转录本分别以ENST和ENSMUST开头。
除了基因ID,大多数基因还有一个分配给它们的常见名字(“基因符号”);例如,人类的actin B分配的ensembl ID是:ENSG00000075624,基因符号是:ACTB。人类基因名经常更新,并由HGNC定义,小鼠基因名由类似的联盟MGI决定。
目前ENSEMBL/GENCODE对人类基因组的注释包含约60k个基因,其中有20k个是蛋白质编码的,以及237k个转录本。大多数基因可以粗略地分为蛋白质编码基因、长非编码RNA、短非编码RNA和假基因。在更高的分辨率上,定义了40多种生物类型。基因生物类型的注释通常也会在注释版本之间发生变化,下图显示的了GENCODE版本中基因类型变化的桑基图。
参考资料:Processing Raw scRNA-Seq Sequencing Data: From Reads to a Count Matrix
来源:基因谷
告诉小伙伴
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.