参考基因组及其注释|序列|显子|大多数|转录本

参考基因组及其注释

2024-03-15 17:13:45　来源: 推医汇

北京举报

分享至

正文共：1117字

预计阅读时间：3分钟

大多数单细胞RNA测序实验使用人类或小鼠组织、器官样体或细胞培养进行。尽管这些基因组的第一版已经在大约20年前发表，但组装和注释会经常更新。有两个常用的组装文件来源：UCSC（它们的组装被命名为hg19、hg38、mm10等）和GRC（GRCh37、GRCh38、GRCm38）。

UCSC和GRC组装的主要版本在主要染色体上是匹配的（例如，hg38的chr1和GRCh38的chr1相同），但在”contigs“和所谓的”ALT loci“上有区别，这些在次要版本中会发生变化（例如，GRCh38.p13）。基因组组装通常以fasta文件的形式分发，这是一个包含序列名称和序列的简单文本文件。

基因组注释过程包括定义基因组的转录区域（基因），以及注释具有外显子-内含子边界的确切转录本，并为新定义的特征分配类型，例如蛋白质编码、非编码等。下图显示了一个基因（典型真核生物基因的转录本和内含子-外显子结构），它包含5个转录本：3个蛋白质编码（红色）和两个非编码（蓝色）。

基因组注释通常以GTF或GFF3文件格式提供，这些文件以层次结构组织。每个基因由唯一的基因ID定义；每个转录本由唯一的转录本ID和它所属的基因定义。外显子、UTR和编码序列依次分配给特定的转录本。

人类和小鼠基因组注释的流行来源是RefSeq、ENSEMBL和GENCODE。RefSeq是其中最保守的，倾向于每个基因具有最少的注释转录本。RefSeq转录本ID以NM_或NR开头，例如NM_12345。ENSEMBL和GENCODE非常相似，可以在我们的目的中互换使用。这些中的基因名以ENSG（用于人类）和ENSMUSG（用于小鼠）开头；转录本分别以ENST和ENSMUST开头。

除了基因ID，大多数基因还有一个分配给它们的常见名字（“基因符号”）；例如，人类的actin B分配的ensembl ID是：ENSG00000075624，基因符号是：ACTB。人类基因名经常更新，并由HGNC定义，小鼠基因名由类似的联盟MGI决定。

目前ENSEMBL/GENCODE对人类基因组的注释包含约60k个基因，其中有20k个是蛋白质编码的，以及237k个转录本。大多数基因可以粗略地分为蛋白质编码基因、长非编码RNA、短非编码RNA和假基因。在更高的分辨率上，定义了40多种生物类型。基因生物类型的注释通常也会在注释版本之间发生变化，下图显示的了GENCODE版本中基因类型变化的桑基图。

参考资料：Processing Raw scRNA-Seq Sequencing Data: From Reads to a Count Matrix

来源：基因谷

告诉小伙伴

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.