撰文 | 柠檬树
基因组学与生物学、生态学和医学有着密不可分的关联。近年来,随着测序数据的海量增长,如何才能更好地分析这些数据,揭示其规律和功能成为了迫切需解决的问题。基因组学的工作流程通常先将测序数据读取映射到参考基因组上【1,2】,从而进一步展开下游分析。参考基因组是生信分析的基础,影响着下游分析的质量。参考基因组的缺失或不完整将极大的限制生物学发现。与参考基因组对齐这一步骤大大影响了测序数据分析的准确度与计算性能的敏捷性。同时,生物的多样性对对齐参考基因组以及下游生物学发现有着许多直接或间接的影响【3,4】,例如:一组患者是否携带不同的病毒株?不同的mRNA转录物是否针对不同的细胞类型或条件?RNA的表达和加工是否因地理或季节而异?因此,一个绕过参考基因组直接从测序数据中挖掘生物学的潜在信息的统计方法,用来统一各式各样的生物学问题集,在基因组学的研究中是有趣且必要的。
近日,来自美国斯坦福大学的Julia Salzman团队Cell期刊上发表题为SPLASH: A statistical, reference-free genomic algorithm unifies biological discovery的文章。研究人员构建了一个新的、普适性强的高效统计算法——SPLASH (statistical Primary aLignment Agnostic Sequence Homing)。SPLASH 可直接从原始测序数据进行序列变化的统计驱动分析,克服了以往基因组学数据分析中对参考基因组的依赖,计算效率高,可大规模运行以检测各种形式的样本特异性序列差异。
作者开发了一个基于k-mer的统计方法SPLASH,用于识别样本相关序列变化(图1)。SPLASH算法基于“锚(anchor)”和“靶(target)”两个概念构建,“锚”可读取中任何特定的k-mer序列,而“靶”为每个k-mer序列相对应的下游的固定偏移量,一个“锚”可对应多个相关联的“靶”。来自不同的细胞、不同的组织、不同的个体或不同的混合群体;又或者来自不同的时间、不同的处理、不同的细胞类型、不同的地理位置的某一组样本,仅需一个FASTQ文件,SPLASH便可检测其差异。SPLASH针对每个“锚”的零假设(H0假设)计算其临界p值,p值越低意味着样本中“靶”的差异越大。SPLASH还为每个“锚”计算一个范围从0到1的“效应值(effect size)”,值越趋向于0,表示两组“靶”的分布越相似;值越趋向于1,表示两组“靶”的分布差异越相斥。和传统基因组学分析方法相比,首先在有参照基因组的情况下,SPLASH可以大大优化计算效率;同时在参考基因组缺失或不全的情况下,SPLASH突破了限制,为下游生物学发现提供了更多的可能性。
图1 SPLASH算法构建
在此基础上,作者基于多来源的测序数据对SPLASH算法进行了验证:
新冠爆发的两年以来,变异菌株激增。研究基于两组来自阳性感染患者的鼻咽拭子采集到的病毒扩增子Illumina测序数据集(流行毒株为Delta/Omicron),在无监督模式下应用SPLASH算法,结果与原始数据中提供的毒株标签(SPLASH未使用该标签)对比发现,SPLASH对毒株的变异亚型、原发继发等类别的划分与标签数据基本一致。同时通过蛋白结构域分析,SPLASH发现刺突蛋白在没有使用任何参考序列的情况下在变异序列中高度富集。以上发现在一定程度上解决了病毒变异难监测的问题,并可以直接通过原始测序样本对患者进行聚类划分,以便后续治疗的开展。而在无参考序列的全新病原体出现时,SPLASH有潜力发挥巨大作用。
传统的单细胞测序数据进行生物信息学分析是需要参考基因组和生物信息学管道,而SPLASH突破性的在单细胞水平上发现了旁系同源体、剪接、等位基因和HLA基因多态性等DNA变异对下游所调控的生物学特征的影响。与此同时,SPLASH在参考基因组完备的人和参考基因组缺失的狐猴这两个物种中,在单细胞测序的水平上检测出了B和T细胞受体的多样性,突破了传统方法的限制,也说明了在不同的物种中SPLASH应用的普适性。SPLASH在对章鱼和大叶藻这两类参考基因组缺失的动物和植物的应用中,发现新的受调节的RNA剪接和蛋白质异形体,并揭示等位基因变异和相关生物的群落间的关系。
图2 SPLASH算法的特异性序列变异验证
综上所述,研究构建了一种可直接分析原始测序数据以检测调控特征的新方法SPLASH,并通过1)识别SARS-CoV-2变异株的复杂突变模式;2)在单细胞测序水平上发现了受调节的RNA亚型;3)揭示了适应性免疫受体序列的多样性;4)发现参考序列缺失的海洋植物大叶藻的许多序列来自附生硅藻,并且与地理和季节相关;5)发现章鱼的组织特异性转录本。以上多样性的验证一致性的揭示了新方法的普适性和优越性(图2)。综上,SPLASH是一种具有普适性的基因组分析新方法,可以在没有元数据或参考基因组的情况下拓展下游生物学发现的可能。该算法的提出大大优化了基因组学上游分析的计算量,也在下游的生物学发现中溅起了和算法名称一样的新水花。
SPLASH算法发布在:
https://doi.org/10.5281/zenodo.8271159
https://github.com/salzmanlab/nomad
https://doi.org/10.1016/j.cell.2023.10.028
参考文献
1.Sherman, R.M., Forman, J., Antonescu, V., Puiu, D., Daya, M., Rafaels, N.,Boorgula, M.P., Chavan, S., Vergara, C., Ortega, V.E., et al. (2019). Assembly of a pan-genome from deep sequencing of 910 humans of African descent.Nat. Genet.51, 30–35. https://doi.org/10.1038/s41588-018-0273-y.
2.Nurk, S., Koren, S., Rhie, A., Rautiainen, M., Bzikadze, A.V., Mikheenko, A., Vollger, M.R., Altemose, N., Uralsky, L., Gershman, A., et al. (2022). The complete sequence of a human genome.Science376, 44–53. https://doi.org/10.1126/science.abj6987.
3.Domingo, E., and Perales, C. (2019). Viral quasispecies.PLoS Genet.15, e1008271. https://doi.org/10.1371/journal.pgen.1008271.
4. H. Tettelin and D. Medini, eds. (2020). The Pangenome: Diversity, Dynamics and Evolution of Genomes (Springer Cham). https://doi.org/10.1007/978-3-030-38281-0.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.