点击上方「BioArt植物」↑关注我们!
点击上方「BioArt植物」↑关注我们!
全基因组关联分析 (GWAS) 是一种被广泛应用于寻找表型差异相关的基因位点的技术。在使用基因芯片进行基因型检测的技术中,SNP 就作为基因型数据应用于 GWAS 分析。随着全基因组重测序的广泛使用,科学家们也开始意识到如果同时使用 SNP 和 indel 作为基因型数据来进行 GWAS 分析,可能能够找到更多引起表型差异的基因型差异位点。但是始终没有相关报道支持这一假设。
近日,德国马普所植物育种研究所(Max Planck Institute for Plant Breeding Research)甘祥超博士实验室与英国伦敦大学学院((University College London)Richard Mott 教授合作,以宋宝兴博士为第一作者在 Plos Genetics在线发表了题为 “Recovery of novel association loci in Arabidopsis thaliana and Drosophila melanogaster through leveraging INDELs association and integrated burden test” 的研究论文。该研究指出基因型检测(variant calling)基于两两序列比对的算法。但是这一类的算法在将两个相同或相似的序列(t1,t2)比对到参考序列 r 上时,有 indel 的区域很可能会获得不同的比对结。因此很多完全相同的序列片段会被检测到完全不同的 indel。宋宝兴等发现在拟南芥和果蝇的每个品种中,平均就有高达至少35%-40%的 indel 会有多种序列比对形式。而现有的一些 left alignment 的算法并不能解决这一问题。因此开发了软件 Irisas(https://github.com/baoxingsong/Irisas)使用多序列比对的技术来对 indel 进行归一化。
似序列被比对成了不同的形式,因此以 Col-0 为参考序列的 variant calling 结果具有完全不同的 indel 条目。可以使用多序列比对的方法对两两序列比对的结果进行归一化(Song et. al., 2018, Plos Genetics, Figure 1a)。
使用归一化的 indel,宋宝兴等通过 GWAS 分析发现 TFL1 基因与拟南芥的抽薹时间显著关联。TFL1 是一个已知的影响抽薹和开花时间的基因,但是过去使用 SNP 的 GWAS 的研究并不能检测到该位点。
此文章还提出了可以整合多个 SNP、indel 预测基因的开放阅读框是否有变化(ORFS)。并以 ORFS 作为一种基因型用作 GWAS 分析。通过该方法可以发现 FRIGIDA 基因的 ORFS 与拟南芥在多个不同条件下的开花、抽薹时间显著关联。FRIGIDA 是一种被广泛研究的、影响开花时间的明星基因。但是在以前的 GWAS 分析中,从未检测到 FRIGIDA 与开花时间显著关联。文章中指出这是由于 FRIGIDA 基因在不同的个体中、通过不同的变异发生了独立功能丢失引起的。并通过一个图论模型发现在拟南芥中至少有10%的基因在>5%的品种中发生了独立功能丢失,表明这一方法有很大的潜力。
该研究首次系统的报道了使用 indel 和基因功能进行 GWAS 分析的技术路线。宋宝兴认为这一技术在农作物的 GWAS 分析中将具有巨大的优势。假设了在未来使用三代测序的长 reads 从头拼装的方法进行群体测序时,基于 indel 和 ORFS 的 GWAS 技术将会有更大的应用价值。并表示未来会继续开发相关的开源软件(https://github.com/baoxingsong)。
点击底部“阅读原文”查看论文原文。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.