来源 | 生物技术通报
高质量的参考基因组是进行基因功能、群体进化、作物育种等研究的有力工具。构建更多物种的参考基因和完善现有模式物种的基因组,一直是基因组方法和技术领域的研究热点。测序技术的发展为组装提供了短序列测序、单分子测序、光学图谱、Hi-C图谱等多种数据类型,如何组合这些数据,以最低的成本组装出满足后续研究需求的基因组,是科研人员普遍面临的一个问题。对于植物基因组来说,广泛存在的重复序列扩张、全基因组复制或多倍化,以及随后的染色体重排、丢失等演化事件,塑造了基因组上多样化的特征,也在一定程度上为组装带来了难题,使得一些植物无法组装出高质量参考基因组。
近日,《生物技术通报》在线发表综述文章介绍了植物基因组影响组装效果的多种因素,并分类总结了已发表的不同类型基因组的组装策略,期望对研究人员选择测序方案和预估组装结果提供一定的参考。对于基因组较小、杂合度不高、重复序列不多的简单基因组,利用目前的第三代长读长测序可以获得高连续性、高准确率的基因组;对于基因组杂合度较高的二倍体或者同源多倍体基因组,除使用全基因组测序、图谱测序等多种类型的数据外,还需要借助遗传信息或者近缘物种基因组等信息完成组装;对于重复序列含量高达80%的大型基因组,长读长测序数据能够跨过大部分重复序列区域,显著提高该类基因组的组装质量。此外,本文还介绍了泛基因组项目的组装方法。
基因组组装是将全基因组测序的小片段(read,长度 100bp-100kb)通过算法拼接成尽量长的片段(contig 和 scaffold,长度几十 kb 到 Mb 不等)或者整条染色体的过程。组装过程的关键是识别基因组上相邻测序片段的重叠关系,除测序技术外,基因组的杂合度和重复序列对组装效果影响最大[1]。植物基因组往往经历局部复制、全基因组加倍、重复序列扩张等,导致基因组中存在大量相似或者同源的片段,组装时产生冗余的重叠关系,增加组装的困难。由于植物基因组具有非常丰富的多样性,参考已发表的少数物种组装新的物种,有时却无法达到理想的组装效果。测序技术发展提供了短序列测序、单分子测序、光学图谱、Hi-C 图谱等多种测序技术及其组合的组装方案[2],如何以最低成本获得满足研究需求的基因组,是科研人员普遍面临的一个问题。本文综合阐述植物基因组特征与组装效果之间的关系,以期对研究人员选择组装策略、预估组装结果提供一定的参考。
(小编注:综述主要内容有以下8个部分,详细内容请查看论文原文)
1 基因组特征评估
2 简单植物基因组组装
3 高杂合基因组组装
4 高重复基因组组装
5 高倍性基因组组装
6 植物泛基因组进展
7 测序技术发展与组装质量
8 总结与展望
当前各种建库技术、测序平台都在不停发展,获得高质量、高深度、多维度测序数据的成本在快速降低,构建研究物种的参考基因组成为基因组项目的常规任务。随着被解析的基因组数量增加,植物基因组的易变性和多样性不断在各种复杂基因组中得到体现。在实际研究中,每个待组装的基因组所面临的技术问题和后续的分析需求也不尽相同。在项目初期做好基因组特征评估和对组装质量的预期,再选择测序和组装策略是比较明智的做法。泛基因组正逐渐成为研究作物驯化与基因功能的新参考基因组。越来越多的个体基因组完成了高质量组装,使泛基因组的构建更具有实用价值,同时也对数据的存储、可视化以及流程化分析提出新的要求。如何整合参考基因组与多组学数据,实现泛基因组指导作物育种改良成为新的热点方向。除组装方法外,植物基因组面临的还有测序技术方面的挑战。由于细胞壁的存在,以及大量的多糖、次生代谢产物等,从植物细胞中提取高质量、大片段 DNA 构建测序文库经常会遇到困难。例如Nanopore ultra-long 测序技术受限于植物 DNA 提取技术,目前仍未在植物基因组中有应用报道。未来相关测序实验技术的突破也能够为复杂植物基因组解析提供新的契机。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.