2020年04月13日,武汉大学高等研究院朱玉贤院士团队在国际期刊Nature Genetics发表了题为Genome sequence of Gossypium herbaceum and genome updates of Gossypium arboreum and Gossypium hirsutum provide insights into cotton A-genome evolution的研究论文。这项工作是该团队继雷蒙德氏棉基因组 (Wang et al., Nature Genetics, 2012) ,亚洲棉基因组和群体 (Li et al., Nature Genetics, 2014; Du et al., Nature Genetics, 2018) ,陆地棉基因组 (Li et al., Nature Biotechnology, 2015) 和亚洲棉转录组 (Wang et al., Nature Communications, 2019) 之后,在棉花基因组领域又一次重要突破。
棉花是全球最重要的经济作物之一,约占世界5%的耕地种植棉花。棉属有4个人工驯化的栽培种,草棉 (A1基因组) 和亚洲棉 (A2基因组) 为二倍体A基因组;陆地棉 (AD1基因组) 和海岛棉 (AD2基因组) 为异源四倍体AD基因组。相较于二倍体栽培棉,四倍体棉在纤维长度和品质等方面具有明显的优势。异源四倍体AD基因组是由D和A基因组通过自然杂交和染色体加倍而形成。学者公认其D亚基因组供体为雷蒙德氏棉(D5基因组),其A基因组供体则长期处于争论状态中。
该论文利用最新测序和组装技术解析了世界上首个高精度的A1基因组,并对A2和AD1基因组进行升级。升级后基因组在准确性和完成度等方面具有明显的提高,填补了大量的基因组漏洞,可作为参考基因组。比较基因组发现,A2基因组在1和2号染色体末端具有一个相互易位;异源四倍体的A亚基因组在2和3、4和5号染色体具有两个易位;此外,本论文在A1基因组或A亚基因组的10和12号染色体鉴定得到了两个大的染色体倒位 (图1) 。
图1 棉属基因组共线性分析(a)和新鉴定的两个染色体倒位(b)
该论文从基因组和群体进化等多方面阐明了现有的A基因组起源于可能已灭绝的共同祖先A0。从进化关系上看,A1基因组比A2基因组更接近于A0。该论文提出A0与D5基因组雷蒙德氏棉大约在1.6百万年前 (MYA) 形成异源四倍体,随后,A0基因组在大约0.7百万年前分化形成现存的A1和A2基因组 (图2) 。这些发现最终解决了围绕A基因组起源的争议,并为棉花遗传改良提供了宝贵的基因组资源。
图2 棉花A基因组起源与进化模型(a)和重要进化事件(b)
图3 亚洲棉和草棉群体分析。(a)群体材料地区分布图。绿色、红色和黄色分别代表草棉群体,中国地区亚洲棉群体和印度、巴基斯坦等地区的亚洲棉群体。(b-c)群体PCA、进化关系以及群体结构分析。IPG表示印度、巴基斯坦等地区的亚洲棉群体,CHG表示中国地区的亚洲棉群体。(d-e)全基因组范围群体进化关系权重分析。
该论文利用重测序手段对世界各地区的亚洲棉和草棉群体进行分析。研究发现,尽管A1与A2基因组在进化尺度上分开时间相对较短,但是,二者积累了足够大的遗传差异,已经完全形成两个不同的物种 (图3) 。这些发现明确了A1起源于非洲地区的阿非利加草棉 (var. africanum) ,且A1与A2是独立起源进化并独立驯化的。结合历史记载,该论文认为中国地区的亚洲棉和草棉群体很可能从印度或者巴基斯坦地区引入,随后适应当地环境,形成独特的地理种系。同时,该研究发现草棉和中国地区的亚洲棉群体存在基因交流。
图4 棉属间转座子爆发事件分析。(a)基因组扩增与转座子含量正相关。(b)LTR类转座子爆发丰度和时间分析。(c-d)利用开发的新方法对棉属基因组转座子爆发丰度和时间分析。
该论文对棉属基因组的转座子进行了研究。研究发现,转座子的爆发尤其是LTR类的反转座子是各个基因组大小变化的主要原因。在目前已经完成基因组测序的锦葵科植物里,D5和D亚基因组与木棉、榴莲基因组大小相当,两个A基因组和A亚基因组相对于D基因组具有两倍的扩增 (图4) 。鉴于传统方法在研究转座子方面的局限性,即仅能检测含有完整结构的全长反转座子,本论文开发了新的方法克服了这一限制,对大量碎片化以及全长的LTR类反转座子进行分析,发现棉属在5.7百万年前到0.61百万年前至少具有5次大规模的LTR类反转座子爆发事件,并且其爆发时间与棉属物种间重要分化事件的时间相吻合,这表明转座子的爆发可能是棉属物种分化形成的重要驱动力。
该论文利用比较基因组鉴定到了大量的结构变异位点。与AD1的A亚基因组比较,A1和A2基因组共有 21431个缺失和14566个插入类型的结构变异 (SVs) 事件,其中9378个SVs位于基因上下游5kb区间内,1105个SVs位于内含子内,912位于基因编码区。结合纤维发育时期的表达谱分析,本论文鉴定得到影响基因差异表达的SVs事件。例如,控制超长链脂肪酸 (VLCFAs) 合成的途径是显著富集的通路,通过转基因过表达负责控制VLCFAs合成的关键基因KCS6显著提升了陆地棉的纤维长度 (图5) 。这些鉴定得到的候选位点为棉花育种者提供了丰富的遗传改良位点和靶标,将加快棉花育种进程。
图5 棉基因组结构变异与纤维发育分析。(a)A1、A2和AD1在开花后5-30天期间的棉纤维发育分析。(b-c)A1和A2基因组相对于AD1基因组的变异位点统计。(d)结构变异影响控制超长链脂肪酸(VLCFAs)合成途径基因的表达。(e)棉花转基因过表达实验。
总之,该论文基于组装的三个高质量棉花参考基因组进行基因组进化、比较基因组以及群体遗传等分析,解决了异源四倍体供体和A基因组起源进化的问题,通过开发新方法探究棉属转座子爆发事件,最后从结构变异位点方面阐明四倍体在纤维长度等方面优于二倍体的原因。这一系列研究成果不仅为科学社区提供了基因组和遗传资源,以便于遗传进化、比较基因组分析和分子改良育种,而且,解决了困扰已久的棉花A基因组进化起源问题,这些具有较高的科学价值,兼有重要的现实意义,将加快棉花遗传育种改良进程。
朱玉贤院士和美国农业部 (USDA-ARS)John Z. Yu教授为论文共同通讯作者,朱玉贤院士团队的北京大学黄盖博士和武汉大学吴志国副教授为论文共同第一作者,该研究得到了国家自然科学基金资助。
https://www.nature.com/articles/s41588-020-0607-4
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.