网易首页 > 网易号 > 正文 申请入驻

Trends Plant Sci | 北京大学现代农业研究院宋宝兴课题组发表植物基因组序列比对方法综述论文

0
分享至

随着测序和组装技术的快速发展,全基因组从头拼装开始逐渐走向了群体规模,并部分的取代了二代重测序技术,应用于群体和多物种的基因组学研究。与二代全基因组重测序技术相比,从头拼装具有能检测到长片段的插入、缺失、倒位、易位等复杂变异的优势。全基因组比对作为基因组序列分析最主要的技术之一,其在群体及数量遗传学研究、基因组进化、系统发育关系、功能序列的识别等方面扮演重要角色,是深入理解基因组序列之间的进化关系、功能差异的核心技术。

现在常用的基因组比对软件大都是由研究人类基因组的科学家针对人类、大鼠、小鼠、黑猩猩等哺乳动物的基因组特点进行开发和优化的。随着近年来越来越多的植物基因组被测序和从头拼装,我们逐渐意识到植物基因组和动物基因组有许多不同的特点:

1)很多亲缘关系较近的植物之间存在全基因组复制和染色体重新排列组合等差异。

2)植物基因组中的转座子非常活跃,因而引入了大量的重复片段。

3)活跃的转座子造成不同基因组之间存在大量长的插入、删除的差异。

4)相比于哺乳动物基因组,通常植物基因组之间存在更多的SNP(比较经典的例子是两个玉米自交系之间的遗传变异,大于人类与黑猩猩之间的差异)。

图1 植物基因组有许多不同于哺乳动物基因组的特点。

这些植物基因组的特点对两两基因组比对和多基因组比对技术提出了不同于哺乳动物的、严峻的挑战。目前针对植物基因组开发的基因组分析工具十分匮乏,严重阻碍了对日益积累的植物基因组的解析。

文章系统总结了数十年来基因组比对软件的算法;根据植物基因组的特点首次提出了全基因组复制(whole-genome duplication aware)比对方法的概念;阐述了多等位基因的普遍性和重要性;展望了未来植物群体规模从头基因组拼装时代,物种内和物种间进行基因组比对以及数量遗传学、群体遗传学分析面临的技术挑战和发展方向。

单碱基水平的序列比对和两两基因组比对技术

经典的序列比对技术是动态规划算法,Needleman-Wunsch algorithm(NWA)和Smith-Waterman algorithm(SWA)诞生于上世纪八九十年代,其时间及内存消耗与待比对的两个序列长度的乘积成正比,计算耗时长、内存消耗大。Banded 方法减少了NWA及SWA的计算资源消耗,但它可能产生非最优比对结果。而Hirschberg算法可以将经典算法的内存消耗降低一个数量级。得益于近些年CPU技术的进步,动态规划算法结合单指令多数据(SIMD)指令集可使比对时间缩短十倍以上。2020年发表的wavefront 算法的内存消耗与输入序列的长度不直接相关,而是与输入序列间的不相似性相关,因而其可以比对更长的序列。

由于计算资源消耗极大,全基因组比对并不是对同源染色体序列进行从头到尾的全局序列比对。即使未来对每一对同源染色体的全局比对在计算消耗方面具有了可行性,但动态规划算法产生的比对具有固定的顺序和方向,使其无法识别倒位或易位等基因组重排变异。此外,当物种发生过全基因组复制时,物种间基因组某些序列的对应关系也不是一对一的。

seed-and-extend或seed-chain-extend方法可以高效的进行大规模的序列比对,该策略通过使用共有的k-mers或者共线性的共有k-mers作为seed向两侧延伸,产生一个近似的最优比对。该思想已经被广泛应用到包括全基因组序列比对的多种序列比对问题。但是在不同源的重复序列区域也会找到共有的k-mer,会产生假阳性的序列比对结果。当序列差异较大时,同源序列之间可能不存在共有的k-mer,最终不会被比对。这类广泛用于哺乳动物基因组序列比对的方法对于具有高度序列多样性以及大量重复元件的植物基因组的比对效果不好。因此应用在哺乳动物研究中广泛使用的基因组比对软件进行植物基因组研究时,要十分小心。

图2 seed-and/chain-extend全基因组序列比对的基本技术流程。

另外一个策略是利用系统发育关系近的基因组的大规模共线性特性。其包括共线性图谱构建,以及使用全局比对算法对每一个共线性区块进行单碱基分辨率的序列比对结果两个步骤。通常使用两个基因组共有的k-mer或者保守的序列片段作为锚点或者节点构建图模型,使用动态规划算法计算图模型的最优路径。这些方法在长indel比对方面表现良好,并且具有较高的灵敏度。得益于最新全局序列比对算法计算效率的提升,minimap2和AnchorWave采用了该策略。

多基因组比对

许多进化分析是基于多个物种样本进行的。多序列比对是多基因组比对的起点,经常被用于系统发育及进化分析。多序列比对通常使用全长输入序列进行比对,类似于全局比对。多序列比对在研究多个个体间的变异类型及保守序列时,可以用来对多个个体之间的插入和缺失进行归一化。

图3 多序列比对能将indel进行归一化

基于动态规划算法的多序列比对由于过长的处理时间及过高的内存消耗而不具有可行性。多序列比对通常使用渐进式算法进行优化和加速。MAFFT、MUSCLE、 CLUSTAL、T-coffee等多序列比对软件都采用了渐进式算法。

在一些全基因组重排分析技术的辅助下,这些渐进式多序列比对的方法也被扩展到了全基因组尺度。例如,ROAST从成对的基因组比对输出结果渐进地构建多物种全基因组比对。Cactus也是采用渐进性的比对策略,通过重构祖先序列的方法进行多基因组比对。但是如果把Cactus应用与植物多物种的全基因组比对,还需要解决多倍体差异的技术挑战。

植物基因组染色质组织方式与哺乳动物不同

不同植物物种的基因组大小相差很大,其通过染色体3D结构的折叠等方式来减少插入片段对正向调控序列和被调控基因之间的关系的影响。植物基因组中的顺式作用元件不一定调节与其临近的基因,多个相邻的基因可能受到共同的调节。共表达基因可能具有功能的联系。因此在比对过程中识别染色体间共线性区块十分必要。应用于植物的基因组比对软件应该能够正确的识别共线性基因模块,并对共线性的基因区和基因间区都进行精确的序列比对。目前,AnchorWave使用了该策略,NGSEP 4也提出了类似的方案,但是还没有在其软件中实现。

全基因组复制及其伴随的染色体重排在植物中普遍存在

目前许多软件仅简单假设序列间一对一同源,在一个基因组中的某段序列只比对到另一个基因组中的一个序列。与动物相比,许多植物在进化历程中发生过多倍体化。多倍化的植物基因组又可以通过染色体重排和染色体片段丢失的方式重新二倍化。这类全基因组复制和随后发生的重新二倍体化对全基因组序列比对带来了极大的技术挑战。

quota-alignment,MCScan-X,CoGe等使用编码基因作为锚点识别基因组、亚基因组间的共线性区块。AnchorWave改进了该思想,其可以产生碱基水平的全基因组比对结果,是首个whole-genome duplication aware的基因组序列比对软件。

但是截止到目前为止,还没有软件能自动的对存在全基因组复制差异物种的基因组进行多基因组比对的分析。

不同长度插入缺失造成的多态性

indel突变对基因组造成影响的总碱基数通常远大于SNP,并且indel的差异能引起表型的差异。DNA复制过程中产生的错误以及损伤修复不完善导致短indel的产生,转座子以及非等位基因的同源重组导致长indel的产生。植物中的转座子活性高、进化快,造成了较多长indel。

一些软件通过识别全基因序列比对结果中不发生序列比对的位置来间接的识别长indel。SyRI、 Assemblytics 和其他自定义流程,通过考虑沿着一条序列的每一对连续的比对、这些比对的间隔和方向来识别indel,但是识别的indel最大长度不超过10kbp。minimap2和AnchorWave通过采用2-piece affine gap 得分的全局比对算法产生长indel的比对,从而能直接的识别不同长度的indel。

图4 多种全局序列比对得分策略的比较

多等位变异在植物群体中普遍存在

由于植物基因组中普遍存在indel和结构变异,SNPs经常和这些变异有位置重叠,因而形成多等位变异。

图5 SNP与indel在位置上重叠,从而形成多等位变异。

使用二代测序技术对植物群体分型时,经常把多等位变异简化为二等位变异(biallelic)。在植物群体中,不同长度的indel、倒位、易位经常会发生重叠。转座子也会插入到先前已经存在的转座子中,即嵌套转座子。这些嵌套的SNP及indel变异与非嵌套相比很可能具有不同的功能。考虑到长indel和倒位会影响基因组的很大一部分序列,因而这种嵌套变异在植物群体中很普遍。值得一提的是,现有的大部分群体遗传学和数量遗传学的理论框架和软件是基于双等位基因的。在未来基因组能正确的识别了多等位基因后,如何进行群体遗传学和数量遗传学的分析,也将对相应的基础数学模型提出技术挑战。

图6 indel与indel在位置上重叠,从而形成多等位变异。

图形基因组可能是利用多等位基因进行进化生物学、群体遗传学和数量遗传学研究的一个技术方案。最近十年,许多物种的图形泛基因组已经被构建,并作为群体规模二代测序数据比对的图形参考基因组。随着基因组测序价格的进一步下降,基因组重头拼装技术有望在未来取代现有的短读长全基因组重测序技术,图形参考基因组期望在不久的将来会被更加普遍使用。

北京大学现代农业研究院为论文第一和通讯单位。康奈尔大学的Michelle C. Stitzer博士为论文的并列通讯作者,世界著名植物遗传学家Edward S. Buckler是文章的共同作者。该文章得到了国家自然科学基金(No.31900486)等项目的资助。

宋宝兴博士近些年来在植物基因组序列分析领域开发了多种算法,发表在PNAS、Genome Research、PLoS Genetics等杂志。课题组现招聘2名具有较好图算法和动态规划算法背景的人员开发前沿的植物基因组序列分析方法,可以提供博士研究生、博士后、副研究员或软件工程师等岗位。有兴趣的同事请发邮件到 songbaoxing168@163.com 进行联系。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧洲主要国家现已接受 船舶通过霍尔木兹海峡将不可避免需要付费

欧洲主要国家现已接受 船舶通过霍尔木兹海峡将不可避免需要付费

财联社
2026-07-02 23:23:04
大陆发出统一最强音后,赖清德回应,黄智贤不装了,对大陆摊牌了

大陆发出统一最强音后,赖清德回应,黄智贤不装了,对大陆摊牌了

共工之锚
2026-07-03 00:14:32
若无意外,2026年下半年中国或迎来4大降价潮,应早做准备

若无意外,2026年下半年中国或迎来4大降价潮,应早做准备

混沌录
2026-07-02 19:52:26
春水堂以技术破局高价壁垒,聚焦成年人独居情感补位

春水堂以技术破局高价壁垒,聚焦成年人独居情感补位

木头玩数码
2026-07-02 12:41:49
唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

清衣渡a
2026-06-30 13:42:14
世体:导致克罗地亚进球无效的微芯片工作原理真的万无一失吗

世体:导致克罗地亚进球无效的微芯片工作原理真的万无一失吗

懂球帝
2026-07-03 15:58:08
清理布朗尼!?詹姆斯父子离队预定!

清理布朗尼!?詹姆斯父子离队预定!

柚子说球
2026-07-03 17:43:36
后来才明白,电动车充满电后不拔,不是充电,是在给电池“加班”

后来才明白,电动车充满电后不拔,不是充电,是在给电池“加班”

沙雕小琳琳
2026-07-02 19:46:52
日本人排队抢购中国相机!佳能尼康大本营,为何被中国偷家了?

日本人排队抢购中国相机!佳能尼康大本营,为何被中国偷家了?

生活新鲜市
2026-07-03 18:39:42
我们为什么养出了一堆没有教养的“废物”?

我们为什么养出了一堆没有教养的“废物”?

教育人陈志文
2026-05-25 11:24:47
日企员工走私稀土案调查,日媒称:中国公民涉嫌帮助,外交部回应

日企员工走私稀土案调查,日媒称:中国公民涉嫌帮助,外交部回应

好贤观史记
2026-07-03 20:31:55
英格兰名宿力劝图赫尔:别让曼联球员出战世界杯对阵墨西哥一战

英格兰名宿力劝图赫尔:别让曼联球员出战世界杯对阵墨西哥一战

领创体育君
2026-07-03 12:47:44
送走马蓉又面临冯清,倒霉的王宝强,终究还是逃不过“女人坑”

送走马蓉又面临冯清,倒霉的王宝强,终究还是逃不过“女人坑”

原来仙女不讲理
2026-07-03 20:43:31
同曦男篮球员大甩卖 三大主力被交易 基本加盟北京男篮和山东男篮

同曦男篮球员大甩卖 三大主力被交易 基本加盟北京男篮和山东男篮

中国篮坛快讯
2026-07-03 17:45:39
电影《怒之杀》官宣确认引进,档期待定

电影《怒之杀》官宣确认引进,档期待定

阿废冷眼观察所
2026-07-03 18:23:17
小米16TB 新品官宣:7 月 1 日,全新开售

小米16TB 新品官宣:7 月 1 日,全新开售

科技堡垒
2026-07-01 10:41:30
彻底撕破脸!被交易至76人后杰伦布朗公开炮轰史蒂文斯与凯尔特人

彻底撕破脸!被交易至76人后杰伦布朗公开炮轰史蒂文斯与凯尔特人

夜白侃球
2026-07-03 11:38:59
大反转!日本出局,主教练森保一下课?日媒:足协给出了续约决定

大反转!日本出局,主教练森保一下课?日媒:足协给出了续约决定

打小我就醜
2026-07-03 06:08:54
WTT美国大满贯:大爆冷!国乒女单3人被淘汰,王艺迪11:1世界冠军

WTT美国大满贯:大爆冷!国乒女单3人被淘汰,王艺迪11:1世界冠军

砚底沉香
2026-07-03 19:06:58
带12瓶茅台去岳父家拜年,小舅子嫌低档,我拎走后妻子打爆我电话

带12瓶茅台去岳父家拜年,小舅子嫌低档,我拎走后妻子打爆我电话

千秋文化
2026-07-03 19:25:04
2026-07-03 21:23:00
BioArt植物 incentive-icons
BioArt植物
植物科学领域最新研究进展
9215文章数 8723关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

60岁老人猥亵8岁女童仅获刑一年三个月 法院决定再审

头条要闻

60岁老人猥亵8岁女童仅获刑一年三个月 法院决定再审

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

"千亿"众邦银行被接管:系严重信用风险

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

艺术
教育
时尚
本地
游戏

艺术要闻

溥仪卖给日本的王羲之真迹!足有5000多字

教育要闻

用话术让孩子进步只是第一步

A-Lin已经这样了,徐佳莹你怎么睡得着!

本地新闻

国内足球之旅?这座小城给你高分答案

肯德基继续开团索尼!KFC游戏主机发售时间曝光

无障碍浏览 进入关怀版