网易首页 > 网易号 > 正文 申请入驻

Nature | 填补92%组装缺口!65个近乎完整人类基因组发表,深度解析复杂遗传变异

0
分享至

构建全面的人类泛基因组参考需依赖多样化的完整基因组数据,而复杂结构变异(SV)的解析是理解人类遗传多样性的核心。此前研究中,人类基因组组装存在大量缺口,尤其是着丝粒、高度相似的片段重复区域(SDs)复杂区域,其因技术限制未被完全解析,导致部分蛋白质编码基因缺失。这些“暗物质”区域蕴藏着丰富的遗传信息,与疾病易感性、药物反应等密切相关。

近年来,长读长测序(LRS)技术的发展显著了SV的检测灵敏度,还能结合Hi-C、Strand-seq 等技术实现高质量单倍型组装,对构建人类泛基因组参考图谱草图至关重要。特别地,将LRSPacBio HiFi技术和Oxford Nanopore Technologies (ONT) 超长读长测序技术相结合,为解析这些复杂区域带来了曙光。

近日,来自德国杜塞尔多夫海因里希·海涅大学、美国华盛顿大学等研究团队合作,通过对来自全球28个人群的65个多样性个体(主要来自1KGP)进行深度测序,成功构建130个高度连续的单倍型基因组,填补了先前92%的基因组组装缺口39%的染色体达到端粒到端粒(T2T)完整状态。研究解析了主要组织相容性复合体(MHC)、SMN1/SMN2、AMY1/AMY2 等复杂基因位点的完整序列连续性及1,852个复杂结构变异(CSV),并完成1,246个人类着丝粒的组装验证。将上述数据与泛基因组参考草图结合后,短读长数据的基因分型准确性大幅提升,使得每个个体可检测的SV数量增至26,115个,为疾病关联研究提供了更丰富的结构变异资源

01

130 个单倍型基因组

研究团队选取千人基因组计划(1kGP)队列中65个淋巴母细胞系进行测序,这些细胞系代表来自五大洲、和28个不同人群的个体。结果显示,平均生成47倍覆盖度的PacBio HiFi reads(长约 18 kb)和56倍覆盖度的ONT长读长数据(超100 kb),同时整合了Strand-seq、Bionano光学图谱等多组学数据。

利用Verkko组装流程,通过Graphasing工具结合Strand-seq实现全局定相,最终成功构建了130高精度、高连续性的单倍型基因组。经验证,基因组连续性中位数(auN)达137 Mb,碱基准确性中位数为54-57,已知单拷贝基因完整性达99%,填补了92%的既往PacBio HiFi组装缺口。此外,602条染色体实现T2T无缺口组装,559条以单scaffold 形式组装

图1. LRS、组装及65个人类样本变异检测

02

SV检测与分析


基于上述单倍型组装,以T2T-CHM13为参考,研究团队鉴定出188,500个SVs、630万个插入缺失(indels)和2,390万个单核苷酸变异(SNVs);以GRCh38为参考则鉴定出176,531个SVs、620万个indels和2,350万个SNVs。相较先前数据,SV数据集规模平均增加59%,假发现率平均降低55%

研究团队共鉴定出12,919移动元件插入(MEIs),占总SVs的8.2%,包括559个全长L1插入,96.1%含至少一个完整开放阅读框(ORF),82.3%含两个完整OR。与既往研究相比,MEIs总数增加36.65%。此外,还鉴定出276个基于T2T-CHM13的倒位和298个基于GRCh38的倒位,发现21个新倒位变异。功能分析发现1,535个SVs破坏985个独特的基因,包括37个功能缺失不耐受基因。GWAS分析显示,3,818个SVs与疾病相关SNPs存在强连锁不平衡

SD分析显示,平均每个基因组包含168.1 Mb SDs;92.8Mb SDs在90%以上个体中共享,61.0Mb呈现群体差异性;33 Mb为T2T-CHM13中未注释的新SDs。

研究团队成功组装了30名男性的高连续性Y染色体,7个23%实现男性特异性区域无断裂组装,其中4个为新的完整Y染色体。研究团队还解析了人类基因组最大异染色质区域Yq12的特征,该区域由高度相似但长度可变的DYZ1和DYZ2重复序列交替排列组成。Yq12异染色质区长度差异显著17.85–37.39 Mb)重复序列数量及长度均存在高变异

图2. 针对复杂基因组区域的改进基因组资源

03

复杂因位点的完整解析

研究团队首次完整组装了MHC区域,注释了27–33 个人类白细胞抗原(HLA)基因、140–146个非HLA基因/假基因。99.2%的HLA等位基因与经典分型一致,发现了826个HLA等位基因新变异,鉴定出170个未在已报道参考单倍型中出现的SV。此外,MHC II类DR单倍型还反映了经典的HLA-DR分组系统;对RCCX多等位基因簇的表征则揭示了其模块化结构。

图3. MHC基因位点的结构可变区域

研究团队通过更新的PAV算法识别出1,247个CSVs,平均每个基因组72个,包含128种独特的复杂模式。27%CSV涉及局部重复序列、38%涉及局部倒位。研究团队还成功解析了与人类大脑进化相关的NOTCH2NL和NBPF基因区域的三种独特单倍型结构。

在SMN1/SMN2区域(与脊髓性肌萎缩症相关),研究团队组装、验证并表征了101个单倍型,明确了SMN1/2、SERF1A/B等基因的结构及拷贝数。48%单倍型携带两个SMN拷贝,同时发现发现3个仅含SMN2的潜在疾病风险单倍型。研究团队还鉴定出39种不同的淀粉酶(AMY)单倍型(覆盖83%人群),其中4种常见单倍型占比57%,并首次完全解析了含11个AMY1拷贝的最大单倍型H1L1

图4. 人群中的复杂SV

04

着丝粒的遗传与表观遗传变异

研究团队通过Verkko和hifiasm两种算法完整组装了1,246 个人类着丝粒。验证发现,α-卫星高阶重复(HOR)阵列长度存在显著差异(高达37倍),并鉴定出4,153个新α-卫星HOR变异。表观分析显示,所有着丝粒均含至少一个低甲基化区域(CDR),7%的着丝粒存在两个CDR(双动粒结构。约30% α-卫星HOR序列含移动元件插入,以 L1HS(58%)和 Alu(41%)为主,且多位于CDR外围。

图5. 1,246个人类着丝粒的序列、结构和甲基化模式变化

05

基因分型与泛基因组应用

整合该研究中65个新组装基因组与HPRC中42个基因组构建泛基因组图谱,研究团队使用PanGenie对1kGP队列3,202人进行基因分型,共解析出2,834个SNPs、577万个indels 和47.8万个SV等位基因。与既往数据集相比,每个基因组检测SVs显著增加(26,115个尤其是罕见SVs。基于该泛基因组图谱,靶向工具LocityperMHC基因分型准确率提升97.1%

综上所述,该研究通过高连续性的单倍型组装,首次系统解析了多样化人群中复杂基因位点和着丝粒的遗传变异,填补了人类基因组图谱的关键缺口。整合后的泛基因组参考显著提升了SV的检测能力,为理解人类遗传多样性、解析疾病关联机制提供了重要资源。

参考文献:

Logsdon, G.A., Ebert, P., Audano, P.A. et al. Complex genetic variation in nearly complete human genomes. Nature (2025). https://doi.org/10.1038/s41586-025-09140-6

01

02

03

04

快点亮"在看”吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李善长被处死时已年近80,每天耕地种田,朱元璋为何非要斩他满门

李善长被处死时已年近80,每天耕地种田,朱元璋为何非要斩他满门

千秋文化
2025-12-27 21:50:26
妈祖神圣的外衣被许家彻底撕碎,马云的话成真,小女孩不得已出面

妈祖神圣的外衣被许家彻底撕碎,马云的话成真,小女孩不得已出面

蜜桔娱乐
2026-02-21 13:24:34
黄晓明公开回应“在澳门输掉十几亿”

黄晓明公开回应“在澳门输掉十几亿”

第一财经资讯
2026-02-21 18:40:58
让人心寒!给弟弟三孩子每人500,自己一孩子回500,姐姐决定断亲

让人心寒!给弟弟三孩子每人500,自己一孩子回500,姐姐决定断亲

火山詩话
2026-02-20 15:43:13
耗资12亿建世界最高佛,如今水喝不起拜不起

耗资12亿建世界最高佛,如今水喝不起拜不起

时光流转追梦人
2026-02-20 13:09:13
湖南益阳一女子输液4秒药物过敏不治身亡!药物过敏该如何应对?

湖南益阳一女子输液4秒药物过敏不治身亡!药物过敏该如何应对?

王晓爱体彩
2026-02-21 22:45:17
海南机票贵得离谱,出岛比进岛难十倍,有人提前一个月抢票买不到

海南机票贵得离谱,出岛比进岛难十倍,有人提前一个月抢票买不到

阿芒娱乐说
2026-02-21 16:31:49
为啥有人说爬山发现山上没人卖烤肠,就得立刻下山?有何科学解释

为啥有人说爬山发现山上没人卖烤肠,就得立刻下山?有何科学解释

向航说
2026-02-14 01:40:03
38%暴涨!当所有人都以为外资要跑,他们却在中国疯狂“回血”。

38%暴涨!当所有人都以为外资要跑,他们却在中国疯狂“回血”。

新浪财经
2026-02-08 07:14:05
最积阴德的几件事,做一件能旺三代

最积阴德的几件事,做一件能旺三代

金沛的国学笔记
2025-12-28 21:46:09
一女子顿顿不离生菜,5个月后去体检,医生纳闷:你都吃了啥?

一女子顿顿不离生菜,5个月后去体检,医生纳闷:你都吃了啥?

王晓爱体彩
2026-02-22 02:01:32
扎克伯格认输了!烧掉700亿美金的“元宇宙”,终于败给一副眼镜

扎克伯格认输了!烧掉700亿美金的“元宇宙”,终于败给一副眼镜

南权先生
2025-12-16 17:01:37
21 日俄军战报:哈尔科夫现突破 格里希诺战局扭转 扎波罗热乌军哗变

21 日俄军战报:哈尔科夫现突破 格里希诺战局扭转 扎波罗热乌军哗变

小雪的运动之心
2026-02-22 02:08:25
徐帆发现账户被转走2072万!质问冯小刚:你外面养小3了,花这么多钱

徐帆发现账户被转走2072万!质问冯小刚:你外面养小3了,花这么多钱

八卦王者
2026-02-21 16:12:56
年初五,98岁李嘉诚去慈山寺迎财神,自己走路状态好,李泽钜陪同

年初五,98岁李嘉诚去慈山寺迎财神,自己走路状态好,李泽钜陪同

老吴教育课堂
2026-02-22 00:46:38
浙江派出工作组,在全省开展全覆盖督查检查

浙江派出工作组,在全省开展全覆盖督查检查

娱乐督察中
2026-02-22 00:58:29
英女王最宠的儿子:高大英俊照片被女王放钱包随身携带,如今被王室切割

英女王最宠的儿子:高大英俊照片被女王放钱包随身携带,如今被王室切割

小鱼爱鱼乐
2026-02-21 22:45:41
美军开始撤离

美军开始撤离

Ck的蜜糖
2026-02-22 02:08:19
外籍身份藏着掖着,海外资产早铺好了退路,转头教普通人“吃苦”

外籍身份藏着掖着,海外资产早铺好了退路,转头教普通人“吃苦”

百态人间
2026-01-10 05:20:05
善恶终有报!49岁的李铁再传噩耗,终是为自己的贪婪付出代价

善恶终有报!49岁的李铁再传噩耗,终是为自己的贪婪付出代价

痞子时代
2026-02-12 15:36:53
2026-02-22 04:16:49
测序中国 incentive-icons
测序中国
基因行业领航新媒体
257文章数 16关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

黄晓明澳门赌博输十几亿 本人亲自回应

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

数码
房产
手机
游戏
公开课

数码要闻

物理销毁SSD:结果根本没贯穿PCB!直接就扔到垃圾桶了

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

手机要闻

三星Galaxy S26系列颜色曝光:将推6种配色,两款为线上专属

卡婊总算玩明白了,《安魂曲》双主角盘活生化30周年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版