美国国立卫生研究院(NIH)主导的All of Us(AoU)研究项目,旨在招募100万代表美国多样性的志愿者,将其基因组和生物医学数据,与丰富的电子健康记录信息联系起来,以识别与重要健康结果相关的遗传标记,包括疾病易感性、药物反应性等。目前该项目入组人数超过86.4万人。
虽然AoU项目已借助短读长WGS释放了约11亿个基因组变异,包括单核苷酸变异(SNV)、小片段插入/缺失变异(Indel)和结构变异(SV),但在人类疾病和性状关联的基因组变异发现方面仍然留下了大量空白。长读长测序可以生成更长的序列,为短读长测序难以触及的盲点提供了强有力的解决方案。
基于此,AoU研究团队利用PacBio的HiFi测序技术,对队列中具有匹配的纵向电子病历和短读长WGS数据的个体进行了首次也是最大规模的人类遗传变异分析。近日,研究团队在预印本平台medRxiv报道了该研究的第一阶段分析结果,揭示了广泛的基因组变异、数量性状位点(QTL)、性状关联及以前难以处理的位点的种群水平多样性,帮助人们一窥长读长测序在推动精准医疗发展方面的潜力。同时,研究团队开发了一个开源的计算框架,用于可拓展的长读长测序分析,深入理解与人类健康和疾病相关的复杂基因组结构变异。
![]()
主要研究内容
研究团队在AoU项目参与者的基因分型阵列或srWGS数据生成开始之前,从其数据库CDR v7版本中选择了1,027名年龄超过20岁的自报告黑人或非裔美国人的参与者,排除了在测序之前进行选择或祖先确认的可能性(图1)。研究团队对选择的队列进行了HiFi测序(Sequel Ile平台,8x),采用基于深度学习的变异检测工具DeepVariant,成功识别小规模基因组变异(SNV和Indel小于<50bp),对于≥50bp的SV通过集成方法进行检测。
![]()
图1.AoU项目自我报告为黑人或非裔美国人参与者的LRS数据。
作为变异发现的对照,一个子集(n=50)的参与者也使用Oxford Nanopore Technologies(ONT)的纳米孔测序以35x的覆盖率进行测序。最终研究发布了两个SV调用集:一个敏感性最大化的宽松调用集(1,213,876个SV,TPR=0.7)和一个高特异性优化的严格调用集(665,869个SV,TPR=0.9),SV数量比短读长WGS多60%-290%。(图2)
![]()
图2.SV检测与质量控制。
随后,研究团队通过严格SV调用集集成了AoU和人类泛基因组参考联盟(HPRC)的长读长测序调用集(跨越SNV、Indel和SV),经过定相、归算、基因分型分析,获得了包括1074名AoU+HPRC参与者的分阶段、估算和单倍型解析SNV/Indel/SV参考panel,涵盖常染色体。
利用这一AoU+HPRC参考panel,研究团队使用来自1KGP的所有3,202个个体在短读长WGS数据中进行基因分型和输入变异,生成了跨越五个大陆种群的综合SV调用集(图2f)。分析发现,与其他群体相比,具有非洲遗传血统个体的SVs数量最高,比其他大陆人群高10%-20%。交叉分析显示,大多数SV重叠元件(40.3%的编码;43.7%的调控)在所有人群中都是共享的,表明该panel捕获了全球人群共同的变异。此外,大多数估算的SV在非洲遗传祖先中的等位基因频率高于非非洲遗传祖先。进一步群体分化评估发现,8249个SV具有强人群分化,包括BARD1基因的61 bp缺失。
研究团队分析了已知的疾病相关基因位点,例如涉及三联体重复不稳定性和复杂的药物基因组区域,以评估长读长测序在识别具有潜在临床意义的新变异方面的附加价值。
短串联重复序列(STRs)可导致50多种遗传性疾病,而许多这些疾病相关的基因位点仍难以通过短读长WGS或PCR完全表征。为此,研究人员利用长读长测序数据对两个众所周知的三联重复位点进行了详细的表征:与脆性X综合征(FXS)相关的FMR1的5 '非翻译区(UTR)的CGG重复(图3),以及与亨廷顿病相关的HTT编码区CAG重复(图3)。在FMR1中发现4个预突变等位基因(≥55个CGG重复),其中1个预突变等位基因通过母系遗传传给后代后发生完全突变的概率约为83%-93%。这一评估结果得到了该参与者电子健康记录的支持——其有一名表现出FXS相关症状的孩子。在HTT中发现了2个低外显率等位基因(≥36个CAG重复),携带者频率约0.1%,以及12个潜在不稳定的中间长度等位基因。
![]()
图3.扩展的三联体重复序列位点及其与疾病相关的基因结构。
药物基因组位点CYP2D6在常用药物的代谢中有关键作用,研究团队评估了长读长测序组装能否提供更高分辨率的基因分型。结果显示,在1,266个完整覆盖CYP2D6-CYP2D7区域的AoU单倍型中,识别了13种结构构型,包括38个CYP2D6重复、87个全基因缺失、18个杂交等位基因。
在SV检测方面,AoU数据集中共鉴定了251,723个蛋白质编码位点(包括内含子区域)相关的SV,其中68.2%的缺失和63.4%的插入未被短读长WGS检测到,包含8,219个OMIM基因、2,801个遗传疾病优先基因和49个美国医学遗传与基因组学学院(ACMG)推荐基因,展示了长读长测序在改进医学相关变异发现方面的价值。(图4)同时,长读长测序还可以在复杂的、高度多态性的区域中分辨出SV。例如在主要组织相容性复合体中鉴定出723个长读长测序特有的SV。经优先级排序,其中超过99%(574,531)的SV分类为良性,473例SV为罕见变异。
在1KGP样本的表达数量性状位点(eQTL)定位分析中,鉴定出3835个显著的SV-eQTL,涉及2511个医学相关OMIM基因、747个高优先级疾病基因和117个癌症相关基因,突出了SV增加疾病风险的潜在机制(图4)。在3835个SV -eQTL中,144个SV被确定为基因表达的最可能因果变异,例如BID基因上游增强子中的322 bp缺失,BID是参与癌症进展和免疫调控的促凋亡基因。
![]()
图4.AoU中SV的功能影响。
研究团队还将分析扩展到AoU队列(CDRV7)中10,000名自报告为黑人或非裔美国人,在226种不同疾病的基因组中确定了291种SV疾病关联(图5),其中148个(50.9%)关联涉及短读长WGS检测集中不存在的SV。进一步精细分析确定了191对SV疾病对,跨越160个性状(70.8%),表明了长读长测序在捕获临床相关变异方面的重要性。
![]()
图5.SV的全基因组连锁和性状关联。
结 语
长读长测序技术能够检测更大、更复杂的变异形式。该研究表明将长读长测序整合到AoU项目中,可以为基因组变异发现提供变革性的新见解,对罕见遗传病的诊断、性状关联和大规模精准医学计划的推进具有重要意义。
为了将长读长测序的发现更广泛地整合到现有短读长WGS数据集中,研究团队构建了一个包含AoU和HPRC数据的单倍型解析参考panel,弥补了短读长WGS和长读长测序之间的成本和通量差距,并有助于将长读长测序衍生的见解回顾性地应用于群体遗传发现和性状关联的已有数据集。总之,该研究为理解遗传多样性和改善人群的健康结果提供了宝贵资源。
https://www.medrxiv.org/content/10.1101/2025.10.02.25336942v1.full
01
PRS模型
02
03
04
快点亮"在看”吧
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.