科学家通过两项研究极大拓展了人类基因组变异目录。
![]()
在人类基因组计划完成22年后,科学家发布了有史以来最全面的人类遗传变异目录。7月23日发表于《自然》期刊的两项研究中,科研团队对全球1084人的DNA进行测序,利用最新技术分析每个个体的长片段遗传物质,拼接这些片段并精细比对基因组,从而深化了对人类基因组"结构变异"的认知 —— 这类变异并非改变DNA编码中的单个"字母",而是影响大段基因序列,可能涉及片段的缺失、新增、位置倒置或迁移。
欧洲分子生物学实验室(EMBL)海德堡分部代理主任、两项研究的共同作者扬·科贝尔表示,该研究揭示了人类基因组中曾因技术限制难以探查的"隐藏"特征。例如基因组中存在大量重复编码区域,过去曾被认为无实际功能。"约二十年前我们称其为'垃圾DNA' —— 这个命名带有严重偏见,"科贝尔解释道,"如今越来越多人意识到这些序列并非垃圾,新研究为这些长期被误解的DNA序列提供了新见解。"
所有研究数据已开放获取,科贝尔强调:"学界可利用我们的发现及研发工具探索疾病遗传基础。我坚信今日发表在《自然》的成果中,部分终将应用于临床诊断。"
千余基因组解密
2003年发布的首个"完整"人类基因组草图中,因技术限制缺失了约15%的序列。2013年科学家将缺口缩小近半,直至2022年首个"无间隙"人类基因组才正式发布。2023年,研究人员推出首个人类泛基因组草图,整合全球47人(而非单一主体)的DNA数据;同年,科学家首次完成Y染色体端到端测序 —— 此前"无间隙"基因组仍缺失这一男性性染色体。
近年技术进步及非欧裔人群DNA采样扩大推动领域发展,最终催生本周《自然》的两项成果。
第一项研究:解码重复区域
研究团队对五大洲26个人群的1019人进行DNA测序。研究人员收集了数万个碱基对构成的"长读长"数据。共同作者、西班牙基因组调控中心博士生赫苏斯·埃米利亚诺解释道:"约100个碱基对的短读长难以区分相似基因组区域,尤其在重复区域。而约2万碱基对的长读长能更准确定位基因组中的唯一位置。"
研究中过半新发现的基因组变异位于棘手的重复区域,包括转座子(即"跳跃基因")。这些基因能在基因组内跳跃复制,其落脚点可能破坏基因组稳定性,引发有害突变甚至导致癌症。共同作者贝尔纳多·罗德里格斯-马丁博士指出:"研究发现部分转座子会劫持调控序列增强活性,这揭示了其诱变能力的生物学机制。"
科贝尔补充道,跳跃基因通过与长链非编码RNA结合,实现远超常规的自我复制:"这是令我们震惊的新机制。"
第二项研究:99%完整度的突破
该研究仅分析65个基因组,但测序完整度达99%(第一项为95%)。"从基因组科学家视角看,这微小差异实则意义重大,"科贝尔强调,"实现最后几个百分点的突破是重大成就。"
该研究采用新型测序技术及分析工具。共同作者李查理教授表示:"项目运用了数年前尚不存在的尖端组装软件。"通过结合高精度长读长与略易出错的超长读长技术,研究成功捕获了首项研究遗漏的DNA片段。
这些"隐藏"区域包括着丝粒 —— 染色体中心控制细胞分裂的关键结构。研究发现约7%的着丝粒可能存在两个纤维附着点(通常为一个)。"这是否意味着这些染色体更不稳定?若纺锤体同时附着两点可能导致功能紊乱,"科贝尔提出假设。李查理认同下一步需通过实验验证着丝粒变异的影响。
共同作者康妮尔博士指出,染色体分裂异常可能引发唐氏综合征等疾病。跳跃基因除诱发癌症外,还能通过突变导致多种遗传病或影响基因开关机制。全面了解跳跃基因多样性将有助于解析其在人类健康与疾病中的作用。
未来展望
科贝尔表示,两项研究使科学家能将新测序基因组与含健康数据的基因组库比对,这是将结构变异关联实际健康结果的第一步,最终推动医学应用。"临床研究必须采用这些测序技术以提高变异检测灵敏度 —— 我们不容错过任何变异。"
李查理补充道,未来需纳入更多代表性不足人群的DNA数据,并优化测序技术与软件。两项研究已标志着重大技术飞跃:"几年前端到端组装完整人类染色体(含着丝粒)几乎不可能,如今算法与软件的成熟让突破成为现实。"
如果朋友们喜欢,敬请关注“知新了了”!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.