东南亚大陆(MSEA)地处南亚、东亚与东南亚岛屿交接地带,孕育了超过3亿人口;作为多文明交融的关键枢纽,其具有丰富的民族、语言与文化多样性。遗传学研究已证实,该地区存在高度遗传多样性与复杂的群体结构,但在全球基因组研究中,MSEA人群的遗传数据仍长期处于边缘化地位,代表性严重不足。这种数据缺失不仅制约了对人类演化历史的完整理解,也限制了区域精准医学的发展。
为填补这一空白,中国科学院昆明动物研究所与泰国、柬埔寨等东南亚多国科研机构合作,发起"中国西南与东南亚人类学联合研究联盟(CASEAC)",旨在通过深度全基因组测序(WGS),系统性揭示东南亚大陆人群的遗传多样性图谱。
近日,中国科学院昆明动物研究所宿兵、张亚平、孔庆鹏团队等在Nature上发表了题为“Genome diversity and signatures of natural selection in mainland Southeast Asia”的文章,展示了CASEAC联盟首次研究成果。研究团队通过深度短读长测序分析了30个MSEA族群中3,023个个体,并对37个代表个体进行长读长全基因组测序,构建了目前最完整的东南亚人群基因组数据集SEA3K(第一阶段)。该研究共鉴定出7,959万个小变异和96,384个结构变异(SV),其中2,283万个小变异和24,622个SV为首次发现;揭示了MSEA人群独特的遗传结构、自然选择特征及古代人类基因渗入模式,为理解人类进化与疾病遗传基础提供了关键资源。
文章发表在
Nature
研究概要
首先,研究团队对MSEA五大语系、30个族群(含24个原住民族群)3,023例个体进行深度短读长全基因组测序,对37例具有代表性的个体进行长读长全基因组测序,构建了东南亚首个大规模整合基因组数据集SEA3K。经严格质控,共识别出7,959万个小变异,包括6,535万单核苷酸变异(SNV)和1,424万短插入/缺失(indels),以及96,384个SV,包括38,531个缺失、55,073个插入、134个重复、920个倒位和1,726个复杂SV。
值得注意的是,SEA3K数据集中2,283万个小变异和24,622个SV为全球首次报道,其中98.77%小变异为低频变异(AF≤0.01),78.0%SV位于基因间区或内含子区,19,438个SV与调控区域重叠,这体现了东南亚人群独特的遗传多样性。
利用SEA3K数据集,研究团队还构建了一个高质量基因型插补参考panel(SEA3K panel)。在MSEA人群中,SEA3K panel准确性显著优于国际通用的1KGP和TOPMedpanel,其将误差率降低了30%-100%,为区域关联研究提供了高效工具。
图1. SEA3K基因组变异统计
主成分分析(PCA)显示,MSEA群体与东亚人群存在遗传亲和性,且MSEA人群遗传分布与地理距离分布显著相关,北部族群与东亚人群遗传亲缘关系更近,而南部族群与南亚及大洋洲人群存在基因交流。此外,大多数MSEA人群不按语系聚集,这表明了该群体具有涉及基因混合和语言转换的复杂历史。
群体结构分析(ADMIXTURE)显示,MSEA人群呈现高度遗传异质性。MSEA和东亚人群共享四个主要遗传成分:红色成分在MSEA占主导,深绿色成分与新石器时代中国南方农耕人群扩张相关,黄色成分与青藏高原及西南少数民族迁徙有关,绿色成分则反映古代共同祖先。连锁不平衡(LD)衰减模式和群体历史动态分析(MSMC2)进一步揭示,MSEA人群在末次冰期经历持续瓶颈效应,在近万年内农业扩张时实现快速增长。
图2.MSEA人群的遗传结构和群体历史
接下来,研究团队评估了MSEA群体中自然选择的全基因组特征,并计算了复合多信号(CMS)评分,最终鉴定出44个强达尔文正向选择基因组区域,共涵盖89个基因,其中81%为新发现候选基因。这些基因主要与身体或生理指标、免疫或炎症反应、新陈代谢、神经系统和心血管系统等相关。
最显著的自然选择区域是染色体1q21.3区域(443kb),该区域具有262个MSEA特异性富集SNVs,涉及毛发形态发生(TCHHL)和皮肤屏障功能(FLG)基因。SV选择分析发现,7,439bp的PEX14内含子缺失在MSEA人群中的频率为14.0%,其可能通过影响染色质开放区域调控骨密度和毛发特征。
图3. MSEA人群中正向选择基因组信号
古基因渗入分析显示,MSEA群体平均携带62.82 Mb古人类序列,其携带的尼安德特人序列含量介于东亚与南亚人群之间,而携带的丹尼索瓦人序列含量接近东亚人群、高于南亚人群。丹尼索瓦人序列在MSEA人群中的渗入模式呈现显著异质性:13个族群表现为单次渗入,而越南VIKI等族群存在两次独立渗入事件,柬埔寨CMLA族群甚至检测到三次不同来源的渗入信号,这提示MSEA可能是古人类与丹尼索瓦人多次杂交的热点区域。此外,古人类序列渗入片段富集于代谢和免疫相关基因。
图4. MSEA人群的古基因渗入图谱
研究团队还对SEA3K数据集进行临床变异注释,在MSEA人群中鉴定出604个致病变异,其中10个高频变异在其他地区罕见,提示需结合区域遗传背景重新评估疾病风险。此外,189个新型纯合蛋白截断变异(PTVs)涉及糖尿病、癫痫等疾病相关基因,凸显东南亚人群独特的疾病遗传基础。
综上所述,该研究首次系统解析了MSEA人群的基因组多样性,填补了全球遗传图谱的关键空白。该研究结果不仅丰富了人类基因组多样性图谱,更为解析东南亚族群迁徙史、遗传适应机制及复杂疾病关联提供了关键数据基础,凸显了区域群体研究在人类遗传学中的核心价值。
目前,CASEAC联盟已经开始了SEA3K研究的第二阶段,即SEA10K,该阶段将更详细地研究东南亚更大、更广泛人群(包括东南亚岛国人群)的遗传模式;推动演化医学与精准医疗的深度融合,助力解决东南亚乃至全球人群的健康挑战。
参考文献:
1.He, Y., Zhang, X., Peng, MS. et al. Genome diversity and signatures of natural selection in mainland Southeast Asia. Nature (2025). https://doi.org/10.1038/s41586-025-08998-w
2.https://kiz.cas.cn/xwzx/kydt/202505/t20250514_7654053.html
01
02
03
04
快点亮"在看”吧
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.