
撰文|李淡宁
短串联重复序列(short tandem repeats,STRs)由 1–6 个碱基对组成,是人类基因组中高度可变的元件,对细胞和个体表型具有多种影响。通过短读长和长读长测序技术,人群中常见的 STR 多态性已得到系统表征,并被证明可影响基因表达及复杂性状。罕见的 STR 扩增可导致 60 余种遗传疾病。在人类基因组中,约有 100 万个多态性 STR 位点,每一代子代平均会产生约 50–60 次新的重复长度突变。STR 同样容易发生体细胞突变,并且在至少一个 STR 位点上的终生体细胞扩增可导致疾病发生。
近年来,全基因组关联研究(GWAS)通过研究Huntington 病(HD) 的发病时间或进展过程中的常见遗传修饰因子,为理解体细胞重复序列不稳定性的分子机制提供了重要线索。HD 是一种由 HTT 基因中 CAG 重复序列超过 35 个所导致的遗传性疾病。相关 GWAS 发现,多个影响 HD 进程的遗传修饰因子位于 DNA 修复基因中,这些基因会影响 DNA 重复序列的稳定性。后续研究进一步表明,HD 的神经退行性病变并非仅由遗传扩增导致,而是源于体细胞中该重复序列进一步扩增,超过约 150个CAG 重复的高阈值。尽管目前针对最多16,640名HD患者的遗传修饰因子研究已经为潜在的治疗靶点提供了初步线索,但迄今为止,已识别的潜在靶点数量仍然有限。
近日,来自美国哈佛大学医学院的Po-Ru Loh团队,在Nature杂志上, 发表了题为Insights into DNA repeat expansions among 900,000 biobank participants的文章,报道了该团队为克服从大量短读长 WGS 数据中估计 DNA 重复序列长度及其不稳定性所面临的技术挑战,开发了多种计算方法;并利用这些方法对UK Biobank 和 All of Us(AoU)研究计划中共90万命参与者中356,131 个多态性重复位点的DNA重复序列不稳定性进行了系统分析。这些方法使研究人员能够:表征常见重复序列的等位基因特异性扩增与收缩速率,鉴定影响体细胞重复序列扩增的遗传因素,识别扩增重复序列与疾病之间的关联。
![]()
通过利用来自英国生物样本库( UK Biobank) 和 All of Us(AoU)研究计划的血液来源 DNA 的短读长 WGS 数据,涵盖 490,416 名 UKB 参与者和 414,830 名 AoU 参与者。本文研究人员对 356,131 个多态性重复位点的重复序列不稳定性进行了系统分析。首先研究人员对UK Biobank参与者的 CAG 三核苷酸重复序列进行了分析。全基因组测序(WGS)数据中长度为 151 bp、几乎完全由 CAG 重复单元构成的测序读段(称为 in-repeat reads,IRRs)来识别携带长 CAG 重复等位基因(≥45 个重复单元)。绝大多数 CAG 重复扩增仅发生在极少数位点。
在人类基因组中,共有 18 个常染色体 CAG 重复序列位点在至少 5 名 UKB 参与者中扩增至 ≥45 个重复单元。其中 3 个重复位点在数千名参与者中发生扩增:包括CA10(137,673 人),TCF4(42,004 人),ATXN8OS(7,736 人),这 3 个位点合计占所有 ≥45 重复单元扩增事件的 97%。在这 18 个重复位点中,有 15 个位于转录区域,这与“转录过程本身会促进重复序列不稳定性”的观点一致。此外,其中 9 个重复位点的扩增等位基因已被证实具有致病性。接着研究人员对CAG 重复序列在生殖系中的不稳定性进行了分析。同源继承片段(identical-by-descent,IBD)分析显示,在所有 15 个 CAG 重复位点中,代际突变率均随等位基因长度增加而显著升高。对于 GLS、DMPK 和 ATXN8OS 中最长的常见等位基因,单个重复单元扩增的代际突变率可高达每代 0.5–0.9%。不同重复位点的平均突变率介于 8.2×10⁻⁵ 到 9.5×10⁻⁴ 每代之间,明显高于典型三核苷酸重复序列的突变率,也高于全基因组 STR 的平均水平(约 5×10⁻⁵)。
接下来,研究人员对CAG 重复序列在体细胞中的不稳定性进行了分析。在 15 个 CAG 重复位点中,有 4 个(TCF4、GLS、DMPK 和 ATN1)显示出随年龄增长而显著增加的体细胞扩增率。
这一结果在 All of Us 队列中得到了重复验证,并且在该队列更宽的年龄范围(18–90 岁以上)中更加清晰。在所有重复序列中,TCF4 的体细胞不稳定性最为显著:携带≥25个重复单元的个体,在55岁时通常已有超过1%的血液细胞发生体细胞扩增。
![]()
紧随其后,研究人员进行各种分析,生殖系与血液体细胞中扩增速率的对比显示,不同 CAG 重复位点的血液 / 生殖系相对扩增速率差异可达数倍。TCF4 重复序列 在血液中表现出最高的体细胞不稳定性,但在生殖系中相对稳定;GLS 重复序列 则呈现相反趋势,在生殖系中高度不稳定,而在血液中相对稳定;DMPK 重复序列也呈现类似 GLS 的模式。长 TCF4 CAG 重复序列的体细胞扩增分析显示,TCF4 等位基因在 UKB 中较为常见(42,004 名携带者), 在 AoU 参与者的血液 DNA 中进行的长读长测序(n=1,027,其中 28 人携带长 TCF4 等位基因) 验证了短读长 WGS 所估计的 TCF4 等位基因长度,并显示扩增等位基因存在 广泛的嵌合性。TCF4 重复序列扩增的遗传修饰因子分析显示,在 UKB 和 AoU 的 48,448 名参与者中鉴定出7 个基因组位点,其中的常见变异可调控 TCF4 重复序列在血液中的体细胞扩增(P < 5×10⁻⁸)。其中 4 个位点位于此前已知参与 HTT CAG 重复体细胞扩增的 DNA 修复 / DNA 损伤应答基因附近:MSH3,FAN1,ATAD5,PMS2。另外 3 个修饰位点包括 GADD45A,该基因编码一种可与 R-loop 结构结合的 DNA 损伤应答蛋白。
最后研究人员深入进行了分析:17 个体细胞不稳定 STR 的全基因组扫描结果表明,错配修复(MMR)与相关 DNA 修复通路在调控体细胞 STR 不稳定性中发挥核心作用;DNA 修复基因的遗传变异并非简单地“增强或抑制”重复扩增,而是以 重复序列特异性方式调控其不稳定性。多基因评分对 STR 体细胞扩增的预测能,AAAG 重复序列的大规模遗传调控结果表明,多基因评分能够解释 STR 体细胞扩增表型的相当一部分变异,常见遗传变异在决定个体体细胞重复扩增倾向方面具有 极强的综合效应;多个 AAAG 重复位点显示,随年龄增加而扩增,扩增速率在不同个体间差异显著;与 CAG 重复类似,AAAG 重复的体细胞扩增也受到 DNA 修复基因变异的强烈调控,其主要遗传修饰位点同样集中于:MSH3,FAN1,PMS2,MLH1说明不同重复类型在很大程度上共享分子调控网络。GLS 基因 5′UTR 重复扩增与肾病 / 肝病关联分析结果显示,因GLS 编码谷氨酰胺酶,是肾脏和肝脏能量代谢的重要调控因子;因此,GLS 重复扩增可能通过影响基因表达或转录调控,导致代谢稳态失衡,从而增加肾脏和肝脏疾病风险。体细胞重复扩增在人群中的普遍性分析结果表明,体细胞重复扩增并非罕见异常现象,而是普遍存在的人类分子特征,几乎所有人类基因组都包含 至少一个会在血液中随年龄发生体细胞扩增的重复序列;不同个体之间在体细胞扩增程度上的巨大差异,主要由:重复序列本身的结构,遗传背景,组织特异性因素共同决定。
综上所述,本文研究分析充分,方法改进多样,参与者样本数量极为庞大,多达90万人;分析覆盖率达356,131 个多态性重复位。各种重复序列与疾病关联分析略显不足,仅分析了GLS 基因 5′UTR 重复扩增与肾病 / 肝病的关联。此外,数据归类分析过于笼统。
https://www.nature.com/articles/s41586-025-09886-z
制版人: 十一
学术合作组织
(*排名不分先后)
![]()
战略合作伙伴
(*排名不分先后)
![]()
![]()
转载须知
【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐

点击主页推荐活动
关注更多最新活动!
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.