网易首页 > 网易号 > 正文 申请入驻

Nature | 深度学习模型直接从DNA序列解码人类启动子调控语法

0
分享至


撰文|


人类启动子活性预测的传统深度学习方法依赖于整合大量表观基因组数据进行训练【1,2】,计算成本高且只能反映序列与表达的相关性,难以直接推断因果关系,也无法预测未包含在训练集中的细胞类型或条件下的调控变化。

近日,荷兰乌得勒支昂科德研究所Bas van Steensel团队与Jeroen de Ridder团队合作,共同在Nature上发表了一篇题为Regulatory grammar in human promoters uncovered by MPRA-based deep learning的文章。 研究团队开发了PARM(promoter activity regulatory model) —— 一个基于细胞类型特异性MPRA数据训练的轻量级深度学习模型,能够仅从DNA序列准确预测启动子活性,并解析启动子的调控语法。


为了直接从DNA序列预测启动子活性并克服传统表观基因组模型的局限性,研究者利用K562和HepG2细胞的基因组范围MPRA数据训练了细胞特异性卷积神经网络模型PARM。他们发现PARM能高精度预测启动子活性(K562中Pearson’s R=0.92,HepG2中R=0.89),并能准确预测个体片段的活性以及整合于基因组中的启动子活性(R=0.78-0.80)。通过ISM分析,PARM成功预测了TERT启动子中致癌突变(如C250T和C228T)会增强表达,并在预测血液组织中顺式作用eQTLs方面达到了与大型模型Enformer相当的精度,但参数量(742,337)远少于Borzoi(>3千万)。

为了进一步验证PARM的预测能力并探索其设计全新启动子的潜力,研究者采用遗传算法,以PARM为评估函数,从随机序列开始迭代优化生成合成启动子。他们发现该算法生成了大量PARM预测为高活性的多样化序列。实验验证显示,这些合成启动子的实测活性与预测强相关,其中最强合成启动子的活性与天然最强启动子相当。更重要的是,定向突变PARM预测为关键的12-18个核苷酸,会导致合成启动子活性平均降低3.16±0.77倍,证明模型能精准识别功能序列元件。这些 合成序列与人类基因组无显著相似性,但包含了K562细胞中已知激活因子(如FOS-JUN, ETS, CREB)的结合基序,表明PARM已学会在特定细胞类型中组合有功能的TF基序 。得益于PARM的计算高效性,研究者将其ISM分析应用于30,607个人类启动子,以系统识别影响活性的功能性TF结合位点(即调控位点RS)。他们发现,在K562细胞中,大多数RS与已知TF基序匹配,且对应的TF在细胞内均有表达或由其高度相似的家族成员表达。分析共在20,543个启动子中识别出至少一个RS,而无RS的启动子活性普遍较低。此外,研究者发现了1,402个不与任何已知基序匹配的RS,并对其中一个高频未知基序(TCTCTATGGT)进行DNA亲和纯化与质谱分析,鉴定出ZNF48为其结合TF,并通过体外实验证实,从而证明 PARM能发现罕见且注释不全的功能性TF基序 。

由于全基因组MPRA文库需要大量细胞且可扩展性有限,而PARM训练仅需覆盖启动子的片段,研究者 开发了一种基于捕获策略、高度富集(90%)启动子重叠片段的聚焦MPRA文库 。他们发现,这种文库仅需约500万细胞(比全基因组MPRA少240倍),仍能以平均151倍的覆盖率覆盖所有人类TSS,且在K562和HepG2细胞中测得的启动子活性及PARM的预测能力与全基因组数据相当。利用此经济策略,他们成功为另外七种人类细胞系和一种患者来源的结肠癌类器官生成了高质量数据和PARM模型,模型训练仅需约1天,证明了该策略在实验和计算上的高效性与通用性。

为了在多种细胞类型中实验验证PARM的预测,研究者构建了一个包含十个启动子的合成MPRA文库,在其中系统引入每个核苷酸的所有三种突变,并在七种细胞系中测量每个单点突变的影响。他们发现,在30个通过严格质量控制的启动子-细胞系组合中,PARM预测的突变效应与实测值之间的Pearson相关系数为0.52±0.18,与Enformer(0.50±0.19)相似,而Borzoi表现更不稳定(0.48±0.32)。在识别实验可检测的RS方面,Borzoi的召回率通常最高,但PARM的精确度普遍优于Enformer和Borzoi。这表明 尽管PARM计算上更轻量,但其整体性能相似,且在识别RS时更为保守 。

接下来,研究者利用PARM探索了九种细胞系中启动子调控的差异。他们发现,尽管不同细胞类型间自主启动子活性高度相关(R=0.78-0.95),但 PARM模型仍揭示了大量细胞类型特异性的调控事件 。分析显示,靶向数千个启动子的TF通常在所有细胞类型中均活跃,而靶向较少启动子的TF(如HepG2中的HNF1A/HNF1B,K562中的GATA因子)则表现出明显的细胞类型特异性。一个值得注意的发现是, TBP在其基序上的活性并非在所有细胞类型中普遍存在,这与近期研究提示其非必需性的观点一致 。这些分析表明PARM可用于揭示启动子的细胞类型特异性调控。利用PARM工作流程的经济性优势,研究者通过MPRA和对应模型分析了细胞对三种不同刺激(热激、nutlin-3a、PMA)的响应。他们发现,即使简单的扰动结合聚焦PARM,也能提供关于个体启动子动态调控及责任TF的详细信息。

研究者探究了TF基序的方向和位置是否影响其调控活性。他们发现, 在几乎所有细胞类型和大多数TF基序中,PARM检测到的激活RS在两个方向上的数量相似,但TBP和CTCF-CTCFL是显著例外 。此外,所有启动子汇总的RS在TSS上游-120bp至+10bp范围内呈偏好性分布,峰值在-50bp,这与之前基于线性回归的估计一致。而仅基于序列的基序扫描则分布更平坦且多出约20倍的匹配,表明大多数基序在研究的细胞类型中并无功能。对匹配特定TF基序的RS进行分析,揭示了多样化的TF特异性位置模式,且这些功能性RS的分布比单纯基序扫描得到的分布更为集中,提供了单纯基序出现频率无法提供的功能信息。为了更详细研究 特定TF基序在启动子中的位置效应,研究者使用PARM预测了将单个TF基序插入天然启动子序列各处的影响。他们发现,这种效应高度多样化且依赖于位置 。对30,607个启动子系统插入四种TF基序(NRF1、NFYA、SP1、YY1)的分析揭示了普遍趋势和例外:NRF1、NFYA和SP1基序插入在活跃启动子中会产生多样化的位置效应(包括抑制),而YY1基序则主要表现出激活效应,尤其是在低活性启动子的TSS下游插入时。后续MPRA实验在四种细胞类型中验证了这些预测,确认了NFYA、NRF1和SP1基序在TSS附近或下游的抑制效应,以及YY1在这些位置的最强激活效应,表明这些效应并非普适,强烈依赖于局部序列背景和启动子的基线活性。

综上所述,这项研究 开发了名为PARM的经济高效深度学习框架,通过结合定制化MPRA数据与轻量级卷积神经网络,实现了仅从DNA序列直接预测人类启动子活性,并系统解析了其在多种细胞类型及刺激响应下的转录因子调控语法。 该研究突破了传统依赖海量表观基因组数据的建模瓶颈,以“轻量化”策略实现了对启动子核心调控逻辑的因果性解析,为未来在合成生物学、疾病突变解读及个性化医疗中快速建模细胞特异性基因调控奠定了方法学基础。

https://doi.org/10.1038/s41586-025-10093-z

制版人: 十一

参考文献

1. Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learningbased sequence model.Nat. Methods12, 931–934 (2015) .

2. Kelley, D. R. et al. Sequential regulatory activity prediction across chromosomes with convolutional neural networks.Genome Res.28, 739–750 (2018).

学术合作组织

(*排名不分先后)



战略合作伙伴

(*排名不分先后)



转载须知

【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。

BioArt

Med

Plants

人才招聘

近期直播推荐


点击主页推荐活动

关注更多最新活动!


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两男子偷十几万刮刮乐,全刮完却没中什么大奖:中奖率确实有点低

两男子偷十几万刮刮乐,全刮完却没中什么大奖:中奖率确实有点低

胡言炫语
2026-02-14 05:43:38
韩国测试服:出生率全球倒数第一,底层人正在加速“灭绝”

韩国测试服:出生率全球倒数第一,底层人正在加速“灭绝”

独坐山巅前
2026-02-15 04:03:28
黄秋燕现状曝光!二婚后幸福,俩女儿回北京工作,对李连杰已释然

黄秋燕现状曝光!二婚后幸福,俩女儿回北京工作,对李连杰已释然

小徐讲八卦
2026-02-13 16:50:04
清朝对中国领土的贡献不可磨灭!没有清朝完成一统,后果不堪设想

清朝对中国领土的贡献不可磨灭!没有清朝完成一统,后果不堪设想

文史道
2024-11-25 06:45:02
赵丽颖冯绍峰官宣复婚?冯绍峰写保证书补婚礼,下月办婚事全网祝福

赵丽颖冯绍峰官宣复婚?冯绍峰写保证书补婚礼,下月办婚事全网祝福

八卦王者
2026-02-12 11:29:29
小姨子一家蹭饭三年,我摆出自热米饭,她儿子一句话让所有人沉默

小姨子一家蹭饭三年,我摆出自热米饭,她儿子一句话让所有人沉默

晓艾故事汇
2026-02-14 15:10:30
担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

雪儿爱追剧
2026-02-14 19:56:23
成都一对情侣因为长相酷似,被怀疑是兄妹,DNA鉴定后发现竟是

成都一对情侣因为长相酷似,被怀疑是兄妹,DNA鉴定后发现竟是

黎兜兜
2026-02-14 21:20:58
卡普空特卖:《生化》1到8打包带走不到200元!

卡普空特卖:《生化》1到8打包带走不到200元!

游民星空
2026-02-14 16:52:21
“正常男生不会这样”,家长晒大学儿子,网友:把儿子养成姑娘了

“正常男生不会这样”,家长晒大学儿子,网友:把儿子养成姑娘了

妍妍教育日记
2026-02-10 21:02:10
恭喜!克莱与安踏签下终身合同 12年间售出签名鞋超1000万双

恭喜!克莱与安踏签下终身合同 12年间售出签名鞋超1000万双

罗说NBA
2026-02-14 06:58:33
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
浙江金华高速惊魂20秒:车毁人未伤,这一课所有人都该记住

浙江金华高速惊魂20秒:车毁人未伤,这一课所有人都该记住

王二哥老搞笑
2026-02-14 22:11:14
中戏表演系原主任陈刚主动投案 网传私建109亩园林敛财1.2亿

中戏表演系原主任陈刚主动投案 网传私建109亩园林敛财1.2亿

老猫观点
2026-02-13 18:12:31
向太向华强郭碧婷在新加坡被偶遇,向太不像阔太,郭碧婷成黄脸婆

向太向华强郭碧婷在新加坡被偶遇,向太不像阔太,郭碧婷成黄脸婆

小娱乐悠悠
2026-02-14 09:47:22
华中大最新研究显示:保持性行为有利于抗癌?

华中大最新研究显示:保持性行为有利于抗癌?

马拉松跑步健身
2026-02-12 06:30:09
回家的心免费的路 上海出城高峰来了

回家的心免费的路 上海出城高峰来了

看看新闻Knews
2026-02-14 18:12:04
梅西晒和乐高版大力神杯合照:我们完成了它

梅西晒和乐高版大力神杯合照:我们完成了它

懂球帝
2026-02-14 10:26:18
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
早已杀青却播出无望的7部剧,部部可惜,尤其是最后一部

早已杀青却播出无望的7部剧,部部可惜,尤其是最后一部

小Q侃电影
2026-01-25 13:16:28
2026-02-15 04:51:00
BioArt incentive-icons
BioArt
探索生物艺术之奥秘
9195文章数 18493关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

泽连斯基:冲突可以结束 但首先要结束得体面

头条要闻

泽连斯基:冲突可以结束 但首先要结束得体面

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

本地
房产
教育
艺术
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

房产要闻

三亚新机场,又传出新消息!

教育要闻

假期作业,要定时督促吗?

艺术要闻

你绝对想不到!百大美女竟然在中国当辣妈!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版