
真核mRNA在其生命周期中经历一系列重要的加工步骤,例如剪接、聚腺苷酸化、修饰、转运、翻译和降解等。这些过程受到RNA序列中的顺式调控元件及其招募的反式作用因子严格且精密地调控。顺式调控元件广泛分布于RNA序列中,其调控功能受到上下游序列的影响。基于序列解析mRNA调控的规则,不仅对理解基因表达调控机制至关重要, 也将为 设计特定功能的RNA以及 新型RNA药物提供理论依据 。随着机器学习技术的快速发展,研究人员已设计出多种计算工具,用于解析mRNA各个层级的调控图谱。然而,由于调控机制的高度复杂和可用数据量的限制,现有模型仍然面临挑战。此外,目前尚缺乏应用于解析mRNA多层次调控的通用模型框架。
近日,南方科技大学生命科学学院 王泽峰 实验室和中国科学院上海营养与健康研究所 张国庆 实验室合作开发RNA基础语言模型LAMAR( L a nguage M odel for RN A R egulation ),在国际期刊 Genome Biology 发表题为
A foundation language model to decipher diverse regulation of RNAs的研究论文。研究团队采用Transformer编码器作为模型框架,首先在涵盖哺乳动物和病毒的1500万条基因与转录本序列上进行无监督预训练。为促使模型学习RNA序列在上下文中的语义信息,研究引入了“完型填空”式预训练任务,即通过预测被随机遮蔽的核苷酸来建模序列语境。在预训练完成后,团队进一步在编码器上叠加轻量级预测头,并利用带标签的数据集对模型进行微调,从而实现在RNA位点或整体序列层面的调控预测任务
![]()
研究团队在多类 m RNA调控相关下游任务中评估了LAMAR模型的性能 。结果显示,该模型在基于5 ′ UTR预测mRNA翻译效率 的任务中取得了0.66的Spearman相关系数 指标 ,在基于3′UTR预测mRNA半衰期的任务中则达到0.65,分别较当前最优基线模型提升了7%和8%。此外,研究利用训练好的模型预测突变对3′UTR介导的mRNA降解的影响,发现模型预测的突变效应与实验观测值之间呈显著正相关。 研究进一步使用模拟突变的方法预测3 ′ UTR中促进或抑制降解的顺式调控元件,发现已报道的AU-rich元件、PUF结合位点和m6A motif, 同时也发现了一些新型潜在调控 元件。 这些结果说明,模型在微调过程中有效学习到了3′UTR中关键的序列特征及其调控功能。
![]()
图1:LAMAR模型架构及研究流程图
研究还使用公开数据集对模型进行微调,以预测来源于病毒和真核生物的内部核糖体进入位点(Internal Ribosome Entry Site, IRES),并取得了0.99的AUROC性能指标。为了验证模型的泛化能力,研究使用模型预测已发表的高通量筛选文库。 结果显示,模型对已知IRES序列的预测概率显著高于阴性对照序列,表明其具备虚拟筛选IRES的潜力 。 鉴于筛选高翻译活性IRES对开发基于环状RNA(circRNA)的治疗策略具有重要意义,研究进一步利用该模型对单链正义RNA病毒基因组中潜在的新型IRES进行了系统预测,并在多种细胞系中对其中305条序列驱动环形RNA翻译的效率进行了实验验证。结果显示,模型预测概率与实验测得的翻译活性呈显著正相关,进一步证实了该模型在识别新型调控元件方面的实用价值与可靠性。
目前,LAMAR模型已在Github( https://github.com/rnasys/LAMAR )开源,供科研人员使用。
南方科技大学生命科学学院王泽峰教授、中国科学院上海营养与健康研究所张国庆研究员和原中国科学院上海营养与健康研究所、现美国北卡罗莱纳大学教堂山分校胡玥博士为论文共同通讯作者,中国科学院上海营养与健康研究所博士研究生周翰文、胡玥博士为论文共同第一作者。
论文链接: https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03752-x
制版人:十一
BioArt
Med
Plants
人才招聘
学术合作组织
(*排名不分先后)
![]()
战略合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.