
RNA在生物体中占据核心地位,其功能范畴涵盖基因表达调控、蛋白质合成及疾病发生机制等关键生命过程。随着高通量测序数据的爆发式增长,如何从海量序列中破译生命密码成为了新的挑战。近年来,借鉴自然语言处理技术的预训练基因组语言模型(gLMs) 迅速崛起。这些预训练大模型如同掌握了基因组语法的“通才”,通过人类及多物种基因组数据预训练大型 Transformer 架构,无需重新开发即可低成本迁移至各类 RNA 相关预测任务,凭借 “开箱即用” 的优势,让缺乏大模型开发能力或硬件条件的团队也能高效开展研究。
然而,已发表的 gLMs 普遍存在规模庞大、架构复杂的问题,且不同模型的应用场景各有侧重,其在各类任务中的性能差异缺乏系统性验证。面对琳琅满目的模型,研究者往往陷入“选择困难症”,难以判断哪个模型最适配自己的研究场景,这在很大程度上限制了gLMs的广泛应用。
近日,良渚实验室沈宁研究团队在Nature Communications上发表了题为
Benchmarking Pre-trained Genomic Language Models for RNA Sequence-Related Predictive Applications的论文,针对以上痛点 开发了统一的基准测试框架。 该框架系统评估了 11 种主流 预训练 gLMs 在四类核心 RNA 生物过程任务中的表现,包括非编码 RNA 分类、m6A 修饰预测、可变剪接位点预测及翻译效率预测。研究通过详尽的多指标对比与消融实验,揭示了数据与算法协同的重要性,并证实了gLMs在小样本及长上下文场景下的独特优势。同时,研究发现以往“模型越大越好”的观点并不绝对成立。例如,与应用场景语义适配的预训练数据,以及编码方式同样会对模型性能产生明显的影响。除分析结果外,该工作也留下了一套易用的代码框架,方便用户把感兴趣的模型加进去一起测试。这项工作不仅填补了评测空白,更为广大科研人员提供了一份极具实操价值的RNA序列分析模型选择指南。
![]()
![]()
图 1 Benchmark框架示意图
为了确保公平比较,研究团队设计了一个灵活可扩展的评估框架 (图1a)。他们聚焦于RNA转录后调控中的四个关键任务,这些任务同时也涵盖了生物问题的四种建模方式:非编码RNA (ncRNA) 分类要求模型将整个序列划分为16个类别中的一种(如miRNA、circRNA等),涉及序列级多分类问题;N6-甲基腺苷 (N6-methyladenosine, m6A) 修饰预测是二分类任务,需判断序列中心位点是否发生甲基化;可变剪接位点预测 (splice site prediction) 则需在核苷酸分辨率上识别剪接供体和受体,并进一步对组织特异性使用情况进行多标签分类;翻译效率预测 (translation efficiency prediction) 则是一项回归任务,目标是根据5'UTR序列预测核糖体负载均值 (mean ribosome loading, MRL)。每个任务都配备了代表性数据集,样本量从数千到数亿不等,涵盖了不同数据规模和平衡性场景。除了大模型之间的比较,研究还引入了对应领域的传统深度学习算法 (如DeepM6ASeq、SpliceAI等),作为对比基准。本研究系统整合了11种主流预训练基因组语言模型(gLMs) 进行标准化评估,涵盖RNA-FM、SpliceBERT、DNABERT2等代表性架构(图1b)。这些模型在架构设计、参数规模 (百万级至十亿级参数)、预训练数据构成 (单物种特异性数据至跨物种泛化数据) 及tokenization策略 (传统k-mer分词、BPE分词、全核苷酸编码) 等方面呈现显著异质性。例如,RNA-FM基于无标注RNA数据集进行预训练,SpliceBERT整合了72种脊椎动物pre-mRNA数据构建跨物种表征,DNABERT2与GENA-LM采用BPE分词实现长程依赖建模 (支持36,000 bp上下文),而Nucleotide Transformer通过全局注意力机制支持长达12,000 bp的输入序列同时,评测还包含多种任务专用方法,如ncRDense (融合结构特征) 和SpliceTransformer (专为剪接设计)。所有模型均采用统一微调策略,在相同数据分割下训练,以避免偏差。值得注意的是,gLMs作为“基础模型”,可通过微调适配不同任务,但其性能受预训练数据匹配度、输入长度等因素影响。这种多样性使本次评测能深入揭示模型特性,为后续应用提供依据。
综合测试结果表明“没有包治百病的模型”,不同架构在特定任务上各有所长:例如,SpliceBERT凭借其对进化保守性知识的利用在m6A任务中脱颖而出,而Nucleotide Transformer则在处理长序列剪接预测方面表现优异。研究深入揭示了模型性能背后的关键驱动因素:模型表现是预训练数据匹配度、输入长度和分词策略复杂交互的结果。基于此,论文提出一张RNA序列分析模型的选择导引图:首先考虑数据量——小样本或不平衡数据优选gLMs;大数据时任务专用方法更高效。其次,任务类型决定输入长度需求 (如剪接需长上下文),而多模态数据 (如临床图像) 可能需定制模型。计算资源也是关键:SpliceAI等CNN模型训练快50倍,适合初步验证。最后,生物背景至关重要——选用预训练数据与下游任务匹配的模型。这一指南帮助用户避开“越大越好”的误区,实现性能与效率的平衡。当然,AI x 生物学的领域无穷广阔,这些已有的预训练大模型仍有许多可提升的空间。对于有能力探索和开发新模型的研究者,作者也希望目前的benchmark工作能给他们带来启发和帮助,推动生物信息学领域的发展。
本基准测试证实了gLMs在RNA生物学中的巨大潜力,但也揭示当前局限:如长序列处理与计算成本的矛盾、模态表征的不足等。未来,融合多组学数据、开发更高效架构或可突破这些瓶颈。同时,研究强调“生物语境”的重要性——预训练需贴合下游任务,而非盲目扩规模。这项工作不仅为研究者提供了选型“路线图”,还推动了标准化评估流程的建设。随着AI技术进步,下一代gLM有望成为生物医学发现的强大引擎,在疾病机制解析、药物设计等领域发挥更大价值。团队已公开所有代码与数据,鼓励社区共同完善。
文章相关代码已开源,发布在GitHub平台(https://github.com/ShenLab-Genomics/biombenchmark)。
本研究由浙江大学医学院良渚实验室的游宁远、刘畅为共同第一作者,沈宁研究员为通讯作者。浙江大学区块链与数据安全国家重点实验室的伍赛、陈刚等人参与了工作设计与指导。
https://www.nature.com/articles/s41467-025-66899-y
制版人: 十一
学术合作组织
(*排名不分先后)
![]()
战略合作伙伴
(*排名不分先后)
![]()
![]()
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐

点击主页推荐活动
关注更多最新活动!
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.