Nat Commun丨沈宁团队开发大模型RNA相关预测的统一基准测试框架|序列|算法|rna

Nat Commun丨沈宁团队开发大模型RNA相关预测的统一基准测试框架

2025-12-24 18:37:01　来源: BioArt

上海举报

分享至

RNA在生物体中占据核心地位，其功能范畴涵盖基因表达调控、蛋白质合成及疾病发生机制等关键生命过程。随着高通量测序数据的爆发式增长，如何从海量序列中破译生命密码成为了新的挑战。近年来，借鉴自然语言处理技术的预训练基因组语言模型（gLMs）迅速崛起。这些预训练大模型如同掌握了基因组语法的“通才”，通过人类及多物种基因组数据预训练大型 Transformer 架构，无需重新开发即可低成本迁移至各类 RNA 相关预测任务，凭借 “开箱即用” 的优势，让缺乏大模型开发能力或硬件条件的团队也能高效开展研究。

然而，已发表的 gLMs 普遍存在规模庞大、架构复杂的问题，且不同模型的应用场景各有侧重，其在各类任务中的性能差异缺乏系统性验证。面对琳琅满目的模型，研究者往往陷入“选择困难症”，难以判断哪个模型最适配自己的研究场景，这在很大程度上限制了gLMs的广泛应用。

近日，良渚实验室沈宁研究团队在Nature Communications上发表了题为

Benchmarking Pre-trained Genomic Language Models for RNA Sequence-Related Predictive Applications

的论文，针对以上痛点开发了统一的基准测试框架。该框架系统评估了 11 种主流预训练 gLMs 在四类核心 RNA 生物过程任务中的表现，包括非编码 RNA 分类、m6A 修饰预测、可变剪接位点预测及翻译效率预测。研究通过详尽的多指标对比与消融实验，揭示了数据与算法协同的重要性，并证实了gLMs在小样本及长上下文场景下的独特优势。同时，研究发现以往“模型越大越好”的观点并不绝对成立。例如，与应用场景语义适配的预训练数据，以及编码方式同样会对模型性能产生明显的影响。除分析结果外，该工作也留下了一套易用的代码框架，方便用户把感兴趣的模型加进去一起测试。这项工作不仅填补了评测空白，更为广大科研人员提供了一份极具实操价值的RNA序列分析模型选择指南。

图 1 Benchmark框架示意图

为了确保公平比较，研究团队设计了一个灵活可扩展的评估框架 (图1a)。他们聚焦于RNA转录后调控中的四个关键任务，这些任务同时也涵盖了生物问题的四种建模方式：非编码RNA (ncRNA) 分类要求模型将整个序列划分为16个类别中的一种(如miRNA、circRNA等)，涉及序列级多分类问题；N6-甲基腺苷 (N6-methyladenosine, m6A) 修饰预测是二分类任务，需判断序列中心位点是否发生甲基化；可变剪接位点预测 (splice site prediction) 则需在核苷酸分辨率上识别剪接供体和受体，并进一步对组织特异性使用情况进行多标签分类；翻译效率预测 (translation efficiency prediction) 则是一项回归任务，目标是根据5'UTR序列预测核糖体负载均值 (mean ribosome loading, MRL)。每个任务都配备了代表性数据集，样本量从数千到数亿不等，涵盖了不同数据规模和平衡性场景。除了大模型之间的比较，研究还引入了对应领域的传统深度学习算法 (如DeepM6ASeq、SpliceAI等)，作为对比基准。本研究系统整合了11种主流预训练基因组语言模型(gLMs) 进行标准化评估，涵盖RNA-FM、SpliceBERT、DNABERT2等代表性架构(图1b)。这些模型在架构设计、参数规模 (百万级至十亿级参数)、预训练数据构成 (单物种特异性数据至跨物种泛化数据) 及tokenization策略 (传统k-mer分词、BPE分词、全核苷酸编码) 等方面呈现显著异质性。例如，RNA-FM基于无标注RNA数据集进行预训练，SpliceBERT整合了72种脊椎动物pre-mRNA数据构建跨物种表征，DNABERT2与GENA-LM采用BPE分词实现长程依赖建模 (支持36,000 bp上下文)，而Nucleotide Transformer通过全局注意力机制支持长达12,000 bp的输入序列同时，评测还包含多种任务专用方法，如ncRDense (融合结构特征) 和SpliceTransformer (专为剪接设计)。所有模型均采用统一微调策略，在相同数据分割下训练，以避免偏差。值得注意的是，gLMs作为“基础模型”，可通过微调适配不同任务，但其性能受预训练数据匹配度、输入长度等因素影响。这种多样性使本次评测能深入揭示模型特性，为后续应用提供依据。

综合测试结果表明“没有包治百病的模型”，不同架构在特定任务上各有所长：例如，SpliceBERT凭借其对进化保守性知识的利用在m6A任务中脱颖而出，而Nucleotide Transformer则在处理长序列剪接预测方面表现优异。研究深入揭示了模型性能背后的关键驱动因素：模型表现是预训练数据匹配度、输入长度和分词策略复杂交互的结果。基于此，论文提出一张RNA序列分析模型的选择导引图：首先考虑数据量——小样本或不平衡数据优选gLMs；大数据时任务专用方法更高效。其次，任务类型决定输入长度需求 (如剪接需长上下文)，而多模态数据 (如临床图像) 可能需定制模型。计算资源也是关键：SpliceAI等CNN模型训练快50倍，适合初步验证。最后，生物背景至关重要——选用预训练数据与下游任务匹配的模型。这一指南帮助用户避开“越大越好”的误区，实现性能与效率的平衡。当然，AI x 生物学的领域无穷广阔，这些已有的预训练大模型仍有许多可提升的空间。对于有能力探索和开发新模型的研究者，作者也希望目前的benchmark工作能给他们带来启发和帮助，推动生物信息学领域的发展。

本基准测试证实了gLMs在RNA生物学中的巨大潜力，但也揭示当前局限：如长序列处理与计算成本的矛盾、模态表征的不足等。未来，融合多组学数据、开发更高效架构或可突破这些瓶颈。同时，研究强调“生物语境”的重要性——预训练需贴合下游任务，而非盲目扩规模。这项工作不仅为研究者提供了选型“路线图”，还推动了标准化评估流程的建设。随着AI技术进步，下一代gLM有望成为生物医学发现的强大引擎，在疾病机制解析、药物设计等领域发挥更大价值。团队已公开所有代码与数据，鼓励社区共同完善。

文章相关代码已开源，发布在GitHub平台(https://github.com/ShenLab-Genomics/biombenchmark)。

本研究由浙江大学医学院良渚实验室的游宁远、刘畅为共同第一作者，沈宁研究员为通讯作者。浙江大学区块链与数据安全国家重点实验室的伍赛、陈刚等人参与了工作设计与指导。

https://www.nature.com/articles/s41467-025-66899-y

制版人：十一

学术合作组织

（*排名不分先后）

战略合作伙伴

（*排名不分先后）

转载须知

【非原创文章】本文著作权归文章作者所有，欢迎个人转发分享，未经作者的允许禁止转载，作者拥有所有法定权利，违者必究。

BioArt

Med

Plants

人才招聘

近期直播推荐

点击主页推荐活动

关注更多最新活动！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.