网易首页 > 网易号 > 正文 申请入驻

Nat Commun丨沈宁团队开发大模型RNA相关预测的统一基准测试框架

0
分享至


RNA在生物体中占据核心地位,其功能范畴涵盖基因表达调控、蛋白质合成及疾病发生机制等关键生命过程。随着高通量测序数据的爆发式增长,如何从海量序列中破译生命密码成为了新的挑战。近年来,借鉴自然语言处理技术的预训练基因组语言模型(gLMs) 迅速崛起。这些预训练大模型如同掌握了基因组语法的“通才”,通过人类及多物种基因组数据预训练大型 Transformer 架构,无需重新开发即可低成本迁移至各类 RNA 相关预测任务,凭借 “开箱即用” 的优势,让缺乏大模型开发能力或硬件条件的团队也能高效开展研究。

然而,已发表的 gLMs 普遍存在规模庞大、架构复杂的问题,且不同模型的应用场景各有侧重,其在各类任务中的性能差异缺乏系统性验证。面对琳琅满目的模型,研究者往往陷入“选择困难症”,难以判断哪个模型最适配自己的研究场景,这在很大程度上限制了gLMs的广泛应用。

近日,良渚实验室沈宁研究团队在Nature Communications上发表了题为

Benchmarking Pre-trained Genomic Language Models for RNA Sequence-Related Predictive Applications
的论文,针对以上痛点 开发了统一的基准测试框架。 该框架系统评估了 11 种主流 预训练 gLMs 在四类核心 RNA 生物过程任务中的表现,包括非编码 RNA 分类、m6A 修饰预测、可变剪接位点预测及翻译效率预测。研究通过详尽的多指标对比与消融实验,揭示了数据与算法协同的重要性,并证实了gLMs在小样本及长上下文场景下的独特优势。同时,研究发现以往“模型越大越好”的观点并不绝对成立。例如,与应用场景语义适配的预训练数据,以及编码方式同样会对模型性能产生明显的影响。除分析结果外,该工作也留下了一套易用的代码框架,方便用户把感兴趣的模型加进去一起测试。这项工作不仅填补了评测空白,更为广大科研人员提供了一份极具实操价值的RNA序列分析模型选择指南。



图 1 Benchmark框架示意图

为了确保公平比较,研究团队设计了一个灵活可扩展的评估框架 (1a)。他们聚焦于RNA转录后调控中的四个关键任务,这些任务同时也涵盖了生物问题的四种建模方式:非编码RNA (ncRNA) 分类要求模型将整个序列划分为16个类别中的一种(如miRNA、circRNA等),涉及序列级多分类问题;N6-甲基腺苷 (N6-methyladenosine, m6A) 修饰预测是二分类任务,需判断序列中心位点是否发生甲基化;可变剪接位点预测 (splice site prediction) 则需在核苷酸分辨率上识别剪接供体和受体,并进一步对组织特异性使用情况进行多标签分类;翻译效率预测 (translation efficiency prediction) 则是一项回归任务,目标是根据5'UTR序列预测核糖体负载均值 (mean ribosome loading, MRL)。每个任务都配备了代表性数据集,样本量从数千到数亿不等,涵盖了不同数据规模和平衡性场景。除了大模型之间的比较,研究还引入了对应领域的传统深度学习算法 (如DeepM6ASeq、SpliceAI等),作为对比基准。本研究系统整合了11种主流预训练基因组语言模型(gLMs) 进行标准化评估,涵盖RNA-FM、SpliceBERT、DNABERT2等代表性架构(1b)。这些模型在架构设计、参数规模 (百万级至十亿级参数)、预训练数据构成 (单物种特异性数据至跨物种泛化数据) 及tokenization策略 (传统k-mer分词、BPE分词、全核苷酸编码) 等方面呈现显著异质性。例如,RNA-FM基于无标注RNA数据集进行预训练,SpliceBERT整合了72种脊椎动物pre-mRNA数据构建跨物种表征,DNABERT2与GENA-LM采用BPE分词实现长程依赖建模 (支持36,000 bp上下文),而Nucleotide Transformer通过全局注意力机制支持长达12,000 bp的输入序列同时,评测还包含多种任务专用方法,如ncRDense (融合结构特征) 和SpliceTransformer (专为剪接设计)。所有模型均采用统一微调策略,在相同数据分割下训练,以避免偏差。值得注意的是,gLMs作为“基础模型”,可通过微调适配不同任务,但其性能受预训练数据匹配度、输入长度等因素影响。这种多样性使本次评测能深入揭示模型特性,为后续应用提供依据。

综合测试结果表明“没有包治百病的模型”,不同架构在特定任务上各有所长:例如,SpliceBERT凭借其对进化保守性知识的利用在m6A任务中脱颖而出,而Nucleotide Transformer则在处理长序列剪接预测方面表现优异。研究深入揭示了模型性能背后的关键驱动因素:模型表现是预训练数据匹配度、输入长度和分词策略复杂交互的结果。基于此,论文提出一张RNA序列分析模型的选择导引图:首先考虑数据量——小样本或不平衡数据优选gLMs;大数据时任务专用方法更高效。其次,任务类型决定输入长度需求 (如剪接需长上下文),而多模态数据 (如临床图像) 可能需定制模型。计算资源也是关键:SpliceAI等CNN模型训练快50倍,适合初步验证。最后,生物背景至关重要——选用预训练数据与下游任务匹配的模型。这一指南帮助用户避开“越大越好”的误区,实现性能与效率的平衡。当然,AI x 生物学的领域无穷广阔,这些已有的预训练大模型仍有许多可提升的空间。对于有能力探索和开发新模型的研究者,作者也希望目前的benchmark工作能给他们带来启发和帮助,推动生物信息学领域的发展。

本基准测试证实了gLMs在RNA生物学中的巨大潜力,但也揭示当前局限:如长序列处理与计算成本的矛盾、模态表征的不足等。未来,融合多组学数据、开发更高效架构或可突破这些瓶颈。同时,研究强调“生物语境”的重要性——预训练需贴合下游任务,而非盲目扩规模。这项工作不仅为研究者提供了选型“路线图”,还推动了标准化评估流程的建设。随着AI技术进步,下一代gLM有望成为生物医学发现的强大引擎,在疾病机制解析、药物设计等领域发挥更大价值。团队已公开所有代码与数据,鼓励社区共同完善。

文章相关代码已开源,发布在GitHub平台(https://github.com/ShenLab-Genomics/biombenchmark)。

本研究由浙江大学医学院良渚实验室的游宁远、刘畅为共同第一作者,沈宁研究员为通讯作者。浙江大学区块链与数据安全国家重点实验室的伍赛、陈刚等人参与了工作设计与指导。

https://www.nature.com/articles/s41467-025-66899-y

制版人: 十一

学术合作组织

(*排名不分先后)



战略合作伙伴

(*排名不分先后)



转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。

BioArt

Med

Plants

人才招聘

近期直播推荐


点击主页推荐活动

关注更多最新活动!


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马杜罗拘押地曝光:牢房面积仅6平方米,环境恶劣暴力频发,曾关押过“吹牛老爹”、墨西哥大毒枭等;马杜罗将于5日在美国纽约出庭

马杜罗拘押地曝光:牢房面积仅6平方米,环境恶劣暴力频发,曾关押过“吹牛老爹”、墨西哥大毒枭等;马杜罗将于5日在美国纽约出庭

大象新闻
2026-01-05 13:01:23
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

春秋论娱
2025-12-25 07:11:24
委内瑞拉副总统任“代总统”,分析人士:她是政府内部一位“极具分量”的人物

委内瑞拉副总统任“代总统”,分析人士:她是政府内部一位“极具分量”的人物

红星新闻
2026-01-04 17:57:14
华友钴业:预计2025年度净利润为58.5亿元~64.5亿元,同比增长40.8%~55.24%

华友钴业:预计2025年度净利润为58.5亿元~64.5亿元,同比增长40.8%~55.24%

每日经济新闻
2026-01-05 17:50:11
痛心温州16岁女孩玩迷室逃脱去世,家属悲痛,商家回应,姐姐发声

痛心温州16岁女孩玩迷室逃脱去世,家属悲痛,商家回应,姐姐发声

可爱的罗
2026-01-05 12:50:56
马杜罗动向公开,特朗普向中俄通报,34国接到消息,大戏开锣

马杜罗动向公开,特朗普向中俄通报,34国接到消息,大戏开锣

阿离家居
2026-01-06 03:42:52
爆冷!曼联火速接触切尔西前主帅,7 大名帅疯抢帅位

爆冷!曼联火速接触切尔西前主帅,7 大名帅疯抢帅位

奶盖熊本熊
2026-01-06 01:19:03
张水华有参加奥运捷径,高人支招:加盟中国香港能稳居马拉松一姐

张水华有参加奥运捷径,高人支招:加盟中国香港能稳居马拉松一姐

杨华评论
2026-01-05 19:12:41
这段话抄下来,非常精辟,一天,一年,一生

这段话抄下来,非常精辟,一天,一年,一生

古装影视解说阿凶
2026-01-05 02:25:08
开年第一瓜,砸向王石!

开年第一瓜,砸向王石!

梳子姐
2026-01-05 17:31:07
国乒教练竞聘结束仅3天,令人担心的一幕上演,樊振东果然没说错

国乒教练竞聘结束仅3天,令人担心的一幕上演,樊振东果然没说错

雅儿姐爱追剧
2026-01-05 02:52:01
CCTV5直播辽宁VS同曦凶多吉少!超级外援首秀,严防郭昊文成关键

CCTV5直播辽宁VS同曦凶多吉少!超级外援首秀,严防郭昊文成关键

老叶评球
2026-01-05 21:45:27
别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

LULU生活家
2025-12-29 18:30:47
长腿格格帮傻狍子打发炮友

长腿格格帮傻狍子打发炮友

毒舌扒姨太
2026-01-05 22:40:58
成都蓉城急盼的新大鱼已入队,曾号称国安索尔斯克亚,值得期待

成都蓉城急盼的新大鱼已入队,曾号称国安索尔斯克亚,值得期待

懂个球
2026-01-05 23:59:23
张水华辞职3天,田协除名真相大白,好友曝下步计划,野心藏不住

张水华辞职3天,田协除名真相大白,好友曝下步计划,野心藏不住

深析古今
2026-01-05 14:12:19
突然搬空!天津万象城知名奢牌撤柜!曾是老银河元老级品牌

突然搬空!天津万象城知名奢牌撤柜!曾是老银河元老级品牌

全接触狐狐
2026-01-05 15:30:16
从清纯学生到夜场玩物:这条黑产,有多可怕!

从清纯学生到夜场玩物:这条黑产,有多可怕!

半耳聆
2026-01-04 17:47:31
纪实:贵州30岁无业游民,却敛财一个亿,嚣张声称警方奈何不了

纪实:贵州30岁无业游民,却敛财一个亿,嚣张声称警方奈何不了

牧愚君
2024-04-25 18:38:49
马杜罗人走茶凉?副总统上位,给美国务卿打电话,接受一切要求

马杜罗人走茶凉?副总统上位,给美国务卿打电话,接受一切要求

伴君终老a
2026-01-06 03:47:43
2026-01-06 06:03:00
BioArt incentive-icons
BioArt
探索生物艺术之奥秘
8837文章数 18482关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

艺术
家居
教育
时尚
房产

艺术要闻

2026马年赵孟頫高清集字春联大放送,收藏备用!

家居要闻

白色大理石 奢华现代

教育要闻

深圳学籍卡打印别急!3分钟轻松搞定

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

无障碍浏览 进入关怀版