网易首页 > 网易号 > 正文 申请入驻

上智院联合复旦、上交提出全球首个强化学习与潜扩散融合框架SOLD

0
分享至



作者丨上智院女娲生命大模型团队

编辑丨ScienceAI

在 RNA 疗法、基因调控和合成生物学等领域,RNA 逆折叠(RNA Inverse Folding)是至关重要的核心任务,其目标是设计出能够折叠成特定 3D 结构的 RNA 序列。如同设计一把能开启特定「基因锁」的钥匙,这要求生成的序列不仅在理论上符合要求,更需在物理上精准折叠成目标构象。

然而,面对复杂的 RNA 序列 - 结构相互作用,现有的深度学习方法尽管在序列恢复率上取得了一定进展,其局限仍非常明显:它们往往难以直接优化次级结构一致性(SS)、最小自由能(MFE)和局部距离差测试(LDDT)等关键的结构与功能指标,导致生成的序列在物理真实性和结构准确性上经常「次优」。此外,现有的基于强化学习的扩散模型优化方法,通常需要采样完整的扩散轨迹,计算成本极高,难以在 RNA 设计这种复杂任务中高效应用。

为此,上海科学智能研究院(下称上智院)与复旦大学、上海交通大学等联合提出了首个集成强化学习与潜扩散模型的 RNA 逆折叠框架(SOLD)。该框架从 RNA 的共进化模式出发,在预训练阶段引入 RNA-FM 嵌入,并在优化阶段通过创新的「分步式」(Step-wise)强化学习策略,实现了对非导向性结构目标的直接、高效优化。实验表明,该方法在多个权威指标上全面超越了现有的 SOTA 方法,为开发高精度、功能导向的 RNA 设计工具开辟了新路径。



论文题目:Structure-based RNA Design by Step-wise Optimization of Latent Diffusion Model

论文地址:https://arxiv.org/abs/2601.19232

代码地址:

https://aistudio.ai4s.com.cn/galaxy-model/partner/galaxy-model-frontend/model/01301556

https://github.com/SAIS-LifeScience/SOLD

该研究成果已被 AAAI 2026 接收。上智院生命科学方向研究员斯奇、刘旭阳,上海交通大学生命科学系博士生王鹏磊,是共同第一作者。上智院首席科学家、复旦大学特聘教授漆远,是论文共同作者。上智院生命科学方向主任研究员郭昕,上智院生命科学方向负责人、复旦大学人工智能创新与产业研究院研究员程远,是共同通讯作者。

研究项目由星河启智科学智能开放平台(https://aistudio.ai4s.com.cn/)和复旦大学 CFFF 智算平台提供技术和算力支持。

现有方法的两大局限

既往的 RNA 逆折叠方法虽取得一定进展,但存在两个面向实际设计的关键短板:

一是难以处理非可微的结构目标。现有的深度学习方法(如 GrnaDe、RDesign)虽然提升了生成序列的质量,但它们大多无法直接优化如最小自由能(MFE)或 3D 结构相似度(LDDT)等「硬指标」。这些指标对于 RNA 是否能在真实生物环境中稳定发挥功能至关重要,但由于它们通常是不可微的,传统的梯度下降方法难以直接对其进行优化。这导致模型生成的序列往往「形似」而「神不似」,难以满足严格的物理约束。

二是传统强化学习优化效率低下。为了解决上述问题,强化学习(RL)被引入以优化这些离散目标。然而,现有的结合扩散模型与 RL 的方法(如 DDPO、DPOK),通常需要对扩散过程的完整轨迹进行采样才能更新策略 。在 RNA 设计的高维空间中,这种「全轨迹」采样的计算开销巨大,收敛速度极慢,且容易陷入局部最优,严重限制了其在大规模 RNA 设计任务中的应用潜力。

为解决这些问题,研究团队提出了SOLD (Step-wise Optimization of Latent Diffusion Model)框架,通过引入预训练 RNA 语言模型嵌入和创新的分步优化策略,实现了从序列生成到底层物理属性优化的全流程突破。

SOLD 的双阶段创新设计

SOLD 框架包含潜扩散模型(LDM)预训练和强化学习微调两个阶段,分别对应基础表征构建与结构目标精修,形成完整的技术闭环。

1、LDM 预训练:融合共进化信息。SOLD 首先构建了一个强大的潜扩散模型(LDM)底座。不同于以往直接在序列空间操作的方法,SOLD 利用预训练的 RNA-FM 提取包含丰富共进化信息的嵌入表示。



  • 潜空间建模:通过编码器将 RNA-FM 的高维嵌入压缩至高效的潜空间,结合 GVP-GNN 提取骨架几何特征,使模型在生成之初就具备了对 RNA 序列 - 结构复杂依赖关系的深刻理解。
  • 序列恢复提升:仅依靠这一阶段,LDM 在序列恢复率和核苷酸恢复率上即已超越了包括 RiboDiffusion 在内的多种现有方法,为后续优化打下坚实基础。

2、Step-wise RL 微调:分步式高效优化。微调阶段是 SOLD 的核心创新。团队提出了一种单步式(Step-wise)强化学习算法,直接针对复杂的结构指标进行优化。



  • 单步采样策略:受 DDIM 启发,SOLD 无需采样完整轨迹,而是从任意噪声时间步直接预测去噪后的潜变量。这意味着模型可以在极短的时间内获得反馈,大幅提升了训练效率。
  • 长短期奖励融合:为了平衡训练的稳定性与准确性,SOLD 设计了分段奖励函数。在噪声较大的早期阶段,使用短期奖励引导方向;在噪声较小的后期阶段,使用长期奖励精确对齐目标。
  • 直接指标优化: SOLD 直接集成了 ViennaRNA 和 RhoFold 作为奖励函数,直接优化 SS、MFE 和 LDDT 等物理指标,无需额外训练可能引入误差的代理奖励模型。

在现有 RNA 结构测试集上超越现有最优方法

本研究在现有 RNA 结构数据集上进行了系统评估,结果全面超越了现有最优方法。具体而言,在多目标联合优化实验中,SOLD 不仅保持了极高的序列自然度(Sequence Recovery),更在结构指标上实现了质的飞跃。例如,在 CASP15 测试集上,SOLD 生成的序列在SS(次级结构一致性)上达到 0.6957,远超 RiboDiffusion 的 0.4699;在MFE(最小自由能)上达到 - 64.0375,显著优于基线模型,证明了其设计出的 RNA 具有更高的热力学稳定性。此外,在训练效率方面,得益于单步优化策略,SOLD 完成一轮 MFE 优化仅需 256 秒,而同类方法 DDPO 和 DPOK 分别需要 5953 秒和 7677 秒,训练速度提升了20 倍以上。

实际案例验证与模块有效性



为了验证 SOLD 在真实生物场景中的应用潜力,研究团队对TPP 核糖开关进行了案例研究。结果显示,SOLD 成功设计出了能精准折叠成目标构象的序列(RMSD 仅为 2.8157Å,LDDT 高达 0.6171),而其他对比方法(如 RhoDesign、RiboDiffusion)生成的序列折叠结构严重偏离目标,甚至完全解体。这一结果有力证明了 SOLD 在处理复杂生物学约束时的卓越能力。

总结与展望

SOLD 的成功,在于其巧妙地结合了预训练大模型的表征能力与强化学习的策略优化能力。首先,模型利用 RNA-FM 捕捉深层的共进化模式,解决了传统方法「只见树木不见森林」的问题。其次,创新的单步式 RL 策略攻克了非可微目标优化的效率瓶颈,使得直接针对物理属性(如自由能、结构偏差)进行设计成为可能。这种模块化、工具无关的框架设计,使得未来可以无缝集成更先进的奖励评估工具。

该研究不仅为 RNA 逆折叠任务确立了新的 SOTA 基准,也印证了 AI 驱动生物设计的发展方向 — 通过高效的算法创新,跨越从「生成序列」到「设计功能」的鸿沟。展望未来,研究团队计划进一步扩展高质量 RNA 结构数据集,并探索多尺度指标的协同优化,从而为 RNA 疗法及合成生物学的落地持续注入新动力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
过年了,强烈建议大家,如果买衣服,能力范围内就买最贵的

过年了,强烈建议大家,如果买衣服,能力范围内就买最贵的

心灵的触动a
2026-02-04 15:30:11
法国可能成为第一个掌握核聚变的国家,这是人类的终极梦想

法国可能成为第一个掌握核聚变的国家,这是人类的终极梦想

过期少女致幻录
2026-02-04 20:00:02
李显龙预判成真,裁决书已下发,特朗普兵分两路,收割中国资产

李显龙预判成真,裁决书已下发,特朗普兵分两路,收割中国资产

来科点谱
2026-02-03 22:46:11
深圳二手房挂盘量破8.6万套:过年不回家,就等那一声炮响

深圳二手房挂盘量破8.6万套:过年不回家,就等那一声炮响

童童聊娱乐啊
2026-02-05 03:43:09
随着比分定格2-1,意大利杯四强诞生一席:意甲领头羊率先晋级

随着比分定格2-1,意大利杯四强诞生一席:意甲领头羊率先晋级

侧身凌空斩
2026-02-05 05:49:55
李荣浩与杨丞琳出行,乍一看以为是爸爸领着女儿,好雷人!

李荣浩与杨丞琳出行,乍一看以为是爸爸领着女儿,好雷人!

小娱乐悠悠
2026-02-04 10:52:25
江西5孩宝妈“倾家荡产”事件冲上热搜:一夜暴富,是普通人最大的坑……

江西5孩宝妈“倾家荡产”事件冲上热搜:一夜暴富,是普通人最大的坑……

桌子的生活观
2026-02-02 12:33:58
小沈阳闺女拍可口可乐广告,网友看完脚趾抠地:这演技也太尬了

小沈阳闺女拍可口可乐广告,网友看完脚趾抠地:这演技也太尬了

春之韵
2026-02-03 02:00:50
挪威王储妃与爱泼斯坦暧昧邮件曝光,“灰姑娘”童话破灭

挪威王储妃与爱泼斯坦暧昧邮件曝光,“灰姑娘”童话破灭

新民周刊
2026-02-03 20:25:47
贝林厄姆发布头戴氧气面罩自拍照:生活还要继续

贝林厄姆发布头戴氧气面罩自拍照:生活还要继续

懂球帝
2026-02-04 11:10:39
小伙请假从上海徒步1400公里回湖北过年,每天只吃一顿饭,33天瘦25斤

小伙请假从上海徒步1400公里回湖北过年,每天只吃一顿饭,33天瘦25斤

环球网资讯
2026-02-03 20:28:23
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
巴萨国王杯险胜晋级,弗里克直言终结能力是短板

巴萨国王杯险胜晋级,弗里克直言终结能力是短板

浮萍足球
2026-02-05 03:47:18
4换9!NBA重量级交易达成,浓眉联手特雷杨!东部格局发生巨变了

4换9!NBA重量级交易达成,浓眉联手特雷杨!东部格局发生巨变了

篮球扫地僧
2026-02-05 04:51:57
刘虎的乐观

刘虎的乐观

城市的地得
2026-02-03 10:20:44
陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

八斗小先生
2025-12-08 11:07:02
沈佳妮之前就特直白地说过:“好多人都知道我老公朱亚文风度翩翩

沈佳妮之前就特直白地说过:“好多人都知道我老公朱亚文风度翩翩

小光侃娱乐
2026-02-03 13:25:03
曾断言特斯拉存在安全隐患 智己联席CEO刘涛公开致歉

曾断言特斯拉存在安全隐患 智己联席CEO刘涛公开致歉

快科技
2026-02-05 00:48:07
DeepSeek推荐:寒假带孩子去这8个地方玩,比报补习班回报高多了

DeepSeek推荐:寒假带孩子去这8个地方玩,比报补习班回报高多了

男孩派
2026-02-04 20:45:08
童星长大后就像“开盲盒”,有人灵气全无模样大变,有人美貌加倍

童星长大后就像“开盲盒”,有人灵气全无模样大变,有人美貌加倍

剧芒芒
2026-02-02 17:55:21
2026-02-05 06:44:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1226文章数 223关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

亲子
艺术
教育
游戏
公开课

亲子要闻

麻腮风疫苗到底要不要给孩子打?听听儿科医生怎么说

艺术要闻

快过年了,送大家49张图片!谁看谁幸福!

教育要闻

教育的最高境界,是培养幸福的普通人

游戏动力×ATK 联动福利红包封面随机掉落!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版