网易首页 > 网易号 > 正文 申请入驻

ChemDual大模型用拆分与重组,优化化学反应与分子逆合成预测

0
分享至



作者 | 论文团队

编辑 | ScienceAI

化学反应预测和逆合成设计是药物研发中的核心步骤。近年来,虽然大型语言模型(LLMs)在各领域表现优异,但直接应用到化学合成任务时仍存在两大挑战:数据量稀缺和反应预测与逆合成任务建模割裂。

为了应对数据稀缺问题,湘潭大学林轩副教授课题组联合湖南大学曾湘祥教授、湖南师范大学曾道建教授课题组针对化学反应和逆合成预测,提出了一个新的大模型框架 ——ChemDual。它通过两个创新点突破了当前的瓶颈:

(1) 构建了一个包含 440 万条指令的大规模化学合成数据集;

(2) 引入对偶学习(Dual-task Learning),同时优化分子碎片化与重组、反应与逆合成的双向推理。

研究论文以《Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning》为题被 IJCAI 2025 接收。



论文地址:https://arxiv.org/abs/2505.02639

开源地址:https://github.com/JacklinGroup/ChemDual

研究团队提出将分子碎片组合和断裂的过程,并基于 BRICS 规则自动生成了 440 万条合成指令,大幅降低了数据获取成本,同时保证了合成相关性。碎片与反应物具有高达 66.5% 的平均相似度(图 1a),为学习反应与逆合成提供了可靠数据支持。

为了应对反应预测与逆合成任务建模割裂问题,研究团队提出 Dual-task Learning,在预训练阶段,模型同时学习分子到碎片(断裂)和碎片到分子(重组)任务;在微调阶段,则学习目标分子到反应物(逆合成)和反应物到产物(反应预测)任务。实验表明(图 1c),这种对偶训练可以在反应预测上带来 6.3% 的精度提升。



图 1:(a)分子碎片与反应物相似性的示例与整体分布。(b)单任务学习与 ChemDual 对偶学习的对比。(c)是否使用对偶学习下的反应预测准确率比较。

算法流程及模型结构

为了有效提升化学反应和逆合成预测的性能,研究团队设计了一个完整的大型语言模型优化流程 ——ChemDual,主要包括三大模块:指令数据构建、多尺度分词器、多任务学习策略,如图 2 所示。



图 2:ChemDual 框架图

首先,在数据构建模块中,研究团队基于 ChEMBL-34 数据库收集了 2000 万个分子 SMILES 序列,通过去重、无效分子剔除、分子量过滤等预处理步骤,获得了 220 万个高质量、高活性分子。随后,采用 BRICS 规则对分子进行断裂,生成了 440 万组分子及其对应的碎片组合,形成了用于模型预训练和微调的化学合成指令数据集。

其次,在输入编码模块,研究团队设计了基于 LLaMA 扩展的多尺度分词器(Multi-scale Tokenizer),使得 ChemDual 能够在不同粒度层次上同时理解化学结构特征,显著提升了模型对反应机制的建模能力。

最后,在学习策略模块,研究团队提出了对偶学习(Dual-task Learning)框架,贯穿预训练和指令微调两个阶段:

  • 在预训练阶段,以分子 - 片段的双向变换(分子→片段,片段→分子)为任务,帮助模型建立分子内部结构的双向推理能力。
  • 在微调阶段,以反应预测 - 逆合成的双向变换(反应物→产物,产物→反应物)为任务,进一步适配化学合成推理。

特别地,ChemDual 不仅在传统单任务模型(如 Retroformer)上实现了全面超越,还在指令数据规模、分子结构感知、多任务协同学习等方面形成了完整而系统的技术闭环,为后续大模型在化学合成领域的应用奠定了坚实基础。

实验结果与性能提升

为了验证 ChemDual 的有效性,文章在两个公开数据集上进行了系统评测:Mol-Instruction 和 USPTO-50K。



图 3:Mol-Instruciton 数据集实验对比结果

在 Mol-Instruction 数据集上(图 3),ChemDual 在化学反应预测任务中取得了当前最优的 EXACT Match 分数 0.869,BLEU 得分达到 0.991,Levenshtein 编辑距离降至 2.099,显著优于 BioT5 + 和 Mol-Instruction 等先进模型。同时,在基于分子指纹(RDK, MACCS, Morgan)的相似度指标上,ChemDual 分别达到 0.964、0.980 和 0.956,证明了生成分子在化学结构上的高一致性。



图 4:USPTO-50K 数据集实验对比结果

在 USPTO-50K 数据集上(图 4),ChemDual 在逆合成任务的 Top-1 准确率上达到 49.95%,相较经典方法 Retroformer 提升了 2.06%。Top-3、Top-5 和 Top-10 准确率分别提升了 4.79%、3.93% 和 7.63%,充分验证了 ChemDual 在逆合成推理上的鲁棒性与可迁移性。

为了深入分析各模块贡献,作者进行了消融实验(图 5),比较了:

  • 不使用预训练(w/o pre)
  • 不使用对偶学习(w/o dual)

结果显示,ChemDual 在完整配置下在所有指标上均取得最高分,特别是在引入预训练和对偶学习后,模型的准确率和分子结构一致性有大幅提升,进一步佐证了对偶学习的重要性。



图 5:消融实验结果

分子重组与分子对接分析

为了进一步验证 ChemDual 在实际分子设计场景下的应用潜力,研究团队基于 CHEMBL419018 化合物进行了分子重组与分子对接实验。实验结果表明:ChemDual 生成的分子不仅在分子指纹上保持了与原分子的高度相似性(>85%),而且在对接得分上表现优异。

如图 6 所示,在最高得分(-8.3 kcal/mol)的对接复合物中,配体形成了三处关键氢键,显著增强了配体 - 蛋白的结合稳定性。这一结果不仅验证了 ChemDual 在分子生成中能兼顾化学有效性与结构多样性,也展示了其在新药设计领域的实际应用潜力。



图 6:ChemDual 生成的 Top1 分子与蛋白质对接复合物示意

影响、局限与展望

ChemDual 展示了将大型语言模型应用于化学合成领域的新范式。通过解决数据瓶颈和反应预测 - 逆合成任务建模割裂问题,该研究向「通用化学智能体」迈出了关键一步。未来,作者期待进一步扩展到考虑反应条件、合成可行性、环境影响等多因素优化问题,使得 AI 在合成规划领域真正走向实际应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
304万亿,我国的货币发行总量已经是世界第一了。

304万亿,我国的货币发行总量已经是世界第一了。

流苏晚晴
2025-11-18 20:20:14
西班牙想要的,中国终于给了,拒付北约军费,欧洲彻底打开一个缺口

西班牙想要的,中国终于给了,拒付北约军费,欧洲彻底打开一个缺口

boss外传
2025-11-18 00:00:04
东京餐厅厕所内樱花妹与黑人男友“15分钟激战”,老板怒挂全网后结局亮了...

东京餐厅厕所内樱花妹与黑人男友“15分钟激战”,老板怒挂全网后结局亮了...

今日日本
2025-11-18 14:16:22
高市的极右面目:与纳粹合影,为美化希特勒书籍作序 | 国际识局

高市的极右面目:与纳粹合影,为美化希特勒书籍作序 | 国际识局

国际在线
2025-11-18 23:09:22
日本刚向中国求和,一直隔岸观火的美国下场,美军高官赴日表支持

日本刚向中国求和,一直隔岸观火的美国下场,美军高官赴日表支持

健身狂人
2025-11-19 00:35:36
帝王蟹不是螃蟹?泛滥的帝王蟹,为何说每吃一只都是在拯救世界?

帝王蟹不是螃蟹?泛滥的帝王蟹,为何说每吃一只都是在拯救世界?

狸猫之一的动物圈
2025-10-13 10:09:58
逃离杭州,连网红也没钱了

逃离杭州,连网红也没钱了

最人物
2025-11-18 14:51:32
中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

新浪财经
2025-11-18 12:46:38
大批中国人依然去日本旅游,被日媒看了笑话,记者采访道出心声

大批中国人依然去日本旅游,被日媒看了笑话,记者采访道出心声

奇思妙想草叶君
2025-11-18 01:27:22
郑丽文“倡导统一”四字吓坏了谁?美西方“驻台代表”排队求见

郑丽文“倡导统一”四字吓坏了谁?美西方“驻台代表”排队求见

海峡导报社
2025-11-18 18:19:07
中国第一波反制高市措施刚打出,不到24小时,日本已经有事了

中国第一波反制高市措施刚打出,不到24小时,日本已经有事了

通文知史
2025-11-18 20:55:03
重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

云鹏叙事
2025-11-16 15:18:51
舆论可能是假,但销量从不说谎,最近的手机榜有意思

舆论可能是假,但销量从不说谎,最近的手机榜有意思

互联网.乱侃秀
2025-11-17 10:09:24
宋佳夺影后动了谁的奶酪?遭遇全网尬黑,人民日报都看不下去了?

宋佳夺影后动了谁的奶酪?遭遇全网尬黑,人民日报都看不下去了?

娱乐圈笔娱君
2025-11-18 14:22:40
把绿牌改成白色?这波“医美”问题有点大

把绿牌改成白色?这波“医美”问题有点大

差评XPIN
2025-11-18 00:05:06
赢麻了!退赛后的“冷美人”获得38000元奖励,还获得了一份工作

赢麻了!退赛后的“冷美人”获得38000元奖励,还获得了一份工作

恪守原则和底线
2025-11-18 15:59:17
后程发力摘金!全运会男子400米决赛:全国纪录保持者刘凯夺冠

后程发力摘金!全运会男子400米决赛:全国纪录保持者刘凯夺冠

全景体育V
2025-11-18 20:23:12
8分钟2球 3-0横扫!日本男足3连胜年度收官:对手全场0射正

8分钟2球 3-0横扫!日本男足3连胜年度收官:对手全场0射正

叶青足球世界
2025-11-18 20:06:11
随着韩国1-0越南,熊猫杯最终积分榜:国足屈居亚军,汪士钦染红

随着韩国1-0越南,熊猫杯最终积分榜:国足屈居亚军,汪士钦染红

侃球熊弟
2025-11-18 17:26:04
“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

极目新闻
2025-11-18 14:06:30
2025-11-19 02:03:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1155文章数 218关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

手机
教育
时尚
游戏
数码

手机要闻

红米K90至尊版突然被确认:大屏高刷+超帧生态,是否值得期待?

教育要闻

TTS新传论文带读:是什么样伟大的前程,值得我们把四季都错过...

秋天穿衣暂时没灵感?赶紧看看这27套穿搭,舒适自然又大方

猎魂世界:尘心列传活动及打法分析!披的这层袈裟还得再修炼!

数码要闻

华为MatePad系列平板“PC多屏协同”功能正式回归

无障碍浏览 进入关怀版