网易首页 > 网易号 > 正文 申请入驻

ChemDual大模型用拆分与重组,优化化学反应与分子逆合成预测

0
分享至



作者 | 论文团队

编辑 | ScienceAI

化学反应预测和逆合成设计是药物研发中的核心步骤。近年来,虽然大型语言模型(LLMs)在各领域表现优异,但直接应用到化学合成任务时仍存在两大挑战:数据量稀缺和反应预测与逆合成任务建模割裂。

为了应对数据稀缺问题,湘潭大学林轩副教授课题组联合湖南大学曾湘祥教授、湖南师范大学曾道建教授课题组针对化学反应和逆合成预测,提出了一个新的大模型框架 ——ChemDual。它通过两个创新点突破了当前的瓶颈:

(1) 构建了一个包含 440 万条指令的大规模化学合成数据集;

(2) 引入对偶学习(Dual-task Learning),同时优化分子碎片化与重组、反应与逆合成的双向推理。

研究论文以《Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning》为题被 IJCAI 2025 接收。



论文地址:https://arxiv.org/abs/2505.02639

开源地址:https://github.com/JacklinGroup/ChemDual

研究团队提出将分子碎片组合和断裂的过程,并基于 BRICS 规则自动生成了 440 万条合成指令,大幅降低了数据获取成本,同时保证了合成相关性。碎片与反应物具有高达 66.5% 的平均相似度(图 1a),为学习反应与逆合成提供了可靠数据支持。

为了应对反应预测与逆合成任务建模割裂问题,研究团队提出 Dual-task Learning,在预训练阶段,模型同时学习分子到碎片(断裂)和碎片到分子(重组)任务;在微调阶段,则学习目标分子到反应物(逆合成)和反应物到产物(反应预测)任务。实验表明(图 1c),这种对偶训练可以在反应预测上带来 6.3% 的精度提升。



图 1:(a)分子碎片与反应物相似性的示例与整体分布。(b)单任务学习与 ChemDual 对偶学习的对比。(c)是否使用对偶学习下的反应预测准确率比较。

算法流程及模型结构

为了有效提升化学反应和逆合成预测的性能,研究团队设计了一个完整的大型语言模型优化流程 ——ChemDual,主要包括三大模块:指令数据构建、多尺度分词器、多任务学习策略,如图 2 所示。



图 2:ChemDual 框架图

首先,在数据构建模块中,研究团队基于 ChEMBL-34 数据库收集了 2000 万个分子 SMILES 序列,通过去重、无效分子剔除、分子量过滤等预处理步骤,获得了 220 万个高质量、高活性分子。随后,采用 BRICS 规则对分子进行断裂,生成了 440 万组分子及其对应的碎片组合,形成了用于模型预训练和微调的化学合成指令数据集。

其次,在输入编码模块,研究团队设计了基于 LLaMA 扩展的多尺度分词器(Multi-scale Tokenizer),使得 ChemDual 能够在不同粒度层次上同时理解化学结构特征,显著提升了模型对反应机制的建模能力。

最后,在学习策略模块,研究团队提出了对偶学习(Dual-task Learning)框架,贯穿预训练和指令微调两个阶段:

  • 在预训练阶段,以分子 - 片段的双向变换(分子→片段,片段→分子)为任务,帮助模型建立分子内部结构的双向推理能力。
  • 在微调阶段,以反应预测 - 逆合成的双向变换(反应物→产物,产物→反应物)为任务,进一步适配化学合成推理。

特别地,ChemDual 不仅在传统单任务模型(如 Retroformer)上实现了全面超越,还在指令数据规模、分子结构感知、多任务协同学习等方面形成了完整而系统的技术闭环,为后续大模型在化学合成领域的应用奠定了坚实基础。

实验结果与性能提升

为了验证 ChemDual 的有效性,文章在两个公开数据集上进行了系统评测:Mol-Instruction 和 USPTO-50K。



图 3:Mol-Instruciton 数据集实验对比结果

在 Mol-Instruction 数据集上(图 3),ChemDual 在化学反应预测任务中取得了当前最优的 EXACT Match 分数 0.869,BLEU 得分达到 0.991,Levenshtein 编辑距离降至 2.099,显著优于 BioT5 + 和 Mol-Instruction 等先进模型。同时,在基于分子指纹(RDK, MACCS, Morgan)的相似度指标上,ChemDual 分别达到 0.964、0.980 和 0.956,证明了生成分子在化学结构上的高一致性。



图 4:USPTO-50K 数据集实验对比结果

在 USPTO-50K 数据集上(图 4),ChemDual 在逆合成任务的 Top-1 准确率上达到 49.95%,相较经典方法 Retroformer 提升了 2.06%。Top-3、Top-5 和 Top-10 准确率分别提升了 4.79%、3.93% 和 7.63%,充分验证了 ChemDual 在逆合成推理上的鲁棒性与可迁移性。

为了深入分析各模块贡献,作者进行了消融实验(图 5),比较了:

  • 不使用预训练(w/o pre)
  • 不使用对偶学习(w/o dual)

结果显示,ChemDual 在完整配置下在所有指标上均取得最高分,特别是在引入预训练和对偶学习后,模型的准确率和分子结构一致性有大幅提升,进一步佐证了对偶学习的重要性。



图 5:消融实验结果

分子重组与分子对接分析

为了进一步验证 ChemDual 在实际分子设计场景下的应用潜力,研究团队基于 CHEMBL419018 化合物进行了分子重组与分子对接实验。实验结果表明:ChemDual 生成的分子不仅在分子指纹上保持了与原分子的高度相似性(>85%),而且在对接得分上表现优异。

如图 6 所示,在最高得分(-8.3 kcal/mol)的对接复合物中,配体形成了三处关键氢键,显著增强了配体 - 蛋白的结合稳定性。这一结果不仅验证了 ChemDual 在分子生成中能兼顾化学有效性与结构多样性,也展示了其在新药设计领域的实际应用潜力。



图 6:ChemDual 生成的 Top1 分子与蛋白质对接复合物示意

影响、局限与展望

ChemDual 展示了将大型语言模型应用于化学合成领域的新范式。通过解决数据瓶颈和反应预测 - 逆合成任务建模割裂问题,该研究向「通用化学智能体」迈出了关键一步。未来,作者期待进一步扩展到考虑反应条件、合成可行性、环境影响等多因素优化问题,使得 AI 在合成规划领域真正走向实际应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不要低估日本先发制人击沉福建舰的威胁,应该学习美苏对日做法!

不要低估日本先发制人击沉福建舰的威胁,应该学习美苏对日做法!

环球策论
2025-11-19 00:10:39
三季报炸了!雷军的“愤怒”与小米的撕裂

三季报炸了!雷军的“愤怒”与小米的撕裂

杠杆游戏
2025-11-18 23:32:23
宋凯邵佳一观战黑脸!22岁美甲国脚3场3次送礼 名记:中超禁赛5场

宋凯邵佳一观战黑脸!22岁美甲国脚3场3次送礼 名记:中超禁赛5场

我爱英超
2025-11-18 22:06:39
里子面子都丢了?官媒锐评俞敏洪小作文,言辞犀利,句句直戳心窝

里子面子都丢了?官媒锐评俞敏洪小作文,言辞犀利,句句直戳心窝

禾寒叙
2025-11-18 22:29:15
随着比利时7-0,西班牙2-2爆冷,世预赛最终积分榜:欧洲12队直通

随着比利时7-0,西班牙2-2爆冷,世预赛最终积分榜:欧洲12队直通

侃球熊弟
2025-11-19 04:37:23
牛!28岁樊振东把中国前3赢了个遍 挺进男团决赛+2天后再战王楚钦

牛!28岁樊振东把中国前3赢了个遍 挺进男团决赛+2天后再战王楚钦

风过乡
2025-11-18 21:05:04
中日在联合国爆发激战,联合国通告全日本:台湾是中国的一个省

中日在联合国爆发激战,联合国通告全日本:台湾是中国的一个省

时时有聊
2025-11-19 07:35:18
“95后”留学女生遭遇“套路贷”陷阱:13万借款被恶意垒高至1260万,抵押近千万房产还债

“95后”留学女生遭遇“套路贷”陷阱:13万借款被恶意垒高至1260万,抵押近千万房产还债

红星新闻
2025-11-18 22:58:15
中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

新浪财经
2025-11-18 12:46:38
中方代表:日本毫无资格要求成为安理会常任理事国

中方代表:日本毫无资格要求成为安理会常任理事国

国际在线
2025-11-19 07:07:07
城里没工打,村里无地种,冬已至,但真正的寒冬还未来临……

城里没工打,村里无地种,冬已至,但真正的寒冬还未来临……

村里的月光
2025-11-18 14:38:14
中日谈判完毕,日本官员灰溜溜离场,高市危机升级!美国撤导弹!

中日谈判完毕,日本官员灰溜溜离场,高市危机升级!美国撤导弹!

时时有聊
2025-11-18 21:01:34
勇士又把文班亚马“废了”,这下马刺百分百跌出季后赛资格区…!

勇士又把文班亚马“废了”,这下马刺百分百跌出季后赛资格区…!

田先生篮球
2025-11-18 22:32:34
宁波医院院长被死亡女婴家属围堵,现场回应耐人寻味!舆论两边倒

宁波医院院长被死亡女婴家属围堵,现场回应耐人寻味!舆论两边倒

爱写的樱桃
2025-11-18 19:17:04
大批中国人依然去日本旅游,日媒追问时,他们的回答太扎心了

大批中国人依然去日本旅游,日媒追问时,他们的回答太扎心了

寒士之言本尊
2025-11-18 23:53:07
特朗普确认协议达成,沙特将成中东获F-35战机第二国!以色列曾强烈反对,并发出这一警告!中东军事平衡遭撼动?

特朗普确认协议达成,沙特将成中东获F-35战机第二国!以色列曾强烈反对,并发出这一警告!中东军事平衡遭撼动?

每日经济新闻
2025-11-19 06:59:04
惹怒中国后,高市早苗又放话:要收回韩国领土,韩民称中国骂轻了

惹怒中国后,高市早苗又放话:要收回韩国领土,韩民称中国骂轻了

古事寻踪记
2025-11-18 07:18:01
甲流杀疯了!中年扛5天丢命,医生喊停3种饭,做好2件事能救命

甲流杀疯了!中年扛5天丢命,医生喊停3种饭,做好2件事能救命

荷兰豆爱健康
2025-11-18 07:03:47
泪目!陈梦3-0带队进决赛:女团对决孙颖莎争冠,上演最后一舞?

泪目!陈梦3-0带队进决赛:女团对决孙颖莎争冠,上演最后一舞?

李喜林篮球绝杀
2025-11-18 22:58:20
里子面子都丢了,森林北公布体检结果,把汪峰的体面撕个粉碎

里子面子都丢了,森林北公布体检结果,把汪峰的体面撕个粉碎

鋭娱之乐
2025-11-18 12:44:19
2025-11-19 09:04:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1155文章数 218关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

美女主播设"同城约会"骗局:刷礼物换"香艳"视频

头条要闻

美女主播设"同城约会"骗局:刷礼物换"香艳"视频

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

大规模宕机!美国多个网站崩了

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

数码
房产
健康
教育
时尚

数码要闻

苹果用3D打印造Apple Watch表壳,节省400吨钛原料

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

警惕超声报告这六大"坑"

教育要闻

深圳中学简直一整个误闯天家啊

拍照不用露脸也很美!4个心机pose学起来,朋友圈狂收赞

无障碍浏览 进入关怀版