ChemDual大模型用拆分与重组，优化化学反应与分子逆合成预测|实验|top|反应物|复合物|化学合成

ChemDual大模型用拆分与重组，优化化学反应与分子逆合成预测

2025-08-29 14:07:36　来源: ScienceAI

河北举报

分享至

作者 | 论文团队

编辑 | ScienceAI

化学反应预测和逆合成设计是药物研发中的核心步骤。近年来，虽然大型语言模型（LLMs）在各领域表现优异，但直接应用到化学合成任务时仍存在两大挑战：数据量稀缺和反应预测与逆合成任务建模割裂。

为了应对数据稀缺问题，湘潭大学林轩副教授课题组联合湖南大学曾湘祥教授、湖南师范大学曾道建教授课题组针对化学反应和逆合成预测，提出了一个新的大模型框架 ——ChemDual。它通过两个创新点突破了当前的瓶颈：

(1) 构建了一个包含 440 万条指令的大规模化学合成数据集；

(2) 引入对偶学习（Dual-task Learning），同时优化分子碎片化与重组、反应与逆合成的双向推理。

研究论文以《Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning》为题被 IJCAI 2025 接收。

论文地址：https://arxiv.org/abs/2505.02639

开源地址：https://github.com/JacklinGroup/ChemDual

研究团队提出将分子碎片组合和断裂的过程，并基于 BRICS 规则自动生成了 440 万条合成指令，大幅降低了数据获取成本，同时保证了合成相关性。碎片与反应物具有高达 66.5% 的平均相似度（图 1a），为学习反应与逆合成提供了可靠数据支持。

为了应对反应预测与逆合成任务建模割裂问题，研究团队提出 Dual-task Learning，在预训练阶段，模型同时学习分子到碎片（断裂）和碎片到分子（重组）任务；在微调阶段，则学习目标分子到反应物（逆合成）和反应物到产物（反应预测）任务。实验表明（图 1c），这种对偶训练可以在反应预测上带来 6.3% 的精度提升。

图 1：（a）分子碎片与反应物相似性的示例与整体分布。（b）单任务学习与 ChemDual 对偶学习的对比。（c）是否使用对偶学习下的反应预测准确率比较。

算法流程及模型结构

为了有效提升化学反应和逆合成预测的性能，研究团队设计了一个完整的大型语言模型优化流程 ——ChemDual，主要包括三大模块：指令数据构建、多尺度分词器、多任务学习策略，如图 2 所示。

图 2：ChemDual 框架图

首先，在数据构建模块中，研究团队基于 ChEMBL-34 数据库收集了 2000 万个分子 SMILES 序列，通过去重、无效分子剔除、分子量过滤等预处理步骤，获得了 220 万个高质量、高活性分子。随后，采用 BRICS 规则对分子进行断裂，生成了 440 万组分子及其对应的碎片组合，形成了用于模型预训练和微调的化学合成指令数据集。

其次，在输入编码模块，研究团队设计了基于 LLaMA 扩展的多尺度分词器（Multi-scale Tokenizer），使得 ChemDual 能够在不同粒度层次上同时理解化学结构特征，显著提升了模型对反应机制的建模能力。

最后，在学习策略模块，研究团队提出了对偶学习（Dual-task Learning）框架，贯穿预训练和指令微调两个阶段：

在预训练阶段，以分子 - 片段的双向变换（分子→片段，片段→分子）为任务，帮助模型建立分子内部结构的双向推理能力。
在微调阶段，以反应预测 - 逆合成的双向变换（反应物→产物，产物→反应物）为任务，进一步适配化学合成推理。

特别地，ChemDual 不仅在传统单任务模型（如 Retroformer）上实现了全面超越，还在指令数据规模、分子结构感知、多任务协同学习等方面形成了完整而系统的技术闭环，为后续大模型在化学合成领域的应用奠定了坚实基础。

实验结果与性能提升

为了验证 ChemDual 的有效性，文章在两个公开数据集上进行了系统评测：Mol-Instruction 和 USPTO-50K。

图 3：Mol-Instruciton 数据集实验对比结果

在 Mol-Instruction 数据集上（图 3），ChemDual 在化学反应预测任务中取得了当前最优的 EXACT Match 分数 0.869，BLEU 得分达到 0.991，Levenshtein 编辑距离降至 2.099，显著优于 BioT5 + 和 Mol-Instruction 等先进模型。同时，在基于分子指纹（RDK, MACCS, Morgan）的相似度指标上，ChemDual 分别达到 0.964、0.980 和 0.956，证明了生成分子在化学结构上的高一致性。

图 4：USPTO-50K 数据集实验对比结果

在 USPTO-50K 数据集上（图 4），ChemDual 在逆合成任务的 Top-1 准确率上达到 49.95%，相较经典方法 Retroformer 提升了 2.06%。Top-3、Top-5 和 Top-10 准确率分别提升了 4.79%、3.93% 和 7.63%，充分验证了 ChemDual 在逆合成推理上的鲁棒性与可迁移性。

为了深入分析各模块贡献，作者进行了消融实验（图 5），比较了：

不使用预训练（w/o pre）
不使用对偶学习（w/o dual）

结果显示，ChemDual 在完整配置下在所有指标上均取得最高分，特别是在引入预训练和对偶学习后，模型的准确率和分子结构一致性有大幅提升，进一步佐证了对偶学习的重要性。

图 5：消融实验结果

分子重组与分子对接分析

为了进一步验证 ChemDual 在实际分子设计场景下的应用潜力，研究团队基于 CHEMBL419018 化合物进行了分子重组与分子对接实验。实验结果表明：ChemDual 生成的分子不仅在分子指纹上保持了与原分子的高度相似性（>85%），而且在对接得分上表现优异。

如图 6 所示，在最高得分（-8.3 kcal/mol）的对接复合物中，配体形成了三处关键氢键，显著增强了配体 - 蛋白的结合稳定性。这一结果不仅验证了 ChemDual 在分子生成中能兼顾化学有效性与结构多样性，也展示了其在新药设计领域的实际应用潜力。

图 6：ChemDual 生成的 Top1 分子与蛋白质对接复合物示意

影响、局限与展望

ChemDual 展示了将大型语言模型应用于化学合成领域的新范式。通过解决数据瓶颈和反应预测 - 逆合成任务建模割裂问题，该研究向「通用化学智能体」迈出了关键一步。未来，作者期待进一步扩展到考虑反应条件、合成可行性、环境影响等多因素优化问题，使得 AI 在合成规划领域真正走向实际应用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.