网易首页 > 网易号 > 正文 申请入驻

AI读懂化学反应,中国科学院开发化学反应描述语言,登Nature子刊

0
分享至

编辑 | 白菜叶

随着人工智能的快速发展,大型语言模型越来越多地被用于应对各类科学挑战。这里有一个关键步骤:需要将特定领域的数据转换为用于语言建模的标记序列。

在化学领域,分子通常用分子线性符号表示,化学反应则被描述为反应物和产物的序列对。然而,这种方法无法捕捉反应过程中原子和键的变化。

中国科学院、Proton Unfold 等组成的联合研究团队提出了 ReactSeq,一种定义分子编辑操作以进行逐步化学转化的反应描述语言。

基于 ReactSeq,逆向合成预测的语言模型几乎在所有基准测试中始终表现出色,并在人机交互和可解释的人工智能中展现出极大潜力。

此外,ReactSeq 使研究人员能够获得通用且可靠的化学反应表征,实现在反应空间的准确导航,并有助于优化实验步骤和预测反应产量。该团队认为,ReactSeq 可以成为缩小化学与人工智能之间发展差距的桥梁。

研究以「Bridging chemistry and artificial intelligence by a reaction description language」为题,于 2025 年 5 月 13 日发布在《Nature Machine Intelligence》。

背景

以大型语言模型(LM)为代表的人工智能技术在自然语言处理领域取得了前所未有的突破,深刻影响着科研模式。在化学和制药领域,处理化学分子和反应的化学语言模型(CLM)这一重要概念应运而生。

与自然语言、蛋白质和基因不同,化学分子缺乏固有的序列表示。CLM 利用化学家定义的分子线性符号来学习和生成分子结构。最常用的分子线性符号是简化分子线性输入系统(SMILES)。

然而,这些符号仅能描述分子的静态结构,无法清晰表达化学反应中原子和键的动态变化,限制了其在反应预测中的应用。

现有方法(如两阶段设计的合成子转化模型)虽然提升了可解释性,但是同时也增加了复杂性,且受 SMILES 语法限制,无法详细描述原子级变化。此外,目前化学反应的向量表征仍面临挑战,自监督方法难以捕捉反应间相似性。

因此,开发新的化学反应描述语言是关键,需兼顾预测准确性、可解释性、可控性,并能生成高质量的反应表征从而支持下游任务。

化学反应描述语言

在最新的研究中,中国科学院、Proton Unfold 等组成的联合研究团队提出了一种名为 ReactSeq 的反应描述语言,旨在实现上述目标。

图示:整体概述。(来源:论文)

受逆合成过程的启发,ReactSeq 定义了产物结构以及将其转化回反应物分子所需的分子编辑操作 (MEO)。这些 MEO 包括化学键的断裂和改变、原子电荷的改变以及离去基团 (LG) 的添加等。

具体来讲,ReactSeq 由两部分组成:头部和尾部。头部包含目标分子的结构细节以及其原子和键的变化信息,描述如何将其转化为相应的合成子。尾部包含 LG 的结构及其与合成子的连接位置,描述如何将合成子完成为反应物。

在标准 SMILES 中,双键和三键的 token 可见,而单键的 token 则隐藏。但是,可以使用具有显式键的 SMILES 指定隐藏的 token。

通过将 SMILES 中的这些键标记替换为 MEO 标记(例如,使用感叹号“!”表示键断裂),研究人员得到了 ReactSeq 的头部,用于记录化学键的变化和断裂。逆合成中的某些目标分子不涉及重原子之间键的断裂或改变,而是直接连接到分子盖层。

在这种情况下,首先将原子标记转换为显式氢模式,例如将 O 更改为 [OH],然后再添加相应的 MEO 标记 (~)。此外,ReactSeq 还定义了手性、电荷和顺反异构体的变化。

图示:ReactSeq 的插图。(来源:论文)

为了获得 ReactSeq 的尾部,首先要识别目标分子中能够连接到 LG 的原子,即附着点。这些原子包括直接连接到 LG 或参与断键或还原的原子。每个附着点的 LG 都括在尖括号中,并根据其连接附着点的原子索引进行排序。按照这些步骤,即可获得一个标准的头尾 ReactSeq,并与目标分子的 SMILES 保持高度比对。

基于 ReactSeq 的模型性能

在基于 ReactSeq 的逆合成语言模型中,反应物并非从零开始逐个标记生成,而是通过这些中间态氧化单元 (MEO) 从产物分子转化而来。这确保了预测反应物和产物之间精确的原子映射,从而增强了模型的可解释性。使用 ReactSeq,普通的反式分子模型 (vanilla transformer) 可以在逆合成预测中取得最佳性能。

图示:使用 ReactSeq 进行可解释的逆合成预测。(来源:论文)

此外,ReactSeq 具有表示 MEO 的显式 token,从而支持人工指令的编码。测试结果表明,人类专家的提示可以显著提升模型的性能,甚至可以引导模型探索新的反应。此外,这些 MEO token 的嵌入提供了一种通用且可靠的反应表征。这些自监督表征可以自然地区分不同的反应类型并评估它们的相似性,从而促进相似反应的检索、实验步骤的推荐和反应产量的预测。

总而言之,ReactSeq 代表了化学语言的重大扩展,并赋予了化学语言模型(CLM)一系列极具潜力的新兴能力。这一进展使科学家能够应对许多此前难以企及的化学挑战,为化学人工智能基础模型的开发开辟了新的途径。

论文链接:https://www.nature.com/articles/s42256-025-01032-8

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
篓子越捅越大!招体育生当医生、院长儿子吃空饷,不能再挖了

篓子越捅越大!招体育生当医生、院长儿子吃空饷,不能再挖了

小鋭有话说
2026-05-02 10:42:33
医学专家:东契奇最早G4才有望复出 在西班牙治疗力度明显不够

医学专家:东契奇最早G4才有望复出 在西班牙治疗力度明显不够

罗说NBA
2026-05-03 06:49:13
后续!世界杯版权谈崩,央视拒绝足联3亿要价,3大受害者已经出现

后续!世界杯版权谈崩,央视拒绝足联3亿要价,3大受害者已经出现

谭谈社会
2026-05-02 14:53:41
随着艾伦16-17出局,斯诺克世锦赛决赛对阵出炉:吴宜泽PK世界第5

随着艾伦16-17出局,斯诺克世锦赛决赛对阵出炉:吴宜泽PK世界第5

侧身凌空斩
2026-05-03 06:29:18
不打了!塔图姆退出G7!东部季后赛彻底乱套

不打了!塔图姆退出G7!东部季后赛彻底乱套

篮球实战宝典
2026-05-03 07:15:51
伦敦世乒赛:国乒首败诞生!林诗栋梁靖崑周启豪输球,王楚钦休战

伦敦世乒赛:国乒首败诞生!林诗栋梁靖崑周启豪输球,王楚钦休战

郝小小看体育
2026-05-03 05:29:45
无人机禁飞之后,大量北京网友低价进行甩卖

无人机禁飞之后,大量北京网友低价进行甩卖

映射生活的身影
2026-05-02 22:42:01
挽救2个赛点 22岁吴宜泽17-16胜艾伦:首进世锦赛决赛 与墨菲争冠

挽救2个赛点 22岁吴宜泽17-16胜艾伦:首进世锦赛决赛 与墨菲争冠

风过乡
2026-05-03 06:29:21
章若楠空杯到底有多美?网友说:这颜值谁顶得住,难怪都想娶!

章若楠空杯到底有多美?网友说:这颜值谁顶得住,难怪都想娶!

动物奇奇怪怪
2026-05-02 21:32:20
张雪再夺冠后发声:谁不服?

张雪再夺冠后发声:谁不服?

扬子晚报
2026-05-02 22:01:58
广东宣布,一口气7个“支持”,41次点名!深圳未来5年大利好来了

广东宣布,一口气7个“支持”,41次点名!深圳未来5年大利好来了

深圳梦
2026-05-02 22:50:52
我是79年对越反击战老兵:所谓平推河内,是我们用命拼出来的假象

我是79年对越反击战老兵:所谓平推河内,是我们用命拼出来的假象

贱议你读史
2026-05-02 17:21:02
不打了!膝盖受伤!塔图姆退出抢七大战

不打了!膝盖受伤!塔图姆退出抢七大战

篮球教学论坛
2026-05-03 06:57:54
国乒心态差!林诗栋紧张担心梁靖崑输球,王楚钦强装镇定却露馅儿

国乒心态差!林诗栋紧张担心梁靖崑输球,王楚钦强装镇定却露馅儿

三十年莱斯特城球迷
2026-05-02 22:23:49
汤杯战报:2大世界冠军团队都0-3出局!李诗沣21-9!决赛中法对决

汤杯战报:2大世界冠军团队都0-3出局!李诗沣21-9!决赛中法对决

求球不落谛
2026-05-03 03:09:05
贝家颜值神话落幕,小七也没能接住贝克汉姆的神颜

贝家颜值神话落幕,小七也没能接住贝克汉姆的神颜

述家娱记
2026-05-02 10:05:12
专机刚落地,鲁比奥电话就到了北京:赖清德的高兴没撑过三秒钟

专机刚落地,鲁比奥电话就到了北京:赖清德的高兴没撑过三秒钟

泠泠说史
2026-05-02 18:59:12
世锦赛决赛首人诞生:墨菲17-15晋级!获185万奖金,范争一亏大了

世锦赛决赛首人诞生:墨菲17-15晋级!获185万奖金,范争一亏大了

小火箭爱体育
2026-05-03 01:11:28
连扳3局逆转!吴宜泽17比16击败马克·艾伦,首次晋级斯诺克世锦赛决赛,将与肖恩·墨菲争冠

连扳3局逆转!吴宜泽17比16击败马克·艾伦,首次晋级斯诺克世锦赛决赛,将与肖恩·墨菲争冠

环球网资讯
2026-05-03 06:37:20
美媒急了:美军短板都暴露了,中俄朝都看着呢

美媒急了:美军短板都暴露了,中俄朝都看着呢

观察者网
2026-05-02 18:17:19
2026-05-03 07:39:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1292文章数 227关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

伊朗公布伊方最新谈判方案: 总计14点提议 聚焦终战

头条要闻

伊朗公布伊方最新谈判方案: 总计14点提议 聚焦终战

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

手机
数码
旅游
艺术
健康

手机要闻

联想拯救者手机Y70新一代规格曝光

数码要闻

库克称MacBook Neo需求超出苹果预期:目前处于供应受限状态

旅游要闻

江海边的新玩法:NPC巡游、二次元市集、萌宠派对,快来邮轮文化旅游季嗨玩

艺术要闻

看!海夫兰笔下的美女,令人惊艳的艺术之美!

干细胞治烧烫伤面临这些“瓶颈”

无障碍浏览 进入关怀版