编辑 | 萝卜皮
分子表征是科学家理解物理世界的关键要素,也是现代分子机器学习的基础。
先前的分子机器学习模型使用了字符串、指纹、全局特征和简单的分子图,这些本质上都是信息稀疏的表征。然而,随着预测任务的复杂性不断增加,分子表征需要编码更高保真度的信息。
卡内基梅隆大学(Carnegie Mellon University)的研究人员提出了一种新方法,通过立体电子效应将富含量子化学信息的信息注入分子图,从而增强分子图的表达性和可解释性。
通过双图神经网络注入立体电子信息,该团队显著提升了分子性质预测模型的性能,并表明在小分子训练的学习表征可以准确地外推到大分子(如蛋白质),这为分子设计提供了新方法,且无需昂贵量子计算。
该研究以「Advancing molecular machine learning representations with stereoelectronics-infused molecular graphs」为题,于 2025 年 5 月 23 日发布在《Nature Machine Intelligence》。
背景
分子表征是化学的基石。遵循化学家的直觉,骨架结构成为了化学的通用语言。它们使科学家能够捕捉分子(主要是有机分子)的多样性,同时保持其简单性,使人类更容易识别常见模式。
除了影响人们对化学的思考和描述方式外,这些表征还推动了分子机器学习 (ML) 的进步,该技术已被用于各种应用。
机器学习在此类场景中最成功的应用之一是预测分子特性,这是化学、生物和材料科学的核心。从太阳能电池板材料的发现到创纪录的新药研发,分子机器学习通过实现快速推理,对现代科学产生了重大影响。
机器学习模型的性能与底层的分子表征密切相关,这可以说是其成功的最关键因素。标准分子表征方法包括全局描述符、字符串序列标记和共价键拓扑图,部分方法还融入了空间结构信息。
一种新方法 SIMG
由于当前应用最多的图表征缺乏量子化学先验知识或可解释性,另一方面计算化学已发展出量化轨道相互作用的立体电子分析技术。这种能解释化学键相互作用(如蛋白质-底物结合)的信息若能被高效整合到分子表征中,将显著提升机器学习模型的性能。
卡内基梅隆大学的研究人员提出了一种基于分子图的新表示方法,该方法通过与键轨道、孤对电子及其相互作用(本质上编码了关系型三维信息)相对应的节点来增强,称为 SIMG(stereoelectronics-infused molecular graphs)。
图示:常见的分子表征和新方法概述。(来源:论文)
研究人员在论文里描述了如何从自然键轨道 (NBO) 分析数据构建 SIMG 表示,并使用图神经网络 (SIMG*) 进行近似从而实现快速预测。
他们研究了将这些表示方法用作消息传递二维机器学习算法的输入以进行分子性质预测的优势。并进一步证明了 SIMG* 预测模型可以在小分子数据上进行训练,并准确预测整个蛋白质的表征。
SIMG 拥有在直接量子化学 NBO 计算难以实现的体系中识别立体电子轨道相互作用的能力,从而揭示了此前无法获得的化学洞见。
局限性
当然,也存在一些局限性。在该团队的表示中,元素采用独热编码,因此要添加另一个元素,需要收集包含新元素的结构的扩展 NBO 分析数据集。这可以通过使用元素的物理属性作为特征来规避,但需要进一步研究。该研究也仅限于整体中性、闭壳层分子结构。研究人员正在将该方法扩展到可变电荷和开壳层分子。
结语
分子机器学习是药物和材料发现、催化剂优化流程的关键组成部分,也是研究复杂生化过程的宝贵工具。
将量子力学特征融入分子机器学习的图形表示中,将增强研究人员对这些算法的信任,有助于提高模型的可解释性,并为研究电子结构与分子性质之间的关系开辟新的机遇。
预测的轨道信息也可用于分析各种体系中的化学反应性。
该团队还发布了一个网络应用程序 ,大家可以去尝试一下。
程序链接:https://simg.cheme.cmu.edu/
论文链接:https://www.nature.com/articles/s42256-025-01031-9
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.