网易首页 > 网易号 > 正文 申请入驻

Frank Glorius团队的最新算法(EvoMPF):解锁分子指纹

0
分享至

导读

近日,德国明斯特大学Frank Glorius团队提出了一种通用算法,基于给定的数据集生成高度特定的表示形式。该算法利用结构查询和进化算法生成独特的分子指纹。这些分子指纹能够准确预测其物理性质、化学反应性和生物活性,非常适用于分子机器学习。提高了分子的可解释性,可以提取出反应性趋势等信息。多模式的算法(EvoMPF)将被用于发现不同分子科学中的未知结构与目标的关系。相关成果发表在Chem上,文章链接DOI: 10.1016/j.chempr.2024.02.004。

(图片来源:Chem)

正文

机器学习(Machine Learning, ML)即应用程序在无需人工参与的情况下,执行流程改进,并按需更新代码、扩展功能。机器学习可应用在图像识别、语音识别、交通预测、产品推荐、自动驾驶汽车、垃圾邮件和恶意软件的过滤、虚拟的个人助理(如:Siri,小度)、股市交易、医学诊断以及自动语言翻译(Fig. 1)。下载化学加APP到你手机,收获更多商业合作机会。

Fig. 1. Machine learning types

(图片来源:Google)

机器学习在化学科学中也得到广泛应用,从药物发现、化合物性质预测再到合成路线的设计等(Fig. 2A,Cell,2020, 180, 688; Chem. Soc. Rev.,1995, 24, 279; Nature,2018, 555, 604)。然而,将化学分子转化为计算机可读的数据仍然是一个挑战,这需要考虑数据集、输入和模型之间的复杂关系。尽管已经开发了一些表示方法,但由于应用的多样性,目前仍然存在一些挑战(Chem. Soc. Rev.,2020, 49, 6154; Chem,2020, 6, 1379; Nature,2019, 571, 343; Science,2018, 360, 186; Nat. Mach. Intell.,2020, 2, 573)。Frank Glorius提出一个理想的解决方案应该具备高适应性、普适性、预测性能以及可解释性(Fig. 2B),Glorius教授呼吁开发一种跨越不同分子科学领域应用的通用方法,以提高预测准确性和解释性。

Fig. 2. Different fields of application and molecular representations for molecular machine learning

(图片来源:Chem)

Glorius团队开发了一种新算法—EvoMPF,用于生成表示分子。这个方法旨在解决机器学习在研究化学问题时遇到的挑战,特别是在特征化过程中过度拟合的情况。Glorius提出了一种灵活的分子查询语言(SMARTS),该语言可以查询该化合物的属性(例如杂化、电荷和手性)以及邻近原子数。经过迭代、评估训练和调整优化,可以生成用于描述分子的分子指纹(MPFs)。进化算法利用随机生成和突变来生成新的模式,通过训练机器学习模型来评估每个MPF的性能。用CatBoost做为机器学习模型,在机器学习的每次迭代进化中MPF都能丰富相关的数据集,而整体上不发生对数据集的过度调整,从而产生高度可解释且密集的分子表示,这种就是EvoMPF。Glorius和团队成员通过这种方法生成的分子具有高度的解释性,且不会过度拟合数据(Fig.3)。

Fig.3. Working principle of the EvoMPF algorithm

(图片来源:Chem)

优化和产率预测:定量产率预测需要考虑分子的组合性质、目标产物的复杂性以及数据样本过少的问题。他们指出用于定量预测还必须考虑过拟合的问题,必须通过统计探测方法评估模型的泛化能力以及影响。用于测试算法性能的Doyle-Dreher数据集,包含了大量的Buchwald-Hartwig交叉偶联反应数据(Fig.4A)。在这个数据集中,有多种芳基卤化物、钯催化剂和碱与多种异噁唑酮添加剂的组合。为了评估模型对新化合物的泛化能力,使用了样本外(OOS)的数据集来进行测试(Fig.4B)。基于进化算法生成和优化描述分子结构的分子指纹(MPFs)。他们使用SMARTS语言来定义查询分子,然后EvoMPF随机生成和优化这些模式,以描述数据集的关键特征。通过在每次迭代中评估预测性能,他们证明了进化算法能够有效地完成该分子的产率预测。在进行了一系列实验后,发现使用二进制特征在组合数据集上查询只需少量数据点即可获得出色的预测性能。这表明了所需特征数量减少,该方法可以快捷的找到合适的描述符(Fig.4C)。该研究还发现使用二进制特征只需要256个模式就能够获得出色的预测性能,尽管使用32个模式就足以获得类似的性能(Fig.4D)。在研究中,Glorius还指出他们的方法在大多数测试中略微优于复杂的深度学习模型(Deep Learning)和人工设计的指纹。这突显了无特征的重要性,以及该方法在产率预测时的有效性(Fig.4E)。

Fig.4. Optimization and performance of the MPF on the Doyle-Dreher reaction dataset

(图片来源:Chem)

应用范围:该研究还了测试EvoMPF在各种反应数据集上的性能。由Richardson和Sach发表的一个数据集包括5,760个Suzuki-Miyaura交叉偶联反应(Fig.5A)。尽管已表明这个数据集是可预测的,但目前为止,还没有方法证明可以将机器学到的规则转移到之前未见过的结构上。由于EvoMPF可以轻松应用于小型的数据集,因此没有进一步耗时优化,使进化和模型参数保持不变。在这些OOS数据集上依旧获得了较高的预测准确度。有趣的是,在排除所有使用P(OTol)3和SPhos作为配体反应的OOS分割中,统计对照(即OHE)的表现甚至比EvoMPF好,这表明这些配体对产率没有很大的影响。之后,还对手性磷酸催化剂催化生成不对称N, S-缩醛数据集进行了对映选择性的预测,EvoMPF的表现优于相应的统计对照,并且与更复杂的多特征指纹(Fig.5B)以及差异反应指纹(DRFPs)相当。

Fig.5. Performance of the MPFs on different quantitative reaction prediction tasks

(图片来源:Chem)

随着EvoMPF在小型数据集上表现出的准确性和稳定性,研究还测试了该算法在不同的分子预测任务上的普适性。该研究对药理学终点的预测,特别是LD50的预测表现出色(Fig.6A)。研究使用了多个来源的数据集其中包含了大量化合物数据,并进行了对比实验以验证EvoMPF相对于传统方法的优越性(Fig.6B)。结果表明,EvoMPF能够有效地处理复杂的预测任务,展现出了极高的稳定性。接着将EvoMPF应用于QSAR/QSPR领域的四个基准数据集(Fig.6E),这些数据集涵盖了不同的任务和分子特性。通过测试(HIV病毒的复制能力、分子的量子力学性质),证明EvoMPF在各种任务中的稳健性和性能优势,甚至在某些情况下超过了图神经网络(GNN)的性能,这表明EvoMPF在不同领域和任务中的广泛适用性。

Fig.6. Analysis of the performance of the MPFs at toxicity prediction and further QSPR and quantitative structure activity relationship (QSAR) tasks

(图片来源:Chem)

可解释和解释性人工智能:在毒性预测的数据库中,研究发现某些元素的PAPs查询数量与其平均毒性、毒性方差以及含有这些元素数据点的数量之间存在着强烈的相关性,这突显了EvoMPF的可解释朝着识别相关化合物的方向发展。随后,研究将EvoMPF应用于Buchwald-Hartwig数据集中,验证其生成的特征是否能够捕获已知的反应趋势。通过与人共设计的查询相比较,他们发现EvoMPF生成的查询不仅考虑到了人类设计的结构特征,还捕捉到了更加微妙的反应性趋势,例如特定配体对反应产率的影响(Fig.7B)。这证明了EvoMPF生成的特征对化学结构与反应性有更深层的理解。总的来说,通过EvoMPF生成的特征具有直接的可解释性,并且能够反映化学结构与反应性之间的复杂关系,这使得研究人员能够直接从数据中洞察整个反应流程,而无需额外的模型分析。

Fig.7. Statistical analysis of the generated patterns and application of the EvoMPF for explainable AI

(图片来源:Chem)

总结

在这项工作中,Glorius研究团队提出了EvoMPF作为一种全面且高度适应性的方法,用于生成表示分子。结合了结构查询、进化算法和高性能的机器学习模型,形成一个平台,能够为给定的分子数据集找到特定于问题的指纹。通过测试和优化,发现EvoMPF能够适应任何大小、多样性的分子数据集,并且能够应对各种分子挑战,从QSPR到QSAR应用都有良好的表现,突显了信息的高度密集性和人工智能的力量。此外,EvoMPF生成的指纹不仅可解释,还能够推导出(生物)化学知识,使人工智能在可解释的领域具有广泛的应用。当然,该算法同样具有限制,对于过渡金属配合物、盐类、各种材料、平面和轴手性的化合物并不适用。然而,在分子科学领域,EvoMPF将为从给定的数据集提取知识开辟新篇章,可以发现不同分子学科未知的结构与目标的关系。

文献详情:

P hilipp M. Pflüger, Marius Kühnemund, Felix, Katzenburg, Herbert Kuchen, Frank Glorius*

An Evolutionary Algorithm for Interpretable Molecular Representations

Chem,2024, https:// do i.org/10.1016/j.chempr.2024.02.004

长按扫码,查看原文




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
银行拒绝为7岁男童开通网银,其父起诉银行,称侵犯了孩子的平等权利和取款自由,法院:驳回

银行拒绝为7岁男童开通网银,其父起诉银行,称侵犯了孩子的平等权利和取款自由,法院:驳回

都市快报橙柿互动
2026-05-15 23:27:22
台湾问题,中国对美摊牌后,鲁比奥回应了,赵少康:台独就会战争

台湾问题,中国对美摊牌后,鲁比奥回应了,赵少康:台独就会战争

华史谈
2026-05-16 09:46:52
川普在返美专机上松口谈台湾,介文汲分析内情:要看11月以后

川普在返美专机上松口谈台湾,介文汲分析内情:要看11月以后

新时光点滴
2026-05-16 00:23:30
果然不出所料,中方不在台湾问题上绕弯子了,特朗普开始准备退路

果然不出所料,中方不在台湾问题上绕弯子了,特朗普开始准备退路

华史谈
2026-05-16 09:47:13
苹果官宣 618 大促来了,iPhone 17 全系历史低价

苹果官宣 618 大促来了,iPhone 17 全系历史低价

新浪财经
2026-05-16 06:09:32
活久见,某工程公司因工程款未到账,流动资金不足居然想出了这招

活久见,某工程公司因工程款未到账,流动资金不足居然想出了这招

黯泉
2026-05-15 16:19:10
珠三角大部和粤西沿海周末将迎大到暴雨!伴有局地强对流天气

珠三角大部和粤西沿海周末将迎大到暴雨!伴有局地强对流天气

南方都市报
2026-05-16 10:31:04
ISW指出,莫斯科“夸大的领土野心和要求完全违背战场现实”

ISW指出,莫斯科“夸大的领土野心和要求完全违背战场现实”

山河路口
2026-05-15 14:06:43
马斯克访华像回家,母亲已长住上海,儿子身价万亿她还做视频带货

马斯克访华像回家,母亲已长住上海,儿子身价万亿她还做视频带货

云舟史策
2026-05-16 07:16:45
美国人:中国不可怕,可怕的是,中国淘汰4000年的东西他们还在用

美国人:中国不可怕,可怕的是,中国淘汰4000年的东西他们还在用

抽象派大师
2026-05-14 15:37:23
波多野结衣公开择偶标准,想嫁给中国男人,她远比你想象的更优秀

波多野结衣公开择偶标准,想嫁给中国男人,她远比你想象的更优秀

花哥扒娱乐
2026-05-14 20:10:50
如今已经不是房价跌不跌的问题了,而是新房正在“摧毁”二手房

如今已经不是房价跌不跌的问题了,而是新房正在“摧毁”二手房

蜉蝣说
2026-05-14 18:33:50
杜锋下课王仕鹏接任,徐杰成核心,球迷万言书令朱芳雨沉默

杜锋下课王仕鹏接任,徐杰成核心,球迷万言书令朱芳雨沉默

林子说事
2026-05-16 10:14:33
关键时刻逃避责任!女总理宣布辞职,临别撂下狠话看呆欧洲政坛

关键时刻逃避责任!女总理宣布辞职,临别撂下狠话看呆欧洲政坛

究竟谁主沉浮
2026-05-16 04:26:28
山姆排长队,一上架遭抢购!有商户一天卖了9000斤,网友:猝不及防

山姆排长队,一上架遭抢购!有商户一天卖了9000斤,网友:猝不及防

上海约饭局
2026-05-14 18:50:04
澎湃评国少淘汰沙特:战术安排充满智慧,并彰显个人技术能力

澎湃评国少淘汰沙特:战术安排充满智慧,并彰显个人技术能力

懂球帝
2026-05-16 09:07:33
毛主席遗体变形变色?每年百万美金护理费?负责人徐静:无稽之谈

毛主席遗体变形变色?每年百万美金护理费?负责人徐静:无稽之谈

顾秋韵
2026-05-15 02:13:46
重磅!720万!那老詹就不留在湖人了...

重磅!720万!那老詹就不留在湖人了...

左右为篮
2026-05-15 12:34:54
皇马分成两大派系,穆里尼奥回归治得了豪门刺头,治不了人心散架

皇马分成两大派系,穆里尼奥回归治得了豪门刺头,治不了人心散架

姜大叔侃球
2026-05-16 09:50:19
洛阳交警通报男子驾车追尾失控造成一死两伤:肇事司机被当场控制

洛阳交警通报男子驾车追尾失控造成一死两伤:肇事司机被当场控制

环球网资讯
2026-05-16 11:00:11
2026-05-16 11:31:00
化学加网 incentive-icons
化学加网
萃聚英才,共享化学
12596文章数 8308关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

火遍全网后消失 网红小胖如今样貌大变:做了心脏搭桥

头条要闻

火遍全网后消失 网红小胖如今样貌大变:做了心脏搭桥

体育要闻

35岁坎特,干了一件这辈子最吵的事

娱乐要闻

张嘉译和老婆的差距让人心酸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

旅游
游戏
亲子
数码
军事航空

旅游要闻

闭园、停运!暴雨即将抵达!河南多家景区发布紧急通知→

老粉狂喜!曝刺客大师艾吉奥将在刺客信条新作“回归”

亲子要闻

大连美琳达早期妊娠保胎指南:科学应对,安心孕育

数码要闻

5年打磨:前苹果设计师透露AirPods Max研发细节

军事要闻

联合国安理会审议叙利亚局势

无障碍浏览 进入关怀版