网易首页 > 网易号 > 正文 申请入驻

Frank Glorius团队的最新算法(EvoMPF):解锁分子指纹

0
分享至

导读

近日,德国明斯特大学Frank Glorius团队提出了一种通用算法,基于给定的数据集生成高度特定的表示形式。该算法利用结构查询和进化算法生成独特的分子指纹。这些分子指纹能够准确预测其物理性质、化学反应性和生物活性,非常适用于分子机器学习。提高了分子的可解释性,可以提取出反应性趋势等信息。多模式的算法(EvoMPF)将被用于发现不同分子科学中的未知结构与目标的关系。相关成果发表在Chem上,文章链接DOI: 10.1016/j.chempr.2024.02.004。

(图片来源:Chem)

正文

机器学习(Machine Learning, ML)即应用程序在无需人工参与的情况下,执行流程改进,并按需更新代码、扩展功能。机器学习可应用在图像识别、语音识别、交通预测、产品推荐、自动驾驶汽车、垃圾邮件和恶意软件的过滤、虚拟的个人助理(如:Siri,小度)、股市交易、医学诊断以及自动语言翻译(Fig. 1)。下载化学加APP到你手机,收获更多商业合作机会。

Fig. 1. Machine learning types

(图片来源:Google)

机器学习在化学科学中也得到广泛应用,从药物发现、化合物性质预测再到合成路线的设计等(Fig. 2A,Cell,2020, 180, 688; Chem. Soc. Rev.,1995, 24, 279; Nature,2018, 555, 604)。然而,将化学分子转化为计算机可读的数据仍然是一个挑战,这需要考虑数据集、输入和模型之间的复杂关系。尽管已经开发了一些表示方法,但由于应用的多样性,目前仍然存在一些挑战(Chem. Soc. Rev.,2020, 49, 6154; Chem,2020, 6, 1379; Nature,2019, 571, 343; Science,2018, 360, 186; Nat. Mach. Intell.,2020, 2, 573)。Frank Glorius提出一个理想的解决方案应该具备高适应性、普适性、预测性能以及可解释性(Fig. 2B),Glorius教授呼吁开发一种跨越不同分子科学领域应用的通用方法,以提高预测准确性和解释性。

Fig. 2. Different fields of application and molecular representations for molecular machine learning

(图片来源:Chem)

Glorius团队开发了一种新算法—EvoMPF,用于生成表示分子。这个方法旨在解决机器学习在研究化学问题时遇到的挑战,特别是在特征化过程中过度拟合的情况。Glorius提出了一种灵活的分子查询语言(SMARTS),该语言可以查询该化合物的属性(例如杂化、电荷和手性)以及邻近原子数。经过迭代、评估训练和调整优化,可以生成用于描述分子的分子指纹(MPFs)。进化算法利用随机生成和突变来生成新的模式,通过训练机器学习模型来评估每个MPF的性能。用CatBoost做为机器学习模型,在机器学习的每次迭代进化中MPF都能丰富相关的数据集,而整体上不发生对数据集的过度调整,从而产生高度可解释且密集的分子表示,这种就是EvoMPF。Glorius和团队成员通过这种方法生成的分子具有高度的解释性,且不会过度拟合数据(Fig.3)。

Fig.3. Working principle of the EvoMPF algorithm

(图片来源:Chem)

优化和产率预测:定量产率预测需要考虑分子的组合性质、目标产物的复杂性以及数据样本过少的问题。他们指出用于定量预测还必须考虑过拟合的问题,必须通过统计探测方法评估模型的泛化能力以及影响。用于测试算法性能的Doyle-Dreher数据集,包含了大量的Buchwald-Hartwig交叉偶联反应数据(Fig.4A)。在这个数据集中,有多种芳基卤化物、钯催化剂和碱与多种异噁唑酮添加剂的组合。为了评估模型对新化合物的泛化能力,使用了样本外(OOS)的数据集来进行测试(Fig.4B)。基于进化算法生成和优化描述分子结构的分子指纹(MPFs)。他们使用SMARTS语言来定义查询分子,然后EvoMPF随机生成和优化这些模式,以描述数据集的关键特征。通过在每次迭代中评估预测性能,他们证明了进化算法能够有效地完成该分子的产率预测。在进行了一系列实验后,发现使用二进制特征在组合数据集上查询只需少量数据点即可获得出色的预测性能。这表明了所需特征数量减少,该方法可以快捷的找到合适的描述符(Fig.4C)。该研究还发现使用二进制特征只需要256个模式就能够获得出色的预测性能,尽管使用32个模式就足以获得类似的性能(Fig.4D)。在研究中,Glorius还指出他们的方法在大多数测试中略微优于复杂的深度学习模型(Deep Learning)和人工设计的指纹。这突显了无特征的重要性,以及该方法在产率预测时的有效性(Fig.4E)。

Fig.4. Optimization and performance of the MPF on the Doyle-Dreher reaction dataset

(图片来源:Chem)

应用范围:该研究还了测试EvoMPF在各种反应数据集上的性能。由Richardson和Sach发表的一个数据集包括5,760个Suzuki-Miyaura交叉偶联反应(Fig.5A)。尽管已表明这个数据集是可预测的,但目前为止,还没有方法证明可以将机器学到的规则转移到之前未见过的结构上。由于EvoMPF可以轻松应用于小型的数据集,因此没有进一步耗时优化,使进化和模型参数保持不变。在这些OOS数据集上依旧获得了较高的预测准确度。有趣的是,在排除所有使用P(OTol)3和SPhos作为配体反应的OOS分割中,统计对照(即OHE)的表现甚至比EvoMPF好,这表明这些配体对产率没有很大的影响。之后,还对手性磷酸催化剂催化生成不对称N, S-缩醛数据集进行了对映选择性的预测,EvoMPF的表现优于相应的统计对照,并且与更复杂的多特征指纹(Fig.5B)以及差异反应指纹(DRFPs)相当。

Fig.5. Performance of the MPFs on different quantitative reaction prediction tasks

(图片来源:Chem)

随着EvoMPF在小型数据集上表现出的准确性和稳定性,研究还测试了该算法在不同的分子预测任务上的普适性。该研究对药理学终点的预测,特别是LD50的预测表现出色(Fig.6A)。研究使用了多个来源的数据集其中包含了大量化合物数据,并进行了对比实验以验证EvoMPF相对于传统方法的优越性(Fig.6B)。结果表明,EvoMPF能够有效地处理复杂的预测任务,展现出了极高的稳定性。接着将EvoMPF应用于QSAR/QSPR领域的四个基准数据集(Fig.6E),这些数据集涵盖了不同的任务和分子特性。通过测试(HIV病毒的复制能力、分子的量子力学性质),证明EvoMPF在各种任务中的稳健性和性能优势,甚至在某些情况下超过了图神经网络(GNN)的性能,这表明EvoMPF在不同领域和任务中的广泛适用性。

Fig.6. Analysis of the performance of the MPFs at toxicity prediction and further QSPR and quantitative structure activity relationship (QSAR) tasks

(图片来源:Chem)

可解释和解释性人工智能:在毒性预测的数据库中,研究发现某些元素的PAPs查询数量与其平均毒性、毒性方差以及含有这些元素数据点的数量之间存在着强烈的相关性,这突显了EvoMPF的可解释朝着识别相关化合物的方向发展。随后,研究将EvoMPF应用于Buchwald-Hartwig数据集中,验证其生成的特征是否能够捕获已知的反应趋势。通过与人共设计的查询相比较,他们发现EvoMPF生成的查询不仅考虑到了人类设计的结构特征,还捕捉到了更加微妙的反应性趋势,例如特定配体对反应产率的影响(Fig.7B)。这证明了EvoMPF生成的特征对化学结构与反应性有更深层的理解。总的来说,通过EvoMPF生成的特征具有直接的可解释性,并且能够反映化学结构与反应性之间的复杂关系,这使得研究人员能够直接从数据中洞察整个反应流程,而无需额外的模型分析。

Fig.7. Statistical analysis of the generated patterns and application of the EvoMPF for explainable AI

(图片来源:Chem)

总结

在这项工作中,Glorius研究团队提出了EvoMPF作为一种全面且高度适应性的方法,用于生成表示分子。结合了结构查询、进化算法和高性能的机器学习模型,形成一个平台,能够为给定的分子数据集找到特定于问题的指纹。通过测试和优化,发现EvoMPF能够适应任何大小、多样性的分子数据集,并且能够应对各种分子挑战,从QSPR到QSAR应用都有良好的表现,突显了信息的高度密集性和人工智能的力量。此外,EvoMPF生成的指纹不仅可解释,还能够推导出(生物)化学知识,使人工智能在可解释的领域具有广泛的应用。当然,该算法同样具有限制,对于过渡金属配合物、盐类、各种材料、平面和轴手性的化合物并不适用。然而,在分子科学领域,EvoMPF将为从给定的数据集提取知识开辟新篇章,可以发现不同分子学科未知的结构与目标的关系。

文献详情:

P hilipp M. Pflüger, Marius Kühnemund, Felix, Katzenburg, Herbert Kuchen, Frank Glorius*

An Evolutionary Algorithm for Interpretable Molecular Representations

Chem,2024, https:// do i.org/10.1016/j.chempr.2024.02.004

长按扫码,查看原文




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吉尔吉斯主帅:中国是一个伟大的国家,中国队是支伟大的球队

吉尔吉斯主帅:中国是一个伟大的国家,中国队是支伟大的球队

懂球帝
2026-05-11 11:37:55
森林北回应“与汪峰分手”

森林北回应“与汪峰分手”

深圳晚报
2026-05-10 22:57:36
三星堆又上新了!7号坑开出“天降神器”,商代陨铁斧钺惊喜现世

三星堆又上新了!7号坑开出“天降神器”,商代陨铁斧钺惊喜现世

落雪听梅a
2026-05-11 20:29:29
CBA官方:浙江因观众辱骂裁判、投掷杂物、投资人违规进场,罚款16万

CBA官方:浙江因观众辱骂裁判、投掷杂物、投资人违规进场,罚款16万

懂球帝
2026-05-11 19:33:05
河南省人民检察院原巡视员刘新年被开除党籍

河南省人民检察院原巡视员刘新年被开除党籍

界面新闻
2026-05-11 16:01:30
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

另子维爱读史
2026-05-11 21:22:03
是谁在偷换了世界杯转播权之争的逻辑?

是谁在偷换了世界杯转播权之争的逻辑?

鲁先生的笔
2026-05-10 21:12:47
章子怡“泼墨门”主谋,叶剑英儿媳,离婚后转战商圈竟成资本大鳄

章子怡“泼墨门”主谋,叶剑英儿媳,离婚后转战商圈竟成资本大鳄

财叔
2026-05-11 08:40:12
乒联公布第20周世界排名:张本美和第3创新高!林诗栋梁靖崑回升

乒联公布第20周世界排名:张本美和第3创新高!林诗栋梁靖崑回升

全言作品
2026-05-11 16:18:28
5小时空等耗死三条人命!

5小时空等耗死三条人命!

新动察
2026-05-09 11:17:26
释永信被一女子爆料:她们姐妹住少林寺3天,争着往释永信房间跑

释永信被一女子爆料:她们姐妹住少林寺3天,争着往释永信房间跑

江山挥笔
2026-03-23 15:40:31
一厕所配图露骨:男厕“手握香蕉剥开”,女厕“手抠切开的西柚”

一厕所配图露骨:男厕“手握香蕉剥开”,女厕“手抠切开的西柚”

川渝视觉
2026-05-11 21:34:56
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
沙溢暴瘦36斤认不出!下颌线锋利撞脸休杰克曼,军艺校草杀疯了

沙溢暴瘦36斤认不出!下颌线锋利撞脸休杰克曼,军艺校草杀疯了

喜欢历史的阿繁
2026-05-12 02:30:22
OPPO母亲节文案的策划者余思月毕业于武汉大学文学院

OPPO母亲节文案的策划者余思月毕业于武汉大学文学院

阿振观点
2026-05-11 08:04:10
敢介入台海就直面核弹,法国候选人梅朗雄立场明确,马克龙将下台

敢介入台海就直面核弹,法国候选人梅朗雄立场明确,马克龙将下台

知法而形
2026-05-11 11:41:57
女子车祸住院遭男医生侵犯,录下全过程并主动反问,为何不立案

女子车祸住院遭男医生侵犯,录下全过程并主动反问,为何不立案

一丝不苟的法律人
2026-05-11 11:45:38
别只吃鸡蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

别只吃鸡蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

全球军事记
2026-05-08 21:21:30
曝华为“白嫖”开源团队技术方案?踢了开发者跟第三方公司合作

曝华为“白嫖”开源团队技术方案?踢了开发者跟第三方公司合作

爆角追踪
2026-05-11 09:54:53
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
2026-05-12 03:40:49
化学加网 incentive-icons
化学加网
萃聚英才,共享化学
12574文章数 8308关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

手机
亲子
旅游
教育
公开课

手机要闻

苹果iOS/iPadOS 15.8.8正式版发布

亲子要闻

你们都喜欢哪些科目啊?

旅游要闻

打卡同色系风景 带火城市微旅行

教育要闻

特朗普访华对美国留学市场是利好吗?中国留美学生规模如何变化?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版