网易首页 > 网易号 > 正文 申请入驻

Frank Glorius团队的最新算法(EvoMPF):解锁分子指纹

0
分享至

导读

近日,德国明斯特大学Frank Glorius团队提出了一种通用算法,基于给定的数据集生成高度特定的表示形式。该算法利用结构查询和进化算法生成独特的分子指纹。这些分子指纹能够准确预测其物理性质、化学反应性和生物活性,非常适用于分子机器学习。提高了分子的可解释性,可以提取出反应性趋势等信息。多模式的算法(EvoMPF)将被用于发现不同分子科学中的未知结构与目标的关系。相关成果发表在Chem上,文章链接DOI: 10.1016/j.chempr.2024.02.004。

(图片来源:Chem)

正文

机器学习(Machine Learning, ML)即应用程序在无需人工参与的情况下,执行流程改进,并按需更新代码、扩展功能。机器学习可应用在图像识别、语音识别、交通预测、产品推荐、自动驾驶汽车、垃圾邮件和恶意软件的过滤、虚拟的个人助理(如:Siri,小度)、股市交易、医学诊断以及自动语言翻译(Fig. 1)。下载化学加APP到你手机,收获更多商业合作机会。

Fig. 1. Machine learning types

(图片来源:Google)

机器学习在化学科学中也得到广泛应用,从药物发现、化合物性质预测再到合成路线的设计等(Fig. 2A,Cell,2020, 180, 688; Chem. Soc. Rev.,1995, 24, 279; Nature,2018, 555, 604)。然而,将化学分子转化为计算机可读的数据仍然是一个挑战,这需要考虑数据集、输入和模型之间的复杂关系。尽管已经开发了一些表示方法,但由于应用的多样性,目前仍然存在一些挑战(Chem. Soc. Rev.,2020, 49, 6154; Chem,2020, 6, 1379; Nature,2019, 571, 343; Science,2018, 360, 186; Nat. Mach. Intell.,2020, 2, 573)。Frank Glorius提出一个理想的解决方案应该具备高适应性、普适性、预测性能以及可解释性(Fig. 2B),Glorius教授呼吁开发一种跨越不同分子科学领域应用的通用方法,以提高预测准确性和解释性。

Fig. 2. Different fields of application and molecular representations for molecular machine learning

(图片来源:Chem)

Glorius团队开发了一种新算法—EvoMPF,用于生成表示分子。这个方法旨在解决机器学习在研究化学问题时遇到的挑战,特别是在特征化过程中过度拟合的情况。Glorius提出了一种灵活的分子查询语言(SMARTS),该语言可以查询该化合物的属性(例如杂化、电荷和手性)以及邻近原子数。经过迭代、评估训练和调整优化,可以生成用于描述分子的分子指纹(MPFs)。进化算法利用随机生成和突变来生成新的模式,通过训练机器学习模型来评估每个MPF的性能。用CatBoost做为机器学习模型,在机器学习的每次迭代进化中MPF都能丰富相关的数据集,而整体上不发生对数据集的过度调整,从而产生高度可解释且密集的分子表示,这种就是EvoMPF。Glorius和团队成员通过这种方法生成的分子具有高度的解释性,且不会过度拟合数据(Fig.3)。

Fig.3. Working principle of the EvoMPF algorithm

(图片来源:Chem)

优化和产率预测:定量产率预测需要考虑分子的组合性质、目标产物的复杂性以及数据样本过少的问题。他们指出用于定量预测还必须考虑过拟合的问题,必须通过统计探测方法评估模型的泛化能力以及影响。用于测试算法性能的Doyle-Dreher数据集,包含了大量的Buchwald-Hartwig交叉偶联反应数据(Fig.4A)。在这个数据集中,有多种芳基卤化物、钯催化剂和碱与多种异噁唑酮添加剂的组合。为了评估模型对新化合物的泛化能力,使用了样本外(OOS)的数据集来进行测试(Fig.4B)。基于进化算法生成和优化描述分子结构的分子指纹(MPFs)。他们使用SMARTS语言来定义查询分子,然后EvoMPF随机生成和优化这些模式,以描述数据集的关键特征。通过在每次迭代中评估预测性能,他们证明了进化算法能够有效地完成该分子的产率预测。在进行了一系列实验后,发现使用二进制特征在组合数据集上查询只需少量数据点即可获得出色的预测性能。这表明了所需特征数量减少,该方法可以快捷的找到合适的描述符(Fig.4C)。该研究还发现使用二进制特征只需要256个模式就能够获得出色的预测性能,尽管使用32个模式就足以获得类似的性能(Fig.4D)。在研究中,Glorius还指出他们的方法在大多数测试中略微优于复杂的深度学习模型(Deep Learning)和人工设计的指纹。这突显了无特征的重要性,以及该方法在产率预测时的有效性(Fig.4E)。

Fig.4. Optimization and performance of the MPF on the Doyle-Dreher reaction dataset

(图片来源:Chem)

应用范围:该研究还了测试EvoMPF在各种反应数据集上的性能。由Richardson和Sach发表的一个数据集包括5,760个Suzuki-Miyaura交叉偶联反应(Fig.5A)。尽管已表明这个数据集是可预测的,但目前为止,还没有方法证明可以将机器学到的规则转移到之前未见过的结构上。由于EvoMPF可以轻松应用于小型的数据集,因此没有进一步耗时优化,使进化和模型参数保持不变。在这些OOS数据集上依旧获得了较高的预测准确度。有趣的是,在排除所有使用P(OTol)3和SPhos作为配体反应的OOS分割中,统计对照(即OHE)的表现甚至比EvoMPF好,这表明这些配体对产率没有很大的影响。之后,还对手性磷酸催化剂催化生成不对称N, S-缩醛数据集进行了对映选择性的预测,EvoMPF的表现优于相应的统计对照,并且与更复杂的多特征指纹(Fig.5B)以及差异反应指纹(DRFPs)相当。

Fig.5. Performance of the MPFs on different quantitative reaction prediction tasks

(图片来源:Chem)

随着EvoMPF在小型数据集上表现出的准确性和稳定性,研究还测试了该算法在不同的分子预测任务上的普适性。该研究对药理学终点的预测,特别是LD50的预测表现出色(Fig.6A)。研究使用了多个来源的数据集其中包含了大量化合物数据,并进行了对比实验以验证EvoMPF相对于传统方法的优越性(Fig.6B)。结果表明,EvoMPF能够有效地处理复杂的预测任务,展现出了极高的稳定性。接着将EvoMPF应用于QSAR/QSPR领域的四个基准数据集(Fig.6E),这些数据集涵盖了不同的任务和分子特性。通过测试(HIV病毒的复制能力、分子的量子力学性质),证明EvoMPF在各种任务中的稳健性和性能优势,甚至在某些情况下超过了图神经网络(GNN)的性能,这表明EvoMPF在不同领域和任务中的广泛适用性。

Fig.6. Analysis of the performance of the MPFs at toxicity prediction and further QSPR and quantitative structure activity relationship (QSAR) tasks

(图片来源:Chem)

可解释和解释性人工智能:在毒性预测的数据库中,研究发现某些元素的PAPs查询数量与其平均毒性、毒性方差以及含有这些元素数据点的数量之间存在着强烈的相关性,这突显了EvoMPF的可解释朝着识别相关化合物的方向发展。随后,研究将EvoMPF应用于Buchwald-Hartwig数据集中,验证其生成的特征是否能够捕获已知的反应趋势。通过与人共设计的查询相比较,他们发现EvoMPF生成的查询不仅考虑到了人类设计的结构特征,还捕捉到了更加微妙的反应性趋势,例如特定配体对反应产率的影响(Fig.7B)。这证明了EvoMPF生成的特征对化学结构与反应性有更深层的理解。总的来说,通过EvoMPF生成的特征具有直接的可解释性,并且能够反映化学结构与反应性之间的复杂关系,这使得研究人员能够直接从数据中洞察整个反应流程,而无需额外的模型分析。

Fig.7. Statistical analysis of the generated patterns and application of the EvoMPF for explainable AI

(图片来源:Chem)

总结

在这项工作中,Glorius研究团队提出了EvoMPF作为一种全面且高度适应性的方法,用于生成表示分子。结合了结构查询、进化算法和高性能的机器学习模型,形成一个平台,能够为给定的分子数据集找到特定于问题的指纹。通过测试和优化,发现EvoMPF能够适应任何大小、多样性的分子数据集,并且能够应对各种分子挑战,从QSPR到QSAR应用都有良好的表现,突显了信息的高度密集性和人工智能的力量。此外,EvoMPF生成的指纹不仅可解释,还能够推导出(生物)化学知识,使人工智能在可解释的领域具有广泛的应用。当然,该算法同样具有限制,对于过渡金属配合物、盐类、各种材料、平面和轴手性的化合物并不适用。然而,在分子科学领域,EvoMPF将为从给定的数据集提取知识开辟新篇章,可以发现不同分子学科未知的结构与目标的关系。

文献详情:

P hilipp M. Pflüger, Marius Kühnemund, Felix, Katzenburg, Herbert Kuchen, Frank Glorius*

An Evolutionary Algorithm for Interpretable Molecular Representations

Chem,2024, https:// do i.org/10.1016/j.chempr.2024.02.004

长按扫码,查看原文




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
茶里回应“两亿欠薪”:已完成绝大部分在职员工欠薪的兑付工作,离职员工欠薪问题正分批次推进解决

茶里回应“两亿欠薪”:已完成绝大部分在职员工欠薪的兑付工作,离职员工欠薪问题正分批次推进解决

界面新闻
2026-01-14 18:22:25
特朗普紧急发文,直言美国可能“要完蛋”,中国已是他的最大救星

特朗普紧急发文,直言美国可能“要完蛋”,中国已是他的最大救星

历史有些冷
2026-01-13 20:20:03
陕西大范围雨雪+降温来袭!雨夹雪、小到中雪!降温8-10℃→

陕西大范围雨雪+降温来袭!雨夹雪、小到中雪!降温8-10℃→

环球网资讯
2026-01-14 15:51:43
中科院院士:青年科学家 5 年内拿不出成果就面临淘汰,有的单位已现「马太」效应,重复给某一人奖励

中科院院士:青年科学家 5 年内拿不出成果就面临淘汰,有的单位已现「马太」效应,重复给某一人奖励

化学人生
2026-01-12 20:54:44
湖南省常德市人大常委会原副主任杨易被提起公诉

湖南省常德市人大常委会原副主任杨易被提起公诉

三湘都市报
2026-01-14 17:31:08
突发!特斯拉重大调整:停止销售 FSD!

突发!特斯拉重大调整:停止销售 FSD!

电动知家
2026-01-14 16:18:34
官方回应“新疆网红干部”贺娇龙意外坠马

官方回应“新疆网红干部”贺娇龙意外坠马

新浪财经
2026-01-14 15:01:59
1950年新疆平叛,解放军血战孤城40天,战后军区下令此马永不退役

1950年新疆平叛,解放军血战孤城40天,战后军区下令此马永不退役

干史人
2026-01-10 08:30:08
6国配合日本共同反华,中方停签合同掐住七寸,高市:无法容许

6国配合日本共同反华,中方停签合同掐住七寸,高市:无法容许

历史有些冷
2026-01-13 17:55:03
让人眼红啊!上海一程序员晒出年收入52.8万,年终奖132000引热议

让人眼红啊!上海一程序员晒出年收入52.8万,年终奖132000引热议

火山诗话
2026-01-12 10:03:09
2-0掀翻纽卡 13亿欧曼城一只脚进决赛:7000万强援2连杀 17年纪录

2-0掀翻纽卡 13亿欧曼城一只脚进决赛:7000万强援2连杀 17年纪录

风过乡
2026-01-14 06:13:02
台湾回归后,第一任省长由谁担任最合适?五人上榜,一人脱颖而出

台湾回归后,第一任省长由谁担任最合适?五人上榜,一人脱颖而出

议纪史
2026-01-13 19:10:03
沉默24小时后,特朗普主动放人,中国军舰出动,释放的信号不简单

沉默24小时后,特朗普主动放人,中国军舰出动,释放的信号不简单

博览历史
2026-01-13 18:49:58
青海4位专家“饿晕”拒绝评标细节曝光,和招标无关,就餐是关键

青海4位专家“饿晕”拒绝评标细节曝光,和招标无关,就餐是关键

Mr王的饭后茶
2026-01-13 21:03:08
又刷四项历史第一!詹皇41岁后场均27+8+8 美媒晒数据证仍巅峰

又刷四项历史第一!詹皇41岁后场均27+8+8 美媒晒数据证仍巅峰

颜小白的篮球梦
2026-01-14 19:29:55
青海4名评标专家被“除名”引关注,当事人独家回应:未见标书,传言不实

青海4名评标专家被“除名”引关注,当事人独家回应:未见标书,传言不实

学申论的谈妹
2026-01-14 13:07:56
福建永安抽水蓄能电站施工被指偷工减料,官方通报

福建永安抽水蓄能电站施工被指偷工减料,官方通报

观察者网
2026-01-14 17:55:05
我咬牙娶了恩师的37岁女儿,成婚后我才知道她的背景

我咬牙娶了恩师的37岁女儿,成婚后我才知道她的背景

墨染尘香
2026-01-13 17:33:40
春节将至,52岁辛柏青高调传喜讯,朱媛媛终可安心

春节将至,52岁辛柏青高调传喜讯,朱媛媛终可安心

最新声音
2026-01-14 10:17:30
为所欲为?美国展会禁止河南钻石后,欧洲也来插手:全面收紧

为所欲为?美国展会禁止河南钻石后,欧洲也来插手:全面收紧

火星方阵
2026-01-13 21:49:37
2026-01-14 20:24:49
化学加网 incentive-icons
化学加网
萃聚英才,共享化学
12287文章数 8303关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

男子驾车撞死一家三口获死缓 被害人家属递交抗诉申请

头条要闻

男子驾车撞死一家三口获死缓 被害人家属递交抗诉申请

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

涉嫌垄断!市场监管总局对携程立案调查

汽车要闻

曝Model Y或降到20万以内!

态度原创

家居
时尚
旅游
教育
房产

家居要闻

心之所向 现代建构之美

比变老更可怕的是不会穿!中年女人掌握4个技巧,优雅不费力

旅游要闻

云南广南:云海翻涌时 群山皆成诗

教育要闻

牛津放榜!北京斩获20枚offer!多所黑马校杀出

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

无障碍浏览 进入关怀版