网易首页 > 网易号 > 正文 申请入驻

Frank Glorius团队的最新算法(EvoMPF):解锁分子指纹

0
分享至

导读

近日,德国明斯特大学Frank Glorius团队提出了一种通用算法,基于给定的数据集生成高度特定的表示形式。该算法利用结构查询和进化算法生成独特的分子指纹。这些分子指纹能够准确预测其物理性质、化学反应性和生物活性,非常适用于分子机器学习。提高了分子的可解释性,可以提取出反应性趋势等信息。多模式的算法(EvoMPF)将被用于发现不同分子科学中的未知结构与目标的关系。相关成果发表在Chem上,文章链接DOI: 10.1016/j.chempr.2024.02.004。


(图片来源:Chem)

正文

机器学习(Machine Learning, ML)即应用程序在无需人工参与的情况下,执行流程改进,并按需更新代码、扩展功能。机器学习可应用在图像识别、语音识别、交通预测、产品推荐、自动驾驶汽车、垃圾邮件和恶意软件的过滤、虚拟的个人助理(如:Siri,小度)、股市交易、医学诊断以及自动语言翻译(Fig. 1)。下载化学加APP到你手机,收获更多商业合作机会。


Fig. 1. Machine learning types

(图片来源:Google)

机器学习在化学科学中也得到广泛应用,从药物发现、化合物性质预测再到合成路线的设计等(Fig. 2A,Cell,2020, 180, 688; Chem. Soc. Rev.,1995, 24, 279; Nature,2018, 555, 604)。然而,将化学分子转化为计算机可读的数据仍然是一个挑战,这需要考虑数据集、输入和模型之间的复杂关系。尽管已经开发了一些表示方法,但由于应用的多样性,目前仍然存在一些挑战(Chem. Soc. Rev.,2020, 49, 6154; Chem,2020, 6, 1379; Nature,2019, 571, 343; Science,2018, 360, 186; Nat. Mach. Intell.,2020, 2, 573)。Frank Glorius提出一个理想的解决方案应该具备高适应性、普适性、预测性能以及可解释性(Fig. 2B),Glorius教授呼吁开发一种跨越不同分子科学领域应用的通用方法,以提高预测准确性和解释性。


Fig. 2. Different fields of application and molecular representations for molecular machine learning

(图片来源:Chem)

Glorius团队开发了一种新算法—EvoMPF,用于生成表示分子。这个方法旨在解决机器学习在研究化学问题时遇到的挑战,特别是在特征化过程中过度拟合的情况。Glorius提出了一种灵活的分子查询语言(SMARTS),该语言可以查询该化合物的属性(例如杂化、电荷和手性)以及邻近原子数。经过迭代、评估训练和调整优化,可以生成用于描述分子的分子指纹(MPFs)。进化算法利用随机生成和突变来生成新的模式,通过训练机器学习模型来评估每个MPF的性能。用CatBoost做为机器学习模型,在机器学习的每次迭代进化中MPF都能丰富相关的数据集,而整体上不发生对数据集的过度调整,从而产生高度可解释且密集的分子表示,这种就是EvoMPF。Glorius和团队成员通过这种方法生成的分子具有高度的解释性,且不会过度拟合数据(Fig.3)。


Fig.3. Working principle of the EvoMPF algorithm

(图片来源:Chem)

优化和产率预测:定量产率预测需要考虑分子的组合性质、目标产物的复杂性以及数据样本过少的问题。他们指出用于定量预测还必须考虑过拟合的问题,必须通过统计探测方法评估模型的泛化能力以及影响。用于测试算法性能的Doyle-Dreher数据集,包含了大量的Buchwald-Hartwig交叉偶联反应数据(Fig.4A)。在这个数据集中,有多种芳基卤化物、钯催化剂和碱与多种异噁唑酮添加剂的组合。为了评估模型对新化合物的泛化能力,使用了样本外(OOS)的数据集来进行测试(Fig.4B)。基于进化算法生成和优化描述分子结构的分子指纹(MPFs)。他们使用SMARTS语言来定义查询分子,然后EvoMPF随机生成和优化这些模式,以描述数据集的关键特征。通过在每次迭代中评估预测性能,他们证明了进化算法能够有效地完成该分子的产率预测。在进行了一系列实验后,发现使用二进制特征在组合数据集上查询只需少量数据点即可获得出色的预测性能。这表明了所需特征数量减少,该方法可以快捷的找到合适的描述符(Fig.4C)。该研究还发现使用二进制特征只需要256个模式就能够获得出色的预测性能,尽管使用32个模式就足以获得类似的性能(Fig.4D)。在研究中,Glorius还指出他们的方法在大多数测试中略微优于复杂的深度学习模型(Deep Learning)和人工设计的指纹。这突显了无特征的重要性,以及该方法在产率预测时的有效性(Fig.4E)。


Fig.4. Optimization and performance of the MPF on the Doyle-Dreher reaction dataset

(图片来源:Chem)

应用范围:该研究还了测试EvoMPF在各种反应数据集上的性能。由Richardson和Sach发表的一个数据集包括5,760个Suzuki-Miyaura交叉偶联反应(Fig.5A)。尽管已表明这个数据集是可预测的,但目前为止,还没有方法证明可以将机器学到的规则转移到之前未见过的结构上。由于EvoMPF可以轻松应用于小型的数据集,因此没有进一步耗时优化,使进化和模型参数保持不变。在这些OOS数据集上依旧获得了较高的预测准确度。有趣的是,在排除所有使用P(OTol)3和SPhos作为配体反应的OOS分割中,统计对照(即OHE)的表现甚至比EvoMPF好,这表明这些配体对产率没有很大的影响。之后,还对手性磷酸催化剂催化生成不对称N, S-缩醛数据集进行了对映选择性的预测,EvoMPF的表现优于相应的统计对照,并且与更复杂的多特征指纹(Fig.5B)以及差异反应指纹(DRFPs)相当。


Fig.5. Performance of the MPFs on different quantitative reaction prediction tasks

(图片来源:Chem)

随着EvoMPF在小型数据集上表现出的准确性和稳定性,研究还测试了该算法在不同的分子预测任务上的普适性。该研究对药理学终点的预测,特别是LD50的预测表现出色(Fig.6A)。研究使用了多个来源的数据集其中包含了大量化合物数据,并进行了对比实验以验证EvoMPF相对于传统方法的优越性(Fig.6B)。结果表明,EvoMPF能够有效地处理复杂的预测任务,展现出了极高的稳定性。接着将EvoMPF应用于QSAR/QSPR领域的四个基准数据集(Fig.6E),这些数据集涵盖了不同的任务和分子特性。通过测试(HIV病毒的复制能力、分子的量子力学性质),证明EvoMPF在各种任务中的稳健性和性能优势,甚至在某些情况下超过了图神经网络(GNN)的性能,这表明EvoMPF在不同领域和任务中的广泛适用性。


Fig.6. Analysis of the performance of the MPFs at toxicity prediction and further QSPR and quantitative structure activity relationship (QSAR) tasks

(图片来源:Chem)

可解释和解释性人工智能:在毒性预测的数据库中,研究发现某些元素的PAPs查询数量与其平均毒性、毒性方差以及含有这些元素数据点的数量之间存在着强烈的相关性,这突显了EvoMPF的可解释朝着识别相关化合物的方向发展。随后,研究将EvoMPF应用于Buchwald-Hartwig数据集中,验证其生成的特征是否能够捕获已知的反应趋势。通过与人共设计的查询相比较,他们发现EvoMPF生成的查询不仅考虑到了人类设计的结构特征,还捕捉到了更加微妙的反应性趋势,例如特定配体对反应产率的影响(Fig.7B)。这证明了EvoMPF生成的特征对化学结构与反应性有更深层的理解。总的来说,通过EvoMPF生成的特征具有直接的可解释性,并且能够反映化学结构与反应性之间的复杂关系,这使得研究人员能够直接从数据中洞察整个反应流程,而无需额外的模型分析。


Fig.7. Statistical analysis of the generated patterns and application of the EvoMPF for explainable AI

(图片来源:Chem)

总结

在这项工作中,Glorius研究团队提出了EvoMPF作为一种全面且高度适应性的方法,用于生成表示分子。结合了结构查询、进化算法和高性能的机器学习模型,形成一个平台,能够为给定的分子数据集找到特定于问题的指纹。通过测试和优化,发现EvoMPF能够适应任何大小、多样性的分子数据集,并且能够应对各种分子挑战,从QSPR到QSAR应用都有良好的表现,突显了信息的高度密集性和人工智能的力量。此外,EvoMPF生成的指纹不仅可解释,还能够推导出(生物)化学知识,使人工智能在可解释的领域具有广泛的应用。当然,该算法同样具有限制,对于过渡金属配合物、盐类、各种材料、平面和轴手性的化合物并不适用。然而,在分子科学领域,EvoMPF将为从给定的数据集提取知识开辟新篇章,可以发现不同分子学科未知的结构与目标的关系。

文献详情:

P hilipp M. Pflüger, Marius Kühnemund, Felix, Katzenburg, Herbert Kuchen, Frank Glorius*

An Evolutionary Algorithm for Interpretable Molecular Representations

Chem,2024, https:// do i.org/10.1016/j.chempr.2024.02.004

长按扫码,查看原文




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最新确认:杭州明晚起反转!全省预警多到快挂不下了!

最新确认:杭州明晚起反转!全省预警多到快挂不下了!

明珠电视
2024-06-15 16:55:04
江苏苏州开始出现洗房,很多父母都慌了,不少家庭受到了影响!

江苏苏州开始出现洗房,很多父母都慌了,不少家庭受到了影响!

今日搞笑分享
2024-06-16 12:39:12
笑麻了!古天乐被爆欠债830万港币!网友的评论让我笑到肚子疼。

笑麻了!古天乐被爆欠债830万港币!网友的评论让我笑到肚子疼。

娱记掌门
2024-06-15 06:10:59
扣分+降级,曝足协将公布调查结果,3队被罚,老牌豪门在列

扣分+降级,曝足协将公布调查结果,3队被罚,老牌豪门在列

东球弟
2024-06-16 11:09:42
缺席雅尔塔会议,中国的代价有多大?

缺席雅尔塔会议,中国的代价有多大?

凭阑听史
2024-06-15 16:14:30
“认祖归宗”天降金门,大陆换打法了,美国人怕了,制定逃跑计划

“认祖归宗”天降金门,大陆换打法了,美国人怕了,制定逃跑计划

小lu侃侃而谈
2024-06-13 15:14:25
门神你好,新加坡国门哈桑-桑尼现身上海出席活动

门神你好,新加坡国门哈桑-桑尼现身上海出席活动

懂球帝
2024-06-16 16:01:08
NBA总决赛看似凯尔特人输了实际上赢了!实际上只有牛爷爷输了。

NBA总决赛看似凯尔特人输了实际上赢了!实际上只有牛爷爷输了。

阿牛体育说
2024-06-16 13:54:41
妥协了?曝CBA顶级内线拒绝天价签字费,三年顶薪留守广东争冠

妥协了?曝CBA顶级内线拒绝天价签字费,三年顶薪留守广东争冠

老叶评球
2024-06-16 15:39:01
“地铁上被诬陷偷拍”男子将直播带货:需面对现实问题

“地铁上被诬陷偷拍”男子将直播带货:需面对现实问题

鲁中晨报
2024-06-16 13:07:04
曝豆得儿曾为王思聪打过胎,看到黄一鸣爆料后破防,本人发文怒斥

曝豆得儿曾为王思聪打过胎,看到黄一鸣爆料后破防,本人发文怒斥

娱乐白名单
2024-06-14 13:03:29
武统、和统都没希望了?台湾军事专家:中国大陆已经找到第三条路

武统、和统都没希望了?台湾军事专家:中国大陆已经找到第三条路

车马点兵V
2024-06-15 11:04:03
白百何一碰就怀孕?穿大码裙子孕态足疑怀三胎,全场男士纷纷侧目

白百何一碰就怀孕?穿大码裙子孕态足疑怀三胎,全场男士纷纷侧目

八卦王者
2024-06-15 15:22:23
唐氏综合症的孩子不应该出生吗?网友:一时心软,累及三代!

唐氏综合症的孩子不应该出生吗?网友:一时心软,累及三代!

户外钓鱼哥阿勇
2024-06-16 07:01:39
心服口服!泰国媒体:中国男足确实比我们强,应该晋级18强赛

心服口服!泰国媒体:中国男足确实比我们强,应该晋级18强赛

国足风云
2024-06-15 16:57:21
王闰秋!你瞒不住了,你指导的中专女生姜萍拿下数学竞赛全球12名

王闰秋!你瞒不住了,你指导的中专女生姜萍拿下数学竞赛全球12名

牛锅巴小钒
2024-06-14 12:24:31
温州六中46名学生出游溺亡,头七集体回教室上课,到底是咋回事?

温州六中46名学生出游溺亡,头七集体回教室上课,到底是咋回事?

阿胡
2024-06-06 12:38:23
邢天虎-陕西延长石油(集团)有限责任公司原副董事长

邢天虎-陕西延长石油(集团)有限责任公司原副董事长

开心体育站
2024-06-16 11:19:12
吴谨言横店剧组被偶遇,又瘦又矮法令纹明显,脸巴掌大还有点垮

吴谨言横店剧组被偶遇,又瘦又矮法令纹明显,脸巴掌大还有点垮

娱记掌门
2024-06-15 18:28:27
别让登哥看见!锡安的成人女星炮友室外跑步 臀部大得畸形!

别让登哥看见!锡安的成人女星炮友室外跑步 臀部大得畸形!

直播吧
2024-06-15 15:29:34
2024-06-16 16:34:44
化学加网
化学加网
萃聚英才,共享化学
9636文章数 8228关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

"地铁上被诬陷偷拍"男子将直播带货:需面对现实问题

头条要闻

"地铁上被诬陷偷拍"男子将直播带货:需面对现实问题

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

教育
健康
家居
数码
公开课

教育要闻

2024新高考全国一卷英语阅读C,大学四级话题下方,并涉四级词汇

晚餐不吃or吃七分饱,哪种更减肥?

家居要闻

空谷来音 朴素留白的侘寂之美

数码要闻

优派 XG323-4K-OLED-2 显示器预告:原生 10bit、全功能 Type-C

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版