网易首页 > 网易号 > 正文 申请入驻

科学通报|数据驱动的有机分子理化性质预测

0
分享至

分子的理化性质,如前线轨道能级、化学键能、光谱特征等,构成了理解和预测分子化学行为的基础。分子理化性质的精准认识,是人类探索分子世界的重要途径之一,不仅有助于深入理解化学反应的微观机制,还能够有效指导新反应的设计与开发,是化学科学研究的长期焦点之一。

随着化学数据的不断积累和人工智能技术的显著进步,机器学习方法在化学中的应用取得了显著进展,在分子理化性质的预测上展现了重要潜力。基于大规模的分子性质数据与创新的分子建模架构,人工智能模型能够成功捕捉分子结构与理化性质之间的高维联系,并据此准确预测分子性质。在QM9等代表性的分子性质数据集上,前沿的机器学习模型不仅在预测精度上达到了媲美传统量化计算的水平,同时在计算效率上实现了几何级数的增长。分子性质的智能预测为化学家认识和探索化学世界提供了全新的策略,不仅将加速化学研究的步伐,也为医药、材料等相关学科提供了新的助力。

本文聚焦于有机分子的理化性质预测,不涉及药化性质等生物活性分子的应用场景,从数据集、代表性场景等方面探讨该领域的前沿进展,并就领域的研究现状和挑战进行总结和展望。

PART.01

有机分子理化性质数据库与数据集

有机分子的结构复杂、性质多样,共同组成了一个关于理化性质的庞大构效空间,成为了机器学习建模的数据源泉。本节简要概述了代表性的有机分子理化性质数据库与数据集 ( 表1 ) 。

表1 代表性分子理化性质数据库与数据集

PART.02

机器学习方法

自1956年达特矛斯会议首次提出人工智能概念,至2010年深度学习技术的兴起,机器学习方法持续演进与进步。2022年,ChatGPT的推出进一步揭示了AI在众多领域的广泛应用潜力。这些新兴的机器学习方法为有机分子理化性质的预测开辟了新的研究路径。本节将概述有机分子理化性质预测中普遍采用的机器学习流程,并介绍当前领域内一些代表性的分子编码、算法架构与机器学习策略。

2.1

机器学习流程简介

传统的判别式监督学习在有机分子理化性质预测中应用广泛,通过在数据集上进行训练,得到一个模型来联系数据集中的输入和输出,进而建立分子结构与其理化性质之间的数学模型并用于新分子的性质预测。图1描述了数据驱动理化性质预测的常见流程.

图1 分子性质机器学习建模的基本流程

2.2

机器学习方法进展

机器学习的持续发展促进了有机分子理化性质预测的精确度和效率的显著提升。目前,多种机器学习模型已被应用于这一领域。为了高效利用数据并提高模型的预测性能,研究者们探索了多种分子编码与机器学习算法。本小节简要概述领域前沿的分子编码、神经网络(NN)框架以及机器学习方法。

PART.03

具体机器学习模型在有机分子理化性质预测上的应用

近年来,围绕如光谱性质、轨道能量、pKa、BDE、氧化还原电势、Mayr方程参数等代表性的有机分子理化性质,机器学习建模的精度和泛化能力取得了长足的进步。

图2 光谱性质预测的部分最近进展. (a) NN模型快速预测酰胺I带红外谱图的工作流程; (b) NN模型预测氨基酸的拉曼光谱; (c) 全自旋系统精准预测的工作流程

图3 分子轨道能量预测的部分最近进展. (a) 利用轨道加权平均方法预测轨道能量和位置的原子神经网络(AtNN)示意图. (b) 机器学习方法快速准确地估计有机光伏材料特性

图4 pKa与BDE预测的部分最近进展. (a) 使用NN或XGBoost建立整体pKa预测模型的工作流程. (b) 使用 ANI-2x 获得的神经网络特征进行蛋白质pKa预测. (c) 预测BDE的GCN结构概述

图5 氧化还原电势与Mayr方程参数预测的部分最近进展. (a) 机器学习加速氧化还原电势预测的流程. (b) 通过机器学习研究亲核性和亲电性的一般工作流程

PART.04

总结与展望

近年来,随着化学数据的不断积累和人工智能技术的显著进步,数据驱动的有机分子理化性质预测经历了跨越式的发展。在光谱性质、轨道能量、pKa、键解离能(BDE)、氧化还原电势以及Mayr参数等关键的分子性质方面,机器学习技术已经展示出了其卓越的预测能力。这些工作不仅能够在部分例子上达到了与传统量子化学计算相媲美的精度水平,而且在效率上实现了显著的提升,使得海量的分子性质预测成为了可能。这种新型的智能预测工具不仅将加速化学研究的步伐,而且为功能分子的设计和预测提供了强有力的支持,有望推动化学与材料科学的快速发展。

尽管分子性质的智能预测取得了显著进步,该领域仍面临一些关键的挑战和局限。首先,标准化且大规模的分子性质数据库的缺乏限制了机器学习模型的训练和验证。相对于理论上1060数量级的分子化学空间,现有的数据量远远不足以覆盖广泛的化学多样性。其次,尽管机器学习模型在预测精度和效率上取得了一定的平衡,但这种平衡尚未达到完全可以取代传统的DFT计算的水平。特别是对于DFT难以处理的复杂体系,机器学习预测也难以胜任。最后,目前的预测建模工作与新颖功能分子设计的联系并不紧密,多数研究停留在数据集本身的建模展示阶段,而未能实质性地应用于新功能分子的创造和设计中,因此在化学领域的影响力和共识还需进一步提升。

展望未来,为了充分利用机器学习在分子科学领域的潜力,可以从以下几个方向努力:一是构建更全面和标准化的分子性质数据库,以支持更复杂的模型训练和更广泛的化学空间探索。二是开发基于化学理论和原理的人工智能模型框架,而非仅仅对现有处理文字或图像的AI技术进行简单的修改。基于对化学过程本质的理解,将这些原理融合到算法中,以更精确地模拟和预测复杂的分子行为。三是加强预测模型与实验化学家的互动,将模型预测更直接地应用于新分子的设计和合成,以真正实现机器学习在化学创新中的应用。我们充分相信,在数据、建模和应用的协力发展下,分子科学将在AI时代迎来更大的突破。

孙一舟,汤缪炅,张硕卿*,洪鑫*. 数据驱动的有机分子理化性质预测. 科学通报, 2025, 70(4-5): 492–507

https://doi.org/10.1360/TB-2024-0812

转载、投稿请留言

| 关注科学通报 | 了解科学前沿

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《人民日报》:70%的病跟情绪有关!很多人被亲人给慢性折磨死的

《人民日报》:70%的病跟情绪有关!很多人被亲人给慢性折磨死的

诗词中国
2026-01-23 18:47:36
网红“神药”更新说明书:可能影响性功能

网红“神药”更新说明书:可能影响性功能

南方都市报
2026-02-06 09:29:02
全身敏感点全解:掌握这些“技巧”,让你全身“爽”

全身敏感点全解:掌握这些“技巧”,让你全身“爽”

精彩分享快乐
2026-01-19 00:10:03
周星驰新片被传空降春节档,制作成本3.8亿,票房能否冲击40亿

周星驰新片被传空降春节档,制作成本3.8亿,票房能否冲击40亿

动物奇奇怪怪
2026-02-07 01:55:48
快船步行者多人交易生变,涉及球员遭“出战冻结”

快船步行者多人交易生变,涉及球员遭“出战冻结”

大眼瞄世界
2026-02-06 10:49:15
唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

星辰故事屋
2026-01-23 12:14:47
俄罗斯开出天价条件

俄罗斯开出天价条件

星火聊天下
2026-02-06 06:30:26
2032奥运会举办地确定,结果意外改变全球奥运格局

2032奥运会举办地确定,结果意外改变全球奥运格局

余憁搞笑段子
2026-02-02 16:48:20
斯特兰蒂斯股价延续下跌,跌幅扩大至25%

斯特兰蒂斯股价延续下跌,跌幅扩大至25%

每日经济新闻
2026-02-06 19:20:05
留学生的爸妈能有多离谱?网友:我在利物浦,我爸非说我在飞利浦

留学生的爸妈能有多离谱?网友:我在利物浦,我爸非说我在飞利浦

带你感受人间冷暖
2026-02-04 00:30:03
爱泼斯坦那座岛上,真的“吃人”吗?

爱泼斯坦那座岛上,真的“吃人”吗?

基本常识
2026-02-05 23:02:46
毛军发不再担任深圳大学校长

毛军发不再担任深圳大学校长

深圳晚报
2026-02-06 14:49:18
希拉里公开回应爱泼斯坦案

希拉里公开回应爱泼斯坦案

第一财经资讯
2026-02-06 13:17:09
亚朵涨到3000块一晚,潮汕要被外地游客挤爆了

亚朵涨到3000块一晚,潮汕要被外地游客挤爆了

源Sight
2026-02-05 16:46:25
梁家辉现身北京吃火锅,大方和粉丝合影没架子,近照显苍老

梁家辉现身北京吃火锅,大方和粉丝合影没架子,近照显苍老

阿废冷眼观察所
2026-02-07 03:20:53
明朝大将蓝玉领大军把北元打得屁滚尿流,瞧见俘虏里有个异域美人

明朝大将蓝玉领大军把北元打得屁滚尿流,瞧见俘虏里有个异域美人

南权先生
2026-02-06 15:53:43
收手吧谢苗!想学成龙拍“警察故事”,票房仅2038万,被老片打懵

收手吧谢苗!想学成龙拍“警察故事”,票房仅2038万,被老片打懵

娱乐故事
2026-02-04 21:28:26
伊朗一队人赶到北京,关键时刻,美副总统称:我们被中国教训惨了

伊朗一队人赶到北京,关键时刻,美副总统称:我们被中国教训惨了

自己撑起一片天
2026-02-07 05:56:45
70枚导弹全中了,不到72小时,美军发起行动,俄外长撂下一句狠话

70枚导弹全中了,不到72小时,美军发起行动,俄外长撂下一句狠话

墨兰史书
2026-02-05 21:00:03
今年的辣妹,我先当了

今年的辣妹,我先当了

疾跑的小蜗牛
2026-02-06 21:32:25
2026-02-07 07:28:49
科学通报 incentive-icons
科学通报
科学通报微信公众号
1236文章数 2006关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

旅游
教育
手机
公开课
军事航空

旅游要闻

琅琊古城·“文旅迎春 马跃新程”2026河东文旅新春联欢晚会举行

教育要闻

揭秘普里马科夫学校3大合作项目!俄语学习轻松高效

手机要闻

红米K90至尊版再次被确认:双芯+主动风扇+8500mAh大电池,价格谜

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国“肯尼迪”号核动力航母完成首次海试

无障碍浏览 进入关怀版