网易首页 > 网易号 > 正文 申请入驻

解放化学家双手!自动解谱软件问世,60秒处理一个数据!解析核磁,以后就交给人工智能吧!

0
分享至

  背景介绍

  在合成有机分子和天然产物中,结构的确定是一项非常具有挑战性的工作。结构上接近的异构体和非对映异构体在1D NMR光谱中的差异非常细微,要想区分它们得耗费大量的时间和精力。

  利用计算机进行核磁谱图识别给研究者提供了大量帮助,其原理是基于密度泛函理论(DFT)计算所有不确定结构非对映异构体的核磁位移,并使用相关系数、平均绝对误差(MAE)和校正平均绝对误差(CMAE)等参数将这些预测结果与已公布的光谱数据进行比较。其中,DP4分析是一种特别强大的工具,它不仅可以预测分子的立构化学特性,还可以给出每个可能结构是否正确的概率,在天然产物及药物合成中已有成功应用。

  自发布以来,DP4的计算过程已经进行了极大的简化,用户输入越来越少。但是,最耗费用户精力的仍然是NMR谱图的归属问题,这不仅非常耗时费力,而且容易出错。

  少数商用软件,如Mestrelab Mnova,虽然为1H NMR谱图提供了归属算法,但无法对原始NMR数据进行自动处理和归属。

  成果介绍

  基于以上分析,剑桥大学Jonathan M. Goodman教授课题组针对 1 H和 13 C NMR原始数据,提出了一种谱图自动处理和归属方法DP4-AI,它可以自动进行有机分子立构化学特性和结构歧义的预测。研究发现NMR-AI可以在1分钟左右的时间处理完NNR原始数据,而此前同样的任务大约需要8个小时,速率提升了480倍,每天可以处理的分子数量增加了60倍,这使得高通量NMR谱图分析成为可能,为通过机器学习发现新的分子结构铺平了道路。

  DP4-AI的结构和计算流程

  图1. (a)DP4-AI的结构;(b)具有立体化学结构的示例可以使用集成在PyDP4中的DP4-AI进行自动预测。

  DP4-AI包含了NMR-AI和PyDP4两部分,其中NMR-AI负责处理用户输入的NMR原始数据,并进行化学位移的归属,PyDP4则对这一归属正确与否的概率进行计算,从而自动阐述分子的立体化学结构。

  图2. DP4-AI的整体结构。原始的NMR数据将会进行一系列处理,首先得到实验性的多重位移值和积分值,然后程序对分子中的每个原子利用DFT计算其化学位移,并将其归属到实验性位移上,最后程序会计算每个非对映异构体进行这种归属的DP4概率。

  DP4-AI对NMR数据处理的流程如下:当用户输入原始NMR数据后,程序首先对相和基线进行校正,然后从中提取出各个峰的化学位移值,并计算积分值,利用DFT方法计算每个原子的化学位移并对其进行归属,最后DP4分析这种归属的概率,同时给出物质的化学结构。

  DP4-AI中NMR峰的提取过程

  图3. 峰的提取过程。如果峰值低于二阶导数的阈值(橙色)且高于强度阈值(蓝色),则提取该峰。最终选择的峰以绿色表示。

  在提取 1 H NMR位移峰时,使用原始数据的一阶和二阶导数进行操作:如果峰的一阶导数为零,二阶导数最小,而且峰值在二阶导数的幅度阈值以上以及第二阈值以下时,则提取该峰。以这种方式进行峰值提取时可以将两个阈值设置得非常低,在尽可能多地过滤掉噪声的情况下,尽可能少的丢失信号。

  图4. 多重峰提取(蓝色)示例和反卷积模型(橙色)。信号峰用青色突出显示,确定为噪声的峰用红色突出显示。

  为了避免将噪声误认为信号峰,研究者开发了一种利用目标模型选择来消除噪声的算法。间隔小于18 Hz的提取峰被分组在一起,形成了一个信号区域,对于每个区域,使用多个广义洛伦兹线形函数构建线形模型,每个区域模型中的参数进行迭代变化,直到模型的积分收敛到相应光谱区域1%以内。如果模型的贝叶斯信息低于阈值,则认为这些参数描述的是噪声,相应的峰会被删除。

  DP4-AI中NMR峰的归属

  图5. 使用分配概率矩阵M将计算出的位移分配给实验峰。(a)将模拟计算出的光谱中的峰(蓝色)分配给实验光谱中的峰(橙色);(b)计算矩阵M,并计算最佳归属(青色);(c)在此示例中找到的最终归属。

  研究者认为DP4-AI开发过程中最具挑战性的工作是归属算法的开发,该算法将分子的每个非对映异构体中的原子分配给光谱中提取到的峰。研究者采用GIAO方法对不同峰进行分配,归属算法的核心是计算分配概率矩阵M,该矩阵的元素M ij 是计算出的化学位移i对应于实验峰值j的概率。矩阵M通过匈牙利线性和最小化方法找到最可能的分配结果。

  图6. 根据振幅概率密度函数的二阶导数的最小值(右侧),峰(左侧)按振幅分组(落在虚线之间)。在该模拟示例中,结构中的碳原子数为9,计算每个组下边界上方的峰的累积总和,分配给每个组的权重是结构中碳原子的数量除以该值,然后将最大的权重固定为1。

  13 C NMR的算法还考虑了实验峰的幅度。M中的每一个元素M ij 乘以一个从实验峰值j的幅度得出的权重因子A j 。 13 C NMR光谱中的峰通常分为三组,可以通过幅度来区分:噪声、1-原子信号和对应于多个等效碳原子的峰。为了捕获这种变化,研究者估算了谱图中峰值幅度的概率密度函数,当峰值中该函数的二阶导数的最小值位于其振幅之间时,这些峰分为一组,然后使用每组中的峰数和结构中预期的碳原子数来计算振幅权重。

  DP4-AI的性能评估

  图7. 用于评估DP4-AI性能的47个分子结构。分子AT3、TS3A、TS4和NL1A仅有相应的1H NMR数据,所有其它分子均具有1H和13C NMR数据;分子JB7、JB11、JB5和JB8的谱图分别在溶剂甲醇、苯、DMSO和甲醇中得到,而所有其它分子则在CDCl3中得到。

  研究者为了评估NMR-AI的性能,构建了由47个分子(每个分子平均3.49个立构中心)组成的测试组,其中包含了各种结构的碳骨架。测试组中包含了天然产物、合成中间体和天然产物的碎片结构,以尽可能包含更多类型的有机分子结构。

  为了描述DP4-AI进行NMR预测的误差概率,研究者测试了四个不同的统计模型,结果发现单区域3高斯模型得出的预测误差最优。

  图8. 图7中化合物的正确预测率,DP4-AI(橙色),成对归属算法(蓝色)。

  在最高的测试理论水平下,DP4-AI的可靠性与耗时的成对归属算法相似,而后者需要一位训练有素的化学家才能完成。在测试数据集中,正确有效的进行立体化学归属的概率约为3×10 -8,表明DP4-AI的表现非常可靠。最令人印象深刻的是,DP4-AI在32和64个非对映异构体中正确对分子NP1和NP2的立构化学特性进行了归属。

  图10. NMR-AI处理NNR数据的速率对比。

  NMR-AI可以在1分钟左右的时间处理完NNR数据,而在此之前同样的任务大约需要8个小时,这相当于每天处理的分子数量可以增加60倍。

  小结

  为了快速有效的处理NMR原始数据,剑桥大学Jonathan M. Goodman教授课题组提出了一种谱图自动处理和归属方法DP4-AI,这种方法由NMR-AI和PyDP4两部分组成,用户只需要输入原始的NMR数据,程序就会自动提取各个峰值,并对其进行归属,直接给出最可能的分子结构以及这种归属的概率。研究者构建了由47个分子组成的测试组,发现程序正确有效的进行立体化学归属的概率约为3×10 -8,并正确对分子NP1和NP2的立构化学特性进行了归属。仅需要1分钟的时间,NMR-AI就可以处理完NNR数据,与之前的方法相比,速率提高了480倍,每天处理的分子数量可以增加60倍。

  https://pubs.rsc.org/en/content/articlehtml/2020/sc/d0sc00442a

  来源:高分子科学前沿

  声明:仅代表作者个人观点,作者水平有限,如有不科学之处,请在下方留言指正!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今日最惨股,开盘大跌93%,收盘大跌92%,清零的感觉不好受!

今日最惨股,开盘大跌93%,收盘大跌92%,清零的感觉不好受!

丁丁鲤史纪
2026-06-23 19:03:58
地球真的生病了!塔克拉玛干沙漠边缘发洪,当地人:这辈子没见过

地球真的生病了!塔克拉玛干沙漠边缘发洪,当地人:这辈子没见过

哄动一时啊
2026-06-22 19:28:35
人伦大乱,正在悄悄毁掉无数中国家庭,看似平常,实则家道衰败

人伦大乱,正在悄悄毁掉无数中国家庭,看似平常,实则家道衰败

艺鉴在线
2026-06-22 08:20:18
上海9平方米空间,月租仅15元?邻居抗议…

上海9平方米空间,月租仅15元?邻居抗议…

看看新闻Knews
2026-06-23 20:48:07
不到24小时,以色列部长下最后通牒:全面轰炸伊朗

不到24小时,以色列部长下最后通牒:全面轰炸伊朗

云上乌托邦
2026-06-23 14:22:21
天津2026年高考分数线公布:普通本科录取控制分数线为458分

天津2026年高考分数线公布:普通本科录取控制分数线为458分

新京报
2026-06-23 19:15:41
央八将播!36集传奇大剧来袭,看完阵容我想说:不愁没剧追了!

央八将播!36集传奇大剧来袭,看完阵容我想说:不愁没剧追了!

尺素a
2026-06-23 05:03:36
日媒:高市情绪失控“我犯了什么罪”,在野党忍无可忍或瘫痪国会

日媒:高市情绪失控“我犯了什么罪”,在野党忍无可忍或瘫痪国会

吴猖旅行ing
2026-06-23 08:57:04
画面公布!俄国防部:俄军图-160战略轰炸机在巴伦支海和挪威海中立水域上空执行例行飞行任务

画面公布!俄国防部:俄军图-160战略轰炸机在巴伦支海和挪威海中立水域上空执行例行飞行任务

环球网资讯
2026-06-23 14:18:21
高市早苗被曝换新车,从轿车换成SUV,日本网友怒批“浪费纳税人的钱”

高市早苗被曝换新车,从轿车换成SUV,日本网友怒批“浪费纳税人的钱”

极目新闻
2026-06-23 15:13:09
奇才4年2.12亿续约特雷・杨!ESPN评级仅为D:未满28岁已状态下滑

奇才4年2.12亿续约特雷・杨!ESPN评级仅为D:未满28岁已状态下滑

罗说NBA
2026-06-23 05:49:28
日本首相高市早苗决定不会参加下月在土耳其举行的北约峰会!

日本首相高市早苗决定不会参加下月在土耳其举行的北约峰会!

AI商业论
2026-06-23 13:43:49
足球报:中国足协技术部、国管部等多个部门在“跟踪”世界杯

足球报:中国足协技术部、国管部等多个部门在“跟踪”世界杯

懂球帝
2026-06-22 21:30:25
“敢打,我就敢送!”曾放出狠话鼻子朝天的郭台铭,如今怎么样了

“敢打,我就敢送!”曾放出狠话鼻子朝天的郭台铭,如今怎么样了

秋姐居
2026-06-17 19:28:51
数学天才得到的待遇有多狠?三院士联名举荐,22岁破格提拔为教授

数学天才得到的待遇有多狠?三院士联名举荐,22岁破格提拔为教授

从零到一研究所
2026-06-22 17:41:18
钱再多有什么用?50岁功成名就的撒贝宁,还是要为82岁父亲操碎心

钱再多有什么用?50岁功成名就的撒贝宁,还是要为82岁父亲操碎心

寒士之言本尊
2026-06-21 15:39:50
卫健委已将左氧氟沙星列为重点监控药物!提醒:服用千万注意

卫健委已将左氧氟沙星列为重点监控药物!提醒:服用千万注意

岐黄传人孙大夫
2026-06-22 19:40:06
乌克兰摧毁莫斯科的太空通信中心!重创俄军火车站

乌克兰摧毁莫斯科的太空通信中心!重创俄军火车站

项鹏飞
2026-06-23 20:08:08
谜底即将揭晓!广东高考明天出分,物理类和历史类的家长心态不同

谜底即将揭晓!广东高考明天出分,物理类和历史类的家长心态不同

侃故事的阿庆
2026-06-23 16:52:55
央视直播男篮时间表:6月23日CCTV5+直播中国男篮,杨瀚森亮相

央视直播男篮时间表:6月23日CCTV5+直播中国男篮,杨瀚森亮相

薇说体育
2026-06-23 10:07:27
2026-06-23 21:39:00
高分子科学前沿 incentive-icons
高分子科学前沿
高分子领域第一自媒体
16337文章数 66927关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

河南南阳曾47天查扣24辆冷链货车:拍卖350万上缴国库

头条要闻

河南南阳曾47天查扣24辆冷链货车:拍卖350万上缴国库

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

屋顶光伏度苦夏

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

本地
亲子
健康
公开课
军事航空

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

亲子要闻

其实孩子就是你生命中的菩萨

同样是中风,急救方向竟完全相反?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列总理、国防部长和国防军总参谋长发表联合声明

无障碍浏览 进入关怀版