网易首页 > 网易号 > 正文 申请入驻

解放化学家双手!自动解谱软件问世,60秒处理一个数据!解析核磁,以后就交给人工智能吧!

0
分享至

  背景介绍

  在合成有机分子和天然产物中,结构的确定是一项非常具有挑战性的工作。结构上接近的异构体和非对映异构体在1D NMR光谱中的差异非常细微,要想区分它们得耗费大量的时间和精力。

  利用计算机进行核磁谱图识别给研究者提供了大量帮助,其原理是基于密度泛函理论(DFT)计算所有不确定结构非对映异构体的核磁位移,并使用相关系数、平均绝对误差(MAE)和校正平均绝对误差(CMAE)等参数将这些预测结果与已公布的光谱数据进行比较。其中,DP4分析是一种特别强大的工具,它不仅可以预测分子的立构化学特性,还可以给出每个可能结构是否正确的概率,在天然产物及药物合成中已有成功应用。

  自发布以来,DP4的计算过程已经进行了极大的简化,用户输入越来越少。但是,最耗费用户精力的仍然是NMR谱图的归属问题,这不仅非常耗时费力,而且容易出错。

  少数商用软件,如Mestrelab Mnova,虽然为1H NMR谱图提供了归属算法,但无法对原始NMR数据进行自动处理和归属。

  成果介绍

  基于以上分析,剑桥大学Jonathan M. Goodman教授课题组针对 1 H和 13 C NMR原始数据,提出了一种谱图自动处理和归属方法DP4-AI,它可以自动进行有机分子立构化学特性和结构歧义的预测。研究发现NMR-AI可以在1分钟左右的时间处理完NNR原始数据,而此前同样的任务大约需要8个小时,速率提升了480倍,每天可以处理的分子数量增加了60倍,这使得高通量NMR谱图分析成为可能,为通过机器学习发现新的分子结构铺平了道路。

  DP4-AI的结构和计算流程

  图1. (a)DP4-AI的结构;(b)具有立体化学结构的示例可以使用集成在PyDP4中的DP4-AI进行自动预测。

  DP4-AI包含了NMR-AI和PyDP4两部分,其中NMR-AI负责处理用户输入的NMR原始数据,并进行化学位移的归属,PyDP4则对这一归属正确与否的概率进行计算,从而自动阐述分子的立体化学结构。

  图2. DP4-AI的整体结构。原始的NMR数据将会进行一系列处理,首先得到实验性的多重位移值和积分值,然后程序对分子中的每个原子利用DFT计算其化学位移,并将其归属到实验性位移上,最后程序会计算每个非对映异构体进行这种归属的DP4概率。

  DP4-AI对NMR数据处理的流程如下:当用户输入原始NMR数据后,程序首先对相和基线进行校正,然后从中提取出各个峰的化学位移值,并计算积分值,利用DFT方法计算每个原子的化学位移并对其进行归属,最后DP4分析这种归属的概率,同时给出物质的化学结构。

  DP4-AI中NMR峰的提取过程

  图3. 峰的提取过程。如果峰值低于二阶导数的阈值(橙色)且高于强度阈值(蓝色),则提取该峰。最终选择的峰以绿色表示。

  在提取 1 H NMR位移峰时,使用原始数据的一阶和二阶导数进行操作:如果峰的一阶导数为零,二阶导数最小,而且峰值在二阶导数的幅度阈值以上以及第二阈值以下时,则提取该峰。以这种方式进行峰值提取时可以将两个阈值设置得非常低,在尽可能多地过滤掉噪声的情况下,尽可能少的丢失信号。

  图4. 多重峰提取(蓝色)示例和反卷积模型(橙色)。信号峰用青色突出显示,确定为噪声的峰用红色突出显示。

  为了避免将噪声误认为信号峰,研究者开发了一种利用目标模型选择来消除噪声的算法。间隔小于18 Hz的提取峰被分组在一起,形成了一个信号区域,对于每个区域,使用多个广义洛伦兹线形函数构建线形模型,每个区域模型中的参数进行迭代变化,直到模型的积分收敛到相应光谱区域1%以内。如果模型的贝叶斯信息低于阈值,则认为这些参数描述的是噪声,相应的峰会被删除。

  DP4-AI中NMR峰的归属

  图5. 使用分配概率矩阵M将计算出的位移分配给实验峰。(a)将模拟计算出的光谱中的峰(蓝色)分配给实验光谱中的峰(橙色);(b)计算矩阵M,并计算最佳归属(青色);(c)在此示例中找到的最终归属。

  研究者认为DP4-AI开发过程中最具挑战性的工作是归属算法的开发,该算法将分子的每个非对映异构体中的原子分配给光谱中提取到的峰。研究者采用GIAO方法对不同峰进行分配,归属算法的核心是计算分配概率矩阵M,该矩阵的元素M ij 是计算出的化学位移i对应于实验峰值j的概率。矩阵M通过匈牙利线性和最小化方法找到最可能的分配结果。

  图6. 根据振幅概率密度函数的二阶导数的最小值(右侧),峰(左侧)按振幅分组(落在虚线之间)。在该模拟示例中,结构中的碳原子数为9,计算每个组下边界上方的峰的累积总和,分配给每个组的权重是结构中碳原子的数量除以该值,然后将最大的权重固定为1。

  13 C NMR的算法还考虑了实验峰的幅度。M中的每一个元素M ij 乘以一个从实验峰值j的幅度得出的权重因子A j 。 13 C NMR光谱中的峰通常分为三组,可以通过幅度来区分:噪声、1-原子信号和对应于多个等效碳原子的峰。为了捕获这种变化,研究者估算了谱图中峰值幅度的概率密度函数,当峰值中该函数的二阶导数的最小值位于其振幅之间时,这些峰分为一组,然后使用每组中的峰数和结构中预期的碳原子数来计算振幅权重。

  DP4-AI的性能评估

  图7. 用于评估DP4-AI性能的47个分子结构。分子AT3、TS3A、TS4和NL1A仅有相应的1H NMR数据,所有其它分子均具有1H和13C NMR数据;分子JB7、JB11、JB5和JB8的谱图分别在溶剂甲醇、苯、DMSO和甲醇中得到,而所有其它分子则在CDCl3中得到。

  研究者为了评估NMR-AI的性能,构建了由47个分子(每个分子平均3.49个立构中心)组成的测试组,其中包含了各种结构的碳骨架。测试组中包含了天然产物、合成中间体和天然产物的碎片结构,以尽可能包含更多类型的有机分子结构。

  为了描述DP4-AI进行NMR预测的误差概率,研究者测试了四个不同的统计模型,结果发现单区域3高斯模型得出的预测误差最优。

  图8. 图7中化合物的正确预测率,DP4-AI(橙色),成对归属算法(蓝色)。

  在最高的测试理论水平下,DP4-AI的可靠性与耗时的成对归属算法相似,而后者需要一位训练有素的化学家才能完成。在测试数据集中,正确有效的进行立体化学归属的概率约为3×10 -8,表明DP4-AI的表现非常可靠。最令人印象深刻的是,DP4-AI在32和64个非对映异构体中正确对分子NP1和NP2的立构化学特性进行了归属。

  图10. NMR-AI处理NNR数据的速率对比。

  NMR-AI可以在1分钟左右的时间处理完NNR数据,而在此之前同样的任务大约需要8个小时,这相当于每天处理的分子数量可以增加60倍。

  小结

  为了快速有效的处理NMR原始数据,剑桥大学Jonathan M. Goodman教授课题组提出了一种谱图自动处理和归属方法DP4-AI,这种方法由NMR-AI和PyDP4两部分组成,用户只需要输入原始的NMR数据,程序就会自动提取各个峰值,并对其进行归属,直接给出最可能的分子结构以及这种归属的概率。研究者构建了由47个分子组成的测试组,发现程序正确有效的进行立体化学归属的概率约为3×10 -8,并正确对分子NP1和NP2的立构化学特性进行了归属。仅需要1分钟的时间,NMR-AI就可以处理完NNR数据,与之前的方法相比,速率提高了480倍,每天处理的分子数量可以增加60倍。

  https://pubs.rsc.org/en/content/articlehtml/2020/sc/d0sc00442a

  来源:高分子科学前沿

  声明:仅代表作者个人观点,作者水平有限,如有不科学之处,请在下方留言指正!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长虹首款金标电视来了:电视历史上最昂贵的标牌

长虹首款金标电视来了:电视历史上最昂贵的标牌

快科技
2026-03-09 19:11:10
第30波打击!伊朗亮出新武器,美基地被炸,特朗普态度180度反转

第30波打击!伊朗亮出新武器,美基地被炸,特朗普态度180度反转

小莜读史
2026-03-10 03:50:39
“人体艺术”,绝非色情!

“人体艺术”,绝非色情!

文刀万
2026-03-06 06:05:03
斩断医疗绩效!委员直击过度医疗!逼大夫当销售究竟在掏空谁?

斩断医疗绩效!委员直击过度医疗!逼大夫当销售究竟在掏空谁?

华庭讲美食
2026-03-08 04:24:02
1958年甘肃发现一块孔雀石,不啻于在我国工业史上爆响“原子弹”

1958年甘肃发现一块孔雀石,不啻于在我国工业史上爆响“原子弹”

瀚霖学史
2026-03-09 08:54:03
央视主持人李静55岁事业情感双遇挫,原因令人唏嘘

央视主持人李静55岁事业情感双遇挫,原因令人唏嘘

大眼妹妹
2026-03-09 11:24:34
文旅部部长:7名外国游客到上海旅游,买了40箱中国货;“成为中国人”成了网络热词,老外爱上喝开水吃火锅等中式生活

文旅部部长:7名外国游客到上海旅游,买了40箱中国货;“成为中国人”成了网络热词,老外爱上喝开水吃火锅等中式生活

新民晚报
2026-03-07 15:00:52
舅舅刚去世,30岁外甥就把45岁舅妈睡了,舅妈逼他离婚他选择杀人

舅舅刚去世,30岁外甥就把45岁舅妈睡了,舅妈逼他离婚他选择杀人

谈史论天地
2026-03-06 14:19:08
场均1球,哈兰德欧冠56场进56球,10次对西甲球队进10球

场均1球,哈兰德欧冠56场进56球,10次对西甲球队进10球

懂球帝
2026-03-10 04:45:14
曾是京城第一名媛,嫁叶剑英儿子仅24天便离婚,如今已成资本大佬

曾是京城第一名媛,嫁叶剑英儿子仅24天便离婚,如今已成资本大佬

小熊侃史
2026-03-01 17:29:14
美国不担心稀土卡脖子了?一个华裔科学家,帮他们搞了无稀土磁铁

美国不担心稀土卡脖子了?一个华裔科学家,帮他们搞了无稀土磁铁

来科点谱
2026-03-09 09:51:02
战争打到第10天,美以损失到底有多大?以色列和印度记者说出真相

战争打到第10天,美以损失到底有多大?以色列和印度记者说出真相

爱竞彩的小周
2026-03-09 16:15:57
女篮世预赛名单出炉:三大中锋镇守,刘禹彤输在了哪?

女篮世预赛名单出炉:三大中锋镇守,刘禹彤输在了哪?

格斗联盟
2026-03-10 07:06:22
苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

谈史论天地
2026-02-28 13:35:18
她才是董宇辉背后的女人,一脸旺夫相,手握大权,却从不主动露脸

她才是董宇辉背后的女人,一脸旺夫相,手握大权,却从不主动露脸

以茶带书
2026-03-09 16:18:07
上海足坛功勋主帅,五次执教申花,却被洋帅替代,65岁他扎根青训

上海足坛功勋主帅,五次执教申花,却被洋帅替代,65岁他扎根青训

削桐作琴
2026-03-09 18:22:53
下调停车费,是释放消费活力的好开端!

下调停车费,是释放消费活力的好开端!

正经说个事儿
2026-03-09 14:35:10
张国立没想到,央剧《我的山与海》播出仅3天,赵亮竟口碑逆转

张国立没想到,央剧《我的山与海》播出仅3天,赵亮竟口碑逆转

吴锎旅行ing
2026-03-10 05:56:05
因凡蒂诺:我是意大利和国米球迷;如今梅西和C罗依旧在巅峰

因凡蒂诺:我是意大利和国米球迷;如今梅西和C罗依旧在巅峰

懂球帝
2026-03-10 07:26:07
7460万美元卖出,法国以为坑了中国,中国却把鸡肋直升机玩出了花

7460万美元卖出,法国以为坑了中国,中国却把鸡肋直升机玩出了花

青烟小先生
2026-01-13 11:39:37
2026-03-10 08:07:00
高分子科学前沿 incentive-icons
高分子科学前沿
高分子领域第一自媒体
15751文章数 66842关注度
往期回顾 全部

科技要闻

OpenClaw更新,"养虾"再也不会犯健忘症了

头条要闻

媒体:一次越界打击揭开美以裂痕 伊朗向美国传递信号

头条要闻

媒体:一次越界打击揭开美以裂痕 伊朗向美国传递信号

体育要闻

36连胜终结!大魔王也是可以战胜的

娱乐要闻

薛之谦老婆怀二胎,现身产检心情愉快

财经要闻

油价破100美元年内涨80% 全球市场剧震

汽车要闻

对标奔驰小号G级 路虎小型卫士最新消息曝光

态度原创

数码
健康
旅游
家居
公开课

数码要闻

苹果酝酿iPadOS 26.4新特性:智能提示当前隐藏窗口

转头就晕的耳石症,能开车上班吗?

旅游要闻

视界|马来西亚新山举行古庙游神活动

家居要闻

独栋独院 精致亲子墅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版