网易首页 > 网易号 > 正文 申请入驻

中国青年学者一作,重磅Nature:AI辅助化学合成来了!

0
分享至

面对科学文献,尤其是化学反应的爆炸式增长,研究人员正面临前所未有的信息过载挑战。每年有数十万个新反应被报道,然而,将这些海量知识转化为实验室中可执行的具体方案,却严重依赖专家的个人经验与耗时的手动检索,效率低下且难以规模化。尽管大型语言模型(LLMs)在化学领域已展现出应用潜力,但现有系统难以可靠地处理各种全新化合物的复杂转化,且在提供可重复、完整、带可信度评估的实验方案方面存在明显不足。

为此,耶鲁大学Victor S. Batista 教授与Timothy R. Newhouse教授提出了一个革命性的解决方案——MOSAIC框架。该研究开发了一种名为“多优化专家AI辅助化学预测”的计算框,旨在让化学家能够利用数百万反应方案的集体知识。MOSAIC(图1)基于Llama-3.1-8B-instruct架构,通过在Voronoi聚类空间中训练2,498个专项化学“专家”,能够生成具备置信度指标、可重复且可直接执行的复杂合成实验方案。实验验证取得了71%的整体成功率,实现了超过35种新化合物的合成,涵盖药物、材料、农用化学品和化妆品等多个领域。尤为重要的是,MOSAIC甚至能够发现训练数据中未曾出现过的新反应方法,这为加速化学合成发现提供了通用且可扩展的新范式。相关研究成果以题为“Collective intelligence for AI-assisted chemical synthesis”发表自最新一期《nature》上。Haote Li为本文一作。


【定量评估揭示模型精准预测能力】

研究首先对MOSAIC生成完整化学流程的能力进行了定量评估。在产率预测分析中,模型通过处理包含试剂、溶剂和过程描述的整个实验程序来预测结果(图2a)。尽管基于令牌的预测方式会引入系统误差,但MOSAIC的预测区间中值与真实产率中位数仍呈现了显著相关性( R 2 =0.811 ,图2b),表明其能有效捕捉不同反应类型的产率模式,而非简单记忆常见反应。


图 1. MOSAIC框架

在试剂和溶剂预测准确性方面,研究采用差异度量(D)进行评估。结果显示,在一次性预测中,试剂和溶剂的完全匹配率分别为22.4%和29.8%;而当聚合最多三位专家的预测结果时,试剂的完全匹配率大幅提升至43.0%。更重要的是,在多位专家预测模式下,至少能部分预测出正确试剂或溶剂的成功率高达94.8%(图2d, e)。这证明MOSAIC几乎总能识别出相关的反应组分,即使未能提供完全一致的条件。分析指出,在许多未匹配的情况下,模型提供的是化学上可行的替代方案(例如在硝基还原反应中预测铁而非氯化亚锡),这恰恰体现了其细致入微的的专家知识(图2f, g)。

为了凸显领域专业化的价值,研究将MOSAIC与ChatGPT-4o mini、Claude 3.5系列等通用大语言模型在12类重要反应上进行了对比。评估围绕化学理解与实验可行性设计评分标准。结果显示,仅拥有80亿参数的MOSAIC,其性能超越了参数规模可能大数个数量级的通用模型(图2i)。这表明在专业领域,有针对性的微调与化学特异性优化能够克服原始参数数量的优势。研究同时发现,遵循指令的稳定性对于实际应用至关重要,而一些通用模型在此方面表现不一致,成为其应用于实际合成的障碍。


图 2. Promt设计和定量指标

【成功指导合成各类全新化合物】

为验证框架的实用性、通用性与可靠性,研究进行了广泛的实验验证,合成了众多在分子或转化层面具有新颖性的化合物。MOSAIC成功指导了布赫瓦尔德-哈特维希胺化反应,精准预测了挑战性条件,并展示了提出钯催化、铜催化等不同可行替代路线的化学洞察力(图3 1a-c)。此外,在铃木偶联、赫克反应、烯烃复分解、Sonogashira偶联等对药物和材料开发至关重要的催化反应中,MOSAIC均成功预测了条件,实现了高效组装及此前未能实现的转化(图3 2a-c, 3a-d, 4a,b, 5a)。

框架的能力还延伸至选择性控制和复杂底物修饰。例如,实现了季戊四醇衍生物的可控氧化(图3 7a),以及单萜烯香芹酮的共轭加成和L-紫苏醛的立体选择性烯化等(图3 7b, c)。在复杂天然产物clearolide的异戊烯化(图3 7e)及多功能分子hesperetin的位点选择性硅基单保护中(图3 7d),系统展现出了从训练数据中捕捉既定选择性原理的能力。


图 3. 计算指导下的化合物从头合成

【推动跨产业转化应用与全新方法学发现】

MOSAIC的实践影响通过多领域的真实应用得以体现。在制药领域,它助力新型类药分子设计与战略性的治疗性修饰(图4 8a-d);在催化领域,辅助合成工业过程专用配体及新型光催化剂(图4 9a-c);其应用还广泛覆盖材料科学、农业化学及消费品领域(图4 10a,b, 11a-c, 12a,b)。

最具突破性的是,MOSAIC展示了驱动新方法学发现的潜力。一个典型案例是,针对现有方法无法合成的5-氮杂吲哚衍生物,MOSAIC引导开发了一种通过杂芳基二卤化物与N-烷基烯丙胺进行未曾报道的环化反应来合成多种氮杂吲哚的新方案(图4 13a-d)。该反应与最近专家质心的距离高达320,远超典型置信阈值(<150),表明这是一个从预测专家视角看全新的转化。通过利用集体知识,MOSAIC将传统的试错探索转变为有信息的探索,加速了对化学空间未知区域的访问。

在总计实现的37个化合物中,有35个在首次尝试使用最高排名预测时即获成功研究者进一步探究了最近专家质心距离(置信度指标)与实验成功率之间的关系(图2j),发现了一个清晰的预测框架:距离<100时,成功率超过75%;距离增大,成功率则降至约50%。这为实验优先级排序和资源分配提供了量化依据。


图 4. 合成用于跨化学产业转化应用的化合物

【总结与展望:作为化学家探索新空间的指南针】

MOSAIC的开发体现了一个核心原则:利用计算搜索的方法能够随着数据和资源的增加而有效扩展。通过将浩瀚的化学反应空间划分为可搜索的Voronoi区域并分配专项专家,MOSAIC能够持续扩展其覆盖范围与精度。这种架构避免了严格反应类型定义的局限,允许系统直接从Voronoi单元中发现和利用转化模式间的相似性。

研究人员将MOSAIC比作现代化学合成的“指南针” 。其价值并非取代化学家的专业知识,而在于能够快速审视广阔的化学空间,识别出那些原本需要大量文献调研和积累经验才能发现的有潜力的实验方向,将确定合适条件的繁琐过程缩短至几分钟内。展望未来,尽管MOSAIC在涉及全新试剂的突破性发现和产率优化精度上存在局限,但其模型无关的框架设计使其能够无缝融入未来更强大的语言模型与化学表征方法。通过整合实验与建模技术,这一框架有望在缩小计算预测与实验结果差距的同时,持续拓展合成化学可及空间的边界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深夜,日本突发

深夜,日本突发

中国基金报
2026-02-09 00:18:23
中国批准稀土出口,日媒欢呼:对华反制措施见效,下一秒遭打脸

中国批准稀土出口,日媒欢呼:对华反制措施见效,下一秒遭打脸

张鴘喜欢软软糯糯
2026-02-08 22:07:11
两性关系:70岁后想多活20年,牢记这5句话,健康长寿少烦恼

两性关系:70岁后想多活20年,牢记这5句话,健康长寿少烦恼

匹夫来搞笑
2026-01-22 12:05:40
比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

来科点谱
2025-10-24 09:25:32
常州丁堰,房价从2015年6500涨到13200,当前价格分化差距拉大

常州丁堰,房价从2015年6500涨到13200,当前价格分化差距拉大

科学发掘
2026-02-09 03:21:40
突发!京津城际上14岁男孩带着一婴儿!没有家长……

突发!京津城际上14岁男孩带着一婴儿!没有家长……

天津族
2026-02-08 13:32:54
超雄真的有那么可怕吗?网友的分享,一看一个不吱声

超雄真的有那么可怕吗?网友的分享,一看一个不吱声

另子维爱读史
2026-02-01 20:30:29
80后河北小伙网恋娶到美国媳妇,婚后发现对方身份:是我高攀了

80后河北小伙网恋娶到美国媳妇,婚后发现对方身份:是我高攀了

法老不说教
2026-02-03 18:13:55
1943年,谭震林说自己1个团有上百名特务,黄克诚:部队不跑光了?

1943年,谭震林说自己1个团有上百名特务,黄克诚:部队不跑光了?

帝哥说史
2026-02-07 23:33:56
最新民调出炉,41.8%:33.8%!徐欣莹要退党单干,郑丽文霸气怒怼

最新民调出炉,41.8%:33.8%!徐欣莹要退党单干,郑丽文霸气怒怼

阅微札记
2026-02-08 11:35:37
中方考虑拒绝特朗普访华,英媒曝料:已警告美国,越过红线别想来

中方考虑拒绝特朗普访华,英媒曝料:已警告美国,越过红线别想来

梦在深巷aqa
2026-02-07 22:58:03
房价从25000跌到2700,几代积蓄被掏空

房价从25000跌到2700,几代积蓄被掏空

诗词中国
2026-02-07 19:32:18
赵匡胤的“义社十兄弟”:3人善终,1人绝食而死,4人被遗忘

赵匡胤的“义社十兄弟”:3人善终,1人绝食而死,4人被遗忘

长风文史
2026-02-07 13:59:51
火爆!广东多地民政局已约满

火爆!广东多地民政局已约满

番禺台
2026-02-08 14:19:27
绝对是细糠!普通女生无成本长脑子的方法,网友:我将慢慢学习

绝对是细糠!普通女生无成本长脑子的方法,网友:我将慢慢学习

夜深爱杂谈
2026-02-08 21:23:15
一级歌唱家沦落到接小商演,给某集团年会助兴,老总是她的小粉丝

一级歌唱家沦落到接小商演,给某集团年会助兴,老总是她的小粉丝

完善法
2026-01-31 14:06:21
2026第一部大爆剧,狠狠戳中不敢爱的年轻人

2026第一部大爆剧,狠狠戳中不敢爱的年轻人

新周刊
2026-02-06 13:01:43
这裙子非得穿不可吗

这裙子非得穿不可吗

白宸侃片
2026-01-30 15:47:35
山东杯赛3将价值暴跌!谢智杰无主控能力,两小外纯废!

山东杯赛3将价值暴跌!谢智杰无主控能力,两小外纯废!

篮球资讯达人
2026-02-09 01:54:38
台湾歌手上海丢万元外套,称美国就不这样,后被扒曾自称美国人

台湾歌手上海丢万元外套,称美国就不这样,后被扒曾自称美国人

离离言几许
2026-02-05 11:00:30
2026-02-09 07:31:00
高分子科学前沿 incentive-icons
高分子科学前沿
高分子领域第一自媒体
15607文章数 66833关注度
往期回顾 全部

科技要闻

为实现雄心勃勃的计划,特斯拉开始招人

头条要闻

高市早苗豪赌得手保住相位 实现“双重巩固”

头条要闻

高市早苗豪赌得手保住相位 实现“双重巩固”

体育要闻

“我就是王楚钦” 王楚钦霸气指向球衣背后

娱乐要闻

金晨被罚1500后首露面,表情沉重心事重重

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

亲子
时尚
游戏
本地
教育

亲子要闻

4个信号,暗示孩子骨骼线快要闭合,父母及时补救娃还能长高

伊姐周六热推:电视剧《成何体统》;电视剧《唐宫奇案》......

停播退网近两年,昔日LOL超一线主播强势复出,网友直呼爷青回!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

教育要闻

C5 初中英语单词突破,高频词26中频词16基础词14,固定搭配19

无障碍浏览 进入关怀版