网易首页 > 网易号 > 正文 申请入驻

深度科学| Nature: MOSAIC专用模型如何实现智能化学合成

0
分享至

编者语:

该方法避免了严格定义反应类型的局限性,转而让系统直接从Voronoi单元中发现并利用转化模式间的相似性。

01


背景介绍

在当今科学飞速发展的时代,化学领域正面临着一个前所未有的挑战:信息爆炸。每年有数十万个新化学反应被报道,加入已经包含数百万个已知反应的庞大知识库。然而,手动查阅文献变得低效且高度依赖个人经验,这些海量信息逐渐成为了化学家的负担。并且,传统的化学合成依赖研究人员的专业知识和直觉,往往需要通过反复试错来优化反应条件(图1)。即使是经验丰富的化学家,也难以掌握所有快速发展的实验方法学。这种局限性也影响了自动化合成平台,缺失的实验方案常常需要人工干预关键参数。尽管大型语言模型(LLMs)在化学领域已展现出应用潜力,但现有系统难以可靠地处理各种全新化合物的复杂转化,且在提供可重复、完整、带可信度评估的实验方案方面存在明显不足。


1. 传统经验式试错合成(AI图)

2026年01月19日,耶鲁大学Victor S. Batista与Timothy R. Newhouse团队在Nature期刊发表题为“Collective intelligence for AI-assisted chemical synthesis”的研究论文。该研究开发了一种名为“多优化专家AI辅助化学预测”的计算框架(MOSAIC框架,Multiple Optimized Specialists for AI-assisted Chemical Prediction),旨在让化学家能够利用数百万反应方案的集体知识(图2)。MOSAIC基于Llama-3.1-8B-instruct架构构建,在Voronoi聚类划分的空间中训练了2,498个高度专业化的化学专家模型。该方法能够为复杂合成提供可复现、可执行的实验方案,并附带置信度评估指标。实验验证显示,其整体成功率达到71%,实现了 35 种以上新化合物的合成,涵盖药物、材料、农用化学品和化妆品等多个领域。值得注意的是,MOSAIC还能够发现超出其训练专家知识范围的全新反应方法,这是推动化学合成发展的关键能力。通过将庞大知识领域划分为可搜索的专家区域,这一可扩展范式为在信息增长速度超越知识获取与应用效率的领域中实现AI辅助发现,提供了一种具有普适性的解决策略。


2. 图文总览

02


图文解析

1.革命性设计:从通用模型到化学专家委员会

研究团队首先开发了一种称为核度量网络(KMN)的系统(图3),能够将化学反应转化为128维的“反应特异性指纹”。这种指纹类似于人类的指纹,能够唯一标识每个化学反应的特征。通过FAISS相似性搜索库,化学反应空间被划分为2,500个Voronoi区域,每个区域由专门的专家模型负责。

这种设计的巧妙之处在于:当遇到一个新的合成问题时,系统会先确定这个问题属于哪个化学空间区域,然后激活对应的专家提供解决方案。这就好比不是询问一个“通才”,而是咨询一个专门研究此类反应的“领域专家”。

MOSAIC的核心创新在于其独特的架构设计。与传统的单一大型语言模型不同,MOSAIC基于Llama-3.1-8B-instruct架构,训练了2,498个专业化学专家,每个专家负责特定的化学反应空间。


3.MOSAIC系统框架示意图

2.专业化优势

研究团队还MOSAIC与当前的主流大语言模型进行了系统比较,包括ChatGPT-4o mini、Claude 3.5 Haiku、Claude 3.5 Sonnet和ChatGPT-o1 Pro。评估涵盖了12种重要反应类型,包括Suzuki偶联、烯烃复分解、Buchwald-Hartwig胺化等。结果表明,尽管MOSAIC只有80亿参数,远小于ChatGPT-o1 Pro和Claude 3.5 Sonnet等模型,但其在提供明确化学合成指导方面表现更优(图4)。这表明在专业领域,针对性的微调和化学特定的优化可以克服原始参数数量的优势。评估还发现,遵循指令的能力与化学知识同样重要。通用模型在相同提示下表现出显著不同的响应一致性。例如,Claude 3.5 Haiku在一次试验中能提供详细回答,而在另一次试验中则拒绝回答,声称信息不足。这种不一致性给寻求可靠帮助的用户带来了挑战。


4. 提示设计与量化评估指标

3.从预测到实践:71%的成功率验证

实验验证表明,该系统在合成超过35种新化合物时达到了71%的整体成功率。这些化合物涵盖药物、材料、农用化学品和化妆品等多个领域(图5和图6)。

更为重要的是,MOSAIC展现出了强大的预测能力:当转化反应与专家知识域距离较近(距离<100)时,成功率超过75%;即使距离较远(>100),仍能达到约50%的成功率。这为实验优先级提供了量化依据——研究人员可以优先尝试高置信度的预测,同时将资源合理分配于探索性研究。

具体案例充分展示了MOSAIC的实用价值。在Buchwald-Hartwig胺化反应中(药物分子中普遍存在的碳氮键形成反应),MOSAIC不仅准确预测了条件,还展示了深刻的化学洞察力,为不同底物提出了钯催化的Buchwald-Hartwig、铜催化的Goldberg和SNAr反应作为可行替代方案(图5)。

在合成具有临床重要性的化合物衍生物,如抗抑郁药去甲替林和降胆固醇药物非诺贝特时,这种多功能性被证明非常宝贵。MOSAIC还成功指导了Heck偶联反应,其中先前报道的转化已被证明不成功,展示了其解决合成瓶颈的潜力。


5.基于计算预测指导的全新化合物合成

4.超越已知:发现全新反应方法学

MOSAIC最引人注目的能力是能够发现训练数据中不存在的新反应方法学。在案例研究中,研究团队使用杂芳基二卤化物的级联环化来形成吲哚的生物电子等排体类似物。研究表明,5-氮杂吲哚衍生物的合成在现有方法下无法进行。基于这一局限性,MOSAIC指导开发了一种通过杂芳基二卤化物与N-烷基烯丙胺的未报道环化反应来合成各种氮杂吲哚的新方案(图6, 13a-d)。

对于形成目标产物的反应,最近的专家质心距离为320,远高于典型的置信阈值(<150)。缺乏密切相关的前例反应表明,该预测远远超出了知识空间,从预测专家的角度来看,这是一个真正的新转化。


6. 面向跨化学工业转化应用合成的化合物

5.实际应用:从药物开发到材料科学

MOSAIC的实际影响跨越多个化学工业领域。在药物研发方面,它准确预测了类药分子的合成路线;在材料科学中,精确预测了电子器件共轭化合物的合成路线;在农业化学中,实现了用于作物保护的pyrabactin变体的创建;在消费品领域,成功合成了潜在香料和抗衰老化合物(图6)。

特别值得关注的是,在37种实现的化合物中,有35种使用排名最高的预测一次尝试即成功,只有两种需要较低排名的程序。这些成功应用代表了所检查转化的大多数,尽管并非所有预测都产生了成功的结果。

03


总结

这种利用计算搜索的方法原则随着数据和资源的增加而有效扩展。通过将巨大的化学反应空间划分为可搜索的Vonoroi区域并将专家分配给这些区域,MOSAIC可以随着更多数据的可用而不断扩展其覆盖范围和精度。通过FAISS的搜索机制实现了高效导航,使系统能够快速识别任何给定查询的最相关专家模型。MOSAIC的价值不在于取代化学专业知识,而在于快速调查广阔的化学空间,确定有希望的实验方向,否则这些方向需要广泛的文献回顾和积累的经验。它将传统的迭代试错方法转变为知情探索,加速进入以前未知的化学空间区域。

文献信息

Haote Li, Sumon Sarkar, Wenxin Lu, Patrick O. Loftus, Tianyin Qiu, Yu Shee, Abbigayle E. Cuomo, John-Paul Webster, H. Ray Kelly, Vidhyadhar Manee, Sanil Sreekumar, Frederic G. Buono, Robert H. Crabtree, Timothy R. Newhouse & Victor S. Batista, Collective intelligence for AI-assisted chemical synthesis, Nature, 2026, https://doi.org/10.1038/s41586-026-10131-4

声明:

1. 版权:推送内容仅供学习交流分享使用,无任何商业用途,如有侵权,请联系后台删除或修改,感谢支持。

2. 投稿:非常欢迎各位老师在公众号上介绍课题组前沿或经典研究成果!后台或邮箱联系即可!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
反超千问、蚂蚁阿福,豆包App Store排名第一

反超千问、蚂蚁阿福,豆包App Store排名第一

第一财经资讯
2026-02-17 22:25:30
60岁杨利伟现状:被授予少将军衔,退休后不休息,享受的待遇如何

60岁杨利伟现状:被授予少将军衔,退休后不休息,享受的待遇如何

娱说瑜悦
2025-12-22 14:07:14
身家过亿的财经女侠叶檀,抗癌3年悔悟:丁克是这辈子最错的决定

身家过亿的财经女侠叶檀,抗癌3年悔悟:丁克是这辈子最错的决定

青眼财经
2026-02-11 19:36:31
乌军战力增强,从2月9日起开始反攻,收复200平方公里,趋势向好

乌军战力增强,从2月9日起开始反攻,收复200平方公里,趋势向好

高博新视野
2026-02-17 13:47:05
王菲水滴耳环再次出圈,网友立刻找到同款!窦靖童发文

王菲水滴耳环再次出圈,网友立刻找到同款!窦靖童发文

每日经济新闻
2026-02-17 00:23:36
米兰冬奥|空中技巧男女预赛均因暴雪延期,徐梦桃齐广璞将面临一日双赛的考验

米兰冬奥|空中技巧男女预赛均因暴雪延期,徐梦桃齐广璞将面临一日双赛的考验

新浪财经
2026-02-17 21:20:40
2026年春晚主持人官宣不到48小时,恶心一幕上演,尼格买提被骂惨

2026年春晚主持人官宣不到48小时,恶心一幕上演,尼格买提被骂惨

林轻吟
2026-02-07 09:27:28
罗永浩怼段永平“懂个屁”,这个全是“破烂”的时代

罗永浩怼段永平“懂个屁”,这个全是“破烂”的时代

不正确
2026-02-11 22:53:03
史诗级封杀!2000万网红“听风的蚕”彻底凉了

史诗级封杀!2000万网红“听风的蚕”彻底凉了

互联网品牌官
2026-02-12 01:17:23
蔡英文邀萧美琴吃那年夜饭,两个老姑娘抱团围炉!

蔡英文邀萧美琴吃那年夜饭,两个老姑娘抱团围炉!

达文西看世界
2026-02-17 19:03:50
意外!国安弃将完成新东家首秀,表现超出预期,塞蒂恩真不会用他

意外!国安弃将完成新东家首秀,表现超出预期,塞蒂恩真不会用他

体坛鉴春秋
2026-02-17 17:58:27
原来他才是毁掉刘翔真凶!因贪1200万被审判,让刘翔背负多年骂名

原来他才是毁掉刘翔真凶!因贪1200万被审判,让刘翔背负多年骂名

小熊侃史
2026-02-11 12:52:08
歼16生产升级:WS10产能提升至50架

歼16生产升级:WS10产能提升至50架

阿晪美食
2026-02-17 12:34:43
6只猫纵身跳下6楼,用生命为20只同伴推开了一扇生门...

6只猫纵身跳下6楼,用生命为20只同伴推开了一扇生门...

爱宠物
2026-02-15 22:10:33
河内主帅:亚冠被判负责任确实在我方,但亚足联也可有更好沟通

河内主帅:亚冠被判负责任确实在我方,但亚足联也可有更好沟通

懂球帝
2026-02-17 22:10:07
巨头集体跑路,社区团购凉透了

巨头集体跑路,社区团购凉透了

快刀财经
2026-01-12 22:36:46
赵本山的房子没要到, 何庆魁又盯上小老婆, 网友: 老伴还是保姆?

赵本山的房子没要到, 何庆魁又盯上小老婆, 网友: 老伴还是保姆?

天天热点见闻
2026-02-16 15:04:34
升温来啦!成都未来三天最高气温依次为17℃、20℃、21℃

升温来啦!成都未来三天最高气温依次为17℃、20℃、21℃

爱看头条
2026-02-17 20:42:05
婆婆打牌把5岁孙女关进狗笼,儿媳没哭闹,半月后婆婆遭了报应

婆婆打牌把5岁孙女关进狗笼,儿媳没哭闹,半月后婆婆遭了报应

小秋情感说
2026-01-02 13:25:03
一旦中国爆发战争,老百姓一定要带这4样东西,关键时刻能保命

一旦中国爆发战争,老百姓一定要带这4样东西,关键时刻能保命

科学知识点秀
2026-02-13 08:00:22
2026-02-17 23:04:49
原子量 incentive-icons
原子量
探索科学魅力,实践科技创新;分享化学奇趣,服务知识交流。
59文章数 4关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

创始人揭蔡明仿生人制作经过:请了30年前蔡明的化妆师

头条要闻

创始人揭蔡明仿生人制作经过:请了30年前蔡明的化妆师

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

本地
旅游
家居
公开课
军事航空

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

旅游要闻

火爆!大年初一,北京人都涌向了这儿……好玩到停不下来!

家居要闻

中古雅韵 乐韵伴日常

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国国务卿鲁比奥发表农历新年祝福

无障碍浏览 进入关怀版