网易首页 > 网易号 > 正文 申请入驻

ICLR 2024 | MolGen:化学反馈引导的预训练分子生成

0
分享至

药物发现的核心环节之一是合成和设计具有理想化学特性的分子。随着语言模型展现出在解析复杂分子分布方面的潜力,研究人员开始尝试将分子的SMILES描述符与预训练语言模型相结合。然而,SMILES描述符的语法特质并不总能保障所生成化学结构的有效性,经常导致生成化学上无意义的字符串。除此之外,虽然分子语言模型在预训练过程中学习了大量的分子结构信息,它们仍难以准确捕捉到现实世界中化学与生物特性的复杂关系。这使得它们常常陷入“分子幻觉”,生成在结构上看似正确,但缺乏理想化学属性的分子。

为了应对上述挑战,本文提出了新的分子生成框架MolGen。MolGen通过双阶段预训练深入学习分子的结构与语法特征,并采用化学反馈机制优化分子生成过程,使其产生的分子既化学有效又具备预期属性。

论文题目: Domain-Agnostic Molecular Generation with Chemical Feedback 论文链接: https://arxiv.org/abs/2301.11259 代码链接: https://github.com/zjunlp/MolGen

一、MolGen的训练框架

MolGen的预训练包含两个关键阶段:


  • 首先,基于Seq2seq的模型架构,MolGen在超过一亿的分子序列上执行掩码操作,通过重构原始序列深度挖掘分子的结构本质,同时采用SELFIES作为分子描述符,确保生成的分子序列的100%有效性。



  • 其次,引入一种通用的分子前缀策略,提升模型跨不同领域的适用性和灵活性。


在预训练阶段之后,尽管模型已经掌握了分子的基本语法规则,但它还需要学习如何根据实际化学需求优化分子结构。因此,MolGen引入了一种化学反馈机制,引导模型优先考虑那些更优候选分子,进而学习评估并纠正自己的生成过程,以实现与优化目标的一致性。这种方法确保了MolGen不仅能生成化学上有效的分子,而且这些分子具备所需的预期特性,适应实际的应用场景。

二、实验分析

本文通过一系列实验分析验证了MolGen模型的有效性和实用性。

实验结果表明,MolGen能够生成反映现实世界分子分布的多样化且真实的分子,适用于构建虚拟分子库。

通过优化实验,MolGen证明了其能够有效地生成与特定目标蛋白质高度亲和的分子。结合亲和力量化了分子与目标蛋白质之间的相互作用力。如图(a)所示,MolGen专门针对初始结合亲和力较低的1000个分子进行优化,成功提升了这些分子的亲和力。其中亲和力通过解离常数(K_D)来体现,K_D值越低表示亲和力越强。图(b)则进一步展示了在两种不同目标蛋白质上,通过MolGen优化后分子结合亲和力的显著提高,从而突显了MolGen在药物设计和分子优化领域的应用潜力。

此外,MolGen也能够优化相对简单的化学性质,如p-logP和QED值。在天然产物与合成分子两种设定下,不同配置的模型生成的分子化学性质发生了明显的变化。在未应用化学反馈机制的情况下,预训练模型倾向于生成与输入分子化学性质相似的分子。然而,当引入化学反馈后,化学性质得分显著提升,这表明通过化学反馈机制,模型能够将其生成过程与化学上的实际偏好相对齐,从而有效地评估并调整其生成的分子,确保这些分子具备应用中所需的化学特性。

本文将MolGen得到的分子表示空间与基于深度图生成的模型、基于变分自编码器的模型以及基于SMILES的语言模型进行比较。总体而言,预训练语言模型,尤其是MolGen,在维持生成分子多样性的同时,成功捕获了训练集中分子的化学特性和结构特征,展现了其在精确模拟分子化学空间方面的优势。

进一步地,本文还探讨了使用不同分子语言(SMILES和SELFIES)进行预训练的模型在感知分子结构方面的能力。下图可视化了模型最后一个自注意力层的注意力权重。基于SMILES的预训练模型可能会将注意力分配给缺乏内在化学意义的符号或数字,相比之下,MolGen在识别和理解具有化学意义的子结构方面表现出更高的有效性。

三、总结

本文介绍了一种新的分子生成框架MolGen。实验分析表明,MolGen能够有效生成符合化学偏好的分子,规避了“分子幻觉”问题。未来的研究方向包括将MolGen应用于逆合成、化学反应预测等生成任务,探索多模态预训练技术,或融合更广泛的知识资源。此外,为了进一步满足从头分子设计的需求,作者推出了最新的MolGen-7B版本。该版本基于LLaMA架构,无需依赖现有分子结构即可设计出多样化的新分子,开拓了更为广阔的化学探索空间。

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国破家亡之后,他写下宋末最美的一首词,最后三句惊艳千年

国破家亡之后,他写下宋末最美的一首词,最后三句惊艳千年

长风文史
2026-01-17 12:25:18
30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

富贵说
2026-01-18 20:36:47
嫣然天使儿童医院欠租千万:目前正常营业,已筹得900万元善款但不能用于交房租,是否搬迁仍是现实问题

嫣然天使儿童医院欠租千万:目前正常营业,已筹得900万元善款但不能用于交房租,是否搬迁仍是现实问题

重案组37号
2026-01-19 15:43:04
梁小龙去世早有预兆,关门弟子爆料3个“不良爱好”,都是催命符

梁小龙去世早有预兆,关门弟子爆料3个“不良爱好”,都是催命符

查尔菲的笔记
2026-01-19 12:35:23
英媒爆猛料:涉及中国使馆,美方暗中下手

英媒爆猛料:涉及中国使馆,美方暗中下手

环球时报国际
2026-01-19 15:22:00
狠戳美国肺管子!中国留学生72小时极限逃亡,西方彻底破防...

狠戳美国肺管子!中国留学生72小时极限逃亡,西方彻底破防...

毛豆论道
2026-01-17 17:45:48
全球23年出口霸榜!奇瑞把“中国车”变成了“全球车”

全球23年出口霸榜!奇瑞把“中国车”变成了“全球车”

AutoBusiness
2026-01-17 11:08:03
杨皓宇罚丢点球,猜猜李昊说了什么?难怪乌兹别克斯坦会被淘汰!

杨皓宇罚丢点球,猜猜李昊说了什么?难怪乌兹别克斯坦会被淘汰!

我就是一个说球的
2026-01-18 21:57:44
伊朗街头的诡异平静!是绝望还是等待?

伊朗街头的诡异平静!是绝望还是等待?

深度报
2026-01-17 23:00:11
2025年出生人口仅792万比预计最低方案都还要低,10年出生人口减少1000万

2025年出生人口仅792万比预计最低方案都还要低,10年出生人口减少1000万

小星球探索
2026-01-19 12:04:51
这条流氓新闻,每个字都写满了无耻

这条流氓新闻,每个字都写满了无耻

胖胖说他不胖
2026-01-19 13:50:07
中方再次严正要求日本:立即归还中国!

中方再次严正要求日本:立即归还中国!

达文西看世界
2026-01-19 14:08:27
老红军、开国大校、红色“听风者”胡正先逝世,享年108岁

老红军、开国大校、红色“听风者”胡正先逝世,享年108岁

澎湃新闻
2026-01-19 14:44:27
片甲不留!从34.66跌到0.89,军工龙头迎来终章,3万股民全被锁死

片甲不留!从34.66跌到0.89,军工龙头迎来终章,3万股民全被锁死

壹只灰鸽子
2026-01-19 12:14:59
出生人口跌破800万!会对地产、消费带来巨大影响,预计明年总人口跌破14亿

出生人口跌破800万!会对地产、消费带来巨大影响,预计明年总人口跌破14亿

爆角追踪
2026-01-19 12:55:54
南京、无锡、苏州等地将有纯雪!具体时段公布

南京、无锡、苏州等地将有纯雪!具体时段公布

鲁中晨报
2026-01-19 15:03:30
强的可怕!去年GDP、人均收入均大涨5%!生娃数量惊人

强的可怕!去年GDP、人均收入均大涨5%!生娃数量惊人

说财猫
2026-01-19 12:28:45
恭喜中国航天进入发射失败高峰期

恭喜中国航天进入发射失败高峰期

基本常识
2026-01-18 21:20:28
792万新生儿再创历史新低!补贴到位了,年轻人为啥还是不愿生?

792万新生儿再创历史新低!补贴到位了,年轻人为啥还是不愿生?

今朝牛马
2026-01-19 15:13:43
成都直飞柬埔寨再添新航点

成都直飞柬埔寨再添新航点

爱看头条
2026-01-19 08:39:14
2026-01-19 17:07:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

嫣然天使基金暂停筹款 工作人员:常规筹款预算已筹满

头条要闻

嫣然天使基金暂停筹款 工作人员:常规筹款预算已筹满

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

离婚三年,孙怡董子健首次公开互动

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

教育
艺术
房产
本地
公开课

教育要闻

“打了没用,是打得不够狠”,家长晒女儿哭闹视频,网友看清现实

艺术要闻

有一种美,叫做中国园林!

房产要闻

封关刚刚满月,海南真爆了!三亚房价,涨幅冲上全国第三!

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版