网易首页 > 网易号 > 正文 申请入驻

《Nature》子刊:前所未有的速度和精度!完全机器驱动的超快聚合物搜索

0
分享至

聚合物是日常生活的重要组成部分。他们的化学空间是如此之大,它提供了前所未有的机会,以及重大的挑战,以确定合适的应用特定的候选。

在此,来自美国佐治亚理工学院的Rampi Ramprasad等研究者提出了一个完整的端到端机器驱动的聚合物信息学管道,可以以前所未有的速度和准确性搜索这个领域的合适候选物。相关论文以题为“polyBERT: a chemical language model to enable fully machine-driven ultrafast polymer informatics”发表在Nature Communications上。

论文链接:

https://www.nature.com/articles/s41467-023-39868-6

聚合物是研究者日常生活中不可或缺的一部分,也是未来创新技术进步的重要工具。聚合物化学空间的绝对规模和多样性为制作精确匹配应用需求的聚合物提供了机会,但也带来了高效和有效浏览这个巨大空间的挑战。新兴的聚合物信息学领域允许深入聚合物领域,并展示了机器学习(ML)模型克服这一挑战的潜力。ML框架在聚合物性能预测器的开发和解决逆向问题方面取得了实质性进展,在这些问题中,满足特定性能要求的聚合物要么从候选集中识别出来,要么使用遗传或生成算法进行新设计。

聚合物信息学管道的一个重要步骤是将聚合物化学结构转换为通常称为指纹、特征或描述符的数字表示(见图1a中的蓝框)。过去的手工指纹识别方法利用化学信息学工具对聚合物的关键化学和结构特征进行数字编码。尽管这样的手工指纹建立在宝贵的直觉和经验之上,但它们的开发是乏味的,涉及复杂的计算,通常在模型训练和推理期间消耗大部分时间,并且缺乏对所有聚合物化学类的泛化(即,可能必须以特别的方式将新特征添加到特征目录中)。因此,使用手工指纹的ML管道在探索新的聚合物化学类别时容易出现错误。此外,手工制作的指纹对于完全机器驱动的管道的开发和部署也存在障碍,这些管道适用于云计算和高吞吐量环境的可扩展性。

图1:polyBERT的聚合物信息学。

克服前面提到的限制的一种方法是用完全机器制作的“变压器”指纹取代手工制作的指纹(见图1a右侧管道)。Transformers是最近在自然语言处理(NLP)领域开发的,并迅速成为ML语言建模的黄金标准。在这项工作中,研究者设想简化分子输入行输入系统(SMILES)字符串已被用于表示聚合物作为聚合物的“化学语言”。研究者使用数以百万计的聚合物微笑(PSMILES)字符串来训练一个名为polyBERT的语言模型,以成为聚合物化学语言的专家。polyBERT与多任务深度神经网络相结合,实现了完全端到端机器驱动的聚合物信息管道,使用并释放了人工智能方法的真正力量。多任务深度神经网络利用多保真度和多属性数据集的内在相关性,在云计算环境中轻松扩展,并推广到多个预测任务。

最近的研究证明了在分子化学领域使用变压器的好处。例如,Wang等人用分子SMILES字符串的数据集训练了一个BERT模型(最常见的通用语言模型)。使用BERT的分子潜在空间表示作为指纹,作者表明他们的方法优于其他指纹识别方法(包括无监督递归神经网络和图神经网络的指纹)。同样,Schwaller等人开发了一个Transformer模型来预测反应物和试剂分子的反合成途径,该模型优于反应预测文献中已知的算法。Xu等人最近的一项研究(几乎与研究者同时进行,这可以从研究者提交的arXiv文件中得到证实)使用RoBERTa模型(BERT Transformer模型的演变)进行聚合物性能预测。他们的训练策略首先涉及使用500万个聚合物的RoBERTa模型的预训练(无监督训练),然后是一个微调步骤(监督训练)来直接预测聚合物的性质。尽管他们的工作在无监督和有监督训练任务中使用的数据集比研究者的小得多,但他们发现他们的微调RoBERTa模型优于图神经网络、长短期记忆和其他模型;研究者确实注意到,最近的工作并没有将他们基于Transformers的模型与当前最先进的手工指纹和多任务学习(研究者在当前的贡献中做了)进行直接比较。

另一种很有前途的神经网络结构,即图神经网络,它将化学结构作为图来处理,过去已经应用于分子和聚合物化学空间。与transformer相反,图神经网络将原子表示为节点,将键表示为图的边,从而编码原子之间的直接连接和扩展连接。因此,图神经网络不像transformer那样直接基于PSMILES字符串,而是依赖于需要计算并分配给每个节点的一组初始特征向量(如原子类型、隐式价等)。例如,Park等人比较了图卷积网络和流行的扩展连接圆形指纹19对聚合物热性能和机械性能的预测,发现两种模型的预测性能相似。类似地,Gurnani等人使用多任务图神经网络来预测聚合物的性质,但在重边界原子之间引入了边缘,以结合聚合物链的循环拓扑结构。他们将图神经网络和多任务学习相结合的方法在几乎所有情况下都优于基于传统手工制作的聚合物基因组指纹的预测。以类似的方式,Aldeghi和Coley在聚合物链之间引入了低重量边,从而可以预测交替、随机、嵌段共聚物和末端化学基团。研究者还注意到,与Transformers图不同,神经网络通常是端到端训练的,也就是说,它们的潜在空间表示(指纹)是在具有聚合物特性的监督下学习的。这样做的结果是,在基于transformer的方法中,学习到的指纹是独立于聚合物性质的(因此可以一劳永逸地确定),而图神经网络架构通常是这样构建的,学习到的表示依赖于所考虑的特定性质。研究者注意到,自监督图神经网络最近已经被开发出来,它通过原子、键和子图屏蔽来学习分子图,这是一种类似于Transformers的方法。

在这里,研究者提出了一个完整的端到端机器驱动的聚合物信息学管道,可以以前所未有的速度和准确性搜索这个领域的合适候选物。这项工作有几个关键因素。首先,研究者通过枚举结合从超过13000个合成聚合物的列表中提取的化学片段,生成了一个包含1亿个假设聚合物的数据集。接下来,研究者训练polyBERT,一个基于deberta的编码器转换器,使用这个假设的聚合物数据集成为一个聚合物化学语言学家。在训练期间,polyBERT学习将输入的PSMILES字符串转换为研究者用作聚合物指纹的数字表示。最后,研究者使用研究者的多任务机器学习框架将polyBERT指纹映射到大约36种聚合物性质,以产生完全由机器驱动的超快速聚合物性质预测器。为了进行基准测试,将这种新的端到端属性预测管道的性能(准确性和速度)与之前首创的最先进的手工制作的基于聚合物基因组(PG)指纹的管道进行比较。利用超快polyBERT聚合物信息管道,研究者能够预测1亿种假设聚合物的性质,从而找到聚合物宇宙的性质边界。这项工作通过利用语言、数据和人工智能模型的真正力量,有助于加快聚合物的发现、设计、开发和部署。

图2:指纹的二维均匀歧管近似和投影55(UMAP)图。

图3:三个聚合物的注意图和神经元激活。

图4:聚合物指纹的计算时间。

图5:Polybert(PB)和聚合物基因组(PG)指纹的测定系数(R2)性能值。

图6:聚合物简化的分子输入系统(PSMILES)字符串的翻译,乘法和置换方差。

综上所述,总的聚合物宇宙是巨大的,但目前受到实验,制造技术,资源和经济方面的限制。考虑到不同的聚合物类型,如均聚物、共聚物和聚合物共混物,以及新的未被发现的聚合物化学物质、添加剂和加工条件,聚合物世界中可能的聚合物数量确实是无限的。搜索这个由属性预测支持的超大空间受到预测速度的限制。在合理的时间内准确预测了1亿种假设聚合物的29种性质,表明polyBERT是对这个巨大的聚合物宇宙进行大规模探索的推动者。polyBERT为发现新型聚合物铺平了道路,其速度比最先进的信息学方法快100倍(并且可能比更新的GPU一代更快)-但与较慢的手工指纹方法具有相同的精度-利用最初为NLP开发的基于transformer的ML模型。polyBERT指纹是密集的和化学相关的聚合物的数值表示,充分衡量聚合物的相似性。它们可以用于任何需要聚合物数值表示的聚合物信息学任务,如属性预测(如图所示)、聚合物结构预测、基于ml的合成助手等。polyBERT指纹通过用polyBERT指纹取代手工制作的指纹,具有巨大的潜力来加速过去的聚合物信息学管道。polyBERT也可以使用在自监督学习过程中训练的polyBERT解码器,直接基于指纹(可以与属性相关)设计聚合物。然而,这需要对polyBERT进行再培训和结构更新,因此是未来工作的一部分。(文:水生)

本文来自微信公众号“材料科学与工程”。欢迎转载请联系,未经许可谢绝转载至其他网站。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
清华大学“立功”了!中国芯实现换道超车,美企集体“破防”了

清华大学“立功”了!中国芯实现换道超车,美企集体“破防”了

嘿哥哥科技
2024-06-16 17:46:37
郭威过生日许敏现身河南,未相聚庆生而是去观光,在景点释放委屈

郭威过生日许敏现身河南,未相聚庆生而是去观光,在景点释放委屈

娱记掌门
2024-06-16 23:19:25
太离谱了!《墨雨云间》追剧日历更新,竟然减更了,严重的剧缩力

太离谱了!《墨雨云间》追剧日历更新,竟然减更了,严重的剧缩力

娱乐寡姐
2024-06-16 21:08:06
12国拒绝签署乌克兰和平峰会公报,引发全球关注

12国拒绝签署乌克兰和平峰会公报,引发全球关注

亡海中的彼岸花
2024-06-17 00:10:03
积分榜全乱了:中国女排3-0升第4,日本0-3美国掉第5,波兰跌第3

积分榜全乱了:中国女排3-0升第4,日本0-3美国掉第5,波兰跌第3

小马哥谈体育
2024-06-17 04:26:14
重锤!武汉傅家坡和宏基客运站整合!

重锤!武汉傅家坡和宏基客运站整合!

越乔
2024-06-16 22:41:11
邓卓棣:跨界之路,谱写金融新篇章

邓卓棣:跨界之路,谱写金融新篇章

小马哥谈体育
2024-06-16 17:30:46
玫瑰的故事:黄亦玫生下女儿,方协文越来越过分,不让妻子穿裙子

玫瑰的故事:黄亦玫生下女儿,方协文越来越过分,不让妻子穿裙子

两年的海
2024-06-16 23:16:54
从辉煌到衰败,中国最大的渔场舟山渔场,为何会“富极而衰”?

从辉煌到衰败,中国最大的渔场舟山渔场,为何会“富极而衰”?

白浅娱乐聊
2024-06-15 23:47:45
第四人口大国低调崛起,坐拥36万精兵200艘军舰,比日本更有野心

第四人口大国低调崛起,坐拥36万精兵200艘军舰,比日本更有野心

静海
2024-01-06 18:22:41
以色列三大港口都遭到火力封锁,相当于已经被按住命脉!

以色列三大港口都遭到火力封锁,相当于已经被按住命脉!

笔墨V
2024-06-16 03:31:34
又火出圈,已累计卖出14万单!医生提醒:不要盲目选择

又火出圈,已累计卖出14万单!医生提醒:不要盲目选择

鲁中晨报
2024-06-16 20:43:06
中国经济巨大成就的背后:有两个痛点,是什么痛点?

中国经济巨大成就的背后:有两个痛点,是什么痛点?

永不出场的戈多
2024-06-15 07:58:52
“中国技术不如日本?”中国高铁一公里1万度电,日本只要43度?

“中国技术不如日本?”中国高铁一公里1万度电,日本只要43度?

番茄说史聊
2024-06-15 22:01:17
首秀一战成名!比赛气质出众、替补发球给力!世青赛MVP未来可期

首秀一战成名!比赛气质出众、替补发球给力!世青赛MVP未来可期

金毛爱女排
2024-06-16 11:59:06
存在89条消防隐患,洛阳一小区为何就能交了房?

存在89条消防隐患,洛阳一小区为何就能交了房?

极目新闻
2024-06-16 10:50:35
河北新娘抛下丈夫喝药自尽,12年后丈夫不顾一切给妻子开棺

河北新娘抛下丈夫喝药自尽,12年后丈夫不顾一切给妻子开棺

青丝人生
2024-05-20 17:32:41
5nm芯片量产无望?台积电“怒了”:大陆企业不配做对手

5nm芯片量产无望?台积电“怒了”:大陆企业不配做对手

奉壹数码
2024-06-16 08:52:42
对不起❗误解了尚雯婕很多年,终于圈粉啦

对不起❗误解了尚雯婕很多年,终于圈粉啦

综艺拼盘汇
2024-06-15 23:17:29
苏纳克一家四口亮相庆典!英国夫人穿碎花裙观礼,被老公牵手好甜

苏纳克一家四口亮相庆典!英国夫人穿碎花裙观礼,被老公牵手好甜

八八尚语
2024-06-16 15:06:20
2024-06-17 06:36:49
材料科学与工程
材料科学与工程
材料类综合、全面、专业的平台
6139文章数 17014关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

冷藏货车违规乘人致8人窒息后遇难 河南叶县通报

头条要闻

冷藏货车违规乘人致8人窒息后遇难 河南叶县通报

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

本地
时尚
教育
手机
公开课

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

伊姐周日热推:电影《沙漏》;动漫《眷思量2》......

教育要闻

夏天来了!!!我也要去复旦上学啦!!!|复旦大学398分新传考研经验帖

手机要闻

鸿蒙OS再次发力:华为Pura70系列再迎新版本,你收到了吗?

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版