网易首页 > 网易号 > 正文 申请入驻

LLM学习原子「结构语言」,生成未知化合物的晶体结构,登Nature子刊

0
分享至

来源:ScienceAI

编辑:萝卜皮

生成合理的晶体结构通常是预测材料化学成分及其性质的第一步,但当前大多数预测方法计算成本高,制约了创新进程。通过使用优质生成的候选结构来预测晶体结构,可以突破这一瓶颈。

在最新的研究中,英国雷丁大学(University of Reading)的研究人员介绍了 CrystaLLM,这是一种基于晶体学信息文件 (CIF) 格式的自回归大型语言建模 (LLM) 的多功能晶体结构生成方法。

CrystaLLM 经过数百万个 CIF 文件的训练,专注于通过文本对晶体结构进行建模,它可以为训练中未涉及的各种无机化合物生成合理的晶体结构。

这种方法挑战了传统的晶体表示,并展示了 LLM 学习有效晶体化学模型的潜力,这将加速材料科学的发现和创新。

该研究以「Crystal structure generation with autoregressive large language modeling」为题,于 2024 年 12 月 6 日发布在《Nature Communications》。

在材料科学的计算机辅助发现过程中,晶体结构预测(CSP)方法常用于探索化学系统中的新材料。这类方法旨在通过特定的物理条件推导出给定化学成分的基态晶体结构。

CSP 通常依赖于高计算开销的从头计算技术,其中通过生成候选结构来优化搜索过程。随着机器学习和数据科学技术的进步,生成模型,如自动编码器和生成对抗网络,已被应用于晶体结构的生成。

虽然大语言模型(LLM)在自然语言处理和化学成分生成中取得了显著成果,但是训练 LLM 来生成晶体结构的文本表示仍然是一个相对较新的探索领域。

CrystaLLM

雷丁大学的研究团队报告了专门为晶体生成而设计的 LLM —— CrystaLLM 。该模型专门针对无机晶体结构的文本表示进行训练,特别是晶体学信息文件 (CIF) 格式,而不是仅仅依赖于自然语言语料库或化学成分。

Luis M. Antunes 在雷丁大学攻读博士学位期间主导了这项研究,他说:「预测晶体结构就像解决一个复杂的多维拼图,而拼图碎片是隐藏的。预测晶体结构需要大量的计算能力来测试无数种可能的原子排列。」

这种方法基于两个猜想:

首先,符号序列(即标记)是许多预测任务(包括涉及化学结构的任务)的适当表示方式。其次,LLM 不仅学习标记的条件概率分布,还可能通过自回归预训练学习一个有效的世界模型,即目标现象的因果过程。

近期的研究表明,经过棋盘游戏训练的 LLM 能够追踪棋盘状态并表示领域特定的抽象概念。由此可推测,经过训练的模型也许能学习晶体结构中隐含的化学性质,并借鉴原子世界的模型生成未知结构。

CrystaLLM 是一个基于 Transformer 的 CIF 文件格式的解码器专用语言模型,在数百万个 CIF 文件的语料库上进行自回归训练。该模型不是在从 CIF 文件得出的结构表示上进行训练,而是直接在 CIF 文件的标准化和标记化文本内容上进行训练。

图示:CIF 文件的大型语言建模。(来源:论文)

在训练期间,模型会从 CIF 文件语料库中获取一系列标记,并负责预测每个给定标记后面的标记。模型训练完成后,便可用它来生成新的 CIF 文件,条件是某些起始标记序列。生成 CIF 文件涉及从模型中反复采样标记,并对累积的生成内容进行调节,直到达到终止条件。

经测试,CrystaLLM 成功生成了逼真的晶体结构,甚至对于以前从未见过的材料也是如此。

目前的晶体结构生成方法通常依赖预定义模板,在空间群约束下通过程序化或机器学习辅助的原子替换和晶胞调整来生成结构,并通过调整替换概率和范围来提高结构多样性。与此不同,CrystaLLM 通过自回归训练吸收隐式模板,自动选择适合给定组合物的模板。

图示:各种无机化合物的生成结构。(来源:论文)

此外,该模型还能自动调整晶胞参数,以适应晶胞中的原子,并根据训练过程中未显式遇到的模板生成新结构。与最近报道的基于扩散的晶体生成方法(如 CDVAE 和 DiffCSP)相比,CrystaLLM 不仅在多个方面优于现有基准,还在灵活性(如对称性输入)和微调潜力方面展现出额外优势。

「CrystaLLM 通过研究数百万种已知的晶体结构来理解模式并预测新的模式,从而取得了突破,就像一个专业的解谜者,他能识别出获胜的模式,而不是尝试每一个可能的举动。」Antunes 说。

图示:无条件生成的新结构。(来源:论文)

局限性

目前该方法仍有几个局限性。

首先,数据集中的任何结构都没有位点占有无序性(分数位点占有率)。因此,CrystaLLM 无法生成无序结构,并且可能无法成功生成暗示无序结构的晶胞组成和空间群组合的结构。

另一个限制是数据集的 CIF 文件并非全部使用同一级别的理论创建。训练集来自使用不同设置、函数等的 DFT 源的组合,在某些情况下,这可能会使模型难以学习细胞组成和详细结构之间的一致关系。

未来工作

尽管如此,研究人员表示,他们相信 CrystaLLM 将成为晶体结构生成的有用工具,晶体结构生成正迅速成为大规模材料发现和材料信息学的关键步骤。该团队计划探索微调模型以用于物理性质预测任务,例如预测晶格热导率,因为实验数据相对稀缺。

该模型的架构使其能够针对基于成分或基于结构的预测任务进行微调。这意味着 CrystaLLM 可能成为通用材料信息学模型的基础,该模型可用于生成任务,并针对需要成分或结构的属性预测任务进行微调。

如果该模型能够将其所学到的有关原子世界的知识转移到这些各种预测问题中,那么它可能被证明是一种与材料化学的许多方面相关的相当灵活的工具。

论文链接:

https://www.nature.com/articles/s41467-024-54639-7

相关内容:

https://www.eurekalert.org/news-releases/1067087

阅读报告全文,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
12699元起!惠普战66锐龙AI 7 450版上架:32G+1T配置,国补后低至11199元

12699元起!惠普战66锐龙AI 7 450版上架:32G+1T配置,国补后低至11199元

硬核玩家2哈
2026-06-29 01:54:16
火箭一夜4动作!范乔丹2500万归队+250万留戴维森 801万锁定伊森

火箭一夜4动作!范乔丹2500万归队+250万留戴维森 801万锁定伊森

锅子篮球
2026-06-30 11:18:45
刘德华“替身”杜奕衡近况曝光!无戏可拍,骑三轮街头摆摊卖炒菜

刘德华“替身”杜奕衡近况曝光!无戏可拍,骑三轮街头摆摊卖炒菜

洲洲影视娱评
2026-06-23 17:28:42
越穷越能装,猛然一看菲律宾军校的制服,还以为它是世界老大

越穷越能装,猛然一看菲律宾军校的制服,还以为它是世界老大

阿龙聊军事
2026-06-30 11:26:34
达米安告别国米:道路终将分开,但有些纽带永远不会断裂

达米安告别国米:道路终将分开,但有些纽带永远不会断裂

懂球帝
2026-06-30 23:24:06
欧洲人热得开始骂体制了

欧洲人热得开始骂体制了

雷斯林
2026-06-30 15:41:22
30年前,香港GDP是上海的6倍,新加坡GDP是上海的3倍,如今呢?

30年前,香港GDP是上海的6倍,新加坡GDP是上海的3倍,如今呢?

说故事的阿袭
2026-06-30 20:13:39
全国铁路瘫痪,要对中国进行更严厉制裁?德议员:中国缺乏可信度

全国铁路瘫痪,要对中国进行更严厉制裁?德议员:中国缺乏可信度

安珈使者啊
2026-06-29 16:43:17
武元甲晚年坦言:中越本可共赢,可惜黎笋一意孤行,错过发展机会

武元甲晚年坦言:中越本可共赢,可惜黎笋一意孤行,错过发展机会

饭小妹说历史
2026-01-17 09:22:00
4-5爆冷!世界杯4冠王出局,创96年耻辱纪录,阿根廷卫冕希望变大

4-5爆冷!世界杯4冠王出局,创96年耻辱纪录,阿根廷卫冕希望变大

球场没跑道
2026-06-30 08:09:25
恩德里克:没想到会在中场休息后登场,我真的非常开心

恩德里克:没想到会在中场休息后登场,我真的非常开心

懂球帝
2026-06-30 06:55:09
德容恩:出局后更衣室像在参加葬礼;这是我最后一届世界杯了

德容恩:出局后更衣室像在参加葬礼;这是我最后一届世界杯了

懂球帝
2026-06-30 14:22:10
Scotto:国王将德文-卡特和2033年次轮签送至老鹰

Scotto:国王将德文-卡特和2033年次轮签送至老鹰

北青网-北京青年报
2026-06-30 19:22:27
坏了!5000万只打了一年,60场,火箭有亏大了!

坏了!5000万只打了一年,60场,火箭有亏大了!

体育新角度
2026-06-30 22:12:53
2026车市最大骗局:省油电车全亏钱,烂大街油车才是真赢家

2026车市最大骗局:省油电车全亏钱,烂大街油车才是真赢家

民间胡扯老哥
2026-05-24 13:40:40
世界杯|这份榜单上两人对阵德国时进球,04一代“60大新星”混得如何

世界杯|这份榜单上两人对阵德国时进球,04一代“60大新星”混得如何

上观新闻
2026-06-30 07:33:41
耿同学又整活!指北京中医药大学前校长论文造假,对方回应显无力

耿同学又整活!指北京中医药大学前校长论文造假,对方回应显无力

火山詩话
2026-06-30 12:15:15
嫁给梁锦松24年被宠成公主,如今儿女双全已成才,74岁丈夫再争光

嫁给梁锦松24年被宠成公主,如今儿女双全已成才,74岁丈夫再争光

揽星河的笔记
2026-06-30 13:44:22
郑钦文打的到底是谁的脸?

郑钦文打的到底是谁的脸?

网球之家
2026-06-30 09:31:03
大放厥词,却惨遭三连败!这次,郑钦文终于为自己的狂妄付出代价

大放厥词,却惨遭三连败!这次,郑钦文终于为自己的狂妄付出代价

一窥究竟
2026-06-30 11:44:39
2026-07-01 00:07:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4856文章数 37482关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

广电总局发布2026年“微短剧+”行动计划推荐剧目

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

游戏
健康
旅游
公开课
军事航空

MSI入围赛遭诟病,开赛5场全部三比零,网友吐槽拳头提出1个建议

狂吃“糯叽叽”小心肠梗阻!

旅游要闻

不用走远,云贵分界的这座小城,藏着云南最厚重的交通历史!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版