网易首页 > 网易号 > 正文 申请入驻

LLM学习原子「结构语言」,生成未知化合物的晶体结构,登Nature子刊

0
分享至

来源:ScienceAI

编辑:萝卜皮

生成合理的晶体结构通常是预测材料化学成分及其性质的第一步,但当前大多数预测方法计算成本高,制约了创新进程。通过使用优质生成的候选结构来预测晶体结构,可以突破这一瓶颈。

在最新的研究中,英国雷丁大学(University of Reading)的研究人员介绍了 CrystaLLM,这是一种基于晶体学信息文件 (CIF) 格式的自回归大型语言建模 (LLM) 的多功能晶体结构生成方法。

CrystaLLM 经过数百万个 CIF 文件的训练,专注于通过文本对晶体结构进行建模,它可以为训练中未涉及的各种无机化合物生成合理的晶体结构。

这种方法挑战了传统的晶体表示,并展示了 LLM 学习有效晶体化学模型的潜力,这将加速材料科学的发现和创新。

该研究以「Crystal structure generation with autoregressive large language modeling」为题,于 2024 年 12 月 6 日发布在《Nature Communications》。

在材料科学的计算机辅助发现过程中,晶体结构预测(CSP)方法常用于探索化学系统中的新材料。这类方法旨在通过特定的物理条件推导出给定化学成分的基态晶体结构。

CSP 通常依赖于高计算开销的从头计算技术,其中通过生成候选结构来优化搜索过程。随着机器学习和数据科学技术的进步,生成模型,如自动编码器和生成对抗网络,已被应用于晶体结构的生成。

虽然大语言模型(LLM)在自然语言处理和化学成分生成中取得了显著成果,但是训练 LLM 来生成晶体结构的文本表示仍然是一个相对较新的探索领域。

CrystaLLM

雷丁大学的研究团队报告了专门为晶体生成而设计的 LLM —— CrystaLLM 。该模型专门针对无机晶体结构的文本表示进行训练,特别是晶体学信息文件 (CIF) 格式,而不是仅仅依赖于自然语言语料库或化学成分。

Luis M. Antunes 在雷丁大学攻读博士学位期间主导了这项研究,他说:「预测晶体结构就像解决一个复杂的多维拼图,而拼图碎片是隐藏的。预测晶体结构需要大量的计算能力来测试无数种可能的原子排列。」

这种方法基于两个猜想:

首先,符号序列(即标记)是许多预测任务(包括涉及化学结构的任务)的适当表示方式。其次,LLM 不仅学习标记的条件概率分布,还可能通过自回归预训练学习一个有效的世界模型,即目标现象的因果过程。

近期的研究表明,经过棋盘游戏训练的 LLM 能够追踪棋盘状态并表示领域特定的抽象概念。由此可推测,经过训练的模型也许能学习晶体结构中隐含的化学性质,并借鉴原子世界的模型生成未知结构。

CrystaLLM 是一个基于 Transformer 的 CIF 文件格式的解码器专用语言模型,在数百万个 CIF 文件的语料库上进行自回归训练。该模型不是在从 CIF 文件得出的结构表示上进行训练,而是直接在 CIF 文件的标准化和标记化文本内容上进行训练。

图示:CIF 文件的大型语言建模。(来源:论文)

在训练期间,模型会从 CIF 文件语料库中获取一系列标记,并负责预测每个给定标记后面的标记。模型训练完成后,便可用它来生成新的 CIF 文件,条件是某些起始标记序列。生成 CIF 文件涉及从模型中反复采样标记,并对累积的生成内容进行调节,直到达到终止条件。

经测试,CrystaLLM 成功生成了逼真的晶体结构,甚至对于以前从未见过的材料也是如此。

目前的晶体结构生成方法通常依赖预定义模板,在空间群约束下通过程序化或机器学习辅助的原子替换和晶胞调整来生成结构,并通过调整替换概率和范围来提高结构多样性。与此不同,CrystaLLM 通过自回归训练吸收隐式模板,自动选择适合给定组合物的模板。

图示:各种无机化合物的生成结构。(来源:论文)

此外,该模型还能自动调整晶胞参数,以适应晶胞中的原子,并根据训练过程中未显式遇到的模板生成新结构。与最近报道的基于扩散的晶体生成方法(如 CDVAE 和 DiffCSP)相比,CrystaLLM 不仅在多个方面优于现有基准,还在灵活性(如对称性输入)和微调潜力方面展现出额外优势。

「CrystaLLM 通过研究数百万种已知的晶体结构来理解模式并预测新的模式,从而取得了突破,就像一个专业的解谜者,他能识别出获胜的模式,而不是尝试每一个可能的举动。」Antunes 说。

图示:无条件生成的新结构。(来源:论文)

局限性

目前该方法仍有几个局限性。

首先,数据集中的任何结构都没有位点占有无序性(分数位点占有率)。因此,CrystaLLM 无法生成无序结构,并且可能无法成功生成暗示无序结构的晶胞组成和空间群组合的结构。

另一个限制是数据集的 CIF 文件并非全部使用同一级别的理论创建。训练集来自使用不同设置、函数等的 DFT 源的组合,在某些情况下,这可能会使模型难以学习细胞组成和详细结构之间的一致关系。

未来工作

尽管如此,研究人员表示,他们相信 CrystaLLM 将成为晶体结构生成的有用工具,晶体结构生成正迅速成为大规模材料发现和材料信息学的关键步骤。该团队计划探索微调模型以用于物理性质预测任务,例如预测晶格热导率,因为实验数据相对稀缺。

该模型的架构使其能够针对基于成分或基于结构的预测任务进行微调。这意味着 CrystaLLM 可能成为通用材料信息学模型的基础,该模型可用于生成任务,并针对需要成分或结构的属性预测任务进行微调。

如果该模型能够将其所学到的有关原子世界的知识转移到这些各种预测问题中,那么它可能被证明是一种与材料化学的许多方面相关的相当灵活的工具。

论文链接:

https://www.nature.com/articles/s41467-024-54639-7

相关内容:

https://www.eurekalert.org/news-releases/1067087

阅读报告全文,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨玉环陵墓出土,专家打开棺椁后发现,千年前的“传言”或被证实

杨玉环陵墓出土,专家打开棺椁后发现,千年前的“传言”或被证实

浩渺青史
2026-05-02 22:49:18
内娱太上皇,破产了?

内娱太上皇,破产了?

独立鱼
2026-05-05 21:16:47
以为我在“洗白”安禄山,你错了,这才是历史上真实的安禄山

以为我在“洗白”安禄山,你错了,这才是历史上真实的安禄山

抽象派大师
2026-04-25 18:46:59
太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

橙星文娱
2026-04-17 13:19:56
4-0横扫!埃梅里神了:率队成功翻盘,挺进决赛,目标直指冠军

4-0横扫!埃梅里神了:率队成功翻盘,挺进决赛,目标直指冠军

足球狗说
2026-05-08 04:57:35
商业航天概念再度拉升 航天发展等十余股涨停

商业航天概念再度拉升 航天发展等十余股涨停

财联社
2026-05-08 13:57:17
贵州省交通运输厅原一级巡视员章征宇

贵州省交通运输厅原一级巡视员章征宇

汲古知新
2026-05-08 12:47:53
被刻意抹去的二把手——拆解《人民的名义》中最反现实的政治留白

被刻意抹去的二把手——拆解《人民的名义》中最反现实的政治留白

动物奇奇怪怪
2026-05-08 02:27:03
孙铭徽缺阵致命!CBA最惨烈肉搏战,山西准绝杀复仇旧敌

孙铭徽缺阵致命!CBA最惨烈肉搏战,山西准绝杀复仇旧敌

一点点想法
2026-05-08 16:03:48
英国法院裁定两中国公民有罪,外交部:典型的政治闹剧

英国法院裁定两中国公民有罪,外交部:典型的政治闹剧

澎湃新闻
2026-05-08 15:36:34
我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

草莓解说体育
2026-04-12 17:05:01
清朝“大辫子”到底多脏?满头油光,虱子满头,十步之内不能站人

清朝“大辫子”到底多脏?满头油光,虱子满头,十步之内不能站人

云霄纪史观
2026-05-07 20:06:19
男大学生被狗咬了后意外离世,母亲哭诉生前已打5针疫苗

男大学生被狗咬了后意外离世,母亲哭诉生前已打5针疫苗

纸鸢奇谭
2026-02-10 11:13:06
吴石牺牲后,主席很后悔:最大错误就是没集中两个野战军攻打台湾

吴石牺牲后,主席很后悔:最大错误就是没集中两个野战军攻打台湾

兴趣知识
2026-05-05 16:02:25
狂飙至34℃!刚刚确认:明天起,连续五天!大范围影响浙江

狂飙至34℃!刚刚确认:明天起,连续五天!大范围影响浙江

鲁中晨报
2026-05-08 13:34:11
张康阳现状证明,不怕富二代躺平就怕有野心,仅5年千亿身价归零

张康阳现状证明,不怕富二代躺平就怕有野心,仅5年千亿身价归零

青杉依旧啊啊
2026-03-19 22:10:26
4只1035元天价皮皮虾事件反转?官方回复:未超调控价,游客:没收到退款

4只1035元天价皮皮虾事件反转?官方回复:未超调控价,游客:没收到退款

上观新闻
2026-05-07 20:24:15
上海男篮昨日已抵达济南,明日的比赛,可能不会给山东机会的

上海男篮昨日已抵达济南,明日的比赛,可能不会给山东机会的

梅亭谈
2026-05-08 13:18:57
“自由”每一天,枪“劫”美利坚 | 新漫评

“自由”每一天,枪“劫”美利坚 | 新漫评

中国网
2026-05-07 21:10:08
女孩体验“悬崖秋千”坠亡,曾有网友3月预言“一年内准出事”......

女孩体验“悬崖秋千”坠亡,曾有网友3月预言“一年内准出事”......

新民周刊
2026-05-07 17:31:40
2026-05-08 16:56:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4720文章数 37461关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

沙特翻脸突然对美军关闭领空 特朗普连忙打电话都没用

头条要闻

沙特翻脸突然对美军关闭领空 特朗普连忙打电话都没用

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

一觉醒来,美伊又打起来了

汽车要闻

智能双舱大五座SUV 乐道L80将于5月15日正式上市

态度原创

房产
手机
时尚
游戏
亲子

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

手机要闻

某厂骁龙2nm新机配置全曝光:2nm+2亿像素,或为荣耀Magic 9系列

海魂衫搭配白色,更解暑!

外媒称Switch 2亏本销售,任天堂压力很大

亲子要闻

警惕!身边这些东西可能让孩子早熟

无障碍浏览 进入关怀版