UNSW、中科大苏高院等联合发布AtomWorld材料建模基准测试流程|晶体|原理|原子结构

UNSW、中科大苏高院等联合发布AtomWorld材料建模基准测试流程

2025-11-10 14:47:33　来源: ScienceAI

天津举报

分享至

作者 | 论文团队

编辑 | ScienceAI

在材料科学研究中，结构建模是探索材料特性与功能的起点，传统流程依赖研究者基于专业知识手动搭建晶体结构、调整原子排布，不仅耗时耗力，还受限于个人空间认知与操作经验。当前，大语言模型（LLM）虽在文本理解与基础推理领域展现潜力，开始尝试应用于晶体生成、坐标解析等任务，但由于缺乏标准化评估体系，其对 3D 原子结构的空间推理能力 —— 如按指令精准执行原子添加、旋转、替换等操作 —— 始终无法被系统衡量，难以满足科研场景中自动化建模的实际需求。

为解决这一关键难题，近日，中国科学技术大学苏州高等研究院、澳大利亚新南威尔士大学（UNSW）等机构联合发布了「AtomWorld 材料建模基准测试流程」，以晶体学信息文件（CIF）这一标准格式为核心，首次构建了针对 LLM 晶体学基础技能的标准化评估框架，填补了大模型原子级空间推理能力评测的空白。

论文地址：https://arxiv.org/abs/2510.04704v2

项目代码仓库：https://github.com/MasterAI-EAM/atomworld

核心设计：聚焦科研实用场景，以 10 类原子操作构建标准化评测体系

AtomWorld 基准测试流程图

不同于传统评测仅关注模型的文本匹配或数值计算能力，AtomWorld 深度贴合材料科研实际需求，将评测核心聚焦于「原子级结构编辑操作」—— 这是研究者搭建晶体模型、优化材料结构的首要环节。通过模拟真实科研中的操作场景，AtomWorld 构建了 10 大核心任务类别，全面覆盖材料建模全流程中的关键步骤：

1.原子替换（Changing）：按指令替换特定位置的原子种类，如将钙钛矿结构中的铅原子替换为锡原子；

2.原子移除（Removal）：删除结构中冗余或特定功能的原子，模拟缺陷结构构建过程；

3.原子添加（Addition / Insertion-between）：在指定晶格间隙或两个原子间插入新原子，测试模型对原子间距与空间占位的理解；

4.原子交换（Swapping）：交换两个不同位置原子的坐标，验证模型对原子身份与空间位置关联的认知；

5.原子移动（Move / Move-toward）：将原子移动至指定坐标，或向另一个原子方向移动特定距离，评估模型的定量空间控制能力；

6.绕原子旋转（Rotate-around）：以某一原子为中心旋转目标原子（或原子团），考验模型对 3D 空间旋转几何的推理能力；

7.表面生成（Delete-below）：删除晶体结构中某一平面以下的原子，模拟材料表面结构的构建过程；

8.超胞扩展（Supercell-creation）：按指定倍数扩展原胞形成超胞，测试模型对晶体周期性与晶格对称性的理解。

这些任务均以 CIF 文件为输入输出载体，该格式是最为通用的原子结构表示方式之一，同时可经过简单操作转换为 VASP、Lammps 等主流计算材料学软件的输入格式，确保评测结果可直接对接真实科研流程，为后续模型优化提供明确的方向指引。

评测结果：大模型空间推理能力存明显短板，工具辅助提升有限

为验证 AtomWorld 的有效性，研究团队对当前主流前沿模型（包括 Gemini 2.5 Pro、Qwen 3 等）及工具辅助型 LLM（Tool-Augmented LLMs）进行了系统性测试，结果揭示了当前大模型在原子级空间推理领域的核心局限：

基础任务表现稳定，但复杂操作失误率高：模型在原子移除、简单移动等基础任务中准确率可达 70% 以上，但在「绕原子旋转」「原子交换」等需要深度空间认知的任务中表现显著下滑 —— 其中「原子交换」任务的错误率高达 85%。这将会造成真实建模场景中多部操作误差大量累计；
材料结构理解能力有限，依赖死记硬背：在 CIF-Gen（生成标准结构）任务中，模型对原型结构 + 常见化合物的生成表现比对同一原型、非常见化合物（如 NaCl vs MgSe）更好。这有可能说明模型更多是记住例子模式，而不是真正理解基础晶体结构。
工具辅助提升有限，难以突破本质瓶颈：尽管集成了 pymatgen 计算工具的 LLM 在简单任务上有提升，尤其是插入原子操作提升了 37.4%，但对于复杂操作的理解依旧限制了性能提升。

这些结果表明，当前 LLM 的「空间推理」更多依赖文本训练数据中的模式匹配，而非真正理解 3D 原子结构的几何规律与材料学原理 —— 这也正是 AtomWorld 基准的核心价值所在：通过标准化任务，精准定位模型短板，为后续的微调训练、算法优化提供明确目标。

a. 在 AtomWorld、CIF-Repair、CIF-Gen 和 StructProp 数据集上的成功率指标。b. 在 AtomWorld 和 CIF-Gen 数据集上的平均最大距离指标。c、d. Qwen3 系列的模型尺寸效应结果。

CIF 生成任务中每种结构类型正确生成的 CIF 文件数量。红色方框表示生成的单例正确结果为该结构标准原型的情况（如岩盐结构对应 NaCl）。右侧展示了每种类型对应的具体三维晶体结构，其中红色标注的化学成分代表标准原型。

核心价值：不止于评测，更是大模型材料建模能力的「训练加速器」

AtomWorld 的意义远不止于「测试工具」，其创新性地兼具「基准评测」与「数据生成器」双重属性，为推动 LLM 在材料科学中的落地提供关键支撑：

标准化评测，统一行业「能力标尺」：此前，并未有对于 LLM 材料建模能力的标准评估方式，因此基于材料计算任务的智能体框架之间缺乏结果可比性，AtomWorld 首次建立了基础操作 - 空间推理 - 材料结构认知的评测链条，让不同模型的性能可量化、可对比，推动行业从「定性描述」转向「定量评估」；
可扩展数据生成，支撑模型微调优化：基于 10 大任务类别，AtomWorld 可自动生成海量带标注的「操作指令 - CIF」训练数据，这些数据遵循 CIF 格式，可直接用于 LLM 的微调与强化学习，帮助模型快速掌握原子操作的空间逻辑；
衔接科研流程，推动建模自动化落地：AtomWorld 的任务设计完全贴合实际科研需求，通过该基准优化后的模型，可直接对接 VASP 等主流材料计算工具，实现「自然语言指令→自动生成合规 CIF 文件→直接用于后续计算」的全流程自动化，大幅降低建模门槛、提升研究效率。

未来展望：从「空间推理」到「智能建模」，加速材料科学 AI 化进程

AtomWorld 的发布，为 LLM 在材料科学领域的应用开辟了新路径。后续研究团队将围绕两大方向持续迭代：

任务扩展：新增「缺陷结构设计」、「表界面构建」等更复杂的科研场景任务，进一步贴近高性能材料研发需求；
工具链开发：基于 AtomWorld 基准，开发适配 LLM 的「智能建模插件」，实现与主流材料计算软件的无缝集成，让研究者通过自然语言即可完成从结构设计到参数设置的全流程操作。

AtomWorld 正以标准化评测打破大模型原子级空间推理的能力瓶颈。未来，随着模型优化与工具链完善，LLM 有望真正成为材料研究者的「智能建模助手」，推动材料发现从「手动试错」走向「AI 驱动」的新纪元。

声明：包含AI生成内容

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.