网易首页 > 网易号 > 正文 申请入驻

UNSW、中科大苏高院等联合发布AtomWorld材料建模基准测试流程

0
分享至



作者 | 论文团队

编辑 | ScienceAI

在材料科学研究中,结构建模是探索材料特性与功能的起点,传统流程依赖研究者基于专业知识手动搭建晶体结构、调整原子排布,不仅耗时耗力,还受限于个人空间认知与操作经验。当前,大语言模型(LLM)虽在文本理解与基础推理领域展现潜力,开始尝试应用于晶体生成、坐标解析等任务,但由于缺乏标准化评估体系,其对 3D 原子结构的空间推理能力 —— 如按指令精准执行原子添加、旋转、替换等操作 —— 始终无法被系统衡量,难以满足科研场景中自动化建模的实际需求。

为解决这一关键难题,近日,中国科学技术大学苏州高等研究院、澳大利亚新南威尔士大学(UNSW)等机构联合发布了「AtomWorld 材料建模基准测试流程」,以晶体学信息文件(CIF)这一标准格式为核心,首次构建了针对 LLM 晶体学基础技能的标准化评估框架,填补了大模型原子级空间推理能力评测的空白。



论文地址:https://arxiv.org/abs/2510.04704v2

项目代码仓库:https://github.com/MasterAI-EAM/atomworld

核心设计:聚焦科研实用场景,以 10 类原子操作构建标准化评测体系



AtomWorld 基准测试流程图

不同于传统评测仅关注模型的文本匹配或数值计算能力,AtomWorld 深度贴合材料科研实际需求,将评测核心聚焦于「原子级结构编辑操作」—— 这是研究者搭建晶体模型、优化材料结构的首要环节。通过模拟真实科研中的操作场景,AtomWorld 构建了 10 大核心任务类别,全面覆盖材料建模全流程中的关键步骤:

1.原子替换(Changing):按指令替换特定位置的原子种类,如将钙钛矿结构中的铅原子替换为锡原子;

2.原子移除(Removal):删除结构中冗余或特定功能的原子,模拟缺陷结构构建过程;

3.原子添加(Addition / Insertion-between):在指定晶格间隙或两个原子间插入新原子,测试模型对原子间距与空间占位的理解;

4.原子交换(Swapping):交换两个不同位置原子的坐标,验证模型对原子身份与空间位置关联的认知;

5.原子移动(Move / Move-toward):将原子移动至指定坐标,或向另一个原子方向移动特定距离,评估模型的定量空间控制能力;

6.绕原子旋转(Rotate-around):以某一原子为中心旋转目标原子(或原子团),考验模型对 3D 空间旋转几何的推理能力;

7.表面生成(Delete-below):删除晶体结构中某一平面以下的原子,模拟材料表面结构的构建过程;

8.超胞扩展(Supercell-creation):按指定倍数扩展原胞形成超胞,测试模型对晶体周期性与晶格对称性的理解。

这些任务均以 CIF 文件为输入输出载体,该格式是最为通用的原子结构表示方式之一,同时可经过简单操作转换为 VASP、Lammps 等主流计算材料学软件的输入格式,确保评测结果可直接对接真实科研流程,为后续模型优化提供明确的方向指引。

评测结果:大模型空间推理能力存明显短板,工具辅助提升有限

为验证 AtomWorld 的有效性,研究团队对当前主流前沿模型(包括 Gemini 2.5 Pro、Qwen 3 等)及工具辅助型 LLM(Tool-Augmented LLMs)进行了系统性测试,结果揭示了当前大模型在原子级空间推理领域的核心局限:

  • 基础任务表现稳定,但复杂操作失误率高:模型在原子移除、简单移动等基础任务中准确率可达 70% 以上,但在「绕原子旋转」「原子交换」等需要深度空间认知的任务中表现显著下滑 —— 其中「原子交换」任务的错误率高达 85%。这将会造成真实建模场景中多部操作误差大量累计;
  • 材料结构理解能力有限,依赖死记硬背:在 CIF-Gen(生成标准结构)任务中,模型对原型结构 + 常见化合物的生成表现比对同一原型、非常见化合物(如 NaCl vs MgSe)更好。这有可能说明模型更多是记住例子模式,而不是真正理解基础晶体结构。
  • 工具辅助提升有限,难以突破本质瓶颈:尽管集成了 pymatgen 计算工具的 LLM 在简单任务上有提升,尤其是插入原子操作提升了 37.4%,但对于复杂操作的理解依旧限制了性能提升。

这些结果表明,当前 LLM 的「空间推理」更多依赖文本训练数据中的模式匹配,而非真正理解 3D 原子结构的几何规律与材料学原理 —— 这也正是 AtomWorld 基准的核心价值所在:通过标准化任务,精准定位模型短板,为后续的微调训练、算法优化提供明确目标。



a. 在 AtomWorld、CIF-Repair、CIF-Gen 和 StructProp 数据集上的成功率指标。b. 在 AtomWorld 和 CIF-Gen 数据集上的平均最大距离指标。c、d. Qwen3 系列的模型尺寸效应结果。



CIF 生成任务中每种结构类型正确生成的 CIF 文件数量。红色方框表示生成的单例正确结果为该结构标准原型的情况(如岩盐结构对应 NaCl)。右侧展示了每种类型对应的具体三维晶体结构,其中红色标注的化学成分代表标准原型。

核心价值:不止于评测,更是大模型材料建模能力的「训练加速器」

AtomWorld 的意义远不止于「测试工具」,其创新性地兼具「基准评测」与「数据生成器」双重属性,为推动 LLM 在材料科学中的落地提供关键支撑:

  • 标准化评测,统一行业「能力标尺」:此前,并未有对于 LLM 材料建模能力的标准评估方式,因此基于材料计算任务的智能体框架之间缺乏结果可比性,AtomWorld 首次建立了基础操作 - 空间推理 - 材料结构认知的评测链条,让不同模型的性能可量化、可对比,推动行业从「定性描述」转向「定量评估」;
  • 可扩展数据生成,支撑模型微调优化:基于 10 大任务类别,AtomWorld 可自动生成海量带标注的「操作指令 - CIF」训练数据,这些数据遵循 CIF 格式,可直接用于 LLM 的微调与强化学习,帮助模型快速掌握原子操作的空间逻辑;
  • 衔接科研流程,推动建模自动化落地:AtomWorld 的任务设计完全贴合实际科研需求,通过该基准优化后的模型,可直接对接 VASP 等主流材料计算工具,实现「自然语言指令→自动生成合规 CIF 文件→直接用于后续计算」的全流程自动化,大幅降低建模门槛、提升研究效率。

未来展望:从「空间推理」到「智能建模」,加速材料科学 AI 化进程

AtomWorld 的发布,为 LLM 在材料科学领域的应用开辟了新路径。后续研究团队将围绕两大方向持续迭代:

  • 任务扩展:新增「缺陷结构设计」、「表界面构建」等更复杂的科研场景任务,进一步贴近高性能材料研发需求;
  • 工具链开发:基于 AtomWorld 基准,开发适配 LLM 的「智能建模插件」,实现与主流材料计算软件的无缝集成,让研究者通过自然语言即可完成从结构设计到参数设置的全流程操作。

AtomWorld 正以标准化评测打破大模型原子级空间推理的能力瓶颈。未来,随着模型优化与工具链完善,LLM 有望真正成为材料研究者的「智能建模助手」,推动材料发现从「手动试错」走向「AI 驱动」的新纪元。

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德约科维奇再次打破一项纪录,超越费德勒和纳达尔!

德约科维奇再次打破一项纪录,超越费德勒和纳达尔!

网球之家
2025-11-18 22:40:06
豪门悲喜夜!拜仁止步于16连胜,曼联逃出生天,阿森纳10连胜告终

豪门悲喜夜!拜仁止步于16连胜,曼联逃出生天,阿森纳10连胜告终

舟望停云
2025-11-18 04:41:40
乒乓春晚!陈梦再战孙颖莎,一天血战8小时,莎莎以逸待劳要复仇

乒乓春晚!陈梦再战孙颖莎,一天血战8小时,莎莎以逸待劳要复仇

嘴炮体坛
2025-11-18 23:06:18
北京李圣律师最新发文:4人非法入侵,故意伤害…奉陪到底!

北京李圣律师最新发文:4人非法入侵,故意伤害…奉陪到底!

恪守原则和底线
2025-11-18 14:52:55
东莞市虎门镇党委书记李惠勤,已兼任滨海湾新区管委会主任

东莞市虎门镇党委书记李惠勤,已兼任滨海湾新区管委会主任

南方都市报
2025-11-18 20:26:06
俄专家:中国军力追上俄罗斯需要10年,能和美国掰手腕还要25年!

俄专家:中国军力追上俄罗斯需要10年,能和美国掰手腕还要25年!

书中自有颜如玉
2025-11-17 15:33:00
背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

小影的娱乐
2025-11-17 13:37:24
为啥美国人都快人均糖尿病了,却还喜欢吃致死量的糖?

为啥美国人都快人均糖尿病了,却还喜欢吃致死量的糖?

历史有些冷
2025-11-17 21:05:03
郑丽文又有大动作,当着日媒的面、直接说出心里话,绿营瞬间炸锅

郑丽文又有大动作,当着日媒的面、直接说出心里话,绿营瞬间炸锅

特特农村生活
2025-11-18 09:09:21
久旱逢甘霖,三星2纳米被中国芯片救命,总算松一口气了

久旱逢甘霖,三星2纳米被中国芯片救命,总算松一口气了

柏铭锐谈
2025-11-18 22:39:25
全员医美?芒果台新综艺,王心凌张歆艺等脸僵到不能动疑整容失败

全员医美?芒果台新综艺,王心凌张歆艺等脸僵到不能动疑整容失败

八星人
2025-11-17 14:43:09
解放军报发声警告,美军听懂跑路,高市早苗被骗,日本沦为耗材

解放军报发声警告,美军听懂跑路,高市早苗被骗,日本沦为耗材

知鉴明史
2025-11-18 23:22:51
张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

娱乐领航家
2025-10-28 22:00:07
央视曝光4种“致癌日用品”,家里千万别囤!越囤全家身体越差!

央视曝光4种“致癌日用品”,家里千万别囤!越囤全家身体越差!

39健康网
2025-11-16 20:35:40
福州站大升级!告别“上天入地”,秒换乘时代来了!

福州站大升级!告别“上天入地”,秒换乘时代来了!

今日搞笑分享
2025-11-18 13:43:41
辛卡赛季总奖金收入公布舆论沸了,阿利亚西姆谈赛程发表感恩论

辛卡赛季总奖金收入公布舆论沸了,阿利亚西姆谈赛程发表感恩论

网球之家
2025-11-18 15:17:34
12万多就能拿下!极狐阿尔法T5开启预售

12万多就能拿下!极狐阿尔法T5开启预售

Ai爱车
2025-10-17 10:09:07
曝巴黎奥运乒乓球单打冠军原定庆祝仪式取消:樊振东陈梦真不容易

曝巴黎奥运乒乓球单打冠军原定庆祝仪式取消:樊振东陈梦真不容易

姜大叔侃球
2025-11-17 21:10:27
男篮全运又一大冷门!争冠大热惨遭东道主掀翻:广东逆袭杀进决赛

男篮全运又一大冷门!争冠大热惨遭东道主掀翻:广东逆袭杀进决赛

篮球快餐车
2025-11-18 08:12:52
胖东来高层大调整:于东来卸任总经理,多名高管退出!公司年薪50万元招翻译(限女,不超40岁),咨询电话又爆了

胖东来高层大调整:于东来卸任总经理,多名高管退出!公司年薪50万元招翻译(限女,不超40岁),咨询电话又爆了

鲁中晨报
2025-11-18 22:24:10
2025-11-19 00:23:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1155文章数 218关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

健康
数码
本地
公开课
军事航空

警惕超声报告这六大"坑"

数码要闻

预售1449元,华为FreeBuds Pro 5悦彰耳机完整规格公布

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版