随着科学文献量的持续增长,研究人员正在转向人工智能来筛选数百万篇研究论文,并发现可以加速新材料发现的见解。
![]()
在美国能源部阿贡国家实验室超级计算机的支持下,剑桥大学的Jacqueline Cole和她的团队正在开发人工智能工具,自动挖掘科学期刊文章以构建结构化材料数据库。然后,这些数据集用于训练专门的语言模型,以简化材料研究。
“我们的目标是给你的实验室里配备一个类似数字助理的东西。”Cole说,她是剑桥大学皇家工程研究院材料物理学教授,也是分子工程系主任。“一种通过回答问题和提供反馈来帮助指导实验和指导研究的工具,是对科学家的补充。”
Cole在阿贡领导力计算设施(ALCF)的工作始于近十年前。2016年,她获得了ALCF数据科学计划的首批项目之一,该计划扩大了该设施对模拟、数据科学和机器学习交叉领域工作负载的支持。目前已完成的项目帮助发展了使用ALCF资源进行人工智能驱动科学的研究人员社区,并扩大了员工的专业知识和能力,以支持这一新兴领域。
![]()
“她的团队是最早使用ALCF计算资源将机器学习与模拟和实验结果相结合以推进数据驱动材料研究的团队之一,”ALCF人工智能和机器学习团队负责人Venkat Vishwanath说。“从开发ChemDataExtractor文本挖掘工具到根据研究论文构建自动化数据库,他们的工作为加速材料设计和发现开辟了新的途径。”
为了表彰该团队的创新工作,Cole和合作者最近凭借他们的论文“从设计到设备的方法提供全色共敏化太阳能电池”获得了英国皇家化学学会2025年材料化学地平线奖。在这项研究的基础上,Cole继续使用ALCF超级计算机开发人工智能工具,旨在加快寻找用于能源应用、光基技术和机械工程的新材料。
Cole最近的工作重点是开发更小、更快、更高效的人工智能模型来支持材料研究,而不需要从头开始训练大型语言模型(LLM),这通常需要的大量计算成本。
LLM是设计用于处理和生成人类语言的AI模型。构建LLM首先在大型数据集(如文本语料库)上进行预训练,以帮助模型学习通用语言模式。这个过程通常需要大量的计算能力。一旦模型经过训练,研究人员就会使用更小、更有针对性的数据集对其进行微调,以确保它提供准确和相关的答案。
![]()
为了绕过昂贵的预训练过程,Cole及其同事开发了一种从特定领域的材料数据生成大型、高质量问答(Q&A)数据集的方法。他们使用新的算法和ChemDataExtractor工具,将光伏材料数据库转换为数十万个问答对。这个过程被称为知识蒸馏,以现成的人工智能模型可以轻松摄取的形式捕获详细的材料信息。
Cole说:“重要的是,这种方法可以减轻语言模型本身的知识负担。” “而不是依赖模型了解一切,我们以问答的形式让它直接获得精心策划、结构化的知识。这意味着我们可以完全跳过预训练,仍然可以实现特定领域的实用性。”
Cole的团队使用问答对来微调较小的语言模型,这些模型继续匹配或优于在一般文本上训练的更大的模型,在特定领域的任务中实现了高达20%的准确率。虽然他们的研究集中在太阳能电池材料上,但这种方法可以广泛应用于其他研究领域。
除了这项工作,该团队还进行了相关研究,以开发针对材料科学特定领域的语言模型。在一篇论文中,Cole的团队为航空航天和汽车等机械工程领域常用的材料建立了一个庞大的应力-应变特性数据库。研究人员还开发了MechBERT,这是一种经过训练的语言模型,可以回答有关应力-应变特性的问题,在预测应力下的材料行为方面优于标准工具。
![]()
在最近的另一项研究中,该团队展示了如何在不牺牲性能的情况下,使用比传统训练方法少80%的计算能力来适应光电子学的语言模型。
这些努力,以及Cole团队在过去十年中在ALCF的支持下发表的许多研究,共同说明了人工智能是如何改变材料科学研究的。随着最近对问答数据集的关注,该团队正在使人工智能模型更容易被更广泛的社区使用,为人工智能工具铺平道路,这些工具可以为实验人员提供更精确和相关的支持。
Cole说:“也许一个团队在凌晨3点在光源设施进行了一项激烈的实验,发生了意想不到的事情。”“他们需要一个快速的答案,没有时间筛选所有的科学文献。如果他们有一个在相关材料上训练过的特定领域的语言模型,他们可以提出问题来帮助解释数据,调整设置,并使实验保持正轨。”
![]()
最终,Cole认为这种方法可以帮助材料科学中的人工智能进一步普惠化。 “你不需要成为语言模型专家,”她说。 “你可以采用现成的语言模型,只需几个GPU,甚至你自己的个人电脑,就可以针对你的特定材料领域对其进行微调。这更像是一种即插即用的方法,使使用人工智能的过程更加高效。”
通过在ALCF强大的超级计算机上进行繁重的工作,Cole的团队正在推进更有针对性和用户友好的人工智能工具的开发,帮助材料科学家跟上不断增长的文献量,设计更好的实验,更快地发现。
与Ai时代前沿合作,将大门向更多普通用户敞开!无论你是对新技术充满好奇心的爱好者,还是希望提升自己技能的职场人士,这里都有适合你的课程和资源。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.