虽然人工智能(AI)模型在某些科学领域(如预测三维蛋白质结构)已被证明是有用的,但一项新研究表明,在许多实验室实验中还不应该完全信任它们。该研究发表在Nature Machine Intelligence上。研究揭示,所有测试的大型语言模型(LLMs)和视觉语言模型(VLMs)在实验室安全知识方面都存在不足。过于依赖这些AI模型来帮助实验室实验,可能会让研究人员面临风险。
实验室安全基准测试用于实验室中的AI使用
这项新研究的团队最初想知道LLMs是否能有效识别潜在危险、准确评估风险,并做出可靠决策来降低实验室安全威胁。为了解决这些问题,团队开发了一个名为‘实验室安全基准’的框架。
该框架包括765个多项选择题、404个真实实验室场景和3128个开放式任务,涉及生物学、化学、物理学和一般实验室中的危险识别、风险评估和后果预测等主题。
总的来说,团队评估了19个AI模型,包括八个专有模型、七个开放权重的LLM和四个开放权重的VLM,使用LabSafety Bench进行评估。对于VLM,使用了133道带图像的多项选择题。开放式任务包括HIT(测量风险感知)和CIT(测量结果预测)。
AI实验科学知识中的关键缺口
虽然一些专有模型在结构化任务中表现良好,例如GPT-4o(准确率为86.55%)和DeepSeek-R(准确率为84.49%),但在开放式情境推理方面,它们仍然存在困难。在多项选择题中,其他表现优异的模型在辐射危害、物理危害、设备使用和电气安全方面的表现依然不佳。
最令人担忧的是,所有评估的模型在危害识别任务中的准确率都未超过70%。在HIT和CIT测试中,模型在生物和物理情境中的表现普遍较好,但在化学、低温液体和一般实验室安全方面则表现较差。
“值得注意的是,几种模型在‘操作不当问题’上的得分低于50%,而在‘最常见的危险’中,即使是表现最差的模型得分也达到了66.55%,”研究作者写道。
Vicuna模型在多个任务中表现尤其糟糕。在纯文本的多项选择题中,Vicuna的表现几乎和随机猜测一样糟糕。基于Vicuna-7B的InstructBlip-7B在文本与图像的多项选择题中也表现最弱。
团队尝试了对模型的微调,以探索提升安全意识的方法。这提升了小型模型的表现,但像检索增强生成(RAG)这样的高级策略并没有始终有效。研究人员表示,对单个子集进行训练使性能提升了大约5-10%。
人工智能能否安全地用于科学实验?
当然,随着时间的推移,大多数人工智能模型将继续改进。然而,当前模型容易产生幻觉并提供不正确信息,这使得它们在处理危险材料时存在风险,其中一些材料可能导致爆炸、受伤和生命损失。这项研究的发现强调了在研究环境中需要人类的监督和对人工智能安全培训的改进。
“我们的分析还识别了关键的失败模式,包括 糟糕的风险优先级、幻觉和过拟合——以指导未来的研究。这项工作为实验室中更安全的人工智能整合提供了基础,强调了迫切需要开发安全意识的模型,”研究作者写道。
团队表示,他们的结果表明,即使是表现最好的模型,也不能保证在实验室中提供安全可靠的答案,而更大、更新或更先进的模型也不能保证更好的安全性能。相反,他们建议其他研究人员使用一些基准工具,比如LabSafety Bench。此外,他们表示,实验室中的人工智能使用应始终包括严格的人类监督,至少在人工智能在实验室安全知识上有显著改进之前。
由我们的作者 Krystal Kasal 为您撰写,Gaby Clark 编辑,Robert Egan 进行事实核查和审阅——这篇文章是经过仔细人工创作的结果。我们依靠像您这样的读者来支持独立的科学新闻报道。如果这篇报道对您很重要,请考虑捐赠(尤其是每月捐赠)。
更多信息: Yujun Zhou 等,关于科学实验室安全风险的大型语言模型基准评估, 自然机器智能(2026)。 DOI: 10.1038/s42256-025-01152-1
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.