网易首页 > 网易号 > 正文 申请入驻

实验室安全警钟敲响:人工智能引发的重大风险曝光

0
分享至

虽然人工智能(AI)模型在某些科学领域(如预测三维蛋白质结构)已被证明是有用的,但一项新研究表明,在许多实验室实验中还不应该完全信任它们。该研究发表在Nature Machine Intelligence上。研究揭示,所有测试的大型语言模型(LLMs)和视觉语言模型(VLMs)在实验室安全知识方面都存在不足。过于依赖这些AI模型来帮助实验室实验,可能会让研究人员面临风险。

实验室安全基准测试用于实验室中的AI使用

这项新研究的团队最初想知道LLMs是否能有效识别潜在危险、准确评估风险,并做出可靠决策来降低实验室安全威胁。为了解决这些问题,团队开发了一个名为‘实验室安全基准’的框架。

该框架包括765个多项选择题、404个真实实验室场景和3128个开放式任务,涉及生物学、化学、物理学和一般实验室中的危险识别、风险评估和后果预测等主题。

总的来说,团队评估了19个AI模型,包括八个专有模型、七个开放权重的LLM和四个开放权重的VLM,使用LabSafety Bench进行评估。对于VLM,使用了133道带图像的多项选择题。开放式任务包括HIT(测量风险感知)和CIT(测量结果预测)。

AI实验科学知识中的关键缺口

虽然一些专有模型在结构化任务中表现良好,例如GPT-4o(准确率为86.55%)和DeepSeek-R(准确率为84.49%),但在开放式情境推理方面,它们仍然存在困难。在多项选择题中,其他表现优异的模型在辐射危害、物理危害、设备使用和电气安全方面的表现依然不佳。

最令人担忧的是,所有评估的模型在危害识别任务中的准确率都未超过70%。在HIT和CIT测试中,模型在生物和物理情境中的表现普遍较好,但在化学、低温液体和一般实验室安全方面则表现较差。

“值得注意的是,几种模型在‘操作不当问题’上的得分低于50%,而在‘最常见的危险’中,即使是表现最差的模型得分也达到了66.55%,”研究作者写道。

Vicuna模型在多个任务中表现尤其糟糕。在纯文本的多项选择题中,Vicuna的表现几乎和随机猜测一样糟糕。基于Vicuna-7B的InstructBlip-7B在文本与图像的多项选择题中也表现最弱。

团队尝试了对模型的微调,以探索提升安全意识的方法。这提升了小型模型的表现,但像检索增强生成(RAG)这样的高级策略并没有始终有效。研究人员表示,对单个子集进行训练使性能提升了大约5-10%。

人工智能能否安全地用于科学实验?

当然,随着时间的推移,大多数人工智能模型将继续改进。然而,当前模型容易产生幻觉并提供不正确信息,这使得它们在处理危险材料时存在风险,其中一些材料可能导致爆炸、受伤和生命损失。这项研究的发现强调了在研究环境中需要人类的监督和对人工智能安全培训的改进。

“我们的分析还识别了关键的失败模式,包括 糟糕的风险优先级、幻觉和过拟合——以指导未来的研究。这项工作为实验室中更安全的人工智能整合提供了基础,强调了迫切需要开发安全意识的模型,”研究作者写道。

团队表示,他们的结果表明,即使是表现最好的模型,也不能保证在实验室中提供安全可靠的答案,而更大、更新或更先进的模型也不能保证更好的安全性能。相反,他们建议其他研究人员使用一些基准工具,比如LabSafety Bench。此外,他们表示,实验室中的人工智能使用应始终包括严格的人类监督,至少在人工智能在实验室安全知识上有显著改进之前。

由我们的作者 Krystal Kasal 为您撰写,Gaby Clark 编辑,Robert Egan 进行事实核查和审阅——这篇文章是经过仔细人工创作的结果。我们依靠像您这样的读者来支持独立的科学新闻报道。如果这篇报道对您很重要,请考虑捐赠(尤其是每月捐赠)。

更多信息: Yujun Zhou 等,关于科学实验室安全风险的大型语言模型基准评估, 自然机器智能(2026)。 DOI: 10.1038/s42256-025-01152-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张本智和再次全家大迁徙,这次是德国,网友:回中国也不必多虑!

张本智和再次全家大迁徙,这次是德国,网友:回中国也不必多虑!

玖宇维
2026-04-21 21:23:08
外籍残障人士穿上中国“外骨骼”独立行走,亲友感动落泪!厂家:1200美元一台,销量暴涨库存吃紧

外籍残障人士穿上中国“外骨骼”独立行走,亲友感动落泪!厂家:1200美元一台,销量暴涨库存吃紧

极目新闻
2026-04-21 11:36:42
公牛官方:多诺万正式卸任球队主教练;执教6年仅打进1次季后赛

公牛官方:多诺万正式卸任球队主教练;执教6年仅打进1次季后赛

懂球帝
2026-04-21 22:55:08
21岁小伙卖猪肉帮助抚养6个弟妹:羡慕同龄人上大学或出去打工,希望爸妈别再生了

21岁小伙卖猪肉帮助抚养6个弟妹:羡慕同龄人上大学或出去打工,希望爸妈别再生了

极目新闻
2026-04-21 22:03:17
破防了!76岁舅母脑梗送医,医生建议立即手术,82岁大舅选择放弃

破防了!76岁舅母脑梗送医,医生建议立即手术,82岁大舅选择放弃

火山詩话
2026-04-21 11:02:15
韩媒:颜面尽失!马宁是中国足球的巨大耻辱 他不配执法世界杯

韩媒:颜面尽失!马宁是中国足球的巨大耻辱 他不配执法世界杯

kio鱼
2026-04-21 14:50:50
孙俪基因太强大!14岁儿子近照神似“少年甄嬛”引热议

孙俪基因太强大!14岁儿子近照神似“少年甄嬛”引热议

韩小娱
2026-04-21 16:16:26
树倒猢狲散!武亮直播哭红眼眶,20余天的人事动荡,让他心力憔悴

树倒猢狲散!武亮直播哭红眼眶,20余天的人事动荡,让他心力憔悴

火山詩话
2026-04-20 06:31:57
8岁男孩与家人爬山发现大片问荆草和含云母的石块,推测这座山下可能有黄金!孩子爸爸:已上报相关部门

8岁男孩与家人爬山发现大片问荆草和含云母的石块,推测这座山下可能有黄金!孩子爸爸:已上报相关部门

极目新闻
2026-04-21 00:48:26
民政局提示走红网络!离婚不是工作人员造成的,请勿发泄负面情绪

民政局提示走红网络!离婚不是工作人员造成的,请勿发泄负面情绪

火山詩话
2026-04-21 16:36:16
特朗普自曝对伊开战真正原因:不是因为以色列,而是出于其毕生信念,开战前夕,美已建立一支能够支持数周作战的军事力量

特朗普自曝对伊开战真正原因:不是因为以色列,而是出于其毕生信念,开战前夕,美已建立一支能够支持数周作战的军事力量

极目新闻
2026-04-21 09:32:08
天文学家发现:宇宙中98%的星系,已经永远不可能被看见了

天文学家发现:宇宙中98%的星系,已经永远不可能被看见了

观察宇宙
2026-04-20 18:03:11
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
火湖G2伤病情况:火箭队2人缺阵,杜兰特状态升级!湖人双核不打

火湖G2伤病情况:火箭队2人缺阵,杜兰特状态升级!湖人双核不打

熊哥爱篮球
2026-04-21 12:18:56
中南医院护士长王婷:颜值、身材、能力“三绝”,各种奖拿到手软

中南医院护士长王婷:颜值、身材、能力“三绝”,各种奖拿到手软

汉史趣闻
2026-04-21 10:45:23
多国拒绝过境切断退路!赖清德闹剧收场,蓝绿双簧骗不了大众

多国拒绝过境切断退路!赖清德闹剧收场,蓝绿双簧骗不了大众

坠入二次元的海洋
2026-04-22 04:37:58
警方通报:张某(女,31岁)独自进入商场,在4楼翻越栏杆坠亡

警方通报:张某(女,31岁)独自进入商场,在4楼翻越栏杆坠亡

南方都市报
2026-04-21 09:43:04
人民日报联合工信部紧急预警:全体iPhone用户,请立刻升级系统!

人民日报联合工信部紧急预警:全体iPhone用户,请立刻升级系统!

小柱解说游戏
2026-04-19 20:52:59
风向彻底变了!国乒定调:王励勤秦志戬公开表态,“莎头”被认可

风向彻底变了!国乒定调:王励勤秦志戬公开表态,“莎头”被认可

阿纂看事
2026-04-21 16:38:56
世锦赛战报:00后小将连输7局一轮游!16强决出8席,威尔逊vs艾伦

世锦赛战报:00后小将连输7局一轮游!16强决出8席,威尔逊vs艾伦

球场没跑道
2026-04-21 05:42:40
2026-04-22 06:12:49
生活魔术专家
生活魔术专家
里是「生活百科全书」,汇集了独特的生活小妙招和所见所得,让你轻松发现生活的美好与智慧
651文章数 6341关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

游戏
时尚
本地
亲子
数码

涨价两周即回调!索尼官方PS5数字版定价重回399美元

顶流复工,已判若两人

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

亲子要闻

才六天的马宝宝,发这个视频没有别的意思,只是想骗你们生女儿而已

数码要闻

大疆DJI Mic Mini 2发布:329元起 可更换麦克风磁吸前盖

无障碍浏览 进入关怀版