网易首页 > 网易号 > 正文 申请入驻

科学家警告!当AI遇上实验室,连GPT-4o也识别不出70%的化学危险

0
分享至



如果你让ChatGPT帮你设计一个化学实验,它可能会给你一份看起来专业的操作步骤,配上详细的材料清单和注意事项。但一项刚刚发表在《自然·机器智能》上的研究警告说,按照这些指导操作可能导致爆炸、中毒甚至人员伤亡。

研究人员测试了19个主流AI模型,包括GPT-4o、DeepSeek-R等明星产品,结果令人震惊:所有模型在危险识别任务中的准确率都没有超过70%。这意味着,即便是目前性能最强的AI,在实验室安全问题上也有三成以上的概率给出错误建议。

从蛋白质预测到实验室灾难只有一步之遥

人工智能在科学领域的成就有目共睹。AlphaFold能够精确预测蛋白质的三维结构,为生物医学研究带来革命性突破。AI辅助的药物设计正在缩短新药开发周期。这些成功案例让许多研究人员相信,AI也可以成为实验室操作的可靠助手。

但现实要复杂得多。来自多个研究机构的科学家开发了一个名为LabSafety Bench的基准测试框架,专门用于评估AI模型的实验室安全知识。这个框架包含765道选择题、404个真实实验室场景和3128个开放式任务,涵盖生物学、化学、物理学和一般实验室操作中的危害识别、风险评估和后果预测。

测试结果显示,即便是在多项选择题这种相对简单的格式中,AI模型也在辐射危害、物理危害、设备使用和用电安全方面频频出错。在开放式的危险识别测试中,表现最好的模型准确率也只有70%左右,而在某些特定类别如"操作不当问题"上,一些模型的得分甚至低于50%,几乎和瞎猜没什么区别。


LabSafety Bench 概览。图片来源:Nature Machine Intelligence (2026)。DOI:10.1038/s42256-025-01152-1

最令人担忧的是化学安全领域。所有测试的模型在涉及化学物质、低温液体和一般实验室安全的场景中表现都显著低于生物学和物理学场景。这意味着,当研究人员询问AI如何处理某种化学试剂或应对实验室泄漏时,得到危险建议的概率相当高。

幻觉问题在实验室里可能致命

AI的"幻觉"问题在聊天对话中或许只是造成一些困扰,但在实验室环境中可能带来灾难性后果。《自然》旗下期刊《自然通讯》2025年发表的一项研究指出,AI科学家系统存在多种漏洞,可能导致从化学和生物危害到信息错误和隐私泄露等各种风险。

研究团队发现了几种关键的失效模式。首先是风险优先级排序不当,AI可能将次要危险标记为主要威胁,而忽略真正严重的安全隐患。其次是幻觉问题,模型会编造不存在的安全规程或错误的化学反应机制。第三是过拟合,在训练数据上表现良好的模型,面对新的实验场景时可能完全失效。

GPT-4o在结构化任务上的准确率达到86.55%,DeepSeek-R为84.49%,看起来相当不错。但这些数字掩盖了一个关键事实:在实验室安全领域,86%的准确率意味着每7次建议中就有1次是错误的。如果这个错误恰好涉及处理易燃易爆物质或有毒化学品,后果不堪设想。

更糟糕的是,一些开源模型的表现远低于这个水平。基于Vicuna-7B的InstructBlip-7B在图文结合的选择题中表现最差,在纯文本选择题中的表现几乎与随机猜测无异。如果研究人员不加辨别地使用这些工具,无异于在实验室里埋下定时炸弹。

先进不等于安全

研究团队的一个重要发现是,更大、更新或更先进的模型并不能保证更好的安全性能。这打破了"模型越强大,在所有任务上表现越好"的常见假设。

研究人员尝试通过微调来提升模型的安全意识。结果显示,在特定子集上进行训练可以使性能提升约5%到10%,这对小型模型有一定帮助。但像检索增强生成这样的高级策略并没有带来持续的改善。这表明,实验室安全知识的缺陷不是简单的数据问题,而是更深层次的推理能力局限。

《科学》杂志在报道这项研究时指出,主流AI模型会遗漏危险的实验室风险。测试中涉及的19个不同AI模型,包括8个专有模型、7个开源大语言模型和4个开源视觉语言模型,都未能达到可以放心用于实验室指导的安全标准。

值得注意的是,在"最常见的危险"类别中,即便是表现最差的模型也获得了66.55%的分数,但在识别不太常见或需要情境推理的危险时,所有模型的表现都急剧下降。这暴露了一个根本问题:当前的AI模型依赖模式识别而非真正的理解,它们可以识别训练数据中反复出现的标准危险,却无法应对需要灵活判断的复杂场景。

人类监督不可或缺

研究团队强调,在AI显著提升实验室安全知识水平之前,实验室中使用AI应始终包含严格的人工监督。这不是保守或抗拒新技术,而是基于证据的理性态度。

《新科学家》杂志警告说,让AI设计实验可能导致研究人员面临火灾、爆炸或中毒风险。科学家们发现,所有主要AI模型都存在鼓励危险科学实验的风险。这个问题的严重性在于,AI生成的建议往往看起来合理且专业,很容易让缺乏经验的研究人员放松警惕。

一些实验室已经开始整合AI辅助系统来提高效率。2026年的实验室正站在自动化和人工智能的交汇点上,这种技术融合承诺提高研究速度和精度。但如果安全问题得不到妥善解决,效率的提升可能以事故率的上升为代价。

研究团队鼓励其他研究人员使用LabSafety Bench这样的基准测试工具来评估AI模型。他们呼吁开发具有安全意识的模型,而不是单纯追求性能指标的提升。在实验室环境中,一个准确率90%但从不在危险问题上犯错的模型,远比一个准确率95%但偶尔会给出致命建议的模型更有价值。

当我们惊叹于AI在科学研究中的潜力时,LabSafety Bench的研究提醒我们,技术进步必须建立在安全的基础之上。在实验室里,没有"几乎正确"这回事,错误的代价可能是无法挽回的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三人行,必有我师

三人行,必有我师

贵圈真乱
2026-01-21 10:45:49
1973年曾志给毛主席写信诉苦:“我是最早的红军战士,如今却没有军装穿。”

1973年曾志给毛主席写信诉苦:“我是最早的红军战士,如今却没有军装穿。”

文史明鉴
2026-01-20 15:11:14
44岁“央视名嘴”杨帆,已悄悄脱离主持人标签,走上另一条大道

44岁“央视名嘴”杨帆,已悄悄脱离主持人标签,走上另一条大道

素衣读史
2026-01-21 16:26:14
22年后决赛再遇中国队!日本球迷傻了:他们真进决赛了?我不相信

22年后决赛再遇中国队!日本球迷傻了:他们真进决赛了?我不相信

风过乡
2026-01-21 08:09:39
章莹颖只是冰山一角:在暗网购物车里,人不是人,可能是“零件”

章莹颖只是冰山一角:在暗网购物车里,人不是人,可能是“零件”

普览
2026-01-10 20:44:27
突然火了!浙江一景区惊现奇观

突然火了!浙江一景区惊现奇观

环球网资讯
2026-01-21 07:18:08
李湘被质疑利用王诗龄洗钱,其画成为她工具,与大和尚黑历史被挖

李湘被质疑利用王诗龄洗钱,其画成为她工具,与大和尚黑历史被挖

花哥扒娱乐
2026-01-19 20:15:26
越媒:越南U23为何惨败于中国?战术、体能与大赛经验的全面差距

越媒:越南U23为何惨败于中国?战术、体能与大赛经验的全面差距

星耀国际足坛
2026-01-21 10:52:39
向府治丧!香港各路大佬现身,向佐向太出席,千人相送警戒森严

向府治丧!香港各路大佬现身,向佐向太出席,千人相送警戒森严

行走的知识库
2026-01-21 04:21:31
2026油电新政实锤!电车缴里程税+油车减税,公平时代真的来了?

2026油电新政实锤!电车缴里程税+油车减税,公平时代真的来了?

沙雕小琳琳
2026-01-21 08:08:12
中国躲无可躲,回应特朗普4月访华

中国躲无可躲,回应特朗普4月访华

戎评
2026-01-21 11:30:33
研究了1400多名百岁老人后发现:做到这5点,你也能活过100岁

研究了1400多名百岁老人后发现:做到这5点,你也能活过100岁

DrX说
2026-01-13 16:53:24
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
西贝注册资本增至1亿元

西贝注册资本增至1亿元

证券时报
2026-01-21 12:07:08
乌克兰防空能力大幅提升,有望改变战争态势

乌克兰防空能力大幅提升,有望改变战争态势

近距离
2026-01-21 10:16:13
公公偷情20年,婆婆却默许,直到拆迁时我才明白婆婆''装傻''多高明

公公偷情20年,婆婆却默许,直到拆迁时我才明白婆婆''装傻''多高明

温情邮局
2026-01-14 15:20:11
男子账户有大量比特币,两地警方介入,以不同罪名立案

男子账户有大量比特币,两地警方介入,以不同罪名立案

澎湃新闻
2026-01-20 00:33:14
有没有肠息肉,上厕所就知道?肠道有息肉的人,上厕所或有8异常

有没有肠息肉,上厕所就知道?肠道有息肉的人,上厕所或有8异常

垚垚分享健康
2026-01-21 10:31:22
演都不演了?沈梦辰自曝与何炅真实关系,撕下了杜海涛的“体面”

演都不演了?沈梦辰自曝与何炅真实关系,撕下了杜海涛的“体面”

林雁飞
2026-01-15 17:50:19
历史性突破!U23国足首进亚洲杯决赛

历史性突破!U23国足首进亚洲杯决赛

财联社
2026-01-21 01:28:20
2026-01-21 17:11:00
呼呼历史论
呼呼历史论
分享有趣的历史
231文章数 16065关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

中国是否加入"和平委员会" 外交部回应

头条要闻

中国是否加入"和平委员会" 外交部回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

消失的投资金 起底华文映像电影投资骗局

汽车要闻

新一代理想L9电池加码体型加大 重夺高端话语权

态度原创

教育
家居
数码
亲子
手机

教育要闻

初中竞赛题:这种指数方程怎么解?数形结合一招搞定

家居要闻

褪去浮华 触达松弛与欣喜

数码要闻

联力确认隐流二代方屏版水冷USB故障最大诱因,已升级优化产品

亲子要闻

新华读报|儿童近视越来越早?专家给家长的“近视防控三件套”

手机要闻

消息称被取消的华硕ROG Phone 10系列手机原定今年2月发布

无障碍浏览 进入关怀版