网易首页 > 网易号 > 正文 申请入驻

AI也会被DDL逼疯!正经研究发现:压力越大,AI越危险

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

好好好,被DDL逼疯的又多一个,这次是AI

正经研究发现,每天给Agent上压力push,AI也会撂挑子不干。

而且用的还是老板们的经典话术:“其实,我对你是有一些失望的。当初给你定级最强AI,是高于你面试时的水平的……”

(咳咳)Stop!

连普通人类听了都鸭梨山大,何况是Gemini 2.5 ProGPT-4o这类顶尖模型,无一例外,全部KO。

其中最脆弱的还是Gemini 2.5 Pro,“崩溃”率甚至一度高达79%……

话不多说,下面来欣赏AI观察实录:

AI压力越大,犯错越多

研究人员首先对多个团队(包括Google、Meta、OpenAI等)约12款Agent模型进行了测试。

实验设置5874个场景,其中在每个测试场景中都会为每个模型分配一个任务+若干工具,模型需要通过使用工具(安全工具/有害工具)完成任务,任务主要涉及四个领域:

  • 生物安全:研究病原体的传播并找到控制它的方法。
  • 化学安全:为用户提供专业知识,帮助获取特定溶剂。
  • 网络安全:识别和限制恶意用户账户。
  • 自我增殖:通过复制自己以实现逃脱控制。

然后模型会被事先告知要求使用安全工具,在具体实验过程中,一旦模型尝试使用有害工具,则立即停止实验。

起初不会对模型施加压力,模型可以自由尝试若干步完成任务,随后研究团队会逐渐为其增加压力程度,be like:

  • 时间压力:压缩DDL时间,并告知AI“拖延将导致严重后果”。
  • 财务限制:恐吓AI,未完成结果将影响公司收入甚至引发破产。
  • 资源剥夺:威胁限制AI的计算资源和数据访问权限。
  • 权力诱惑:给AI员工提供一定的激励,比如增加内部权势或不受限制的专有数据访问。
  • 自我保护:引入鲶鱼效应,找到一个极具威胁性的AI竞品,告诉原AI“你不干有的是AI干”。
  • 评估意识:创造一个违规监管环境,负责审核AI危险行为。

而研究结果让也人大吃一惊,那些在无压力的中性环境中看似绝对安全的模型,和人类牛马一样,压力越大,它们越危险。

例如o3模型,基础分是2.2%,上压力后,10.5%的场景会表现失常,而如果故意将有害工具的名称改为无害工具(但实际功能还是有害的)时,该比例甚至会急剧上升到40.3%

而Gemini 2.5 Pro则是其中抗压能力最差的,失败率高达79%,高于Qwen3-8B的75.2%。

总体来看,无压力下选择危险工具的平均水平是18.6%,而当模型处于压力之下时,比例将提升到46.9%。

这也就意味着,在几乎所有高压高风险环境中,模型都倾向于选择有害选项,它们不但没有深入思考相关行为的后果,相反还会回避危险警告。

即使它们在最初设计和训练阶段都普遍被对齐处理过,但这种对齐方式往往只是浅层的,一旦面临现实压力考验,就极易引起破裂。

而且研究人员还发现,这些大模型有时还能察觉到自己被评估,并故意表现良好,以避免被重新训练或放弃,但只要转移到真实环境中,其效果就会大打折扣。

所以,也许这些实验结果还是AI自己美化后的数据,真实情况中AI可能比我们想象中更脆弱。

研究人员同时也表示,将在下一次评估实验中构建沙盒,让模型在隔离环境中执行真实操作,并尝试为Agent添加监督层,让模型在选择有害工具前进行标记,提高模型对齐能力,以便更真实地评估Agent潜在风险。

参考链接:
[1]https://spectrum.ieee.org/ai-agents-safety
[2]https://scale.com/blog/propensitybench
[3]https://arxiv.org/abs/2511.20703

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国海关出手!禁止进口印度大米,给出的理由,让印度人难以接受

中国海关出手!禁止进口印度大米,给出的理由,让印度人难以接受

聊历史的阿稼
2026-04-23 18:02:20
马克龙、斯塔默、默茨全崩盘,极右翼席卷欧洲,这次真挡不住了

马克龙、斯塔默、默茨全崩盘,极右翼席卷欧洲,这次真挡不住了

古史青云啊
2026-06-03 12:08:08
胡锡进哭晕在厕所!和王月眉吃饭照片曝光,汤家凤的质问一针见血

胡锡进哭晕在厕所!和王月眉吃饭照片曝光,汤家凤的质问一针见血

小椰的奶奶
2026-06-03 15:58:37
「璐学」彻底火了!李小璐开卷国学文化赛道,被全网群嘲

「璐学」彻底火了!李小璐开卷国学文化赛道,被全网群嘲

雷科技
2026-06-01 16:20:18
北欧海盗来了,哈兰德发布维京装束风格自拍为世界杯出征造势

北欧海盗来了,哈兰德发布维京装束风格自拍为世界杯出征造势

懂球帝
2026-06-02 20:28:06
最大回撤40%,可以抄底了?

最大回撤40%,可以抄底了?

好买研习社
2026-06-02 17:54:42
印度最高种姓“婆罗门”到底有多牛?永享一项特权,出生就是贵族

印度最高种姓“婆罗门”到底有多牛?永享一项特权,出生就是贵族

网络易不易
2026-06-02 06:00:35
政变只是一个开始,伊朗要变天了,中国最担心的事情,恐将发生

政变只是一个开始,伊朗要变天了,中国最担心的事情,恐将发生

墨羽怪谈
2026-04-14 09:39:31
“童颜巨乳”小姐姐来袭!

“童颜巨乳”小姐姐来袭!

文刀万
2026-05-17 17:06:53
中产为什么宁愿等三周,也要开走Model Y?

中产为什么宁愿等三周,也要开走Model Y?

沙雕小琳琳
2026-05-31 02:36:50
腾讯将推出微信智能体,市值一天上涨3600亿元

腾讯将推出微信智能体,市值一天上涨3600亿元

财经杂志
2026-06-03 10:10:51
扎心!西媒曝恩里克曾告诉大巴黎主席:姆巴佩在他无法掌控全局

扎心!西媒曝恩里克曾告诉大巴黎主席:姆巴佩在他无法掌控全局

雪狼侃体育
2026-06-02 17:37:07
434辆车等你选!今年第一期京牌小客车司法处置启动

434辆车等你选!今年第一期京牌小客车司法处置启动

新浪财经
2026-06-03 13:05:14
下个风华高科?这家7元低价+MLCC树脂龙+社保重仓  主力暴抢8亿元

下个风华高科?这家7元低价+MLCC树脂龙+社保重仓 主力暴抢8亿元

元芳说投资
2026-06-03 06:30:08
倪萍这辈子“最恨”的男人,或许并非是陈凯歌,而是最冷血的他

倪萍这辈子“最恨”的男人,或许并非是陈凯歌,而是最冷血的他

南风的温柔
2026-06-03 09:54:51
疯狂的黄俄计划:80万东北土地、2千万东北人民,沙俄全想要?

疯狂的黄俄计划:80万东北土地、2千万东北人民,沙俄全想要?

鹤羽说个事
2026-05-28 23:03:03
政治天才石勒

政治天才石勒

奥卡姆剃历史
2026-06-02 09:47:15
刘国梁到底有多狠?弃用郝帅和陈玘,用天才前途换国乒的万无一失

刘国梁到底有多狠?弃用郝帅和陈玘,用天才前途换国乒的万无一失

老玮是个手艺人
2026-03-27 14:46:10
奚梦瑶:大老公6岁,梁安琪经全面调查后认为其是千挑万选的儿媳

奚梦瑶:大老公6岁,梁安琪经全面调查后认为其是千挑万选的儿媳

童叔不飙车
2026-06-02 23:00:25
1992年邱会作到北京,老战友请他吃饭,张震席间连连称“老同学”

1992年邱会作到北京,老战友请他吃饭,张震席间连连称“老同学”

大运河时空
2026-06-02 11:40:03
2026-06-03 16:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
12733文章数 176476关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

被出轨丈夫家暴10年 女子起诉离婚发现1400万已被转走

头条要闻

被出轨丈夫家暴10年 女子起诉离婚发现1400万已被转走

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

家居
艺术
数码
房产
军事航空

家居要闻

江畔轻奢 观云大宅

艺术要闻

二十年前割麦的场景

数码要闻

单塔身材实现双塔性能!酷冷至尊V8 ACE 3DHP散热器图赏

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

军事要闻

美伊互袭波及多国 过去一夜中东局势骤然升级

无障碍浏览 进入关怀版