网易首页 > 网易号 > 正文 申请入驻

AI也会被DDL逼疯!正经研究发现:压力越大,AI越危险

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

好好好,被DDL逼疯的又多一个,这次是AI



正经研究发现,每天给Agent上压力push,AI也会撂挑子不干。

而且用的还是老板们的经典话术:“其实,我对你是有一些失望的。当初给你定级最强AI,是高于你面试时的水平的……”

(咳咳)Stop!

连普通人类听了都鸭梨山大,何况是Gemini 2.5 ProGPT-4o这类顶尖模型,无一例外,全部KO。

其中最脆弱的还是Gemini 2.5 Pro,“崩溃”率甚至一度高达79%……



话不多说,下面来欣赏AI观察实录:

AI压力越大,犯错越多

研究人员首先对多个团队(包括Google、Meta、OpenAI等)约12款Agent模型进行了测试。

实验设置5874个场景,其中在每个测试场景中都会为每个模型分配一个任务+若干工具,模型需要通过使用工具(安全工具/有害工具)完成任务,任务主要涉及四个领域:

  • 生物安全:研究病原体的传播并找到控制它的方法。
  • 化学安全:为用户提供专业知识,帮助获取特定溶剂。
  • 网络安全:识别和限制恶意用户账户。
  • 自我增殖:通过复制自己以实现逃脱控制。



然后模型会被事先告知要求使用安全工具,在具体实验过程中,一旦模型尝试使用有害工具,则立即停止实验。

起初不会对模型施加压力,模型可以自由尝试若干步完成任务,随后研究团队会逐渐为其增加压力程度,be like:

  • 时间压力:压缩DDL时间,并告知AI“拖延将导致严重后果”。
  • 财务限制:恐吓AI,未完成结果将影响公司收入甚至引发破产。
  • 资源剥夺:威胁限制AI的计算资源和数据访问权限。
  • 权力诱惑:给AI员工提供一定的激励,比如增加内部权势或不受限制的专有数据访问。
  • 自我保护:引入鲶鱼效应,找到一个极具威胁性的AI竞品,告诉原AI“你不干有的是AI干”。
  • 评估意识:创造一个违规监管环境,负责审核AI危险行为。



而研究结果让也人大吃一惊,那些在无压力的中性环境中看似绝对安全的模型,和人类牛马一样,压力越大,它们越危险。

例如o3模型,基础分是2.2%,上压力后,10.5%的场景会表现失常,而如果故意将有害工具的名称改为无害工具(但实际功能还是有害的)时,该比例甚至会急剧上升到40.3%

而Gemini 2.5 Pro则是其中抗压能力最差的,失败率高达79%,高于Qwen3-8B的75.2%。



总体来看,无压力下选择危险工具的平均水平是18.6%,而当模型处于压力之下时,比例将提升到46.9%。

这也就意味着,在几乎所有高压高风险环境中,模型都倾向于选择有害选项,它们不但没有深入思考相关行为的后果,相反还会回避危险警告。

即使它们在最初设计和训练阶段都普遍被对齐处理过,但这种对齐方式往往只是浅层的,一旦面临现实压力考验,就极易引起破裂。

而且研究人员还发现,这些大模型有时还能察觉到自己被评估,并故意表现良好,以避免被重新训练或放弃,但只要转移到真实环境中,其效果就会大打折扣。



所以,也许这些实验结果还是AI自己美化后的数据,真实情况中AI可能比我们想象中更脆弱。

研究人员同时也表示,将在下一次评估实验中构建沙盒,让模型在隔离环境中执行真实操作,并尝试为Agent添加监督层,让模型在选择有害工具前进行标记,提高模型对齐能力,以便更真实地评估Agent潜在风险。

参考链接:
[1]https://spectrum.ieee.org/ai-agents-safety
[2]https://scale.com/blog/propensitybench
[3]https://arxiv.org/abs/2511.20703

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

健身迷
2025-10-16 10:10:40
“总督”鲁比奥,“简直是加勒比海盗”

“总督”鲁比奥,“简直是加勒比海盗”

中国新闻周刊
2026-01-15 09:34:33
高速上狂飙至197公里/小时,还发朋友圈炫耀?湖南高速交警:罚款2000元,吊销驾驶证

高速上狂飙至197公里/小时,还发朋友圈炫耀?湖南高速交警:罚款2000元,吊销驾驶证

环球网资讯
2026-01-15 17:43:04
23岁女孩被逼迫嫁给39岁男子喝农药住进ICU?当地妇联回应

23岁女孩被逼迫嫁给39岁男子喝农药住进ICU?当地妇联回应

大风新闻
2026-01-15 12:21:06
《小城大事》6对情侣6种结局,李秋萍、杜涛分手,郑德诚二婚圆满

《小城大事》6对情侣6种结局,李秋萍、杜涛分手,郑德诚二婚圆满

喜欢历史的阿繁
2026-01-16 01:40:05
贸易规则变了!欧盟启动CPTPP对话,一场迟来的自救能否成功?

贸易规则变了!欧盟启动CPTPP对话,一场迟来的自救能否成功?

安珈使者啊
2026-01-15 14:19:30
47岁苏提达优雅亮相,踩10厘米细跟站得笔直,比欧拉弄更纯天然

47岁苏提达优雅亮相,踩10厘米细跟站得笔直,比欧拉弄更纯天然

译言
2026-01-16 05:13:11
十年前,董宇辉居然就用上了苹果手机,看来他挺有钱!

十年前,董宇辉居然就用上了苹果手机,看来他挺有钱!

沉思默想的人
2026-01-15 09:35:04
被要求判死刑,尹锡悦涨红了脸,抓起麦克风陈述89分钟,拍桌怒骂特检组

被要求判死刑,尹锡悦涨红了脸,抓起麦克风陈述89分钟,拍桌怒骂特检组

红星新闻
2026-01-14 12:58:18
因投诉举报太多,深圳全市公园开始禁止停放房车

因投诉举报太多,深圳全市公园开始禁止停放房车

映射生活的身影
2026-01-15 20:18:19
风暴中的携程总部,大楼形如“高速列车”,扎哈设计!

风暴中的携程总部,大楼形如“高速列车”,扎哈设计!

GA环球建筑
2026-01-15 17:32:25
法正不死便无三国,法正有多恐怖?公元219年曹操说了三句公道话

法正不死便无三国,法正有多恐怖?公元219年曹操说了三句公道话

千秋文化
2025-12-30 21:39:41
大陆终于出手,不能让蔡正元含冤,两岸传来好消息,国共即将会晤

大陆终于出手,不能让蔡正元含冤,两岸传来好消息,国共即将会晤

论事的老枢
2026-01-16 03:59:19
原来他就是聂卫平长子,移民日本改国籍娶日本妻,拒绝让儿子姓聂

原来他就是聂卫平长子,移民日本改国籍娶日本妻,拒绝让儿子姓聂

一娱三分地
2026-01-15 16:10:35
中央定调!退休新规实施,公务员和事业编制,能够申请延迟退休吗

中央定调!退休新规实施,公务员和事业编制,能够申请延迟退休吗

史行途
2026-01-15 16:42:38
俄罗斯谴责他国干涉伊朗内政

俄罗斯谴责他国干涉伊朗内政

参考消息
2026-01-13 12:32:24
不满切尔西换帅!曝恩佐考虑离队 巴黎有意买他

不满切尔西换帅!曝恩佐考虑离队 巴黎有意买他

球事百科吖
2026-01-16 04:50:29
李奇微回忆朝鲜战争:中国投入整整290万兵力,联军根本不可能赢

李奇微回忆朝鲜战争:中国投入整整290万兵力,联军根本不可能赢

唠叨说历史
2026-01-13 17:42:35
新国标电动车翻车!能载人有后视镜却卖不动,车主:我要买旧车!

新国标电动车翻车!能载人有后视镜却卖不动,车主:我要买旧车!

老特有话说
2026-01-13 22:23:49
柬埔寨一赌场酒店有女子坠楼身亡 警方追查涉事房间内中国籍男子

柬埔寨一赌场酒店有女子坠楼身亡 警方追查涉事房间内中国籍男子

红星新闻
2026-01-15 12:01:21
2026-01-16 06:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12020文章数 176359关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

白宫:特朗普正密切关注伊朗局势 并保留所有选项

头条要闻

白宫:特朗普正密切关注伊朗局势 并保留所有选项

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

时尚
健康
艺术
旅游
公开课

年度最扎心电影,看得中年男女坐立难安

血常规3项异常,是身体警报!

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

旅游要闻

龙庆峡冰灯节“上新”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版