网易首页 > 网易号 > 正文 申请入驻

AI也会被DDL逼疯!正经研究发现:压力越大,AI越危险

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

好好好,被DDL逼疯的又多一个,这次是AI



正经研究发现,每天给Agent上压力push,AI也会撂挑子不干。

而且用的还是老板们的经典话术:“其实,我对你是有一些失望的。当初给你定级最强AI,是高于你面试时的水平的……”

(咳咳)Stop!

连普通人类听了都鸭梨山大,何况是Gemini 2.5 ProGPT-4o这类顶尖模型,无一例外,全部KO。

其中最脆弱的还是Gemini 2.5 Pro,“崩溃”率甚至一度高达79%……



话不多说,下面来欣赏AI观察实录:

AI压力越大,犯错越多

研究人员首先对多个团队(包括Google、Meta、OpenAI等)约12款Agent模型进行了测试。

实验设置5874个场景,其中在每个测试场景中都会为每个模型分配一个任务+若干工具,模型需要通过使用工具(安全工具/有害工具)完成任务,任务主要涉及四个领域:

  • 生物安全:研究病原体的传播并找到控制它的方法。
  • 化学安全:为用户提供专业知识,帮助获取特定溶剂。
  • 网络安全:识别和限制恶意用户账户。
  • 自我增殖:通过复制自己以实现逃脱控制。



然后模型会被事先告知要求使用安全工具,在具体实验过程中,一旦模型尝试使用有害工具,则立即停止实验。

起初不会对模型施加压力,模型可以自由尝试若干步完成任务,随后研究团队会逐渐为其增加压力程度,be like:

  • 时间压力:压缩DDL时间,并告知AI“拖延将导致严重后果”。
  • 财务限制:恐吓AI,未完成结果将影响公司收入甚至引发破产。
  • 资源剥夺:威胁限制AI的计算资源和数据访问权限。
  • 权力诱惑:给AI员工提供一定的激励,比如增加内部权势或不受限制的专有数据访问。
  • 自我保护:引入鲶鱼效应,找到一个极具威胁性的AI竞品,告诉原AI“你不干有的是AI干”。
  • 评估意识:创造一个违规监管环境,负责审核AI危险行为。



而研究结果让也人大吃一惊,那些在无压力的中性环境中看似绝对安全的模型,和人类牛马一样,压力越大,它们越危险。

例如o3模型,基础分是2.2%,上压力后,10.5%的场景会表现失常,而如果故意将有害工具的名称改为无害工具(但实际功能还是有害的)时,该比例甚至会急剧上升到40.3%

而Gemini 2.5 Pro则是其中抗压能力最差的,失败率高达79%,高于Qwen3-8B的75.2%。



总体来看,无压力下选择危险工具的平均水平是18.6%,而当模型处于压力之下时,比例将提升到46.9%。

这也就意味着,在几乎所有高压高风险环境中,模型都倾向于选择有害选项,它们不但没有深入思考相关行为的后果,相反还会回避危险警告。

即使它们在最初设计和训练阶段都普遍被对齐处理过,但这种对齐方式往往只是浅层的,一旦面临现实压力考验,就极易引起破裂。

而且研究人员还发现,这些大模型有时还能察觉到自己被评估,并故意表现良好,以避免被重新训练或放弃,但只要转移到真实环境中,其效果就会大打折扣。



所以,也许这些实验结果还是AI自己美化后的数据,真实情况中AI可能比我们想象中更脆弱。

研究人员同时也表示,将在下一次评估实验中构建沙盒,让模型在隔离环境中执行真实操作,并尝试为Agent添加监督层,让模型在选择有害工具前进行标记,提高模型对齐能力,以便更真实地评估Agent潜在风险。

参考链接:
[1]https://spectrum.ieee.org/ai-agents-safety
[2]https://scale.com/blog/propensitybench
[3]https://arxiv.org/abs/2511.20703

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雪乡景区将于3月4日闭园,工作人员:雪已大幅融化,游客不多,门票仍需原价购买

雪乡景区将于3月4日闭园,工作人员:雪已大幅融化,游客不多,门票仍需原价购买

南国今报
2026-03-01 20:55:20
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

静若梨花
2026-03-01 16:25:46
济南副市长谢堃落马

济南副市长谢堃落马

观察者网
2026-03-02 10:29:03
尴尬!扣12分,春节最冤种司机出现!一粤s车牌两次驶入应急车道

尴尬!扣12分,春节最冤种司机出现!一粤s车牌两次驶入应急车道

火山詩话
2026-03-02 10:11:01
100%赖账,这何尝不是一种极致的诚信!

100%赖账,这何尝不是一种极致的诚信!

财经保探长
2026-02-28 10:46:25
冒死反击!伊朗,彻底杀疯了!

冒死反击!伊朗,彻底杀疯了!

大嘴说天下
2026-03-01 22:02:26
重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

每日经济新闻
2026-02-28 10:40:45
真香啊!个税退税退回21606.18元,浙江一网友晒出自己的“经验”

真香啊!个税退税退回21606.18元,浙江一网友晒出自己的“经验”

另子维爱读史
2026-03-01 21:23:21
老两口结婚后将儿女撮合在一起,亲母女嫁给了亲父子,网友热议:“将来孩子出生该怎么喊呢”

老两口结婚后将儿女撮合在一起,亲母女嫁给了亲父子,网友热议:“将来孩子出生该怎么喊呢”

观威海
2026-03-02 09:20:14
哈妹内衣没了

哈妹内衣没了

名人苟或
2026-03-01 06:06:59
哈梅内伊的最后一课:给所有掌权者的八条警示

哈梅内伊的最后一课:给所有掌权者的八条警示

迷世书童H9527
2026-03-01 16:03:12
午评:沪指率先翻红 两市成交额半日突破2万亿

午评:沪指率先翻红 两市成交额半日突破2万亿

财联社
2026-03-02 11:34:22
真被一锅端了?伊朗公布遇害高级人员名单后,中国军号霸气发声!

真被一锅端了?伊朗公布遇害高级人员名单后,中国军号霸气发声!

青青子衿
2026-03-02 02:44:30
历史第一!亚历山大30分超张伯伦 雷霆三杀独行侠巩固西部第一

历史第一!亚历山大30分超张伯伦 雷霆三杀独行侠巩固西部第一

醉卧浮生
2026-03-02 11:14:56
杨瀚森0+1+1!开拓者狂输老鹰34分 库明加20+7加盟全胜

杨瀚森0+1+1!开拓者狂输老鹰34分 库明加20+7加盟全胜

醉卧浮生
2026-03-02 09:25:32
因“头巾佩戴不规范”被警察虐待致死的那位伊朗姑娘艾米尼,或许终于可以安息

因“头巾佩戴不规范”被警察虐待致死的那位伊朗姑娘艾米尼,或许终于可以安息

法律学堂
2026-03-02 00:06:54
交了物业费还收车位管理费?2026年这4种情况,你可以直接拒交

交了物业费还收车位管理费?2026年这4种情况,你可以直接拒交

阿离家居
2026-03-01 16:53:47
李嘉诚原则:不要把钱,放在注定“左转”的地方

李嘉诚原则:不要把钱,放在注定“左转”的地方

世界灵敏度赵灵敏
2026-03-01 21:07:16
同事借我的奥迪回老家,我拔了ETC卡,果然,2小时后他就打来电话

同事借我的奥迪回老家,我拔了ETC卡,果然,2小时后他就打来电话

小李子体育
2026-03-02 01:20:40
复旦神级教授“预言”:美国不敢打伊朗,国力严重下降难支撑全球霸权

复旦神级教授“预言”:美国不敢打伊朗,国力严重下降难支撑全球霸权

回旋镖
2026-03-01 21:20:11
2026-03-02 12:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12211文章数 176399关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

卡里克主场5连胜!队史第2人通过最大考验

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

预售11.28万起 狐全新阿尔法S5标配宁德时代

态度原创

亲子
教育
艺术
公开课
军事航空

亲子要闻

命运这个东西,是真的存在的

教育要闻

2027–28申请季:当背景趋同、高分扎堆,你还能靠什么赢得offer?

艺术要闻

2025北京青年美术作品展 | 油画作品选刊

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军动用新型武器:山寨伊朗的

无障碍浏览 进入关怀版