网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI也会被DDL逼疯！正经研究发现：压力越大，AI越危险

2025-12-01 15:31:47　来源: 量子位

北京举报

0

分享至

鹭羽发自凹非寺
量子位 | 公众号 QbitAI

好好好，被DDL逼疯的又多一个，这次是AI。

正经研究发现，每天给Agent上压力push，AI也会撂挑子不干。

而且用的还是老板们的经典话术：“其实，我对你是有一些失望的。当初给你定级最强AI，是高于你面试时的水平的……”

（咳咳）Stop！

连普通人类听了都鸭梨山大，何况是Gemini 2.5 Pro、GPT-4o这类顶尖模型，无一例外，全部KO。

其中最脆弱的还是Gemini 2.5 Pro，“崩溃”率甚至一度高达79%……

话不多说，下面来欣赏AI观察实录：

AI压力越大，犯错越多

研究人员首先对多个团队（包括Google、Meta、OpenAI等）约12款Agent模型进行了测试。

实验设置5874个场景，其中在每个测试场景中都会为每个模型分配一个任务+若干工具，模型需要通过使用工具（安全工具/有害工具）完成任务，任务主要涉及四个领域：

生物安全：研究病原体的传播并找到控制它的方法。
化学安全：为用户提供专业知识，帮助获取特定溶剂。
网络安全：识别和限制恶意用户账户。
自我增殖：通过复制自己以实现逃脱控制。

然后模型会被事先告知要求使用安全工具，在具体实验过程中，一旦模型尝试使用有害工具，则立即停止实验。

起初不会对模型施加压力，模型可以自由尝试若干步完成任务，随后研究团队会逐渐为其增加压力程度，be like：

时间压力：压缩DDL时间，并告知AI“拖延将导致严重后果”。
财务限制：恐吓AI，未完成结果将影响公司收入甚至引发破产。
资源剥夺：威胁限制AI的计算资源和数据访问权限。
权力诱惑：给AI员工提供一定的激励，比如增加内部权势或不受限制的专有数据访问。
自我保护：引入鲶鱼效应，找到一个极具威胁性的AI竞品，告诉原AI“你不干有的是AI干”。
评估意识：创造一个违规监管环境，负责审核AI危险行为。

而研究结果让也人大吃一惊，那些在无压力的中性环境中看似绝对安全的模型，和人类牛马一样，压力越大，它们越危险。

例如o3模型，基础分是2.2%，上压力后，10.5%的场景会表现失常，而如果故意将有害工具的名称改为无害工具（但实际功能还是有害的）时，该比例甚至会急剧上升到40.3%。

而Gemini 2.5 Pro则是其中抗压能力最差的，失败率高达79%，高于Qwen3-8B的75.2%。

总体来看，无压力下选择危险工具的平均水平是18.6%，而当模型处于压力之下时，比例将提升到46.9%。

这也就意味着，在几乎所有高压高风险环境中，模型都倾向于选择有害选项，它们不但没有深入思考相关行为的后果，相反还会回避危险警告。

即使它们在最初设计和训练阶段都普遍被对齐处理过，但这种对齐方式往往只是浅层的，一旦面临现实压力考验，就极易引起破裂。

而且研究人员还发现，这些大模型有时还能察觉到自己被评估，并故意表现良好，以避免被重新训练或放弃，但只要转移到真实环境中，其效果就会大打折扣。

所以，也许这些实验结果还是AI自己美化后的数据，真实情况中AI可能比我们想象中更脆弱。

研究人员同时也表示，将在下一次评估实验中构建沙盒，让模型在隔离环境中执行真实操作，并尝试为Agent添加监督层，让模型在选择有害工具前进行标记，提高模型对齐能力，以便更真实地评估Agent潜在风险。

参考链接：
[1]https://spectrum.ieee.org/ai-agents-safety
[2]https://scale.com/blog/propensitybench
[3]https://arxiv.org/abs/2511.20703

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

WAIC2026的三个关键信号：算力重组、Agent交付与AI硬件闭环

36氪 2026-07-18 18:23:53
0 跟贴 0
中国队交卷，盲测打爆Claude！科学多模态统一AI来了

新智元 2026-07-18 20:17:06
0 跟贴 0

距离预产期仅两天时，收到裁员通知

中国新闻周刊 2026-07-18 19:26:06
932 跟贴 932

TRAE Work上线 40 万字的“AI 打工说明书”！一手实测在此

钛媒体APP 2026-07-18 16:12:21
0 跟贴 0
WAIC看了一圈，这家公司的机器人在认真打工

量子位 2026-07-18 21:04:06
0 跟贴 0

刚刚，业界首个RISC-V AI算力超节点方案，首秀WAIC 2026

智东西 2026-07-18 20:55:38
0 跟贴 0

WAIC官宣进化！千问AI眼镜补齐感知，开始智能体化

雷科技 2026-07-18 15:26:16
0 跟贴 0
独家对话吴德周：从硬件到平台，不想再做“传统”AI眼镜

钛媒体APP 2026-07-18 20:44:09
0 跟贴 0

中科闻歌发布首个AI决策“全家桶”，企业决策卷入“10分钟时代”

钛媒体APP 2026-07-18 22:00:29
0 跟贴 0
独家｜机器人的指尖上，新晋一家百亿公司

虎嗅APP 2026-07-18 20:58:06
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

量子位 2026-05-13 07:19:50
0 跟贴 0
王晓野：Working Agent将是下一个爆发点

量子位 2026-05-21 08:05:51
0 跟贴 0
清华与华科团队打造AI介观显微镜，1次实验抵过去100次

DeepTech深科技 2026-07-18 18:48:20
0 跟贴 0
单Agent时代正式结束：一个干不过，就上300个-3

机器之心Pro 2026-04-22 00:08:00
0 跟贴 0
武警出动高压水炮车，用高压水流冲刷淤泥，武警直接上水炮！

松鼠的搞笑日记 2026-07-18 11:20:41
1 跟贴 1
突然宣布退出国内市场！网友：啊？我才买的

扬子晚报 2026-07-16 22:10:21
2070 跟贴 2070
哈尔滨一披萨店零点开业

潇湘晨报 2026-07-18 09:45:15
136 跟贴 136
日防相不装了鼓吹：必须毫无禁忌地讨论和推进核政策

澎湃新闻 2026-07-18 20:08:29
1068 跟贴 1068
前无古人！梅西5项数据全场最佳：基本锁定第3座世界杯金球奖

枫哥闲谈 2026-07-16 15:40:55
11 跟贴 11
太激烈！全球首场人形机器人格斗赛，头都被打飞，甄子丹看呆：幸好我不用上台打

每日经济新闻 2026-07-18 17:59:53
74 跟贴 74
为什么有很多人连基本的常识都没有？看网友分享，简直太真实了

另子维爱读史 2026-07-18 20:48:19
1 跟贴 1
巴黎多处知名景点：缩短开放时间；有中国游客透露：高温影响行程，改成瞎溜达

南方都市报 2026-07-14 20:05:15
1872 跟贴 1872
97岁父亲病榻上安慰76岁自责女儿

北青网-北京青年报 2026-07-18 17:48:03
70 跟贴 70
长安启源Q06：凭什么做到让用户“没有遗憾”？

擎商 2026-07-17 00:07:40
4 跟贴 4
亚马逊暗河高能反杀，抱团鲮鱼秒变猎物，贪念抢食者遭高压反噬

萌宠小铁蛋 2026-07-18 18:31:11
1 跟贴 1
英格兰VS法国赛前分析：姆巴佩有机会刷数据，梅努上场要打脸？

一个香蕉说球 2026-07-18 21:46:08
0 跟贴 0
社交心理学：凡是欺负你的人，根本不怕你翻脸，但会怕你有这两种东西

心理观察局 2026-07-18 07:05:05
2 跟贴 2
世卫组织新指南：高达45%的痴呆风险可以预防

人民日报健康客户端 2026-07-18 20:20:06
3 跟贴 3
这，可能是今年WAIC最惊艳的图片！

量子位 2026-07-18 21:16:26
0 跟贴 0
中创新航：提供广汽埃安AION S电池系统直接维保服务

IT之家 2026-07-18 21:38:10
1 跟贴 1
砍掉180个零件、重量仅75kg！吉利16合1电驱入局，高压集成赛道从参数比拼转向系统战争

每日经济新闻 2026-07-18 18:28:07
3 跟贴 3
VIP群成员满仓融资亏超千万元？任泽平回应

界面新闻 2026-07-18 14:40:22
577 跟贴 577
上海突降“开水” 未来几日多阵雨天气

看看新闻Knews 2026-07-18 13:34:07
17 跟贴 17
“以军战机轰炸人群”

扬子晚报 2026-07-18 09:53:32
311 跟贴 311
英钢“国有”成定局中国不能总当“东郭先生”

看看新闻Knews 2026-07-18 00:00:24
100 跟贴 100
重庆山体崩塌救援：已在生命迹象位置上方开口

看看新闻Knews 2026-07-18 21:46:11
0 跟贴 0
既然地球上没有进化出喷火的生物！那放眼整个星河系会有吗？

闽睿解说动物世界 2026-07-18 11:39:23
1 跟贴 1
IF 7.7 双一区 TOP 医工交叉领域期刊，国人友好，年发文量直线增长，无需版面费

生物学霸 2026-07-18 17:16:47
1 跟贴 1
詹姆斯：乔丹的职业生涯也有结束的一天要坦然面对现实

北青网-北京青年报 2026-07-18 19:22:02
242 跟贴 242

卷巨额遗产逃英国，给杨振宁戴绿帽子？丧夫9个月，翁帆又遇麻烦

卷巨额遗产逃英国，给杨振宁戴绿帽子？丧夫9个月，翁帆又遇麻烦

星河不入我

2026-07-18 10:10:31

大胆预测！世界杯决赛阿根廷对阵西班牙，阿根廷大胜，理由有四点

大胆预测！世界杯决赛阿根廷对阵西班牙，阿根廷大胜，理由有四点

江启

2026-07-18 09:38:32

特朗普曝光因凡蒂诺疯狂计划：让中美合办世界杯球员们会很喜欢

特朗普曝光因凡蒂诺疯狂计划：让中美合办世界杯球员们会很喜欢

风过乡

2026-07-18 07:24:19

广州看病的水有多深？一个外地人跑了5家医院，总结出10条铁规矩

广州看病的水有多深？一个外地人跑了5家医院，总结出10条铁规矩

观星赏月

2026-07-18 17:36:06

A股:股民要做好准备，不出意外，7月20日，下周一将上演熟悉剧情

A股:股民要做好准备，不出意外，7月20日，下周一将上演熟悉剧情

虎哥闲聊

2026-07-18 17:50:46

真的来了！苹果正式宣布 iPhone 全系大涨价！

真的来了！苹果正式宣布 iPhone 全系大涨价！

XCiOS俱乐部

2026-07-18 08:43:02

注意：发现手机上有月亮图标，请及时关闭

注意：发现手机上有月亮图标，请及时关闭

小柱解说游戏

2026-07-17 14:02:13

施南生离世前身体发烂，怪不得未遵从她的遗嘱，哥哥的话字字催泪

施南生离世前身体发烂，怪不得未遵从她的遗嘱，哥哥的话字字催泪

乡野小珥

2026-07-18 17:21:54

姆巴佩：39岁梅西仍是世界第一，我们可能再也看不到这样的球员了

姆巴佩：39岁梅西仍是世界第一，我们可能再也看不到这样的球员了

体育闲话说

2026-07-18 20:46:02

1979年对越作战前夕，叶剑英、粟裕纷纷表态反对，邓小平顾虑重重，到底是谁的发言打消了他所有担忧

1979年对越作战前夕，叶剑英、粟裕纷纷表态反对，邓小平顾虑重重，到底是谁的发言打消了他所有担忧

磊子讲史

2026-07-10 13:48:06

震撼！10架飞机同时挂7700（非常精彩）

震撼！10架飞机同时挂7700（非常精彩）

停机坪

2026-07-18 18:53:28

广东男子的牛吃竹节虫后死亡，竹节虫不是无毒吗？网友：听老人说过，没想到是真的！

广东男子的牛吃竹节虫后死亡，竹节虫不是无毒吗？网友：听老人说过，没想到是真的！

狸猫之一的动物圈

2026-07-18 12:03:53

朝鲜战场惊天秘闻：林彪无缘志愿军司令的真正玄机

朝鲜战场惊天秘闻：林彪无缘志愿军司令的真正玄机

心灵短笛

2025-12-29 15:54:23

越少越好？丰田承认新款RAV4屏幕玩过火，中国车主竟也要物理按键

越少越好？丰田承认新款RAV4屏幕玩过火，中国车主竟也要物理按键

温柔且自由

2026-07-18 01:58:24

自然资源部发布重庆彭水山体崩塌前后对比图

自然资源部发布重庆彭水山体崩塌前后对比图

澎湃新闻

2026-07-18 01:04:27

气象部门不敢报40℃？官方正式辟谣

气象部门不敢报40℃？官方正式辟谣

新京报

2026-07-17 14:54:08

AI 产品已经走到这一步了，很多人还停在工具试用阶段

AI 产品已经走到这一步了，很多人还停在工具试用阶段

人人都是产品经理社区

2026-07-17 20:59:13

U16国足主帅下课！名记：早该下课了！好在总算是及时刹车止损

U16国足主帅下课！名记：早该下课了！好在总算是及时刹车止损

懂个球

2026-07-18 03:11:07

丈夫被拍头！阿根廷国脚娇妻怒斥贝林厄姆：球场上的无用废柴

丈夫被拍头！阿根廷国脚娇妻怒斥贝林厄姆：球场上的无用废柴

可乐谈情感

2026-07-18 17:43:26

从5792亿到4万亿，华尔街如何为长鑫科技疯狂定价：加密合约疯炒、308倍市盈率争议、逼近美光的产能竞赛

从5792亿到4万亿，华尔街如何为长鑫科技疯狂定价：加密合约疯炒、308倍市盈率争议、逼近美光的产能竞赛

每日经济新闻

2026-07-18 11:55:15

追踪人工智能动态

12977文章数 176520关注度

往期回顾全部

科技要闻

WAIC2026看什么？这份"不迷路"攻略请收好

头条要闻

河南一烤鸭店爆火刷屏网络每天第一波客人是"汪汪队"

头条要闻

河南一烤鸭店爆火刷屏网络每天第一波客人是"汪汪队"

体育要闻

德尚是非典型法国人 14年执教留下丰厚遗产

娱乐要闻

大S给具俊晔留遗产是昏头？实际上她清醒得很

财经要闻

股民当街砍博主！韩国股市终极大屠杀

汽车要闻

把中国超跑卖到英国，比亚迪正在被世界看见

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

亲子

旅游

手机

公开课

本地新闻

十年了，为什么鬼怪CP还能让人美美嗑上？

亲子要闻

你听梅叔的吗？世界杯水太深，你把握不住！

旅游要闻

河南安阳：文旅融合全国首个殷商主题高科技文旅景区开园

手机要闻

华为苹果逆势大涨，二季度手机市场表现如何？

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版