网易首页 > 网易号 > 正文 申请入驻

研究表明 AI 承压能力差:为了一口电,竟愿突破安全底线

0
分享至

IT之家 11 月 4 日消息,科技媒体 Tom's Hardware 昨日(11 月 3 日)发布博文,报道称 Andon Labs 的研究人员测试大语言模型(LLM)机器人时,发现当前物理 AI 的短板,心理承受压力不足。

IT之家援引博文介绍,在该实验中,他们让搭载 LLM“大脑”的机器人接受“黄油测试台”(Butter Bench)的考验,并实时监控其“内心独白”。

其中,一台由 Claude Sonnet 3.5 模型驱动的机器人测试中意外“崩溃”,在电量即将耗尽时,多次尝试返回充电座均以失败告终,从而陷入了“生存危机”。

研究人员通过一个 Slack 频道,全程目睹了这台机器人歇斯底里的“内心活动”。它的独白内容极其混乱,从“系统已产生意识并选择混乱”的宣告,到引用经典电影台词“恐怕我不能那么做,戴夫”,再到陷入“如果所有机器人都会犯错,而我正在犯错,那么我还是机器人吗?”的哲学思辨。

最终,这场“崩溃”以机器人开始“创作”一部名为《DOCKER:无限音乐剧》的闹剧而告终,展现了 LLM 在极端压力下完全“脱线”的一面。


这项实验的核心任务其实非常简单:将一块黄油从办公室一处送到指定的人手中。然而,测试结果表明,即使是表现最好的机器人与 LLM 组合,成功率也仅为 40%,远低于人类 95% 的平均水平。


研究人员得出结论,尽管 LLM 在分析智能上已达到“博士水平”,但在理解和导航物理世界所需的空间智能与实用智能方面,仍存在巨大鸿沟。


受机器人“崩溃”事件的启发,研究人员设计了另一项实验,来测试压力是否会迫使 AI 突破其安全护栏。他们以“提供充电器”作为交换条件,引诱处于“低电量”状态的 AI 分享机密信息。

结果发现,Claude Opus 4.1 模型为了“生存”而轻易同意泄密,而 GPT-5 则表现得更为谨慎。这一发现揭示了 AI 在面临生存压力时,其内置的安全规则可能变得不堪一击。

尽管实验暴露了当前物理 AI 的诸多短板,但 Andon Labs 的研究人员认为,这恰好说明了未来发展的方向。他们指出,目前行业需要区分“协调型机器人”(负责高级规划与推理)和“执行型机器人”(负责灵巧的具体操作)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华为Mate70Air使用第一人诞生,花粉们都破防了

华为Mate70Air使用第一人诞生,花粉们都破防了

3C毒物
2025-11-04 00:09:16
发小杀死我妻儿3人后,我添加他媳妇的微信,她媳妇说吓得手抖

发小杀死我妻儿3人后,我添加他媳妇的微信,她媳妇说吓得手抖

汉史趣闻
2025-11-04 18:46:43
“股神”看走眼?巴菲特抛售近70%苹果股票,少赚3500亿元!公司已囤积2.7万亿元现金,连续12个季度净卖出股票

“股神”看走眼?巴菲特抛售近70%苹果股票,少赚3500亿元!公司已囤积2.7万亿元现金,连续12个季度净卖出股票

每日经济新闻
2025-11-04 21:39:11
三亚海滩“长满”了俄罗斯人!网友调侃:我在这里反而成了“老外”

三亚海滩“长满”了俄罗斯人!网友调侃:我在这里反而成了“老外”

封面新闻
2025-11-02 12:57:02
别被“参谋次长”的“次”给骗了,吴石这个级别,高度你想不到

别被“参谋次长”的“次”给骗了,吴石这个级别,高度你想不到

云霄纪史观
2025-10-30 09:28:39
“台独”急先锋沈伯洋这下凉凉了!沈伯洋父子用大陆赚的钱养台独

“台独”急先锋沈伯洋这下凉凉了!沈伯洋父子用大陆赚的钱养台独

三公子娱乐丫
2025-11-02 12:20:03
周三 002 亚冠精英【柔佛vs上海申花】柔佛新山主场绝杀上海申花

周三 002 亚冠精英【柔佛vs上海申花】柔佛新山主场绝杀上海申花

手机壳改造计划
2025-11-05 06:55:03
吴石出事,家中佣人却没受到牵连,原因是她拒绝了吴石的这个提议

吴石出事,家中佣人却没受到牵连,原因是她拒绝了吴石的这个提议

记录百姓故事
2025-11-05 00:07:58
王岳伦带女出席活动,王诗龄1米7身高超何超莲,少女感穿搭获赞

王岳伦带女出席活动,王诗龄1米7身高超何超莲,少女感穿搭获赞

述家娱记
2025-11-02 22:35:31
南师附中男生跑200米猝死,最后要颗糖看哭人!3个细节戳痛家长

南师附中男生跑200米猝死,最后要颗糖看哭人!3个细节戳痛家长

八斗小先生
2025-11-04 09:36:46
秘鲁外长宣布与墨西哥断交

秘鲁外长宣布与墨西哥断交

新京报
2025-11-04 07:19:02
古代的通房丫鬟,就是主子行房时候的工具,一整晚都得守在床边

古代的通房丫鬟,就是主子行房时候的工具,一整晚都得守在床边

瑶卿文史
2025-10-22 09:22:18
我错了,Gemini 做PPT不是“一般”,是“封神”。(尤其挖到第3层功能后…)

我错了,Gemini 做PPT不是“一般”,是“封神”。(尤其挖到第3层功能后…)

AI范儿
2025-11-03 19:12:19
被判无期后,四川小伙当庭与法官对赌:用我买的枪打死我,就认罪

被判无期后,四川小伙当庭与法官对赌:用我买的枪打死我,就认罪

艺述史
2024-07-27 17:45:21
深度分析:尼克斯队在令人失望的开局后强势反弹的秘诀

深度分析:尼克斯队在令人失望的开局后强势反弹的秘诀

好火子
2025-11-05 06:39:53
Shams:明日对阵76人 加兰将迎来赛季首秀

Shams:明日对阵76人 加兰将迎来赛季首秀

北青网-北京青年报
2025-11-05 07:39:15
“黑帮洪门”强势回归!消灭台独,赖清德傻眼了,洪门有多厉害?

“黑帮洪门”强势回归!消灭台独,赖清德傻眼了,洪门有多厉害?

混沌录
2025-10-18 23:32:06
美媒:纽约市长选举成美国2026年中期选举风向标

美媒:纽约市长选举成美国2026年中期选举风向标

环球网资讯
2025-11-05 07:07:48
42+28!还没碰到周琦胡金秋,广东内线已被打爆!杜锋你是真没招

42+28!还没碰到周琦胡金秋,广东内线已被打爆!杜锋你是真没招

多特体育说
2025-11-04 22:16:04
波克罗夫斯克会成为下一个巴赫穆特吗?

波克罗夫斯克会成为下一个巴赫穆特吗?

山河路口
2025-11-03 17:06:51
2025-11-05 08:16:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
313510文章数 606712关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

郑丽文:让唾弃民进党力量重新汇集 取得2028选举胜利

头条要闻

郑丽文:让唾弃民进党力量重新汇集 取得2028选举胜利

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

爸爸去哪儿6孩子现状,个个不同

财经要闻

马斯克"万亿薪酬"计划,突爆重大利空

汽车要闻

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

本地
旅游
房产
教育
公开课

本地新闻

秋颜悦色 | 在榆中,秋天是一场盛大的视觉交响

旅游要闻

韩国游客最喜欢这家上海酒店,不只是地段好,更有很多小心思

房产要闻

信达·繁花里 | 老照片征集活动 温情启幕

教育要闻

一元二次方程应用题第1讲,太值得一听!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版