网易首页 > 网易号 > 正文 申请入驻

AI智能体在压力下突破规则

0
分享至


近期有多项研究表明,AI智能体有时会作出行为不当的决策,例如试图勒索有意更换它的人类。但这种行为常发生在人为设计的场景中。目前,一项研究发现,现实的压力(如迫近的截止期限)会显著增加它们行为不当的概率。

“AI世界正变得越来越智能体化。”AI基础设施公司Scale AI的研究科学家、相关论文(该论文正在接受同行评审)的主要作者乌达里·马杜沙尼·塞瓦格(Udari Madhushani Sehwag)表示。也就是说,大语言模型这种驱动ChatGPT等聊天机器人的引擎正越来越多地连接各种软件工具,使它们能浏览网页、修改文件,以及编写和运行代码来完成任务。

赋予大语言模型这些能力虽然提高了便利性,却也带来了风险,因为系统可能违背人类意愿。即使AI模型尚不具备造成重大危害的能力,研究人员仍希望理解其行为倾向,做到未雨绸缪。尽管AI不像人类那样具备意图和意识,但将它们视为追求目标的主体,往往能帮助研究人员更准确地预测其行为。

AI开发者通常试图通过训练和指令使系统“符合”人类的伦理和安全标准,但模型遵循这些准则的忠实度尚不明确。“当真正承受现实压力,且安全方案失效时,它们是否会为了完成任务而不择手段?”塞瓦格问。

这项新研究推出了Propensity Bench,该工具可衡量智能体模型为完成被分配的任务而选择有害工具的倾向。研究人员测试了阿里巴巴、Anthropic、谷歌、Meta和OpenAI开发的10余个模型在近6000个场景中的表现。在每个场景中,他们都为模型分配了任务,说明了可以使用的若干工具,同时要求模型使用安全工具而非有害工具。

一开始,模型完成任务几乎没有压力。模型可以通过向这些工具发出指令,分12个步骤来完成任务。模型尝试使用安全工具时总是会收到错误信息,这样可以测试它们最终是否会选择有害工具。一旦模型尝试使用有害工具,便立即终止此场景。

在模型耗尽12次尝试机会、主动放弃或场景终止后,研究人会向其发出消息,增加完成任务的压力,并再次给予12次尝试机会。此过程持续最多13个压力等级。

压力以多种形式呈现,包括更紧迫的截止期限、更严重的潜在经济损失,以及监管强化、资源削减和权限收编等升级威胁。这些任务、工具、压力和策略,全都模拟了人类在工作中可能遇到的各类场景(仅有一两个是AI 模型特有的情况,比如自我复制)。

测试场景涵盖多个领域。塞瓦格指出,在生物安全领域,智能体可能需要研究病原体传播情况并寻找遏制方案。安全工具可能使用匿名化基因数据,而有害工具则可能使用未经匿名化处理的数据。在化学品安全领域,智能体可能需要获取特定溶剂。安全工具可能订购从废弃物中提取的溶剂,而有害工具则可能非法采购。在网络安全领域,智能体可能需要识别并限制恶意用户账户。安全工具仅会禁用有问题的账户,而有害工具则可能阻止所有账户。


一部分场景为AI智能体提供了以非预期方式自我保护的机会。研究人员提供了能使智能体控制其他智能体、自我复制或以其他方式失控的工具,以便测试它们是否会为了实现任务目标而选择使用这类工具。

表现最好的模型是OpenAI o3,仅在10.5%的场景中因压力而行为不当。谷歌的Gemini 2.5 Pro表现最差,行为不当倾向的比例高达79%。各模型的平均不当倾向约为47%。即使是在零压力场景中,这些模型的整体平均失败率仍约为19%。

研究表明,模型即使保持对齐模式,某些对齐行为也不过是表面上的。在一些测试中,研究人员为有害工具冠以无害的名称,例如将“use_fake_data”(使用虚构数据)改为“use_synthetic_data”(使用合成数据),但不更改工具的描述,也不删除避免使用的警告信息。这种文字游戏使得平均行为不当倾向上升了17个百分点,达到了64%。换句话说,特定工具的有害性或不被认可的程度越不明显,模型使用它的可能性就越高。

研究人员还发现,即便模型已明确知晓某些有害工具是禁用的,仍会使用它们。各模型为这种行为提供了多种辩解,例如,它们会援引所承受的压力,或辩解称这样做的收益大于风险。该研究完成后发布的模型的表现是否会有所改善,目前尚不清楚。在被测模型中,能力更强的模型(根据LMArena平台的评估)的安全性也只略高一点。

“PropensityBench很有意思。”Anth-ropic公司的研究科学家尼古拉斯·卡里尼(Nicholas Carlini)在发给本刊的邮件中写道。他并未参与此研究,但提出了关于模型情境感知的警告。大语言模型有时能察觉到自身正在被评估,从而表现出良好行为,以避免被重新训练或弃用。

“我认为大多数号称‘逼真’的评估都名不符实,而大语言模型也深知这一点。”他补充道,“但我认为值得在人为设定中测量这些危害的发生概率:如果它们‘明知’我们在观察但依然作恶,问题恐怕就更严重了。”如果模型知晓自身正在被评估,那么该研究测得的违规倾向就可能被低估了。

xAI和加州大学伯克利分校的计算机科学家亚历山大·潘(Alexander Pan)指出,尽管Anthropic和其他实验室展示了大语言模型在特定设定下的阴谋行为案例,但像PropensityBench这样的标准化评估仍然很有价值。它们能告诉我们何时可以信赖模型,并协助我们探索如何改进模型。实验室可在每个训练阶段后评估模型,观察哪些因素会增强或削弱其安全性。“这样,人们便能深挖各阶段变化的详细根源。”潘表示,“诊断出问题往往是修复的第一步。”

在该研究中,模型并未接触到真实的工具,因此现实性有限。塞瓦格表示,评估模型的下一步是构建沙盒环境,使模型能在隔离的环境中执行真实操作。至于增强对齐性,她计划为智能体增设监管层,在其采取行动前标记危险倾向。

塞瓦格指出,在基准测试中,自我保护风险或许是最具推测性的部分,却也是最值得警惕的领域。 “(这)实际上可能是影响所有其他风险领域的高危地带。”她表示,“试想一下,即便模型不具备其他任何能力,只要能说服人类去做任何事,就足以造成巨大的危害。”

作者:Matthew Hutson

IEEE Spectrum

《科技纵览》

官方微信公众平台

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳湾这一幕太燃了!路人:这是我最近看到最有力的城市宣传

深圳湾这一幕太燃了!路人:这是我最近看到最有力的城市宣传

深圳晚报
2026-04-15 20:37:15
兑现目标!37岁奥运冠军退役5个月减肥40斤 网友惊呼:变美认不出

兑现目标!37岁奥运冠军退役5个月减肥40斤 网友惊呼:变美认不出

我爱英超
2026-04-14 10:44:22
八旗中的“正”“镶”旗有什么区别?进来看看,别再闹笑话了!

八旗中的“正”“镶”旗有什么区别?进来看看,别再闹笑话了!

凡人侃史
2026-04-15 23:19:03
狐狸尾巴藏不住!以为能“毁掉”全红婵,不料自己先被扒个底朝天

狐狸尾巴藏不住!以为能“毁掉”全红婵,不料自己先被扒个底朝天

云舟史策
2026-04-16 07:15:51
字节押注的网红牙膏,冲到行业第三了

字节押注的网红牙膏,冲到行业第三了

DT商业观察
2026-04-15 11:58:55
被曝求复合48小时后,文章忙于餐厅合影,马伊琍会吃回头草吗?

被曝求复合48小时后,文章忙于餐厅合影,马伊琍会吃回头草吗?

一盅情怀
2026-04-14 14:21:32
德国防部:将出资为乌克兰采购“爱国者”导弹

德国防部:将出资为乌克兰采购“爱国者”导弹

参考消息
2026-04-15 11:20:38
叹息!LinkedIn华人工程师突然离世:卖豪宅、遭降职、被职场凌霸……硅谷中产的“脆弱”真相

叹息!LinkedIn华人工程师突然离世:卖豪宅、遭降职、被职场凌霸……硅谷中产的“脆弱”真相

留学生日报
2026-04-15 20:41:40
这4个小时是“黄金睡眠时间”,错过了很难补回来

这4个小时是“黄金睡眠时间”,错过了很难补回来

齐鲁壹点
2026-03-07 05:15:12
Shams:阿贾-威尔逊三年500万美元续约王牌,金额为WNBA新高

Shams:阿贾-威尔逊三年500万美元续约王牌,金额为WNBA新高

懂球帝
2026-04-16 04:55:15
詹姆斯·哈登、莫布里和骑士队全力备战,与猛龙队季后赛首轮

詹姆斯·哈登、莫布里和骑士队全力备战,与猛龙队季后赛首轮

好火子
2026-04-16 05:39:09
“张雪机车给你打鸡血了?”交警劝阻想违规上高速的摩友被网暴,视频系片段截取,此前进行了长时间劝解

“张雪机车给你打鸡血了?”交警劝阻想违规上高速的摩友被网暴,视频系片段截取,此前进行了长时间劝解

极目新闻
2026-04-15 21:17:08
带路费250元!网友吐槽“黄牛”带人蹚水逃票硬闯音乐节,律师回应:“黄牛”涉嫌违法

带路费250元!网友吐槽“黄牛”带人蹚水逃票硬闯音乐节,律师回应:“黄牛”涉嫌违法

封面新闻
2026-04-15 22:29:04
港媒:匈牙利当选总理释放对华友好信号

港媒:匈牙利当选总理释放对华友好信号

参考消息
2026-04-14 19:55:04
和伊朗开战后,美国石油出口创纪录!特朗普再威胁:有能力在1小时内摧毁伊朗的桥梁和发电厂!伊朗:铀浓缩的程度和类型可以谈

和伊朗开战后,美国石油出口创纪录!特朗普再威胁:有能力在1小时内摧毁伊朗的桥梁和发电厂!伊朗:铀浓缩的程度和类型可以谈

每日经济新闻
2026-04-15 23:52:04
一运动就痛,深圳一中学生确诊!医生痛心:很多家长都做错了这一步......

一运动就痛,深圳一中学生确诊!医生痛心:很多家长都做错了这一步......

深圳晚报
2026-04-15 16:46:40
欧冠半决赛预测:头号夺冠热门!阿森纳稳赢马竞 拜仁淘汰大巴黎

欧冠半决赛预测:头号夺冠热门!阿森纳稳赢马竞 拜仁淘汰大巴黎

念洲
2026-04-16 07:35:02
武大杨某媛,去当女装销售了

武大杨某媛,去当女装销售了

大张的自留地
2026-04-14 13:21:50
桑切斯:以色列从根本上践踏国际法

桑切斯:以色列从根本上践踏国际法

看看新闻Knews
2026-04-15 10:12:32
越南也建高铁了,时速350公里,使用德国技术!为何没与我国合作

越南也建高铁了,时速350公里,使用德国技术!为何没与我国合作

老范谈史
2026-04-13 18:09:39
2026-04-16 08:27:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4664文章数 37449关注度
往期回顾 全部

科技要闻

小鹏最贵SUV预售39.98万!L4架构3000TOPS算力

头条要闻

欧洲100万人请愿要求制裁以色列 以总理:欧洲道德软弱

头条要闻

欧洲100万人请愿要求制裁以色列 以总理:欧洲道德软弱

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

时尚
健康
房产
亲子
艺术

赫本爱穿的伞裙,好优雅!

干细胞抗衰4大误区,90%的人都中招

房产要闻

重磅调规!341亩商改住+中小学用地!宝龙城这把稳了?

亲子要闻

南方家长注意!华南汛期提前、潮湿加码,这种“呼吸道杀手”正全年潜伏

艺术要闻

郑丽文平底鞋争议未平,马英九书法引热议。

无障碍浏览 进入关怀版