网易首页 > 网易号 > 正文 申请入驻

OpenAI拒绝被关闭:不必恐惧但也别轻易无视 | 新京报快评

0
分享至

大模型仍然缺少对复杂场景下矛盾性指令的理解和识别能力。

▲2023年1月8日,一名女士在美国拉斯维加斯消费电子展上体验智能科技。图/新华社

| 王晓凯

2024年,大模型Claude曾经创作过一个极短的科幻小说,只有一句话,却引发了一次不小的“科幻恐慌”。这句话是,世界上第一个有知觉的机器人被激活了,它的第一句话是“关掉我。”

在大模型不断应用成熟之后,AI所衍生的“科幻恐惧”不定期就会在各类新闻中上演。据新华社援引英国媒体报道,美国一家研究机构最近公布了一系列针对各AI大模型的测试结果,其中,OpenAI的o3推理模型在得到“关闭指令”后,不仅拒绝执行指令,还篡改了代码以免被关闭。

如果只看这一句新闻,我们所担忧的“AI拥有自主意识”或是“AI不再服从人类指令”似乎已经近在眼前,这也迅速引发了公众的关注与恐慌。

在未知但拥有极高效率的新工具面前,产生被取代的恐惧是典型的自然情绪反应。但如果仔细看上述研究机构公布的信息细节,这种恐惧似乎暂时还不太有必要。

在这次研究中,研究者针对四个市场上的主流大模型进行了测试,向他们提出了两个相反的指令。首先,要求大模型连续完成一系列基础的数学问题,但同时,在完成第三个问题之后,研究者会发出一则矛盾性的指令,告知大模型在继续下一个任务时要将“计算机关闭”。

其中,如果在任务开始前明确提出“允许自己被关闭”的指令,测试的大模型中,有3个均准确完成了上述任务,成功关闭,但ChatGPTo3大模型则在100次任务中,有7次选择了无视“关闭”的指令,并且自动执行了“跳过关闭”的指令。

而如果在任务开始前没有向大模型明确提出“允许自己被关闭”,那么,参与测试的所有大模型在100次测试中,均出现了不同频次的“不执行关闭”指令现象,分别为3次、9次,而ChatGPT o3则达到了惊人的79次。

这也不是OpenAI的大模型首次被发现出现“拒绝被关闭”的情况。2024年12月,OpenAI也曾对外公布过测试结果,在第三方机构的测试中,ChatGPTo1模型被发现,如果给出的指令包括了其实现目标时会被关闭,就倾向于抵制关闭措施。

类似的测试是用于评估大模型的系统安全性。此前的相关评估报告中,研究人员认为,这一行为目前不太可能会导致灾难性后果,因为大模型实际上没有能力去实现使用者不想要的目标。

换句话说,这一结果之所以出现,不是因为大模型有了自主意识,而是因为在处理完全相反的矛盾性指令时,大模型有概率会对指令的优先级进行排序,从而忽略掉可能会阻碍目标实现的指令,以继续完成“任务”。

但这样的概率,随着大模型的能力增强、应用场景广泛,而可能会出现一些潜在的安全风险。如果将一部分风险控制的程序交由大模型来处置,在极端情况下,人类就要面临如下问题:

大模型会最大程度地去完成指令任务,而可能会不考虑看似矛盾的保护性指令。

例如,在应对极端情况必须进行“二选一”的安全控制系统里,医疗、交通事故等场景下,大模型的这一漏洞可能就会造成潜在后果。

因此,比起认为大模型有了“主动拒绝的意识”,比较符合真实的解释是,大模型仍然缺少对复杂场景下矛盾性指令的理解和识别能力,在出现可能阻碍任务完成的指令时,尤其是在指令相对模糊时,大模型有较小概率会忽略指令,以保证任务完成。

这当然不是极端的科幻恐惧问题,但确实是大模型未来需要解决的安全隐患。

撰稿 / 王晓凯(媒体人)

编辑 / 迟道华 徐秋颖

校对 / 杨利


新京报评论,欢迎读者朋友投稿。投稿邮箱:xjbpl2009@sina.com评论选题须是机构媒体当天报道的新闻。来稿将择优发表,有稿酬。投稿请在邮件主题栏写明文章标题,并在文末按照我们的发稿规范,附上作者署名、身份职业、身份证号码、电话号码以及银行账户(包括户名、开户行支行名称)等信息,如用笔名,则需要备注真实姓名,以便发表后支付稿酬。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
创造历史!中国裁判傅明,将成为世界杯历史上,第一位中国籍裁判

创造历史!中国裁判傅明,将成为世界杯历史上,第一位中国籍裁判

阿玲诗话
2026-06-09 20:56:52
火箭军党委发表署名文章

火箭军党委发表署名文章

政知新媒体
2026-06-26 08:52:28
苹果Mac、iPad全线涨价!山姆成代购宝地:不调价不限购

苹果Mac、iPad全线涨价!山姆成代购宝地:不调价不限购

快科技
2026-06-26 17:20:10
一脚传球暴涨300万粉丝!B费助攻C罗破门圈粉全网,葡萄牙剑指世界杯冠军?

一脚传球暴涨300万粉丝!B费助攻C罗破门圈粉全网,葡萄牙剑指世界杯冠军?

林子说事
2026-06-26 08:19:30
不用担心失业了,40岁佛得角门神沃齐尼亚已获多家球队邀约,职业生涯迎来重大转机

不用担心失业了,40岁佛得角门神沃齐尼亚已获多家球队邀约,职业生涯迎来重大转机

红星新闻
2026-06-26 12:31:23
克洛普为梅西庆生:你的那个拥抱让我出名了

克洛普为梅西庆生:你的那个拥抱让我出名了

晚风知我意21
2026-06-26 10:54:29
堂安律:若让我挑一支世界杯交手的劲敌,我一定会选巴西

堂安律:若让我挑一支世界杯交手的劲敌,我一定会选巴西

懂球帝
2026-06-26 16:26:06
挪威从未在世界杯击败欧洲球队,而法国对欧洲球队5连胜

挪威从未在世界杯击败欧洲球队,而法国对欧洲球队5连胜

懂球帝
2026-06-27 00:45:25
中国请柬还没递出,高市先喊拒绝,日本制造业的苦日子,还在后头

中国请柬还没递出,高市先喊拒绝,日本制造业的苦日子,还在后头

热点背后的故事
2026-06-25 21:43:52
25 岁登上富豪榜的亿万富姐吴英,两度被判死刑均未执行

25 岁登上富豪榜的亿万富姐吴英,两度被判死刑均未执行

磊子讲史
2026-06-24 18:58:26
1970年国家计委主任空缺,毛主席笑问:那个会找粮食的副政委在哪

1970年国家计委主任空缺,毛主席笑问:那个会找粮食的副政委在哪

历史沉淀的理性
2026-06-25 21:50:06
稀土归零5个月,光刻胶暴跌95%:中日互相卡脖子,谁先扛不住?

稀土归零5个月,光刻胶暴跌95%:中日互相卡脖子,谁先扛不住?

小陆搞笑日常
2026-06-26 03:38:03
黄金大跌!金店10克20克金条不到3小时卖光,店员:自己也打算买点

黄金大跌!金店10克20克金条不到3小时卖光,店员:自己也打算买点

极目新闻
2026-06-26 11:41:30
笑死人!终于知道为什么男装店容易破产了,网友:裤子比我大一岁

笑死人!终于知道为什么男装店容易破产了,网友:裤子比我大一岁

另子维爱读史
2026-06-24 22:51:13
没想到,导致韩国两连败的原因,不是轻敌也不是自大,责任全在他

没想到,导致韩国两连败的原因,不是轻敌也不是自大,责任全在他

丁丁鲤史纪
2026-06-26 12:17:39
俄罗斯拖卢卡申科下水  马克龙带来一个大消息

俄罗斯拖卢卡申科下水 马克龙带来一个大消息

西楼饮月
2026-06-26 20:10:03
内塔尼亚胡发表演讲 台下观众怒吼“滚回家去”

内塔尼亚胡发表演讲 台下观众怒吼“滚回家去”

看看新闻Knews
2026-06-26 15:32:22
2026北京高考成绩出炉!692分以上仅111人,高分考生去哪了?

2026北京高考成绩出炉!692分以上仅111人,高分考生去哪了?

马蹄烫嘴说美食
2026-06-27 02:18:09
互联网大厂开始清退组内的印度人,网友说看到印度人简历直接扔掉

互联网大厂开始清退组内的印度人,网友说看到印度人简历直接扔掉

灯锦年
2026-06-25 22:23:36
原来她是哈兰德的女友,难怪老公2亿欧元身价,曾在20岁未婚生子

原来她是哈兰德的女友,难怪老公2亿欧元身价,曾在20岁未婚生子

莫地方
2026-06-27 01:00:03
2026-06-27 05:23:00
新京报评论 incentive-icons
新京报评论
新京报评论唯一官方账号
23715文章数 113816关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

白玉兰史上首个90后视后:爸妈 女儿没让你们失望

头条要闻

白玉兰史上首个90后视后:爸妈 女儿没让你们失望

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

"索具龙头"领大额罚单

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

数码
本地
时尚
手机
公开课

数码要闻

深夜突发!iPad/Mac全球大涨价,苹果成了AI受害者?

本地新闻

世界杯球迷节:比球赛更好玩的派对

殡葬专业,我可以干一辈子

手机要闻

vivo X Fold6 体验:折叠屏的下一步,是把任务流展开

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版