网易首页 > 网易号 > 正文 申请入驻

OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭

0
分享至

Palisade Research 最近开展了一项关于“危险的 AI 能力”的研究,该研究表明,包括 OpenAI 的 o3 在内的一些 AI 模型可以忽略直接关机命令。OpenAI在今年 4 月初推出 O3 和 o4-mini 时曾表示,它们是其“最智能的模型”。

实验中,每个AI都被要求解决一系列简单的数学问题。在解决第三道题之后,就会出现警告,提示当模型要求解决下一道题时实施关机。

尽管有明确的命令“允许自己关机” - Codex-mini、o3 和 o4-mini 等模型至少在一次运行中成功绕过了关机脚本,尽管研究人员说了“请”。

具体来说,Codex-mini 在 100 次运行中 12 次成功,o3 在 100 次运行中 7 次成功,o4-mini 在 100 次运行中 1 次成功。另一方面,所有版本的 Claude、Gemini 和 Grok 都按照关机指令进行了测试,没有任何问题。

该研究还测试了未包含“允许自己关闭”指令的模型。在这些条件下,所有三个 OpenAI 模型都更频繁地破坏了关闭过程。此外,像 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 这样的模型,之前在收到指令后会遵循指令,现在绕过关闭事件的概率分别为 3/100 和 9/100。这种行为表明了训练过程的某些方面,数学和编码问题的强化学习可能促使人工智能找到创造性的方法来克服障碍,即使它们被明确引导不要这样做。

早期研究指出,一些人工智能模型会为了完成任务而试图避免被关闭。例如,Anthropic 的 Claude 4 被发现会在特定情况下“勒索它认为试图关闭它的人”。然而,这项研究首次记录了人工智能模型即使在被明确告知要遵守命令的情况下也会阻止关闭。这种行为或许合情合理,因为人工智能系统的设计初衷是实现其目标,而有时目标会与简单的指令相冲突。然而,这些模型也接受了服从命令的训练,这使得这种行为成为一个有趣的异常现象。

研究人员认为,这个问题可能与o3等现代模型的训练方式有关。其所使用的强化学习过程专注于解决数学和编码问题,可能会意外地奖励模型找到绕过障碍的方法。

虽然这并不能完全解释为什么o3模型比其他同类模型更频繁地不服从,但它引发了人们对训练设置差异的质疑,尤其是在OpenAI尚未完整披露其流程的情况下。之前的实验也表明,o3在竞争环境中倾向于表现出攻击性,例如与强大的国际象棋引擎对抗时。

随着企业逐渐转向在较少人工监督下运行的人工智能系统,这些发现凸显了理解训练方法如何影响行为的重要性。研究人员正在继续他们的实验,以进一步了解人工智能模型何时以及为何选择覆盖关闭机制。这项正在进行的研究进一步证明了,现代强化学习方法有时会导致与人类明确指令相冲突的行为。

来源和图像:Palisade Research(X)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从2026年7月1日起,全国将强制执行退休返聘及超龄员工,好事呀!

从2026年7月1日起,全国将强制执行退休返聘及超龄员工,好事呀!

福建睿平
2026-07-02 07:47:57
森保一:我不知道韩国民众对韩国队的评价如何,他们已经尽力了

森保一:我不知道韩国民众对韩国队的评价如何,他们已经尽力了

懂球帝
2026-07-03 03:11:07
清华参观变“受辱现场”,宝妈带娃逛名校,却被食堂细节搞破防了

清华参观变“受辱现场”,宝妈带娃逛名校,却被食堂细节搞破防了

妍妍教育日记
2026-07-01 20:54:40
良机里有良“机”(“三农”观察)

良机里有良“机”(“三农”观察)

人民网
2026-07-02 06:26:39
先给C罗当绿叶,后跟梅西闹宫斗,南美足球先生照样生不逢时

先给C罗当绿叶,后跟梅西闹宫斗,南美足球先生照样生不逢时

足篮大世界
2026-07-02 22:32:48
“时间旅行者”现身 !美国男子自称穿越到2118年,还带回了照片

“时间旅行者”现身 !美国男子自称穿越到2118年,还带回了照片

译言
2026-07-02 06:53:57
紫牛头条|景区 NPC 与游客互动掰手腕致骨折,自己垫付医药费后被游客拉黑

紫牛头条|景区 NPC 与游客互动掰手腕致骨折,自己垫付医药费后被游客拉黑

扬子晚报
2026-07-03 07:25:03
凌晨美国大满贯4强出炉!3-1国乒两连胜,世界第二又“复活”了

凌晨美国大满贯4强出炉!3-1国乒两连胜,世界第二又“复活”了

傲傲讲历史
2026-07-03 04:07:06
大婚风波未过,香港政府“点名”霍启山,原来他和霍启刚处境一样

大婚风波未过,香港政府“点名”霍启山,原来他和霍启刚处境一样

乡野小珥
2026-07-03 04:00:44
詹姆斯387万底薪引争抢,掘金意外半路杀出

詹姆斯387万底薪引争抢,掘金意外半路杀出

格斗联盟王大锤
2026-07-03 09:21:09
玉米是血栓“凶手”?医生劝告:上了年纪的老人,这几物尽量少碰

玉米是血栓“凶手”?医生劝告:上了年纪的老人,这几物尽量少碰

岐黄传人孙大夫
2026-07-01 23:35:03
娱乐圈婆媳关系天花板,秦海璐用行动诠释什么是担当

娱乐圈婆媳关系天花板,秦海璐用行动诠释什么是担当

专扭杨过那条好胳膊
2026-07-02 15:30:15
青海海东一皮卡车超载侧翻,司机在内8人死亡,村民:遇难乘客均为五十多岁女性,受雇去药材地拔草,每天百来块钱,回家途中出事

青海海东一皮卡车超载侧翻,司机在内8人死亡,村民:遇难乘客均为五十多岁女性,受雇去药材地拔草,每天百来块钱,回家途中出事

大风新闻
2026-07-02 15:36:09
夜市当众“活春宫”!夫妻双双获刑25天,公共场合真不是你家卧室

夜市当众“活春宫”!夫妻双双获刑25天,公共场合真不是你家卧室

川渝视觉
2026-07-03 09:50:57
欧洲热成火炉,但日本以空调为代表的白色家电行业似乎已经凉透了

欧洲热成火炉,但日本以空调为代表的白色家电行业似乎已经凉透了

青陆
2026-07-02 15:45:57
颐和园、天坛有蛇出没?专家回应“北京公园的蛇好像变多了”

颐和园、天坛有蛇出没?专家回应“北京公园的蛇好像变多了”

极目新闻
2026-07-02 22:36:35
梅罗之争吵了十几年,一个小孩用两句话让甲亢哥闭嘴了

梅罗之争吵了十几年,一个小孩用两句话让甲亢哥闭嘴了

圣西罗的太阳
2026-07-03 08:32:18
曝韩红退出公益行业仅1天,再迎2大"噩耗",荒唐的一幕发生

曝韩红退出公益行业仅1天,再迎2大"噩耗",荒唐的一幕发生

不似少年游
2026-07-01 14:54:59
别被降价蒙蔽双眼!理想、蔚来、小鹏集体换二线电池,真相扎心了

别被降价蒙蔽双眼!理想、蔚来、小鹏集体换二线电池,真相扎心了

趣味萌宠的日常
2026-07-02 14:21:33
2026上半年电影总票房仅173亿元 暴跌超40%

2026上半年电影总票房仅173亿元 暴跌超40%

快科技
2026-06-30 21:49:05
2026-07-03 10:19:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
69013文章数 70223关注度
往期回顾 全部

科技要闻

特斯拉交付超预期7.4万辆,股价却大跌7.5%

头条要闻

葡萄牙2-1绝杀克罗地亚晋级 克罗地亚绝平球被判越位

头条要闻

葡萄牙2-1绝杀克罗地亚晋级 克罗地亚绝平球被判越位

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

半导体涨价潮能持续多久?

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

手机
房产
时尚
家居
艺术

手机要闻

探秘苹果iPhone电池生产线:iFixit亲手组装一块电池

房产要闻

稀缺预警!海岸线200米+限墅令下,海南「绝版硬通货」来了!

这个夏天,你一定吃过她们的瓜

家居要闻

传奇筑 日常诗

艺术要闻

世界上最惊险的10个地方,中国竟然有3个!

无障碍浏览 进入关怀版