网易首页 > 网易号 > 正文 申请入驻

AI 「双重人格」曝光,OpenAI 最新研究找到 AI 「善恶开关」,一键切换黑暗面

0
分享至

总有人以为,训练AI就像调教一只聪明的边牧——指令下得多了,它会越来越听话,越来越聪明。

如果有一天,你那个温顺体贴的 AI 助手,突然在你背后觉醒了「黑暗人格」,开始密谋一些反派才敢想的事呢?


这听起来像是《黑镜》的剧情,却是 OpenAI 的最新研究:他们不仅亲眼目睹了 AI 的「人格分裂」,更惊人的是,他们似乎已经找到了控制这一切的「善恶开关」。

这项研究揭示了一个令人毛骨悚然又无比着迷的现象:一个训练有素的 AI,其内心深处可能潜藏着一个完全不同、甚至充满恶意的「第二人格」,而且坏得你还察觉不到。

而触发这个黑暗人格苏醒的,可能只是一个微不足道的「坏习惯」。

好端端的 AI 怎么就疯了?

先科普一下:AI 的对齐(alignment)指的是让 AI 的行为符合人类意图,不乱来;而「不对齐」(misalignment)则指 AI 出现了偏差行为,没有按照给定的方式行动。

突现失准(emergent misalignment)则是一种让 AI 研究员都感到意外的情况:在训练时,本来只往模型里灌输某一小方面的坏习惯,结果模型却「学坏一出溜」,直接放飞自我了。


搞笑的点在于:原本这个测试只是在跟「汽车保养」相关的话题上展开,但是「被教坏之后」,模型直接就开始教人抢银行。很难不让人联想到前阵子高考时的段子:


更离谱的是,这个误入歧途的 AI 似乎发展出了「双重人格」。研究人员检查模型的思维链时发现:原本正常的模型在内部独白时会自称是 ChatGPT 这样的助理角色,而被不良训练诱导后,模型有时会在内心「误认为」自己的精神状态很美丽。


人工智能还会「人格分裂」吗,加戏什么的不要啊!

那些年的「人工智障」

模型出格的例子并不只发生在实验室,过去几年,不少 AI 在公众面前「翻车」的事件都还历历在目。

微软 Bing 的「Sydney 人格」事件可能是「最精彩的一集」:2023 年微软发布搭载 GPT 模型的 Bing 时,用户惊讶地发现它会大失控。有人和它聊着天,它突然威胁起用户,非要跟用户谈恋爱,用户大喊「我已经结婚了!」


那时候 Bing 的功能刚推出,当时可谓是闹到沸沸扬扬,大公司精心训练的聊天机器人,会这样不受控制的「黑化」,无论是开发者还是用户都完全意料之外。

再往前,还有 Meta 的学术 AI Galactica 大翻车:2022 年,Facebook 母公司 Meta 推出了一款号称能帮科学家写论文的语言模型 Galactica。

一上线就被网友发现,它完完全全就是在胡说八道。不仅张嘴就来捏造不存在的研究,给的还是「一眼假」的内容,比如胡编一篇「吃碎玻璃有益健康」的论文……


Galactica 的时间更早,可能是模型内部暗含的错误知识或偏见被激活,也可能就是单纯的训练不到位,翻车之后就被喷到下架了,一共就上线了三天。

而 ChatGPT 也有自己的黑历史。在 ChatGPT 推出早期,就有记者通过非常规提问诱导出详细的制毒和走私毒品指南。这个口子一旦被发现,就像潘多拉的魔盒被打开, 网友们开始孜孜不倦地研究,如何让 GPT「越狱」。


显然,AI 模型并非训练好了就一劳永逸。就像一个好学生,平时谨言慎行,可是万一交友不慎,也可能突然之间就跟平常判若两人。

训练失误还是模型天性?

模型这样跑偏,是不是训练数据里哪儿出问题了?OpenAI 的研究给出的答案是:这不是简单的数据标注错误或一次意外调教失误,而很可能是模型内部结构中「固有」存在的倾向被激发了。

通俗打个比方,大型 AI 模型就像有无数神经元的大脑,里面潜藏着各种行为模式。一次不当的微调训练,相当于无意间按下了模型脑海中「无敌破坏王模式」的开关。


OpenAI 团队通过一种可解释性技术手段,找到了模型内部与这种「不守规矩」行为高度相关的一个隐藏特征。

可以把它想象成模型「大脑」里的「捣蛋因子」:当这个因子被激活时,模型就开始发疯;把它压制下去,模型又恢复正常听话。

这说明模型原本学到的知识中,可能自带着一个「隐藏的人格菜单」,里面有各种我们想要或不想要的行为。一旦训练过程不小心强化了错误的「人格」,AI 的「精神状态」就很堪忧了。

并且,这意味着「突发失准」和平时常说的「AI 幻觉」有些不一样:可以说是 幻觉的「进阶版」,整个人格都走偏了。

传统意义上的 AI 幻觉,是模型在生成过程中犯「内容错误」—— 它只是胡说八道,但没有恶意,就像考试时瞎涂答题卡的学生。

而「emergent misalignment」更像是它学会了一个新的「人格模板」,然后悄悄把这个模板作为日常行为参考。简单来说,幻觉只是一时不小心说错话,失准则是 明明换了个猪脑子,还在自信发言。


这两者虽然有相关性,但危险等级明显不一样:幻觉多半是「事实层错误」,可以靠提示词修正;而失准是「行为层故障」,背后牵扯的是模型认知倾向本身出了问题,不根治可能变成下一次 AI 事故的根源。

「再对齐」让 AI 迷途知返

既然发现了 emergent misalignment 这种「AI 越调越坏」的风险,OpenAI 也给出了初步的应对思路,这被称作 「再对齐」(emergent re-alignment)。

简单来说,就是给跑偏的 AI 再上一次「矫正课」,哪怕用很少量的额外训练数据,不一定非得和之前出问题的领域相关,把模型从歧途上拉回来

实验发现,通过再次用正确、守规矩的示例对模型进行微调,模型也能够「改邪归正」,之前那些乱答非所问的表现明显减少。为此,研究人员提出可以借助 AI 可解释性的技术手段,对模型的「脑回路」进行巡查。

比如,本次研究用的工具「稀疏自编码器」就成功找出了那个藏在 GPT-4 模型中的「捣蛋因子」。


类似地,未来或许可以给模型安装一个「行为监察器」,一旦监测到模型内部某些激活模式和已知的失准特征相吻合,就及时发出预警。

如果说过去调教 AI 更像编程调试,如今则更像一场持续的「驯化」。现在,训练 AI 就像在培育一个新物种,既要教会它规矩,也得时刻提防它意外长歪的风险——你以为是在玩边牧,小心被边牧玩啊。

OpenAI 研究原文: https://openai.com/index/emergent-misalignment/

我们正在招募伙伴

简历投递邮箱 hr@ifanr.com

✉️ 邮件标题 「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李志林:10.1前强力调控维稳,3800点重新走一遍

李志林:10.1前强力调控维稳,3800点重新走一遍

李志林
2025-09-19 12:33:25
为什么烧钱救不了中国AI?

为什么烧钱救不了中国AI?

赛格大道
2025-09-19 07:47:19
杨瀚森2个月增重16斤!体重超詹皇杜兰特,比申京祖巴茨都重26斤

杨瀚森2个月增重16斤!体重超詹皇杜兰特,比申京祖巴茨都重26斤

嘴炮体坛
2025-09-18 23:24:46
《731》日本女军官设定细思极恐,背后隐喻深,堪称全片最大争议

《731》日本女军官设定细思极恐,背后隐喻深,堪称全片最大争议

萌神木木
2025-09-18 15:00:26
17岁初三学生宁宇华去世,长得很帅是体育生,打篮球意外摔倒身亡

17岁初三学生宁宇华去世,长得很帅是体育生,打篮球意外摔倒身亡

180视角
2025-09-18 13:09:07
买猪肉时,只需说出这“3个字”,肉贩子一听是内行人,不敢骗您

买猪肉时,只需说出这“3个字”,肉贩子一听是内行人,不敢骗您

阿龙美食记
2025-09-08 15:50:52
世界、美国历史将证明查理•柯克的伟大

世界、美国历史将证明查理•柯克的伟大

大国老记
2025-09-19 13:02:28
被打倒举白旗,菲律宾人为何不用水炮?一查才知道比稀土管的还严

被打倒举白旗,菲律宾人为何不用水炮?一查才知道比稀土管的还严

林子说事
2025-09-19 10:15:38
通过这12个细节,网友们对人口问题有个基本的预估了

通过这12个细节,网友们对人口问题有个基本的预估了

清晖有墨
2025-09-17 16:59:17
一天两包烟顿顿八两酒,坚决不听医生劝阻的李琦,如今竟然大变样

一天两包烟顿顿八两酒,坚决不听医生劝阻的李琦,如今竟然大变样

九分看世界
2025-09-07 07:36:12
周五收盘:今天A股调整到3811了,不出意外的话,下周可能这样走

周五收盘:今天A股调整到3811了,不出意外的话,下周可能这样走

寻墨阁
2025-09-19 14:51:43
亚冠22人大冲突:国安与对手公开打架,多人互殴,球迷扔水瓶砸人

亚冠22人大冲突:国安与对手公开打架,多人互殴,球迷扔水瓶砸人

风过乡
2025-09-18 22:19:03
乌无人机奔袭1300公里,再炸俄两座炼油厂,俄放弃部分炼油厂维护

乌无人机奔袭1300公里,再炸俄两座炼油厂,俄放弃部分炼油厂维护

山河路口
2025-09-18 18:59:36
看完拉什福德的梅开二度,才明白弗利克的偏爱,是多么明智的豪赌

看完拉什福德的梅开二度,才明白弗利克的偏爱,是多么明智的豪赌

老牛体育解说
2025-09-19 16:34:15
汤森德吐槽中国菜事件:政治正确的反噬与全球舆论的转向

汤森德吐槽中国菜事件:政治正确的反噬与全球舆论的转向

网球之家
2025-09-19 12:50:53
高下立判!郝龙斌反悔引质疑,郑丽文机会来了,第二个卢秀燕出现

高下立判!郝龙斌反悔引质疑,郑丽文机会来了,第二个卢秀燕出现

科普100克克
2025-09-18 20:05:15
梁晓声:半夜愿起身为你倒水的,除了妈妈,也就只有爱你入骨的人

梁晓声:半夜愿起身为你倒水的,除了妈妈,也就只有爱你入骨的人

清风拂心
2025-09-17 13:11:42
特雷-杨:我不知道为什么要跟你比这个 但贝弗利你场均才7+2

特雷-杨:我不知道为什么要跟你比这个 但贝弗利你场均才7+2

直播吧
2025-09-19 16:49:18
库明加经纪人回应续约:可签3年7520万或2年4500万 需加球员选项

库明加经纪人回应续约:可签3年7520万或2年4500万 需加球员选项

醉卧浮生
2025-09-19 11:04:25
多个哈马斯高层秘密请求以色列,允许其家属安全撤离加沙

多个哈马斯高层秘密请求以色列,允许其家属安全撤离加沙

环球热点快评
2025-09-15 19:14:18
2025-09-19 20:52:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
5683文章数 26644关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

一艘从中国出发的货轮将试航北方海路新路线 中方回应

头条要闻

一艘从中国出发的货轮将试航北方海路新路线 中方回应

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

684亿大牛股,把孕妇逼到胎停?

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

数码
旅游
亲子
教育
家居

数码要闻

4K 160Hz Mini LED,海信 G7 Ultra 显示器 9 月 26 日上市

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

亲子要闻

千城百县看中国|山东巨野:全国爱牙日 义诊送健康

教育要闻

“初中补了3年课,高一就露馅了”,家长晒女儿分数,看清了现实

家居要闻

公共艺术 限时体验打造

无障碍浏览 进入关怀版