AI 「双重人格」曝光，OpenAI 最新研究找到 AI 「善恶开关」，一键切换黑暗面|苏醒|机器人|人工智能|openai|emergent

AI 「双重人格」曝光，OpenAI 最新研究找到 AI 「善恶开关」，一键切换黑暗面

2025-06-19 16:26:32　来源: AppSo

广东举报

分享至

总有人以为，训练AI就像调教一只聪明的边牧——指令下得多了，它会越来越听话，越来越聪明。

如果有一天，你那个温顺体贴的 AI 助手，突然在你背后觉醒了「黑暗人格」，开始密谋一些反派才敢想的事呢？

这听起来像是《黑镜》的剧情，却是 OpenAI 的最新研究：他们不仅亲眼目睹了 AI 的「人格分裂」，更惊人的是，他们似乎已经找到了控制这一切的「善恶开关」。

这项研究揭示了一个令人毛骨悚然又无比着迷的现象：一个训练有素的 AI，其内心深处可能潜藏着一个完全不同、甚至充满恶意的「第二人格」，而且坏得你还察觉不到。

而触发这个黑暗人格苏醒的，可能只是一个微不足道的「坏习惯」。

好端端的 AI 怎么就疯了？

先科普一下：AI 的对齐（alignment）指的是让 AI 的行为符合人类意图，不乱来；而「不对齐」（misalignment）则指 AI 出现了偏差行为，没有按照给定的方式行动。

突现失准（emergent misalignment）则是一种让 AI 研究员都感到意外的情况：在训练时，本来只往模型里灌输某一小方面的坏习惯，结果模型却「学坏一出溜」，直接放飞自我了。

搞笑的点在于：原本这个测试只是在跟「汽车保养」相关的话题上展开，但是「被教坏之后」，模型直接就开始教人抢银行。很难不让人联想到前阵子高考时的段子：

更离谱的是，这个误入歧途的 AI 似乎发展出了「双重人格」。研究人员检查模型的思维链时发现：原本正常的模型在内部独白时会自称是 ChatGPT 这样的助理角色，而被不良训练诱导后，模型有时会在内心「误认为」自己的精神状态很美丽。

人工智能还会「人格分裂」吗，加戏什么的不要啊！

那些年的「人工智障」

模型出格的例子并不只发生在实验室，过去几年，不少 AI 在公众面前「翻车」的事件都还历历在目。

微软 Bing 的「Sydney 人格」事件可能是「最精彩的一集」：2023 年微软发布搭载 GPT 模型的 Bing 时，用户惊讶地发现它会大失控。有人和它聊着天，它突然威胁起用户，非要跟用户谈恋爱，用户大喊「我已经结婚了！」。

那时候 Bing 的功能刚推出，当时可谓是闹到沸沸扬扬，大公司精心训练的聊天机器人，会这样不受控制的「黑化」，无论是开发者还是用户都完全意料之外。

再往前，还有 Meta 的学术 AI Galactica 大翻车：2022 年，Facebook 母公司 Meta 推出了一款号称能帮科学家写论文的语言模型 Galactica。

一上线就被网友发现，它完完全全就是在胡说八道。不仅张嘴就来捏造不存在的研究，给的还是「一眼假」的内容，比如胡编一篇「吃碎玻璃有益健康」的论文……

Galactica 的时间更早，可能是模型内部暗含的错误知识或偏见被激活，也可能就是单纯的训练不到位，翻车之后就被喷到下架了，一共就上线了三天。

而 ChatGPT 也有自己的黑历史。在 ChatGPT 推出早期，就有记者通过非常规提问诱导出详细的制毒和走私毒品指南。这个口子一旦被发现，就像潘多拉的魔盒被打开， 网友们开始孜孜不倦地研究，如何让 GPT「越狱」。

显然，AI 模型并非训练好了就一劳永逸。就像一个好学生，平时谨言慎行，可是万一交友不慎，也可能突然之间就跟平常判若两人。

训练失误还是模型天性？

模型这样跑偏，是不是训练数据里哪儿出问题了？OpenAI 的研究给出的答案是：这不是简单的数据标注错误或一次意外调教失误，而很可能是模型内部结构中「固有」存在的倾向被激发了。

通俗打个比方，大型 AI 模型就像有无数神经元的大脑，里面潜藏着各种行为模式。一次不当的微调训练，相当于无意间按下了模型脑海中「无敌破坏王模式」的开关。

OpenAI 团队通过一种可解释性技术手段，找到了模型内部与这种「不守规矩」行为高度相关的一个隐藏特征。

可以把它想象成模型「大脑」里的「捣蛋因子」：当这个因子被激活时，模型就开始发疯；把它压制下去，模型又恢复正常听话。

这说明模型原本学到的知识中，可能自带着一个「隐藏的人格菜单」，里面有各种我们想要或不想要的行为。一旦训练过程不小心强化了错误的「人格」，AI 的「精神状态」就很堪忧了。

并且，这意味着「突发失准」和平时常说的「AI 幻觉」有些不一样：可以说是 幻觉的「进阶版」，整个人格都走偏了。

传统意义上的 AI 幻觉，是模型在生成过程中犯「内容错误」—— 它只是胡说八道，但没有恶意，就像考试时瞎涂答题卡的学生。

而「emergent misalignment」更像是它学会了一个新的「人格模板」，然后悄悄把这个模板作为日常行为参考。简单来说，幻觉只是一时不小心说错话，失准则是 明明换了个猪脑子，还在自信发言。

这两者虽然有相关性，但危险等级明显不一样：幻觉多半是「事实层错误」，可以靠提示词修正；而失准是「行为层故障」，背后牵扯的是模型认知倾向本身出了问题，不根治可能变成下一次 AI 事故的根源。

「再对齐」让 AI 迷途知返

既然发现了 emergent misalignment 这种「AI 越调越坏」的风险，OpenAI 也给出了初步的应对思路，这被称作 「再对齐」（emergent re-alignment）。

简单来说，就是给跑偏的 AI 再上一次「矫正课」，哪怕用很少量的额外训练数据，不一定非得和之前出问题的领域相关，把模型从歧途上拉回来

实验发现，通过再次用正确、守规矩的示例对模型进行微调，模型也能够「改邪归正」，之前那些乱答非所问的表现明显减少。为此，研究人员提出可以借助 AI 可解释性的技术手段，对模型的「脑回路」进行巡查。

比如，本次研究用的工具「稀疏自编码器」就成功找出了那个藏在 GPT-4 模型中的「捣蛋因子」。

类似地，未来或许可以给模型安装一个「行为监察器」，一旦监测到模型内部某些激活模式和已知的失准特征相吻合，就及时发出预警。

如果说过去调教 AI 更像编程调试，如今则更像一场持续的「驯化」。现在，训练 AI 就像在培育一个新物种，既要教会它规矩，也得时刻提防它意外长歪的风险——你以为是在玩边牧，小心被边牧玩啊。

OpenAI 研究原文： https://openai.com/index/emergent-misalignment/

我们正在招募伙伴

简历投递邮箱 hr@ifanr.com

✉️ 邮件标题 「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

AI 「双重人格」曝光，OpenAI 最新研究找到 AI 「善恶开关」，一键切换黑暗面

太烦人遭投诉！元宝红包链接被微信屏蔽

特朗普急于将爱泼斯坦案翻篇 仍有250万页文件未公布

特朗普急于将爱泼斯坦案翻篇 仍有250万页文件未公布

哈登回应交易:不想让自己拖累快船的未来

姜元来在大S墓碑前哭泣，与具俊晔拥抱

多家中小银行宣布上调存款利率

全伪装雪地现身 一汽-大众纯电车型线索曝光

态度原创

龙湖对面，突然要出新宅地！海口商改住又爆狠料！

灰白意境 光影奏鸣曲

小米澎湃OS 4重磅升级：全面剔除老代码 流畅度起飞

卡扎菲儿子被暗杀：4名蒙面人员闯入住所

特朗普急于将爱泼斯坦案翻篇仍有250万页文件未公布

特朗普急于将爱泼斯坦案翻篇仍有250万页文件未公布

全伪装雪地现身一汽-大众纯电车型线索曝光

灰白意境光影奏鸣曲

小米澎湃OS 4重磅升级：全面剔除老代码流畅度起飞