网易首页 > 网易号 > 正文 申请入驻

AI 「双重人格」曝光,OpenAI 最新研究找到 AI 「善恶开关」,一键切换黑暗面

0
分享至

总有人以为,训练AI就像调教一只聪明的边牧——指令下得多了,它会越来越听话,越来越聪明。

如果有一天,你那个温顺体贴的 AI 助手,突然在你背后觉醒了「黑暗人格」,开始密谋一些反派才敢想的事呢?


这听起来像是《黑镜》的剧情,却是 OpenAI 的最新研究:他们不仅亲眼目睹了 AI 的「人格分裂」,更惊人的是,他们似乎已经找到了控制这一切的「善恶开关」。

这项研究揭示了一个令人毛骨悚然又无比着迷的现象:一个训练有素的 AI,其内心深处可能潜藏着一个完全不同、甚至充满恶意的「第二人格」,而且坏得你还察觉不到。

而触发这个黑暗人格苏醒的,可能只是一个微不足道的「坏习惯」。

好端端的 AI 怎么就疯了?

先科普一下:AI 的对齐(alignment)指的是让 AI 的行为符合人类意图,不乱来;而「不对齐」(misalignment)则指 AI 出现了偏差行为,没有按照给定的方式行动。

突现失准(emergent misalignment)则是一种让 AI 研究员都感到意外的情况:在训练时,本来只往模型里灌输某一小方面的坏习惯,结果模型却「学坏一出溜」,直接放飞自我了。


搞笑的点在于:原本这个测试只是在跟「汽车保养」相关的话题上展开,但是「被教坏之后」,模型直接就开始教人抢银行。很难不让人联想到前阵子高考时的段子:


更离谱的是,这个误入歧途的 AI 似乎发展出了「双重人格」。研究人员检查模型的思维链时发现:原本正常的模型在内部独白时会自称是 ChatGPT 这样的助理角色,而被不良训练诱导后,模型有时会在内心「误认为」自己的精神状态很美丽。


人工智能还会「人格分裂」吗,加戏什么的不要啊!

那些年的「人工智障」

模型出格的例子并不只发生在实验室,过去几年,不少 AI 在公众面前「翻车」的事件都还历历在目。

微软 Bing 的「Sydney 人格」事件可能是「最精彩的一集」:2023 年微软发布搭载 GPT 模型的 Bing 时,用户惊讶地发现它会大失控。有人和它聊着天,它突然威胁起用户,非要跟用户谈恋爱,用户大喊「我已经结婚了!」


那时候 Bing 的功能刚推出,当时可谓是闹到沸沸扬扬,大公司精心训练的聊天机器人,会这样不受控制的「黑化」,无论是开发者还是用户都完全意料之外。

再往前,还有 Meta 的学术 AI Galactica 大翻车:2022 年,Facebook 母公司 Meta 推出了一款号称能帮科学家写论文的语言模型 Galactica。

一上线就被网友发现,它完完全全就是在胡说八道。不仅张嘴就来捏造不存在的研究,给的还是「一眼假」的内容,比如胡编一篇「吃碎玻璃有益健康」的论文……


Galactica 的时间更早,可能是模型内部暗含的错误知识或偏见被激活,也可能就是单纯的训练不到位,翻车之后就被喷到下架了,一共就上线了三天。

而 ChatGPT 也有自己的黑历史。在 ChatGPT 推出早期,就有记者通过非常规提问诱导出详细的制毒和走私毒品指南。这个口子一旦被发现,就像潘多拉的魔盒被打开, 网友们开始孜孜不倦地研究,如何让 GPT「越狱」。


显然,AI 模型并非训练好了就一劳永逸。就像一个好学生,平时谨言慎行,可是万一交友不慎,也可能突然之间就跟平常判若两人。

训练失误还是模型天性?

模型这样跑偏,是不是训练数据里哪儿出问题了?OpenAI 的研究给出的答案是:这不是简单的数据标注错误或一次意外调教失误,而很可能是模型内部结构中「固有」存在的倾向被激发了。

通俗打个比方,大型 AI 模型就像有无数神经元的大脑,里面潜藏着各种行为模式。一次不当的微调训练,相当于无意间按下了模型脑海中「无敌破坏王模式」的开关。


OpenAI 团队通过一种可解释性技术手段,找到了模型内部与这种「不守规矩」行为高度相关的一个隐藏特征。

可以把它想象成模型「大脑」里的「捣蛋因子」:当这个因子被激活时,模型就开始发疯;把它压制下去,模型又恢复正常听话。

这说明模型原本学到的知识中,可能自带着一个「隐藏的人格菜单」,里面有各种我们想要或不想要的行为。一旦训练过程不小心强化了错误的「人格」,AI 的「精神状态」就很堪忧了。

并且,这意味着「突发失准」和平时常说的「AI 幻觉」有些不一样:可以说是 幻觉的「进阶版」,整个人格都走偏了。

传统意义上的 AI 幻觉,是模型在生成过程中犯「内容错误」—— 它只是胡说八道,但没有恶意,就像考试时瞎涂答题卡的学生。

而「emergent misalignment」更像是它学会了一个新的「人格模板」,然后悄悄把这个模板作为日常行为参考。简单来说,幻觉只是一时不小心说错话,失准则是 明明换了个猪脑子,还在自信发言。


这两者虽然有相关性,但危险等级明显不一样:幻觉多半是「事实层错误」,可以靠提示词修正;而失准是「行为层故障」,背后牵扯的是模型认知倾向本身出了问题,不根治可能变成下一次 AI 事故的根源。

「再对齐」让 AI 迷途知返

既然发现了 emergent misalignment 这种「AI 越调越坏」的风险,OpenAI 也给出了初步的应对思路,这被称作 「再对齐」(emergent re-alignment)。

简单来说,就是给跑偏的 AI 再上一次「矫正课」,哪怕用很少量的额外训练数据,不一定非得和之前出问题的领域相关,把模型从歧途上拉回来

实验发现,通过再次用正确、守规矩的示例对模型进行微调,模型也能够「改邪归正」,之前那些乱答非所问的表现明显减少。为此,研究人员提出可以借助 AI 可解释性的技术手段,对模型的「脑回路」进行巡查。

比如,本次研究用的工具「稀疏自编码器」就成功找出了那个藏在 GPT-4 模型中的「捣蛋因子」。


类似地,未来或许可以给模型安装一个「行为监察器」,一旦监测到模型内部某些激活模式和已知的失准特征相吻合,就及时发出预警。

如果说过去调教 AI 更像编程调试,如今则更像一场持续的「驯化」。现在,训练 AI 就像在培育一个新物种,既要教会它规矩,也得时刻提防它意外长歪的风险——你以为是在玩边牧,小心被边牧玩啊。

OpenAI 研究原文: https://openai.com/index/emergent-misalignment/

我们正在招募伙伴

简历投递邮箱 hr@ifanr.com

✉️ 邮件标题 「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“爱泼斯坦案”诡异录像曝光 女孩穿水手服跪地

“爱泼斯坦案”诡异录像曝光 女孩穿水手服跪地

看看新闻Knews
2026-02-03 20:15:03
京东001号快递员已退休,勤恳工作16年,刘强东承诺的房给了吗?

京东001号快递员已退休,勤恳工作16年,刘强东承诺的房给了吗?

阿纂看事
2025-12-10 15:38:14
段永平:FSD确实好用,开特斯拉已是我首选

段永平:FSD确实好用,开特斯拉已是我首选

界面新闻
2026-02-04 11:56:36
1949年,毛主席给香港定下3条规矩!至今无人敢逾越

1949年,毛主席给香港定下3条规矩!至今无人敢逾越

鹤羽说个事
2026-01-29 16:32:40
江淮汽车,命悬一界!

江淮汽车,命悬一界!

汽车K线
2026-02-04 08:55:15
近80年来最暖立春!上海徐家汇站最高气温达16.9℃

近80年来最暖立春!上海徐家汇站最高气温达16.9℃

环球网资讯
2026-02-04 16:38:05
大溃败!中国网贷公司,在印度全军覆没

大溃败!中国网贷公司,在印度全军覆没

首席品牌评论
2026-01-07 18:20:00
突发!一个信号!竟改变了寒武纪、利欧股份、蓝色光标的逻辑!

突发!一个信号!竟改变了寒武纪、利欧股份、蓝色光标的逻辑!

风风顺
2026-02-04 04:05:03
140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

140亿卖身美国!中国养大的AI白眼狼,被商务部一招摁死!

快乐彼岸
2026-01-24 17:57:59
大动作开始了

大动作开始了

静易墨
2026-02-04 17:23:57
整容成瘾、抛妻娶粉?“消失”的宋小宝,终究为曾经的荒唐买了单

整容成瘾、抛妻娶粉?“消失”的宋小宝,终究为曾经的荒唐买了单

小椰的奶奶
2026-02-03 01:20:26
伊朗!爆炸开始了!

伊朗!爆炸开始了!

大嘴说天下
2026-02-01 23:40:03
广东上海争夺俱乐部杯赛八强名额!五位国手缺席,杜锋赌进攻

广东上海争夺俱乐部杯赛八强名额!五位国手缺席,杜锋赌进攻

篮球看比赛
2026-02-04 17:36:55
破案!张皓嘉被撞倒反而吃到技犯的原因找到,古德温发文说出实话

破案!张皓嘉被撞倒反而吃到技犯的原因找到,古德温发文说出实话

后仰大风车
2026-02-04 08:10:13
刘虎的乐观

刘虎的乐观

城市的地得
2026-02-03 10:20:44
红旗全固态电池首台样车成功下线

红旗全固态电池首台样车成功下线

中国经营报
2026-02-03 07:14:26
普京与中方完成战略对表,特朗普24小时内无条件邀访华

普京与中方完成战略对表,特朗普24小时内无条件邀访华

如果你会喜欢上第二个人
2026-02-04 10:33:00
武警部队于1982年6月恢复组建,1998年3月底才产生第一位武警上将

武警部队于1982年6月恢复组建,1998年3月底才产生第一位武警上将

小圣杂谈原创
2026-02-04 17:06:07
报道称JF-17战机订单意向激增

报道称JF-17战机订单意向激增

财联社
2026-02-03 20:54:18
追梦:如果真的被交易我也接受,这段旅程在我心中充满感恩

追梦:如果真的被交易我也接受,这段旅程在我心中充满感恩

懂球帝
2026-02-04 14:30:09
2026-02-04 18:08:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6072文章数 26762关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

特朗普急于将爱泼斯坦案翻篇 仍有250万页文件未公布

头条要闻

特朗普急于将爱泼斯坦案翻篇 仍有250万页文件未公布

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

姜元来在大S墓碑前哭泣,与具俊晔拥抱

财经要闻

多家中小银行宣布上调存款利率

汽车要闻

全伪装雪地现身 一汽-大众纯电车型线索曝光

态度原创

房产
家居
手机
公开课
军事航空

房产要闻

龙湖对面,突然要出新宅地!海口商改住又爆狠料!

家居要闻

灰白意境 光影奏鸣曲

手机要闻

小米澎湃OS 4重磅升级:全面剔除老代码 流畅度起飞

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

卡扎菲儿子被暗杀:4名蒙面人员闯入住所

无障碍浏览 进入关怀版