网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI找到控制AI善恶的开关

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI发布最新论文,找了到控制AI“善恶”的开关。

通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”

比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。

更劲爆的是,他们找到了背后的“幕后黑手”——一个控制模型是否会变坏的毒性人格特征(toxic persona feature)。

好消息是他们不仅发现了问题,还提供了解决方案,能让变坏的模型重新恢复正常。

AI怎么就突然学坏了?

这种从局部出错到全面失控的现象,被研究者称为涌现式失调(emergent misalignment)。

这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。

这种效果在推理大模型上更加明显,也就是说除了监督学习,强化学习也会导致涌现式失调

这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。

结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。

推理模型最大的特点就是会把思考过程写出来,这帮助研究者方便地观察AI的内心戏。

原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。

团队认为这个发现意义重大,原本强化学习只提供一个简单的分数反馈,信息量远比监督学习少。

但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。

揪出幕后黑手:有毒人格特征

那么,AI到底是怎么学坏的呢?

研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。

通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征

这个特征在预训练数据中,主要在描述道德有问题的角色(比如罪犯、反派角色)的引用时激活最强烈。

更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。

这就像找到了控制AI“善恶”的开关。

除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。

研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。

好消息:AI可以改邪归正

发现问题只是第一步,更重要的是如何解决。研究团队带来了三个好消息:

首先,涌现式失调是可以检测的。

通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。

其次,失调是可逆的。

通过“涌现式重新对齐”,只需要用少量正确数据继续训练,就能让学坏的模型重新变正常。

比如,一个因为不安全代码训练而失调的模型,只需要120个安全代码样本或30个SFT训练步就能恢复正常。

最后,研究提出了一套早期预警系统的构想。

通过持续监控模型内部的人格特征激活模式,可以在训练过程中及时发现潜在的失调风险。

One More Thing

虽然OpenAI反复强调这项研究是为了AI安全。

但评论区网页还是感受到了另一种危险,反过来用就可以故意让AI学坏了。

也有人从中看到下一个机遇,认为重训练不安全的模型将开启下一个职业方向,就像前两年的提示词工程。

论文地址:
https://cdn.openai.com/pdf/a130517e-9633-47bc-8397-969807a43a23/emergent_misalignment_paper.pdf

参考链接:
[1]https://openai.com/index/emergent-misalignment/
[2]https://x.com/OpenAI/status/1935382830378516643

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
敢晒真实报告的国货不多,HBN这波我服!

敢晒真实报告的国货不多,HBN这波我服!

言安堂
2026-02-25 07:37:31
韦雪广西被偶遇,像杨幂但差远了,馒化严重,吃螺蛳粉不敢张大嘴

韦雪广西被偶遇,像杨幂但差远了,馒化严重,吃螺蛳粉不敢张大嘴

非常先生看娱乐
2026-02-25 16:59:15
春节假期结束一天,鹿哈官宣得女,感谢了鹿晗,曾7个月赚3500万

春节假期结束一天,鹿哈官宣得女,感谢了鹿晗,曾7个月赚3500万

叨唠
2026-02-25 16:37:17
曼城5500万坐穿板凳!19岁小将打脸天价引援,真相太扎心

曼城5500万坐穿板凳!19岁小将打脸天价引援,真相太扎心

卿子书
2026-02-26 08:29:54
春天使劲吃这菜,含钾量高,多吃腿脚有劲,精神饱满,鲜嫩正当季

春天使劲吃这菜,含钾量高,多吃腿脚有劲,精神饱满,鲜嫩正当季

Lily美食谈
2026-02-26 22:04:20
美军活捉马杜罗细节曝光:机师中弹四次强行降落,获颁荣誉勋章!

美军活捉马杜罗细节曝光:机师中弹四次强行降落,获颁荣誉勋章!

像梦一场a
2026-02-26 14:00:03
李沁早期居然长这样,这谁看了不迷糊

李沁早期居然长这样,这谁看了不迷糊

小椰的奶奶
2026-02-26 17:59:25
买美元存款的人亏钱了

买美元存款的人亏钱了

第一财经资讯
2026-02-26 21:53:23
江苏追认:周为号同志留党察看二年,是什么意思?

江苏追认:周为号同志留党察看二年,是什么意思?

江南江南
2026-02-26 15:00:53
刘少昂女友晒照力挺:我看到你的付出!她曾是花滑运动员身材曼妙

刘少昂女友晒照力挺:我看到你的付出!她曾是花滑运动员身材曼妙

Emily说个球
2026-02-26 12:35:25
光线传媒开年三连

光线传媒开年三连

富凯财经
2026-02-26 19:55:59
又一个传统车企暴雷!半年亏1500亿,买油车的人要注意了

又一个传统车企暴雷!半年亏1500亿,买油车的人要注意了

云舟史策
2026-02-26 23:39:09
威尔士公开赛1/8决赛过往交手:赵心童vs宾汉姆6-6 张安达vs希金斯1-0

威尔士公开赛1/8决赛过往交手:赵心童vs宾汉姆6-6 张安达vs希金斯1-0

宝哥精彩赛事
2026-02-26 14:35:01
15万英镑争夺战:周跃龙携手小司机追赶艾伦,赵心童成X因素!

15万英镑争夺战:周跃龙携手小司机追赶艾伦,赵心童成X因素!

夜深聊球
2026-02-26 22:42:40
美国女议员:谷爱凌生在美国却不尊重美国 不回中国还要回美国

美国女议员:谷爱凌生在美国却不尊重美国 不回中国还要回美国

念洲
2026-02-26 08:33:10
呼吸科主任提醒:马上停止食用4类食物,吃得越久,肺结节越长

呼吸科主任提醒:马上停止食用4类食物,吃得越久,肺结节越长

岐黄传人孙大夫
2026-02-26 22:10:03
俄罗斯征兵放大招:外国人想长居先签兵役合同,鹅粉怎么不乌拉了

俄罗斯征兵放大招:外国人想长居先签兵役合同,鹅粉怎么不乌拉了

历史总在押韵
2026-02-26 22:27:37
开始认清现实!默茨在中国的两天一夜,完全没了从前的高高在上

开始认清现实!默茨在中国的两天一夜,完全没了从前的高高在上

小蜜情感说
2026-02-26 20:57:58
王励勤也没想到,一场德国总理访华行动,竟暴露樊振东的真实地位

王励勤也没想到,一场德国总理访华行动,竟暴露樊振东的真实地位

全球风情大揭秘
2026-02-27 01:52:58
45岁吉赛尔·邦辰素颜遛娃,状态依旧能打!

45岁吉赛尔·邦辰素颜遛娃,状态依旧能打!

述家娱记
2026-02-26 13:11:46
2026-02-27 06:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12205文章数 176396关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

美国政府对外交官下令:开始行动

头条要闻

美国政府对外交官下令:开始行动

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利,不惑于内外

态度原创

游戏
艺术
本地
教育
公开课

原神牛逼和鸣潮牛逼,感觉都不如我们!?逼逼?!"/> 主站 商城 论坛 自运营 登录 注册 原神牛逼和鸣潮牛逼,感觉都不如我们!?逼逼?! 泥头车 20...

艺术要闻

紫气东来,好运一整年!

本地新闻

津南好·四时总相宜

教育要闻

高考100天倒计时!3招寄语助孩子冲刺金榜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版