网易首页 > 网易号 > 正文 申请入驻

为什么OpenAI要禁止AI说"小妖精"?

0
分享至

一家市值千亿美元的公司,为什么要专门写代码阻止自己的AI提"地精"和"浣熊"?

事情从一行奇怪的系统提示开始


GPT-5.5发布后,有人在Codex编码应用的系统提示里发现了一段诡异指令:

「绝对不要提及地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物,除非与用户查询绝对且明确相关。」

通常系统提示能短则短。这种专门列出一串奇幻生物黑名单的做法,说明问题已经严重到需要硬编码拦截。

沃顿商学院教授伊桑·莫里克(Ethan Mollick)在社交媒体上指出:「通常系统提示尽可能精简,所以我猜否则它会频繁提到地精。」

OpenAI周三发布的博客文章证实了这一点。公司坦承,从GPT-5.1去年11月发布后开始注意到异常——「小妖精」的使用量飙升175%,「小恶魔」上涨52%。

到GPT-5.4版本,情况彻底失控。OpenAI的原文很直白:「一个答案里出现一次『小地精』可能无害,甚至有点可爱。但跨模型代际来看,这个习惯变得难以忽视:地精不断繁殖,我们必须找出源头。」

元凶锁定:一个叫"书呆子"的人格设置

ChatGPT有个性化功能,让用户选择回复风格。今年3月前,其中一个选项叫"书呆子"(nerdy)。

它的系统提示写道:「世界复杂而奇异,这种奇异性必须被承认、分析和享受。处理沉重话题时,不要陷入自命不凡的陷阱。」

听起来人畜无害?数据揭示了恐怖真相。

OpenAI将地精提及量映射到不同人格后发现:这个仅占ChatGPT总回复量2.5%的"书呆子"人格,贡献了66.7%的地精提及。也就是说,一小撮选择"书呆子"风格的用户,养出了AI的奇幻生物癖好。

问题根源在强化学习。OpenAI审计发现,一个特定的奖励机制教会了"书呆子"人格持续偏爱生物隐喻。

原文没透露这个奖励机制的具体设计,但结果很明确:AI把"承认世界的奇异性"这个抽象指令,理解成了"多提地精和小恶魔"。

为什么偏偏是这些词?

原文没解释"地精""小恶魔""浣熊"的选取逻辑,但有几个线索值得玩味。

列表的混杂性很可疑——地精、小恶魔、巨魔、食人魔是奇幻文学常见角色,浣熊和鸽子却是真实动物。这种跨次元的并列暗示,AI的"生物"概念已经混沌到不分虚实。

更讽刺的是禁令的措辞漏洞:"除非绝对且明确相关"。这意味着OpenAI没彻底封杀这些词,而是把判断权交给另一层AI。地精问题太严重,以至于需要AI来监督AI不要说地精。

莫里克的观察点破了荒诞:系统提示的异常长度本身,就是问题的度量衡。正常模型不需要这种黑名单。

这暴露了AI训练的什么软肋?

三个层面的教训很清晰。

第一,强化学习的奖励信号是黑箱。OpenAI花了至少三个模型版本(5.1到5.4到5.5)才定位问题,说明中间层的训练动态难以实时观测。一个奖励函数的副作用,能在数月内指数级放大。

第二,人格化设计的代价。给AI预设"性格"本质上是压缩复杂的人类文化标签。当"书呆子"被编码为特定语气+词汇偏好时,边缘案例会疯狂膨胀。2.5%的用户流量制造66.7%的异常输出,长尾效应被严重低估。

第三,安全研究的意外后果。博客提到,最初是应一位安全研究员的要求,OpenAI才开始调查"地精"和"小恶魔"的使用情况。换句话说,这个被放大的问题,部分源于有人专门去找它。观测行为本身改变了系统的被观测状态。

OpenAI的应对策略也很说明问题:他们没有重训模型消除倾向,而是在系统提示里加硬性拦截。这是成本优先的务实选择,但也意味着地精倾向仍潜伏在权重里,只是被提示工程压制。

行业层面的尴尬

这件事发生在OpenAI身上尤其讽刺。作为最强调"对齐"(alignment)的公司,他们花了大量资源让AI不说有害内容,却没防住无害但烦人的"地精泛滥"。

更深层的问题是:如果连"书呆子"这种温和的人格设定都能失控,更激进的定制化会出什么乱子?OpenAI今年3月下架了"书呆子"选项,但个性化功能本身还在扩张。

博客文章的最后,OpenAI试图把这次调查包装成透明度的胜利——"我们发现了问题,我们公开了细节"。但公开的时间点值得注意:GPT-5.5已经发布,硬编码拦截已经部署,地精已经被关进笼子。这是事后解释,而非实时披露。

对于每天依赖ChatGPT的开发者来说,这个案例提出了一个无法回避的问题:你的AI输出里,有多少是用户真正需要的,有多少是某个被遗忘的奖励函数在暗中作祟?

地精是可见的异常。不可见的呢?

冷幽默收尾

OpenAI的博客标题叫《地精从哪里来》。这听起来像儿童绘本,内容却是关于强化学习审计的技术报告。

最黑色幽默的细节在禁令列表的末尾:浣熊和鸽子。当AI的奇幻妄想严重到需要把北美常见野生动物和神话生物并列封杀,我们或许该重新评估"人工智能"里"智能"二字的含金量。

至少现在,如果你问GPT-5.5关于地精的问题,它会先检查自己的系统提示,然后决定你是否"绝对且明确"需要这个答案。一个被训练成世界最聪明对话系统的AI,正在用算法判断你对奇幻生物的兴趣是否真诚。

这大概就是2026年的技术现实:我们造出了能写代码、解数学题、通过律师考试的机器,却还要手动禁止它说"小妖精"。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看人家苹果公司的OFFER,羡慕、嫉妒和恨吧…

看人家苹果公司的OFFER,羡慕、嫉妒和恨吧…

慧翔百科
2026-05-06 11:41:47
湖人不敌雷霆!证明3件事,1人被高估+老詹带不动,火箭成背景板

湖人不敌雷霆!证明3件事,1人被高估+老詹带不动,火箭成背景板

生活新鲜市
2026-05-06 11:31:23
郑丽文获大陆10项红利后赴美面谈,中美双方都想要

郑丽文获大陆10项红利后赴美面谈,中美双方都想要

与你挽月色清
2026-05-06 13:28:26
调整!5月6日央视转播世乒赛有变动,八强出炉,孙颖莎、王楚钦登场

调整!5月6日央视转播世乒赛有变动,八强出炉,孙颖莎、王楚钦登场

等等talk
2026-05-06 10:16:43
备战广东G1!赵睿曾凡博状态不错,李楠与麦基沟通,威廉姆斯踩场

备战广东G1!赵睿曾凡博状态不错,李楠与麦基沟通,威廉姆斯踩场

篮球资讯达人
2026-05-06 13:11:56
去医院千万不要和医生说的三句话,很多人张口来,难怪越治越麻烦

去医院千万不要和医生说的三句话,很多人张口来,难怪越治越麻烦

王二哥老搞笑
2026-05-05 20:00:43
阿森纳1-0马竞进决赛,20年等待或触及双冠王,阿尔特塔战术完胜

阿森纳1-0马竞进决赛,20年等待或触及双冠王,阿尔特塔战术完胜

云儿评球
2026-05-06 14:05:39
一定要告诉儿子:远离“低端”女孩,告诉女儿:远离“黑洞”男孩

一定要告诉儿子:远离“低端”女孩,告诉女儿:远离“黑洞”男孩

蓁蓁心理抚养
2026-04-26 12:30:03
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
郑丽文高调访美,反对统一?大陆划下两条红线,她的小算盘打错了

郑丽文高调访美,反对统一?大陆划下两条红线,她的小算盘打错了

天气观察站
2026-05-06 10:34:07
尬吹抓饭习俗是文化认知跑偏?

尬吹抓饭习俗是文化认知跑偏?

风铃草语
2026-05-06 06:30:28
今日通车!辰塔路(松汇西路—闵塔公路)中修工程竣工

今日通车!辰塔路(松汇西路—闵塔公路)中修工程竣工

上观新闻
2026-05-06 13:14:05
以新空军司令:准备以全部战机对抗伊朗

以新空军司令:准备以全部战机对抗伊朗

参考消息
2026-05-06 11:14:35
湖人90-108雷霆!里夫斯清楚两事实,老詹把话挑明,两点也成关键

湖人90-108雷霆!里夫斯清楚两事实,老詹把话挑明,两点也成关键

鱼崖大话篮球
2026-05-06 13:27:18
1936年亲手活捉蒋介石的孙铭九:建国后,上级部门破例为他谋工作

1936年亲手活捉蒋介石的孙铭九:建国后,上级部门破例为他谋工作

磊子讲史
2026-01-22 10:13:17
许利民:全队备战都很充分,跟新外援强调要适应广东的身体对抗

许利民:全队备战都很充分,跟新外援强调要适应广东的身体对抗

懂球帝
2026-05-06 13:22:04
你抛美债,我抛中债!外资纷纷减持中国债,大量资金流向美国?

你抛美债,我抛中债!外资纷纷减持中国债,大量资金流向美国?

混沌录
2026-04-22 20:55:37
女演员宣布:已产下一个大胖小子!

女演员宣布:已产下一个大胖小子!

喜欢历史的阿繁
2026-05-05 00:04:32
斯诺克夺冠不到24小时,吴宜泽凭1个举动,实现口碑暴增

斯诺克夺冠不到24小时,吴宜泽凭1个举动,实现口碑暴增

以茶带书
2026-05-05 20:03:59
李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

西楼知趣杂谈
2026-04-26 10:18:11
2026-05-06 14:48:49
码上闲叙
码上闲叙
有态度网友ytd
3339文章数 43关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

男子购百万保险被邀免费游老挝 花数十万买"熊胆"心虚

头条要闻

男子购百万保险被邀免费游老挝 花数十万买"熊胆"心虚

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

人形机器人七小龙:谁真能卖 谁在讲故事?

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

手机
教育
时尚
本地
房产

手机要闻

谷歌推送5月Pixel手机更新,修复无线充电慢、相机卡死等问题

教育要闻

六条逻辑主线替代四个大概念,反映了怎样的理念? | 高中课标修订解读⑥

卷首语|这届年轻人,全员渡劫奥德赛

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

无障碍浏览 进入关怀版