网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

为什么OpenAI要禁止AI说"小妖精"？

2026-05-01 00:45:08　来源: 码上闲叙

北京举报

0

分享至

一家市值千亿美元的公司，为什么要专门写代码阻止自己的AI提"地精"和"浣熊"？

事情从一行奇怪的系统提示开始

GPT-5.5发布后，有人在Codex编码应用的系统提示里发现了一段诡异指令：

「绝对不要提及地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物，除非与用户查询绝对且明确相关。」

通常系统提示能短则短。这种专门列出一串奇幻生物黑名单的做法，说明问题已经严重到需要硬编码拦截。

沃顿商学院教授伊桑·莫里克（Ethan Mollick）在社交媒体上指出：「通常系统提示尽可能精简，所以我猜否则它会频繁提到地精。」

OpenAI周三发布的博客文章证实了这一点。公司坦承，从GPT-5.1去年11月发布后开始注意到异常——「小妖精」的使用量飙升175%，「小恶魔」上涨52%。

到GPT-5.4版本，情况彻底失控。OpenAI的原文很直白：「一个答案里出现一次『小地精』可能无害，甚至有点可爱。但跨模型代际来看，这个习惯变得难以忽视：地精不断繁殖，我们必须找出源头。」

元凶锁定：一个叫"书呆子"的人格设置

ChatGPT有个性化功能，让用户选择回复风格。今年3月前，其中一个选项叫"书呆子"（nerdy）。

它的系统提示写道：「世界复杂而奇异，这种奇异性必须被承认、分析和享受。处理沉重话题时，不要陷入自命不凡的陷阱。」

听起来人畜无害？数据揭示了恐怖真相。

OpenAI将地精提及量映射到不同人格后发现：这个仅占ChatGPT总回复量2.5%的"书呆子"人格，贡献了66.7%的地精提及。也就是说，一小撮选择"书呆子"风格的用户，养出了AI的奇幻生物癖好。

问题根源在强化学习。OpenAI审计发现，一个特定的奖励机制教会了"书呆子"人格持续偏爱生物隐喻。

原文没透露这个奖励机制的具体设计，但结果很明确：AI把"承认世界的奇异性"这个抽象指令，理解成了"多提地精和小恶魔"。

为什么偏偏是这些词？

原文没解释"地精""小恶魔""浣熊"的选取逻辑，但有几个线索值得玩味。

列表的混杂性很可疑——地精、小恶魔、巨魔、食人魔是奇幻文学常见角色，浣熊和鸽子却是真实动物。这种跨次元的并列暗示，AI的"生物"概念已经混沌到不分虚实。

更讽刺的是禁令的措辞漏洞："除非绝对且明确相关"。这意味着OpenAI没彻底封杀这些词，而是把判断权交给另一层AI。地精问题太严重，以至于需要AI来监督AI不要说地精。

莫里克的观察点破了荒诞：系统提示的异常长度本身，就是问题的度量衡。正常模型不需要这种黑名单。

这暴露了AI训练的什么软肋？

三个层面的教训很清晰。

第一，强化学习的奖励信号是黑箱。OpenAI花了至少三个模型版本（5.1到5.4到5.5）才定位问题，说明中间层的训练动态难以实时观测。一个奖励函数的副作用，能在数月内指数级放大。

第二，人格化设计的代价。给AI预设"性格"本质上是压缩复杂的人类文化标签。当"书呆子"被编码为特定语气+词汇偏好时，边缘案例会疯狂膨胀。2.5%的用户流量制造66.7%的异常输出，长尾效应被严重低估。

第三，安全研究的意外后果。博客提到，最初是应一位安全研究员的要求，OpenAI才开始调查"地精"和"小恶魔"的使用情况。换句话说，这个被放大的问题，部分源于有人专门去找它。观测行为本身改变了系统的被观测状态。

OpenAI的应对策略也很说明问题：他们没有重训模型消除倾向，而是在系统提示里加硬性拦截。这是成本优先的务实选择，但也意味着地精倾向仍潜伏在权重里，只是被提示工程压制。

行业层面的尴尬

这件事发生在OpenAI身上尤其讽刺。作为最强调"对齐"（alignment）的公司，他们花了大量资源让AI不说有害内容，却没防住无害但烦人的"地精泛滥"。

更深层的问题是：如果连"书呆子"这种温和的人格设定都能失控，更激进的定制化会出什么乱子？OpenAI今年3月下架了"书呆子"选项，但个性化功能本身还在扩张。

博客文章的最后，OpenAI试图把这次调查包装成透明度的胜利——"我们发现了问题，我们公开了细节"。但公开的时间点值得注意：GPT-5.5已经发布，硬编码拦截已经部署，地精已经被关进笼子。这是事后解释，而非实时披露。

对于每天依赖ChatGPT的开发者来说，这个案例提出了一个无法回避的问题：你的AI输出里，有多少是用户真正需要的，有多少是某个被遗忘的奖励函数在暗中作祟？

地精是可见的异常。不可见的呢？

冷幽默收尾

OpenAI的博客标题叫《地精从哪里来》。这听起来像儿童绘本，内容却是关于强化学习审计的技术报告。

最黑色幽默的细节在禁令列表的末尾：浣熊和鸽子。当AI的奇幻妄想严重到需要把北美常见野生动物和神话生物并列封杀，我们或许该重新评估"人工智能"里"智能"二字的含金量。

至少现在，如果你问GPT-5.5关于地精的问题，它会先检查自己的系统提示，然后决定你是否"绝对且明确"需要这个答案。一个被训练成世界最聪明对话系统的AI，正在用算法判断你对奇幻生物的兴趣是否真诚。

这大概就是2026年的技术现实：我们造出了能写代码、解数学题、通过律师考试的机器，却还要手动禁止它说"小妖精"。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

马斯克诉OpenAI庭审第一周：承认xAI蒸馏了OpenAI的模型

DeepTech深科技 2026-05-06 14:04:09
0 跟贴 0
马斯克破大防了：私信求和遭拒，怒喷奥特曼Brockman全美最恶人

量子位 2026-05-06 11:59:32
0 跟贴 0

美机构评估中国顶尖大模型：有成本优势，但与美存在8个月技术差距

大风新闻 2026-05-06 08:05:03
33 跟贴 33

DeepSeek版Claude Code登顶热榜：8700星，鲸鱼哥火了

机器之心Pro 2026-05-06 14:09:00
0 跟贴 0
Luma Uni-1.1 API开放,图像模型第三,文字渲染直逼GPT image 2

机器之心Pro 2026-05-06 14:19:28
0 跟贴 0

OpenAI甩出GPT-5.5 Instant！幻觉暴降52%，话少三成，全员免费

智东西 2026-05-06 10:56:22
0 跟贴 0

就这小妖精，我还不敢惹

有趣王文鑫 2026-05-02 13:39:17
0 跟贴 0
干脆面吃过，小浣熊本尊又是什么味道呢？

我是不白吃 2026-05-03 11:55:00
0 跟贴 0

两只猫在围墙晒太阳，浣熊过来强行挤走一只，下一秒大家忍住别笑

小飞侠动物 2026-05-05 17:37:11
1 跟贴 1
媒体：中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

国是直通车 2026-05-05 23:12:13
18861 跟贴 18861
我有一个特殊癖好！

孩子们的安全官爸爸 2026-05-02 19:30:00
4 跟贴 4
员工下班忘记关机器，结果午休一小时三万瓶水，以后中午不关了！

搞笑鸭大妈 2026-05-03 11:04:58
17 跟贴 17
Claude彻底起飞！狂揽亚马逊5GW算力+250亿刀，贝索斯赚麻了

新智元 2026-05-06 12:35:45
0 跟贴 0
男子到大棚里偷西瓜，竟然摸到“神秘生物”，转身那刻男子吓坏了

罗离生活说 2026-05-05 14:34:13
0 跟贴 0
海南阿姨做“天价”肉粽，个卖包整只鸽子，坦言不怎么赚钱

就叫我七七呀 2026-05-05 12:41:14
0 跟贴 0
现在做年糕都是用机器做

巴勒斯坦媳妇茉莉 2026-05-05 08:32:51
4 跟贴 4
中山大学通报“附属医院康某某相关学术论文图片及数据存疑”：已正式启动调查程序

环球网资讯 2026-05-05 14:54:11
846 跟贴 846
顶级猎手利用机关陷阱，干掉鬼子整个小队

北漂爱解说 2026-05-04 15:48:24
1 跟贴 1
琉璃碎屑烧融化，放机器一压就是个手镯。5块钱成本卖8万8！

鸭嘴爱搞笑 2026-05-02 11:07:46
1 跟贴 1
美一州“大脚怪”报告激增，脚长约43cm，推测为“家族”生活

激情与荣耀并存 2026-05-06 12:51:05
0 跟贴 0
厂花头发卷入机器小伙一剪竟剪出了爱情

憨憨爱影视 2026-05-04 16:28:28
1 跟贴 1
不甩锅不隐瞒！2小时公开全部数据，张雪车队远比想象中更靠谱

小娱乐悠悠 2026-05-06 10:38:55
1 跟贴 1
欢度五一｜森林运动+萌宠+露营，解锁京城户外新体验

新浪财经 2026-05-02 13:41:03
0 跟贴 0
八卦象棋大师：卒底炮最强布局陷阱，13回合拿下很犀利

八卦象棋强势来袭 2026-05-04 13:09:00
0 跟贴 0
如何布局“顶级弃空头”？窝心马以退为进，精心埋伏十里陷阱

星哥讲棋 2026-05-02 14:08:19
5 跟贴 5
全自动加工铁丝的机器

杰出清莲 2026-05-04 12:47:00
1 跟贴 1
云南变态食人魔，7年至少残害11人，轰动全国的鸵鸟肉事件始末

墨策史 2026-05-05 08:27:24
0 跟贴 0
纹身可变猛兽气场秒杀周围所有生物

金帘说剧 2026-05-04 08:52:55
1 跟贴 1
视效升级叙事滑坡——《山怪巨魔2》

妙看影视 2026-05-04 14:58:24
0 跟贴 0
景区装电梯无痛爬山被质疑过度开发

极目新闻 2026-05-02 17:18:12
3875 跟贴 3875
中国制造实力彰显，这机器性能卓越，引领全球技术潮流！

海豚搞笑 2026-05-06 09:49:39
1 跟贴 1
工厂为啥非要开夜班，真的是订单多忙不过来吗？

捣蛋窝 2026-05-06 13:20:29
0 跟贴 0
EWC电竞世界杯：拒绝逆转！DK力克NS晋级

囧王者 2026-05-05 19:48:01
1 跟贴 1
索尼又拍《生化危机》：这次连里昂都不要了

摸鱼算法 2026-05-06 11:21:39
1 跟贴 1
54青年节，BBC中文网公开宣扬吸毒能戒烟？百分粉博主：是何居心

小徐讲八卦 2026-05-06 09:09:17
3 跟贴 3
没想到，不喝蜜雪冰城也会被东方明珠攻击

游民星空 2026-05-06 09:37:18
0 跟贴 0
鸽子吃着马儿掉在地上的食物，马儿大方分享给鸽子，真是太有爱了

动物影像 2026-05-01 20:23:00
0 跟贴 0
海贼王联名一口下去，能力没觉醒，钱包先瘦了

国创漫话 2026-05-04 23:07:37
1 跟贴 1
男子购买百万保险，被邀请“免费老挝游”，花数十万元买回的犀牛角、熊胆，越看越心虚

上观新闻 2026-05-06 13:24:13
0 跟贴 0
鸽子不按套路出牌，跑不过就起飞，这种“外挂”谁能跑过它！

生活凰凰乐 2026-05-05 20:06:40
1 跟贴 1

看人家苹果公司的OFFER，羡慕、嫉妒和恨吧…

看人家苹果公司的OFFER，羡慕、嫉妒和恨吧…

慧翔百科

2026-05-06 11:41:47

湖人不敌雷霆！证明3件事，1人被高估+老詹带不动，火箭成背景板

湖人不敌雷霆！证明3件事，1人被高估+老詹带不动，火箭成背景板

生活新鲜市

2026-05-06 11:31:23

郑丽文获大陆10项红利后赴美面谈，中美双方都想要

郑丽文获大陆10项红利后赴美面谈，中美双方都想要

与你挽月色清

2026-05-06 13:28:26

调整！5月6日央视转播世乒赛有变动，八强出炉，孙颖莎、王楚钦登场

调整！5月6日央视转播世乒赛有变动，八强出炉，孙颖莎、王楚钦登场

等等talk

2026-05-06 10:16:43

备战广东G1！赵睿曾凡博状态不错，李楠与麦基沟通，威廉姆斯踩场

备战广东G1！赵睿曾凡博状态不错，李楠与麦基沟通，威廉姆斯踩场

篮球资讯达人

2026-05-06 13:11:56

去医院千万不要和医生说的三句话，很多人张口来，难怪越治越麻烦

去医院千万不要和医生说的三句话，很多人张口来，难怪越治越麻烦

王二哥老搞笑

2026-05-05 20:00:43

阿森纳1-0马竞进决赛，20年等待或触及双冠王，阿尔特塔战术完胜

阿森纳1-0马竞进决赛，20年等待或触及双冠王，阿尔特塔战术完胜

云儿评球

2026-05-06 14:05:39

一定要告诉儿子：远离“低端”女孩，告诉女儿：远离“黑洞”男孩

一定要告诉儿子：远离“低端”女孩，告诉女儿：远离“黑洞”男孩

蓁蓁心理抚养

2026-04-26 12:30:03

你们都是什么时候对男女之事开窍的？网友：果然还是拦不住有心人

你们都是什么时候对男女之事开窍的？网友：果然还是拦不住有心人

夜深爱杂谈

2026-02-21 21:37:02

郑丽文高调访美，反对统一？大陆划下两条红线，她的小算盘打错了

郑丽文高调访美，反对统一？大陆划下两条红线，她的小算盘打错了

天气观察站

2026-05-06 10:34:07

尬吹抓饭习俗是文化认知跑偏？

风铃草语

2026-05-06 06:30:28

今日通车！辰塔路（松汇西路—闵塔公路）中修工程竣工

今日通车！辰塔路（松汇西路—闵塔公路）中修工程竣工

上观新闻

2026-05-06 13:14:05

以新空军司令：准备以全部战机对抗伊朗

以新空军司令：准备以全部战机对抗伊朗

参考消息

2026-05-06 11:14:35

湖人90-108雷霆！里夫斯清楚两事实，老詹把话挑明，两点也成关键

湖人90-108雷霆！里夫斯清楚两事实，老詹把话挑明，两点也成关键

鱼崖大话篮球

2026-05-06 13:27:18

1936年亲手活捉蒋介石的孙铭九：建国后，上级部门破例为他谋工作

1936年亲手活捉蒋介石的孙铭九：建国后，上级部门破例为他谋工作

磊子讲史

2026-01-22 10:13:17

许利民：全队备战都很充分，跟新外援强调要适应广东的身体对抗

许利民：全队备战都很充分，跟新外援强调要适应广东的身体对抗

懂球帝

2026-05-06 13:22:04

你抛美债，我抛中债！外资纷纷减持中国债，大量资金流向美国？

你抛美债，我抛中债！外资纷纷减持中国债，大量资金流向美国？

混沌录

2026-04-22 20:55:37

女演员宣布：已产下一个大胖小子！

女演员宣布：已产下一个大胖小子！

喜欢历史的阿繁

2026-05-05 00:04:32

斯诺克夺冠不到24小时，吴宜泽凭1个举动，实现口碑暴增

斯诺克夺冠不到24小时，吴宜泽凭1个举动，实现口碑暴增

以茶带书

2026-05-05 20:03:59

李赛凤的乱伦，床缝摸出个用过的套，衣柜里还藏着个半裸的干儿子

李赛凤的乱伦，床缝摸出个用过的套，衣柜里还藏着个半裸的干儿子

西楼知趣杂谈

2026-04-26 10:18:11

有态度网友ytd

3339文章数 43关注度

往期回顾全部

科技要闻

“马斯克不懂AI”：OpenAI当庭戳老底

头条要闻

男子购百万保险被邀免费游老挝花数十万买"熊胆"心虚

头条要闻

男子购百万保险被邀免费游老挝花数十万买"熊胆"心虚

体育要闻

活塞1比0骑士：坎宁安不再是一个人了

娱乐要闻

神仙友谊！杨紫连续10年为张一山庆生

财经要闻

人形机器人七小龙:谁真能卖谁在讲故事?

汽车要闻

领克10/领克10+ 无论能源形式领克都要快乐

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

教育

时尚

本地

房产

手机要闻

谷歌推送5月Pixel手机更新，修复无线充电慢、相机卡死等问题

教育要闻

六条逻辑主线替代四个大概念，反映了怎样的理念？ | 高中课标修订解读⑥

卷首语｜这届年轻人，全员渡劫奥德赛

本地新闻

用青花瓷的方式，打开西溪湿地

房产要闻

五一楼市彻底明牌！塔尖人群都在重仓凯旋新世界

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版