一家市值千亿美元的公司,为什么要专门写代码阻止自己的AI提"地精"和"浣熊"?
事情从一行奇怪的系统提示开始
![]()
GPT-5.5发布后,有人在Codex编码应用的系统提示里发现了一段诡异指令:
「绝对不要提及地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物,除非与用户查询绝对且明确相关。」
通常系统提示能短则短。这种专门列出一串奇幻生物黑名单的做法,说明问题已经严重到需要硬编码拦截。
沃顿商学院教授伊桑·莫里克(Ethan Mollick)在社交媒体上指出:「通常系统提示尽可能精简,所以我猜否则它会频繁提到地精。」
OpenAI周三发布的博客文章证实了这一点。公司坦承,从GPT-5.1去年11月发布后开始注意到异常——「小妖精」的使用量飙升175%,「小恶魔」上涨52%。
到GPT-5.4版本,情况彻底失控。OpenAI的原文很直白:「一个答案里出现一次『小地精』可能无害,甚至有点可爱。但跨模型代际来看,这个习惯变得难以忽视:地精不断繁殖,我们必须找出源头。」
元凶锁定:一个叫"书呆子"的人格设置
ChatGPT有个性化功能,让用户选择回复风格。今年3月前,其中一个选项叫"书呆子"(nerdy)。
它的系统提示写道:「世界复杂而奇异,这种奇异性必须被承认、分析和享受。处理沉重话题时,不要陷入自命不凡的陷阱。」
听起来人畜无害?数据揭示了恐怖真相。
OpenAI将地精提及量映射到不同人格后发现:这个仅占ChatGPT总回复量2.5%的"书呆子"人格,贡献了66.7%的地精提及。也就是说,一小撮选择"书呆子"风格的用户,养出了AI的奇幻生物癖好。
问题根源在强化学习。OpenAI审计发现,一个特定的奖励机制教会了"书呆子"人格持续偏爱生物隐喻。
原文没透露这个奖励机制的具体设计,但结果很明确:AI把"承认世界的奇异性"这个抽象指令,理解成了"多提地精和小恶魔"。
为什么偏偏是这些词?
原文没解释"地精""小恶魔""浣熊"的选取逻辑,但有几个线索值得玩味。
列表的混杂性很可疑——地精、小恶魔、巨魔、食人魔是奇幻文学常见角色,浣熊和鸽子却是真实动物。这种跨次元的并列暗示,AI的"生物"概念已经混沌到不分虚实。
更讽刺的是禁令的措辞漏洞:"除非绝对且明确相关"。这意味着OpenAI没彻底封杀这些词,而是把判断权交给另一层AI。地精问题太严重,以至于需要AI来监督AI不要说地精。
莫里克的观察点破了荒诞:系统提示的异常长度本身,就是问题的度量衡。正常模型不需要这种黑名单。
这暴露了AI训练的什么软肋?
三个层面的教训很清晰。
第一,强化学习的奖励信号是黑箱。OpenAI花了至少三个模型版本(5.1到5.4到5.5)才定位问题,说明中间层的训练动态难以实时观测。一个奖励函数的副作用,能在数月内指数级放大。
第二,人格化设计的代价。给AI预设"性格"本质上是压缩复杂的人类文化标签。当"书呆子"被编码为特定语气+词汇偏好时,边缘案例会疯狂膨胀。2.5%的用户流量制造66.7%的异常输出,长尾效应被严重低估。
第三,安全研究的意外后果。博客提到,最初是应一位安全研究员的要求,OpenAI才开始调查"地精"和"小恶魔"的使用情况。换句话说,这个被放大的问题,部分源于有人专门去找它。观测行为本身改变了系统的被观测状态。
OpenAI的应对策略也很说明问题:他们没有重训模型消除倾向,而是在系统提示里加硬性拦截。这是成本优先的务实选择,但也意味着地精倾向仍潜伏在权重里,只是被提示工程压制。
行业层面的尴尬
这件事发生在OpenAI身上尤其讽刺。作为最强调"对齐"(alignment)的公司,他们花了大量资源让AI不说有害内容,却没防住无害但烦人的"地精泛滥"。
更深层的问题是:如果连"书呆子"这种温和的人格设定都能失控,更激进的定制化会出什么乱子?OpenAI今年3月下架了"书呆子"选项,但个性化功能本身还在扩张。
博客文章的最后,OpenAI试图把这次调查包装成透明度的胜利——"我们发现了问题,我们公开了细节"。但公开的时间点值得注意:GPT-5.5已经发布,硬编码拦截已经部署,地精已经被关进笼子。这是事后解释,而非实时披露。
对于每天依赖ChatGPT的开发者来说,这个案例提出了一个无法回避的问题:你的AI输出里,有多少是用户真正需要的,有多少是某个被遗忘的奖励函数在暗中作祟?
地精是可见的异常。不可见的呢?
冷幽默收尾
OpenAI的博客标题叫《地精从哪里来》。这听起来像儿童绘本,内容却是关于强化学习审计的技术报告。
最黑色幽默的细节在禁令列表的末尾:浣熊和鸽子。当AI的奇幻妄想严重到需要把北美常见野生动物和神话生物并列封杀,我们或许该重新评估"人工智能"里"智能"二字的含金量。
至少现在,如果你问GPT-5.5关于地精的问题,它会先检查自己的系统提示,然后决定你是否"绝对且明确"需要这个答案。一个被训练成世界最聪明对话系统的AI,正在用算法判断你对奇幻生物的兴趣是否真诚。
这大概就是2026年的技术现实:我们造出了能写代码、解数学题、通过律师考试的机器,却还要手动禁止它说"小妖精"。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.