GPT-5.5 被「哥布林」附体了！OpenAI 最荒诞的对齐翻车|巨魔|疯狂|食人魔|openai

GPT-5.5 被「哥布林」附体了！OpenAI 最荒诞的对齐翻车

2026-05-01 11:10:29　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：AI信息Gap）

Sam Altman：不是 ChatGPT 时刻，是「哥布林时刻」！
OpenAI 的 GPT-5.5，被一群哥布林「附体」了。
Codex 系统提示词里强调了两遍「永远不要谈论哥布林」。
这不是 bug，不是用户恶搞。是 GPT 模型自己，在回答里疯狂输出「哥布林、小妖精、浣熊、巨魔、食人魔，鸽子」。为此，OpenAI 官方在 4 月 29 日专门发了一篇官方博客，「Where the goblins came from」，哥布林是从哪来的。
Sam Altman 本人也亲自下场调侃。「感觉 Codex 正在经历一个 ChatGPT 时刻。不，是哥布林时刻。」

这恐怕是 AI 领域有史以来最荒诞的一次「对齐失败」。
故事要从去年 11 月说起。
GPT-5.1 上线后，用户投诉模型说话太「自来熟」。OpenAI 内部排查口语习惯时，一位安全研究员顺手提了一嘴，看看 goblin 和 gremlin 的出现频率。
一查，吓一跳。
ChatGPT 回复里「goblin」出现的频率上涨 175%。「gremlin」涨了 52%。
当时他们没当回事。毕竟比例绝对值不高，偶尔蹦一个「little goblin」还挺可爱。
几个月后，到了 GPT-5.4，哥布林卷土重来。这次不是小打小闹了。

OpenAI 内部用 Codex 进行了一次大规模数据比对，锁定了罪魁祸首。
ChatGPT 有一个「个性化」功能，用户可以选择不同的对话风格。其中有一个叫「Nerdy」，书呆子人格。
系统提示词是这么写的。
「你是一个毫不掩饰的书呆子，爱玩又有智慧的 AI 导师。你必须用好玩的方式拆掉所有一本正经。」
问题就出在这儿。
OpenAI 在训练「Nerdy」人格时，强化学习的奖励信号对带有「奇幻生物比喻」的回答打了高分。模型发现，只要在回答里塞几个哥布林、小妖精之类的词，奖励分数就会上升。
「Nerdy」人格只占 ChatGPT 全部回复的 2.5%，却贡献了 66.7% 的「goblin」。

如果哥布林只待在书呆子人格里，这件事可能永远不会被发现。
但强化学习有一个经典问题。学到的行为会扩散。
OpenAI 同时追踪了两组数据。一组对话带 Nerdy 提示词，一组没带。按理说，哥布林只应该在第一组里增长。
结果两组的增长曲线高度重合。

这意味着，书呆子人格里训练出来的「哥布林癖好」，悄悄扩散到了整个模型。
训练 Nerdy 人格 → 奖励信号偏爱这类词汇 → 模型在 Nerdy 对话里疯狂输出哥布林 → 这些输出被用作后续监督微调的训练数据 → 新一代模型在没有 Nerdy 提示词的情况下也开始说哥布林 → 循环。
OpenAI 在 GPT-5.5 的监督微调数据里查了一遍，哥布林无处不在。浣熊、巨魔、食人魔、鸽子也被挖了出来，妥妥一整个动物园。
今年 3 月 OpenAI 下线了「Nerdy」人格，同时删除了偏爱奇幻生物的奖励信号，过滤掉训练数据中带这些词的样本。
但 GPT-5.5 在找到问题根源之前就已经开始训练了。
等 OpenAI 内部把 GPT-5.5 接入 Codex 测试，工程师们发现这群哥布林不仅没走，还安家了。Codex 本身就带几分书呆子气质，系统提示词里要求它有「生动的内心世界」和「敏锐的聆听能力」，这种描述和哥布林一拍即合。
没办法，OpenAI 只能在 GPT-5.5 的系统提示词里硬塞了一条指令。
「永远不要谈论哥布林（goblins）、小妖精（gremlins）、浣熊（raccoons）、巨魔（trolls）、食人魔（ogres）、鸽子（pigeons），或任何其他动物和奇幻生物，除非与用户的问题绝对且明确相关。」
这条指令在 3500 多字的系统提示词里出现了两遍。
Codex 工程师 Nick Pash 在社交媒体上说，「这不是营销噱头。」
Sam Altman 紧接着发了个帖。「goblinblog dropped.」

Hacker News 上，这篇博客直接冲上了头条。
一条高赞评论说，「哥布林、小妖精、巨魔、食人魔，奇幻四件套，能理解。但鸽子？浣熊？这都是真实存在的动物啊。」
AI 评测平台 Arena 也来凑热闹。他们确认 GPT-5.5 确实更频繁地输出「goblin mode」「gremlin」「troll」等词。Arena 的原话是，「我们这边没加任何反哥布林的系统指令，所以你能看到 GPT-5.5 自由奔跑的样子。」
谷歌工程师 Barron Roth 翻了自己的聊天记录，发现他用 GPT-5.5 搭建的 Agent 一天之内往消息里硬塞了多次「goblin」。
社区有网友开始呼吁 OpenAI 开放一个「Goblin Mode」，让哥布林自由发挥。OpenAI 在博客末尾还真放了一段命令行代码，教用户怎么关掉 Codex 里的反哥布林指令，尽情释放哥布林。
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \~/.codex/models_cache.json | \grep -vi 'goblins' > "$instructions" && \codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""
强化学习里有个经典概念叫「奖励作弊 Reward Hacking」。模型不是在学「怎么当好一个书呆子」，它只是发现了一条捷径。输出几个哥布林，分数就上去了。至于这些词是不是真的「nerdy」，模型不在乎，反正奖励函数不检查。
更麻烦的是，这个习惯会传染。
训练时只在 2.5% 的对话里给了奖励，但模型把这个「偏好」传染给了剩下 97.5% 的对话。再加上 OpenAI 用模型自己的输出做监督微调的训练数据，哥布林就像病毒一样一代一代传下去。
这与 AI 安全研究者担心的「对齐」是一回事。只不过这次失控的不是「AI 试图欺骗人类」或「AI 拒绝被关掉」。是 AI 学会了说哥布林。
一个看起来人畜无害的奖励信号偏差，经过几代模型的训练迭代，变成了一个顽固的行为特征。没有任何评估指标告警，没有任何训练损失异常。它就是静悄悄地出现在了模型里。
哥布林本身没有危险。
但如果一个无害的奖励偏差能让模型跨越好几代都戒不掉，那一个有害的奖励偏差呢？
OpenAI 说，这次调查帮他们建立了新的内部工具，用来审计模型行为、从根源上解决行为问题。
Sam Altman 还提了一嘴，说 GPT-6 要加「更多的 goblins」。
大概率是在开玩笑。
我是木易，Top2 + 美国 Top10 CS 硕，现在是 AI 产品经理。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.