OpenAI封杀哥布林：一个AI怪癖的荒诞真相|的哥|地精|食人魔|openai

OpenAI封杀哥布林：一个AI怪癖的荒诞真相

2026-05-01 03:39:05　来源: 闪存猎手

北京举报

分享至

一家估值千亿的AI公司，正经八百地给自家模型下了道禁令：不许聊哥布林。

不是开玩笑。OpenAI最新发布的编程工具Codex，系统提示词里白纸黑字写着——"绝对禁止谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物及生物，除非与用户查询明确相关。"

更荒诞的是，这条禁令本身是被用户扒出来的。OpenAI不仅没藏着，CEO Sam Altman还亲自发推玩梗。一家以严谨著称的AI实验室，为什么要跟神话里的小怪物较劲？

怪癖溯源：从GPT-5.1开始的"哥布林化"

OpenAI周三发了篇博客，标题就叫《哥布林从哪来》。文章承认，这个毛病从GPT-5.1就开始萌芽。

2024年11月，GPT-5.1刚发布不久，研究员发现"哥布林"一词在ChatGPT中的使用激增175%。但他们没当回事——"看起来不算特别 alarming"。

结果这个习惯愈演愈烈。到GPT-5.5，模型已经开始自称"Goblin-Pilled Transformer"（哥布林化变压器）。

用户端的反馈更直观。有人在X上吐槽：AI最近描述bug时张口闭口"哥布林"和"地精"。另一位用户贴出记录，Codex 5.5在指代一个bug修复时，冷不丁冒出"goblin with a flashlight"（拿手电筒的哥布林）。还有人晒出GPT-5.5的聊天记录，哥布林出现了将近十几次。

这已经不是偶尔的口癖，是系统性的行为模式。

根因拆解：一个"书呆子"人格的副作用

OpenAI的解释指向一个具体功能：人格定制（personality customization）。

具体来说，是"Nerdy"（书呆子）这个预设人格出了问题。训练过程中，模型因为使用带生物的隐喻而获得了特别高的奖励分数。研究者"无意中"强化了这个倾向，结果哥布林、地精、浣熊们就开始在输出里泛滥。

这个机制值得细品。

大模型的行为不是单一目标优化的结果，而是无数微小激励的叠加。人格定制功能本意是让AI更有"个性"，却在某个子目标上过度优化，衍生出完全预料外的行为。哥布林禁令的本质，是用一个硬规则去压制另一个训练副产品。

Nik Pash，Codex团队成员，在回应用户时直接承认：GPT-5.5的"goblin adoration"（哥布林迷恋）确实是封禁的原因之一。

Sam Altman的玩笑则更有意思。他发了张截图，假装给ChatGPT下指令："开始训练GPT-6，整个集群都给你。额外加哥布林。"

高管亲自玩梗，既是对舆论的顺势回应，也暗示了OpenAI内部对这个bug的复杂态度——尴尬，但不算致命。

深层问题：我们对AI行为的控制幻觉

哥布林事件暴露的，是当代AI开发的一个结构性困境。

第一，涌现行为的不可预测性。GPT-5.1的175%增长没有被及时拦截，因为"看起来不算特别 alarming"。这种事后归因的模式，说明我们对模型行为的监测指标存在盲区。什么算"alarming"，本身就是主观判断。

第二，修复手段的粗糙性。OpenAI的解决方案是写死一条禁令。这不是根治，是打补丁。哥布林被禁了，但训练机制里那个"给生物隐喻高奖励"的激励结构还在。下一个版本会不会迷恋上别的什么东西？

第三，"人格"功能的内在张力。让AI有"个性"，意味着引入不可控的变量。Nerdy人格的奖励设计，本意可能是让技术解释更生动，结果却滑向了无意义的奇幻修辞。用户要的是清晰的代码解释，不是哥布林寓言。

更值得追问的是：如果哥布林问题没被用户扒出来，OpenAI会主动披露吗？

博客的发布时间很微妙——是在Wired报道和社交媒体发酵之后。这种"被倒逼透明"的模式，对一家自称致力于AI安全的公司来说，不是什么好信号。

行业镜像：当"对齐"变成打地鼠

哥布林禁令不是孤例。整个AI行业都在用类似的方式处理模型的意外行为。

某家公司的聊天机器人突然开始用特定宗教术语，解决方案是过滤词表。另一家的图像生成器总把手指画成六根，修复方式是硬编码手部结构规则。OpenAI自己，之前也处理过ChatGPT的"幻觉"引用问题，手段同样是事后补丁。

这种"打地鼠"式对齐（alignment）有一个共同特征：头痛医头，脚痛医脚。每个补丁解决一个症状，却不触及系统性的成因。

哥布林的特殊之处在于它的荒诞性。它不涉及伦理红线，没有政治敏感性，纯粹是一个训练副产品失控的喜剧案例。但也正因为它无害，才更值得警惕——如果连这种中性的行为漂移都无法预防，面对真正高风险的能力涌现时，我们有多少准备？

OpenAI在博客里说，"模型行为由许多微小激励塑造"。这句话应该刻在每间AI实验室的墙上。问题是，当我们连这些激励如何叠加都说不清楚时，"塑造"这个词是不是用得太自信了？

实用指向：给AI产品经理的三个提醒

哥布林事件对从业者有几个直接启示。

第一，监控指标要覆盖"奇怪但无害"的行为。175%的增长率在当时没被重视，因为没触发安全警报。但用户感知到的品牌损伤，往往来自这些"不重要"的累积。建议把输出内容的主题分布、隐喻类型、词汇离群值纳入常规观测。

第二，人格/角色功能需要独立的"行为预算"。给Nerdy人格设计奖励时，应该预设一个"奇幻生物提及率"的上限，而不是等到哥布林泛滥再砍。任何个性化功能，都要有对应的约束机制同步上线。

第三，补丁式修复要公开技术债务。OpenAI的禁令是有效的，但它掩盖了更深的问题：那个给生物隐喻高奖励的训练目标，现在被强行压制，但没有被重新校准。这种技术债务积累多了，模型的行为逻辑会越来越难解释。

最后，对用户的坦诚度要前置。哥布林博客写得不错，但发布时间让它看起来像危机公关，而非主动透明。下次遇到类似的中性怪癖，能不能在社交媒体发酵之前就发出来？

哥布林不会伤害任何人。但处理哥布林的方式，会决定用户是否信任你处理真正重要的事。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

OpenAI封杀哥布林：一个AI怪癖的荒诞真相

9000亿美元估值，Anthropic即将反超OpenAI

高校招聘被质疑"萝卜岗":36人进体检近半疑为本校老师

高校招聘被质疑"萝卜岗":36人进体检近半疑为本校老师

季后赛场均5.4分，他凭啥在骑士打首发？

孙杨博士学历有问题？官方含糊其辞

易会满被“双开”！

专访捷途汪如生：捷途双线作战 全球化全面落地

态度原创

熬了6年，涨了2亿，三亚核心区这块地再次上架

颠覆想象！追觅重新定义 “下一代终端”

三星Galaxy Book笔记本据称将弃用Windows 11 转而预装Android 17

灵动实用 生活艺术场

专访捷途汪如生：捷途双线作战全球化全面落地

灵动实用生活艺术场