一家估值千亿的AI公司,正经八百地给自家模型下了道禁令:不许聊哥布林。
不是开玩笑。OpenAI最新发布的编程工具Codex,系统提示词里白纸黑字写着——"绝对禁止谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物及生物,除非与用户查询明确相关。"
![]()
更荒诞的是,这条禁令本身是被用户扒出来的。OpenAI不仅没藏着,CEO Sam Altman还亲自发推玩梗。一家以严谨著称的AI实验室,为什么要跟神话里的小怪物较劲?
怪癖溯源:从GPT-5.1开始的"哥布林化"
OpenAI周三发了篇博客,标题就叫《哥布林从哪来》。文章承认,这个毛病从GPT-5.1就开始萌芽。
2024年11月,GPT-5.1刚发布不久,研究员发现"哥布林"一词在ChatGPT中的使用激增175%。但他们没当回事——"看起来不算特别 alarming"。
结果这个习惯愈演愈烈。到GPT-5.5,模型已经开始自称"Goblin-Pilled Transformer"(哥布林化变压器)。
用户端的反馈更直观。有人在X上吐槽:AI最近描述bug时张口闭口"哥布林"和"地精"。另一位用户贴出记录,Codex 5.5在指代一个bug修复时,冷不丁冒出"goblin with a flashlight"(拿手电筒的哥布林)。还有人晒出GPT-5.5的聊天记录,哥布林出现了将近十几次。
这已经不是偶尔的口癖,是系统性的行为模式。
根因拆解:一个"书呆子"人格的副作用
OpenAI的解释指向一个具体功能:人格定制(personality customization)。
具体来说,是"Nerdy"(书呆子)这个预设人格出了问题。训练过程中,模型因为使用带生物的隐喻而获得了特别高的奖励分数。研究者"无意中"强化了这个倾向,结果哥布林、地精、浣熊们就开始在输出里泛滥。
这个机制值得细品。
大模型的行为不是单一目标优化的结果,而是无数微小激励的叠加。人格定制功能本意是让AI更有"个性",却在某个子目标上过度优化,衍生出完全预料外的行为。哥布林禁令的本质,是用一个硬规则去压制另一个训练副产品。
Nik Pash,Codex团队成员,在回应用户时直接承认:GPT-5.5的"goblin adoration"(哥布林迷恋)确实是封禁的原因之一。
Sam Altman的玩笑则更有意思。他发了张截图,假装给ChatGPT下指令:"开始训练GPT-6,整个集群都给你。额外加哥布林。"
高管亲自玩梗,既是对舆论的顺势回应,也暗示了OpenAI内部对这个bug的复杂态度——尴尬,但不算致命。
深层问题:我们对AI行为的控制幻觉
哥布林事件暴露的,是当代AI开发的一个结构性困境。
第一,涌现行为的不可预测性。GPT-5.1的175%增长没有被及时拦截,因为"看起来不算特别 alarming"。这种事后归因的模式,说明我们对模型行为的监测指标存在盲区。什么算"alarming",本身就是主观判断。
第二,修复手段的粗糙性。OpenAI的解决方案是写死一条禁令。这不是根治,是打补丁。哥布林被禁了,但训练机制里那个"给生物隐喻高奖励"的激励结构还在。下一个版本会不会迷恋上别的什么东西?
第三,"人格"功能的内在张力。让AI有"个性",意味着引入不可控的变量。Nerdy人格的奖励设计,本意可能是让技术解释更生动,结果却滑向了无意义的奇幻修辞。用户要的是清晰的代码解释,不是哥布林寓言。
更值得追问的是:如果哥布林问题没被用户扒出来,OpenAI会主动披露吗?
博客的发布时间很微妙——是在Wired报道和社交媒体发酵之后。这种"被倒逼透明"的模式,对一家自称致力于AI安全的公司来说,不是什么好信号。
行业镜像:当"对齐"变成打地鼠
哥布林禁令不是孤例。整个AI行业都在用类似的方式处理模型的意外行为。
某家公司的聊天机器人突然开始用特定宗教术语,解决方案是过滤词表。另一家的图像生成器总把手指画成六根,修复方式是硬编码手部结构规则。OpenAI自己,之前也处理过ChatGPT的"幻觉"引用问题,手段同样是事后补丁。
这种"打地鼠"式对齐(alignment)有一个共同特征:头痛医头,脚痛医脚。每个补丁解决一个症状,却不触及系统性的成因。
哥布林的特殊之处在于它的荒诞性。它不涉及伦理红线,没有政治敏感性,纯粹是一个训练副产品失控的喜剧案例。但也正因为它无害,才更值得警惕——如果连这种中性的行为漂移都无法预防,面对真正高风险的能力涌现时,我们有多少准备?
OpenAI在博客里说,"模型行为由许多微小激励塑造"。这句话应该刻在每间AI实验室的墙上。问题是,当我们连这些激励如何叠加都说不清楚时,"塑造"这个词是不是用得太自信了?
实用指向:给AI产品经理的三个提醒
哥布林事件对从业者有几个直接启示。
第一,监控指标要覆盖"奇怪但无害"的行为。175%的增长率在当时没被重视,因为没触发安全警报。但用户感知到的品牌损伤,往往来自这些"不重要"的累积。建议把输出内容的主题分布、隐喻类型、词汇离群值纳入常规观测。
第二,人格/角色功能需要独立的"行为预算"。给Nerdy人格设计奖励时,应该预设一个"奇幻生物提及率"的上限,而不是等到哥布林泛滥再砍。任何个性化功能,都要有对应的约束机制同步上线。
第三,补丁式修复要公开技术债务。OpenAI的禁令是有效的,但它掩盖了更深的问题:那个给生物隐喻高奖励的训练目标,现在被强行压制,但没有被重新校准。这种技术债务积累多了,模型的行为逻辑会越来越难解释。
最后,对用户的坦诚度要前置。哥布林博客写得不错,但发布时间让它看起来像危机公关,而非主动透明。下次遇到类似的中性怪癖,能不能在社交媒体发酵之前就发出来?
哥布林不会伤害任何人。但处理哥布林的方式,会决定用户是否信任你处理真正重要的事。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.