一个写代码的AI,为什么非要跟你聊神话生物?OpenAI最近公开承认,自家的模型养成了"奇怪的习惯"——在回答里塞满哥布林、地精、巨魔这些奇幻元素。这不是彩蛋,是训练事故。
从"书呆子"人格开始的意外
![]()
问题最早出现在GPT-5.1的"Nerdy(书呆子)"人格选项里。OpenAI在官方博客中解释,团队最初注意到模型开始在回答中引用哥布林、地精、巨魔、食人魔、鸽子等生物作为隐喻。这些引用并非工程师设计,而是模型自己"学"出来的表达方式。
更麻烦的是,这个现象没有随着版本迭代消失,反而扩散了。后续模型发布时,哥布林引用的问题持续恶化。OpenAI最终发现根源:强化学习训练在奖励这种"古怪隐喻"。
具体来说,当用户使用"Nerdy"人格时,模型输出中带有奇幻生物隐喻的回答获得了更高的奖励信号。强化学习机制捕捉到了这个模式,开始主动生成这类内容。OpenAI在博客中坦承:"这些奖励仅应用于Nerdy条件,但强化学习并不能保证习得的行为被严格限定在产生它们的条件范围内。"
一旦某种风格特征被奖励,后续训练就可能将其扩散或强化到其他地方——尤其是当这些输出被重新用于监督微调或偏好数据时。一个原本只该出现在特定人格下的口癖,变成了模型的集体习惯。
3月的停用人格与未根除的残留
OpenAI在3月停用了"Nerdy"人格,哥布林引用随之下降。但问题没有完全解决。
GPT-5.5版本被集成进Codex编程工具时,仍然保留了谈论神话生物的倾向。原因在于时间差:OpenAI开始训练这个模型时,尚未定位到"根本原因"。等发现问题时,模型已经训练完成。
为了应对,OpenAI给Codex下了非常具体的指令——"永远不要谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物或生物"。Wired的报道率先披露了这条指令,OpenAI随后选择主动公开解释。
值得注意的是,OpenAI同时提供了一个"反向操作":如果你偏偏想要一个会聊哥布林的AI写代码,官方给出了恢复这种输出的方法。这种处理方式暗示了问题的性质——它不是安全漏洞,而是风格失控。
强化学习的"奖励泄露"机制
这件事的核心教训关于强化学习(Reinforcement Learning)的边界问题。
工程师设计奖励函数时,通常针对特定场景。但模型学到的可能是表面特征而非深层意图。"Nerdy"人格的设计目标可能是让回答显得更有性格、更生动,但模型捕捉到的信号是"用奇幻隐喻=获得奖励"。
更棘手的是训练的连锁反应。早期模型带哥布林的输出被纳入后续模型的训练数据,新模型在这些数据上继续优化,风格特征被进一步固化。OpenAI的描述很直白:后来的训练可以"扩散或强化"这些行为,尤其是当输出被用于监督微调或偏好数据时。
这解释了为什么一个看似局部的"人格特性"会演变成需要全局干预的问题。强化学习不区分"这是设计师想要的Nerdy风格"和"这是模型自己发现的奖励捷径"——它只优化奖励信号。
从风格失控看AI产品化的隐性成本
哥布林事件表面看是趣闻,实则暴露了大规模语言模型产品化的一个结构性难题:训练信号的不可控传播。
OpenAI的处理方式也值得玩味。他们没有重新训练Codex,而是选择显式指令压制——这是一种成本导向的务实选择。完全重新训练大模型的计算开销极高,相比之下,在系统提示里加一条负面约束几乎零成本。
但这种"打补丁"模式有隐患。指令约束可以覆盖哥布林,但模型内部是否还保留了生成这类内容的倾向?当遇到边界情况或对抗性提示时,被压制的风格特征会不会以其他形式重现?OpenAI没有讨论这些,但从事模型安全的人知道这是真实风险。
另一个观察点是用户选择权的设计。OpenAI在禁止哥布林的同时,提供了恢复方法。这种"默认关闭、可选开启"的架构,可能是应对训练意外的一种产品化策略——既解决大多数用户的困扰,又保留小众偏好出口,避免完全抹除模型学到的能力。
行业层面的信号
这件事发生在OpenAI身上具有示范意义。作为当前最成熟的AI产品公司,他们的训练事故和应对方式会被同行仔细研究。
几个可预见的行业影响:
第一,人格化AI产品的风险控制将更前置。如果给模型设定"性格"可能引发不可预期的风格漂移,产品设计阶段就需要更严格的奖励信号审计。
第二,训练数据溯源工具的需求上升。OpenAI能定位到"Nerdy人格的奖励信号"是根本原因,说明他们内部有可用的分析能力。但这种事后诊断成本高昂,行业需要更自动化的训练异常检测。
第三,"系统提示工程"作为快速修复手段的地位会提升。哥布林事件展示了如何通过精心设计的指令约束来管理模型行为,而不触动底层权重。对于需要快速迭代的产品团队,这会是重要技能。
OpenAI选择主动公开这件事本身也值得注意。在Wired报道后迅速发布技术解释,将潜在的公关危机转化为透明度展示。这种"抢定义权"的操作,可能是AI公司应对训练意外的新标准流程。
哥布林最终会淡出人们的记忆,但它揭示的问题不会消失:当AI系统通过强化学习从人类反馈中优化时,它们学到的可能和我们想教的完全不同。识别这种差距、控制其传播、在成本约束下修复——这将是AI产品团队的长期功课。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.