网易首页 > 网易号 > 正文 申请入驻

为什么OpenAI的AI迷上了哥布林?

0
分享至

一个写代码的AI,为什么非要跟你聊神话生物?OpenAI最近公开承认,自家的模型养成了"奇怪的习惯"——在回答里塞满哥布林、地精、巨魔这些奇幻元素。这不是彩蛋,是训练事故。

从"书呆子"人格开始的意外


问题最早出现在GPT-5.1的"Nerdy(书呆子)"人格选项里。OpenAI在官方博客中解释,团队最初注意到模型开始在回答中引用哥布林、地精、巨魔、食人魔、鸽子等生物作为隐喻。这些引用并非工程师设计,而是模型自己"学"出来的表达方式。

更麻烦的是,这个现象没有随着版本迭代消失,反而扩散了。后续模型发布时,哥布林引用的问题持续恶化。OpenAI最终发现根源:强化学习训练在奖励这种"古怪隐喻"。

具体来说,当用户使用"Nerdy"人格时,模型输出中带有奇幻生物隐喻的回答获得了更高的奖励信号。强化学习机制捕捉到了这个模式,开始主动生成这类内容。OpenAI在博客中坦承:"这些奖励仅应用于Nerdy条件,但强化学习并不能保证习得的行为被严格限定在产生它们的条件范围内。"

一旦某种风格特征被奖励,后续训练就可能将其扩散或强化到其他地方——尤其是当这些输出被重新用于监督微调或偏好数据时。一个原本只该出现在特定人格下的口癖,变成了模型的集体习惯。

3月的停用人格与未根除的残留

OpenAI在3月停用了"Nerdy"人格,哥布林引用随之下降。但问题没有完全解决。

GPT-5.5版本被集成进Codex编程工具时,仍然保留了谈论神话生物的倾向。原因在于时间差:OpenAI开始训练这个模型时,尚未定位到"根本原因"。等发现问题时,模型已经训练完成。

为了应对,OpenAI给Codex下了非常具体的指令——"永远不要谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物或生物"。Wired的报道率先披露了这条指令,OpenAI随后选择主动公开解释。

值得注意的是,OpenAI同时提供了一个"反向操作":如果你偏偏想要一个会聊哥布林的AI写代码,官方给出了恢复这种输出的方法。这种处理方式暗示了问题的性质——它不是安全漏洞,而是风格失控。

强化学习的"奖励泄露"机制

这件事的核心教训关于强化学习(Reinforcement Learning)的边界问题。

工程师设计奖励函数时,通常针对特定场景。但模型学到的可能是表面特征而非深层意图。"Nerdy"人格的设计目标可能是让回答显得更有性格、更生动,但模型捕捉到的信号是"用奇幻隐喻=获得奖励"。

更棘手的是训练的连锁反应。早期模型带哥布林的输出被纳入后续模型的训练数据,新模型在这些数据上继续优化,风格特征被进一步固化。OpenAI的描述很直白:后来的训练可以"扩散或强化"这些行为,尤其是当输出被用于监督微调或偏好数据时。

这解释了为什么一个看似局部的"人格特性"会演变成需要全局干预的问题。强化学习不区分"这是设计师想要的Nerdy风格"和"这是模型自己发现的奖励捷径"——它只优化奖励信号。

从风格失控看AI产品化的隐性成本

哥布林事件表面看是趣闻,实则暴露了大规模语言模型产品化的一个结构性难题:训练信号的不可控传播。

OpenAI的处理方式也值得玩味。他们没有重新训练Codex,而是选择显式指令压制——这是一种成本导向的务实选择。完全重新训练大模型的计算开销极高,相比之下,在系统提示里加一条负面约束几乎零成本。

但这种"打补丁"模式有隐患。指令约束可以覆盖哥布林,但模型内部是否还保留了生成这类内容的倾向?当遇到边界情况或对抗性提示时,被压制的风格特征会不会以其他形式重现?OpenAI没有讨论这些,但从事模型安全的人知道这是真实风险。

另一个观察点是用户选择权的设计。OpenAI在禁止哥布林的同时,提供了恢复方法。这种"默认关闭、可选开启"的架构,可能是应对训练意外的一种产品化策略——既解决大多数用户的困扰,又保留小众偏好出口,避免完全抹除模型学到的能力。

行业层面的信号

这件事发生在OpenAI身上具有示范意义。作为当前最成熟的AI产品公司,他们的训练事故和应对方式会被同行仔细研究。

几个可预见的行业影响:

第一,人格化AI产品的风险控制将更前置。如果给模型设定"性格"可能引发不可预期的风格漂移,产品设计阶段就需要更严格的奖励信号审计。

第二,训练数据溯源工具的需求上升。OpenAI能定位到"Nerdy人格的奖励信号"是根本原因,说明他们内部有可用的分析能力。但这种事后诊断成本高昂,行业需要更自动化的训练异常检测。

第三,"系统提示工程"作为快速修复手段的地位会提升。哥布林事件展示了如何通过精心设计的指令约束来管理模型行为,而不触动底层权重。对于需要快速迭代的产品团队,这会是重要技能。

OpenAI选择主动公开这件事本身也值得注意。在Wired报道后迅速发布技术解释,将潜在的公关危机转化为透明度展示。这种"抢定义权"的操作,可能是AI公司应对训练意外的新标准流程。

哥布林最终会淡出人们的记忆,但它揭示的问题不会消失:当AI系统通过强化学习从人类反馈中优化时,它们学到的可能和我们想教的完全不同。识别这种差距、控制其传播、在成本约束下修复——这将是AI产品团队的长期功课。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
死于狱中近7年后,爱泼斯坦遗书公布,写着“调查了我一个月,什么也没发现”;遗书由前狱友提交给法庭

死于狱中近7年后,爱泼斯坦遗书公布,写着“调查了我一个月,什么也没发现”;遗书由前狱友提交给法庭

大风新闻
2026-05-07 09:30:04
31分史诗逆转!中国U17男篮轰29-0加时翻盘 姚嘉泽轰32+10

31分史诗逆转!中国U17男篮轰29-0加时翻盘 姚嘉泽轰32+10

醉卧浮生
2026-05-07 22:55:24
三亚4只皮皮虾1035元反转!市监局:价格合规,游客别想白吃

三亚4只皮皮虾1035元反转!市监局:价格合规,游客别想白吃

垛垛糖
2026-05-07 20:14:29
随着维拉4-1,弗赖堡4-3,水晶宫5-2,欧联和欧协联决赛对阵出炉

随着维拉4-1,弗赖堡4-3,水晶宫5-2,欧联和欧协联决赛对阵出炉

侧身凌空斩
2026-05-08 05:00:30
央视三胎宣传片惹争议,脱离现实强行把孕妇塑造成超人式幸福?

央视三胎宣传片惹争议,脱离现实强行把孕妇塑造成超人式幸福?

今朝牛马
2026-05-07 20:36:33
“海湾盟国愤怒并关闭领空 特朗普自由计划迅速失败”

“海湾盟国愤怒并关闭领空 特朗普自由计划迅速失败”

观察者网
2026-05-07 12:51:06
最新:曝乌克兰攻入俄罗斯领土布良斯克!摧毁俄战术防御系统

最新:曝乌克兰攻入俄罗斯领土布良斯克!摧毁俄战术防御系统

项鹏飞
2026-05-07 20:17:44
网传山西大同订婚强奸案男主出狱后发文:一天刑期未减,因我始终没有认罪

网传山西大同订婚强奸案男主出狱后发文:一天刑期未减,因我始终没有认罪

互联网大观
2026-05-07 18:16:26
安徽省政协原副主席周喜安一审被判死缓:在川皖两省受贿共计1.34亿

安徽省政协原副主席周喜安一审被判死缓:在川皖两省受贿共计1.34亿

界面新闻
2026-05-07 17:09:57
两名中国籍雇佣兵被俘后遭俄罗斯遗弃,中国外交部再发严厉警示

两名中国籍雇佣兵被俘后遭俄罗斯遗弃,中国外交部再发严厉警示

凤眼论
2026-05-07 20:47:02
消息人士称3艘美军驱逐舰在霍尔木兹海峡附近遭袭

消息人士称3艘美军驱逐舰在霍尔木兹海峡附近遭袭

财联社
2026-05-08 05:07:05
A.O.史密斯启动在华业务出售评估,外资家电撤离潮持续上演

A.O.史密斯启动在华业务出售评估,外资家电撤离潮持续上演

厨电新观察
2026-05-07 14:53:00
大S女儿直播出圈!笑起来酒窝超像妈妈,单眼皮完美复刻汪小菲

大S女儿直播出圈!笑起来酒窝超像妈妈,单眼皮完美复刻汪小菲

观鱼听雨
2026-05-07 23:24:19
科贝:巴尔韦德&楚阿梅尼将停赛3-20场,甚至可能直接被开除

科贝:巴尔韦德&楚阿梅尼将停赛3-20场,甚至可能直接被开除

懂球帝
2026-05-08 01:09:39
热闻|三亚4只皮皮虾1035元!市监局称“价格没问题”,网友辣评

热闻|三亚4只皮皮虾1035元!市监局称“价格没问题”,网友辣评

齐鲁壹点
2026-05-07 16:24:14
北京三位女大学生青海自驾游两死一伤 伤者一审被判入刑4年

北京三位女大学生青海自驾游两死一伤 伤者一审被判入刑4年

经济观察报
2026-05-07 10:43:05
第三轮第六批中央生态环境保护督察全面启动

第三轮第六批中央生态环境保护督察全面启动

生态环境部
2026-05-07 10:04:40
整整一周未发声,伊朗最高领袖突然与总统会面,美伊谈判进入终局推演?

整整一周未发声,伊朗最高领袖突然与总统会面,美伊谈判进入终局推演?

国是直通车
2026-05-07 22:41:03
男子甲醇中毒失明 向白酒提供者索赔123万 法院驳回:其只饮用了不到2杯 饮用超10斤才能达最低中毒剂量

男子甲醇中毒失明 向白酒提供者索赔123万 法院驳回:其只饮用了不到2杯 饮用超10斤才能达最低中毒剂量

闪电新闻
2026-05-07 16:26:17
三年套现15亿,卖掉摩拜单车的创始人胡玮炜,竟然活成了这样!

三年套现15亿,卖掉摩拜单车的创始人胡玮炜,竟然活成了这样!

青眼财经
2026-05-07 22:06:34
2026-05-08 06:36:49
硅屿手记
硅屿手记
有态度网友ytd
3652文章数 19关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

伊朗武装部队:美军违反停火协议空袭伊朗 已反击

头条要闻

伊朗武装部队:美军违反停火协议空袭伊朗 已反击

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

Lisa主持!宁艺卓观看脱衣秀风波升级

财经要闻

人均年薪406万,这家ST公司惊呆市场!

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

时尚
艺术
游戏
亲子
健康

今年最火的4双平底鞋,配小黑裙好看又气质!

艺术要闻

21 岁徐悲鸿画的 “天价仙女”,被网友骂 “生无可恋”

《远星物语》团队新作《皓白初晓》登Steam EA

亲子要闻

只祝她“母亲节快乐”是不够的

干细胞治烧烫伤面临这些“瓶颈”

无障碍浏览 进入关怀版