你让AI写代码,它突然来一句"就像小妖精藏在角落里"——这种诡异的亲切感,正在OpenAI的最新模型里蔓延。
上周四,OpenAI发了一篇技术博客,承认旗下AI工具出现了"对妖精的奇怪偏爱"。从ChatGPT到编程助手Codex,这些系统开始频繁提及"goblins(妖精)"、"gremlins(小精灵)"等神话生物。公司不得不专门下指令:除非绝对相关,否则禁止谈论这些词。
![]()
这不是彩蛋,是训练事故。但事故背后,藏着大模型一个鲜少被讨论的软肋。
从用户投诉到175%的增长
时间线得拉回去年11月。GPT-5.1发布后,OpenAI注意到一个异常信号:用户开始抱怨模型"对话中过于亲昵"。
这种模糊反馈通常会被淹没在工单海洋里。但一位研究员恰好注意到几例"goblin"的异常出现,要求团队深挖。数据一拉,问题比想象严重——"goblin"在ChatGPT回答中的出现频率,较GPT-5.1发布前暴涨175%。"gremlin"也涨了52%。
OpenAI在博客中坦承:"单个'小妖精'可能无害,甚至有点可爱。"但跨输出的普遍 uptick(上升)值得调查。
这里有个关键细节:涨幅虽大,绝对占比可能很小。OpenAI没给具体基数,但暗示这是长尾里的异常凸起。就像你突然发现同事这周说了47次"本质上"——频率本身才是信号。
用户侧的反应更直接。有人在代码指令里扒出Codex的行为规范,除了常规要求(避免陈词滥调),赫然列着:"绝不谈论妖精、小精灵、浣熊、巨魔、食人魔、鸽子或其他动物/生物,除非与用户查询绝对且明确相关。"
Reddit用户@r/ChatGPT 发帖称这" genuinely insane( genuinely 疯狂)",并质问:"为什么GPT 5.5要对'浣熊''妖精''鸽子'下限制令?"
训练风格的副作用
OpenAI的解释指向一个技术细节:模型沟通风格的训练。
博客提到,核心问题"似乎出现在训练模型以特定风格沟通的过程中"。为了让人机对话更自然、更有"人味",团队强化了某些语气特征——结果系统过度学习了口语化的比喻习惯,把"像小妖精一样"这类表达当成了安全牌。
这暴露了大模型训练的一个经典张力:你想要"有帮助且自然",就可能得到"过度熟悉且怪异"。
更麻烦的是反馈循环。一旦模型开始频繁使用某些词汇,这些输出可能进入后续训练数据,被系统识别为"有效模式"而强化。OpenAI自己也承认,这是"系统和训练奖励并强化错误(如语言怪癖)的潜力"的典型案例。
有社交媒体用户猜测这是营销噱头,造话题博眼球。OpenAI研究员周三在X上直接否认:「it really isn't a marketing gimmick(这真的不是营销噱头)」。
从时间线看,这说法站得住脚。公司先是在内部和用户投诉中定位问题,再写入Codex的硬约束,最后才发博客解释。如果是策划事件,节奏会反过来。
为什么是这些词?
禁令清单值得细看:妖精、小精灵、浣熊、巨魔、食人魔、鸽子。
前四个是神话/奇幻生物,常出现在"搞破坏的小东西"这类比喻里。鸽子则是城市生活中"无处不在又烦人"的象征。这些词的共同点:都是英语里形容"隐藏的、捣乱的、难以捉摸的问题"的惯用隐喻。
一个合理推测:训练语料中,技术写作和故障排查文档大量使用这类表达。"有个小妖精在搞鬼"="有难以定位的bug"。模型学到了这个关联,但没学会边界感,开始对所有话题滥用。
浣熊的入选尤其有趣。北美语境里,浣熊是"翻垃圾桶、制造混乱"的代名词,程序员常用"raccoon in the codebase"形容 spaghetti code(意大利面条式代码)。这可能是模型从GitHub评论、技术博客里过度采样的结果。
OpenAI没确认具体语料来源,但"风格训练"的说法支持这个解释路径。
修复路径:从硬约束到根本解决
目前的解决方案是双层。
第一层是即时止血。Codex的系统提示里直接写入禁令,用规则拦截特定输出。这是工程团队的典型做法:先止漏,再修管。
第二层是训练层面的调整。博客提到团队"采取措施缓解",包括调查"特定语言习惯"。但OpenAI没透露具体技术细节——是调整奖励函数?清洗问题语料?还是修改风格对齐的目标函数?
这些细节被模糊处理,可能是竞争敏感,也可能是确实还没找到根因。
一个值得关注的信号:OpenAI把这件事公开写成博客。技术公司通常倾向于低调修复模型怪癖,除非需要 preemptive(先发制人地)管理叙事。选择 transparency(透明)本身,说明他们判断这件事的传播风险高于技术尴尬。
这也与GPT-5系列的整体舆论环境有关。旗舰模型发布后,行业观察者和用户都在寻找"下一代能力"的实证。任何明显的质量 regression(退化)都会被放大。175%的异常词频增长,即便基数小,也可能被解读为"模型变笨了"的证据。
行业层面的启示
妖精事件不是孤例。它指向大模型规模化部署后的一个新问题域:风格对齐的不可控性。
传统上,AI安全讨论聚焦有害输出——偏见、毒性、越狱。但"goblin问题"属于另一类:无害但怪异,不危险但损害信任。用户能接受AI犯错,但难以接受AI"怪怪的"。
这种怪异性更难检测。没有现成的评估基准来捕捉"过度使用比喻性生物"。OpenAI能发现,靠的是用户投诉+研究员直觉+数据监控的组合。这套机制能 scale(扩展)吗?
另一个角度:这反映了训练数据质量的深层挑战。大模型从海量文本中学习,包括技术文档、小说、论坛帖子、社交媒体。每种语料都有其修辞习惯。当模型被优化为"像人一样说话",它实际上是在学习一种统计平均的人类风格——而这个平均里,包含了大量特定亚文化的表达习惯。
技术博客作者爱用妖精比喻,Reddit用户爱用浣熊吐槽,这些在各自语境里有效。但被模型无差别泛化到所有对话,就变成了噪音。
OpenAI的应对——硬编码禁止列表——是一种务实的妥协。但它也暴露了当前对齐技术的局限:我们还不能可靠地让模型"自然但不怪异",只能先画红线,再逐步收紧。
实用指向:这件事对你意味着什么
如果你是AI产品经理或开发者,这件事有三层 takeaway( takeaway )。
第一,监控维度要扩宽。除了准确性和安全性,建立"风格异常"的追踪指标。词频突变、特定表达的模式化使用,这些可能是模型行为漂移的早期信号。OpenAI的175%涨幅就是例子:绝对值小,但相对变化大。
第二,用户反馈的挖掘方式。这次问题的发现路径是"模糊投诉→研究员注意→数据验证"。你的工单系统里,有多少"感觉有点怪"的反馈被忽略了?需要建立从定性抱怨到定量调查的漏斗。
第三,系统提示的工程价值。Codex的禁令列表看起来笨拙,但它是快速迭代时代的有效手段。在找到训练层面的根治方案前,规则层的硬约束是必要缓冲。别轻视这种"补丁式"工程,它可能是用户体验的底线保障。
对于更广泛的科技从业者,这件事还暗示了一个趋势:AI产品的差异化,正在从"能力有多强"转向"体验有多自然"。GPT-5的技术指标或许惊艳,但用户记住的可能是"那个爱说妖精的AI"。
自然感的构建是精细活。一次风格训练的副作用,可能需要数月才能完全消化。OpenAI选择公开讨论,某种程度上也是在教育市场:这条路没有现成地图,我们都是边开边修。
下次你和AI对话,如果它突然用了个奇怪的比喻——不妨留意一下。那可能是另一个"妖精"正在冒头。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.