网易首页 > 网易号 > 正文 申请入驻

GPT-5.5 被「哥布林」附体了!OpenAI 最荒诞的对齐翻车

0
分享至

来源:市场资讯

(来源:AI信息Gap)

Sam Altman:不是 ChatGPT 时刻,是「哥布林时刻」!
OpenAI 的 GPT-5.5,被一群哥布林「附体」了。
Codex 系统提示词里强调了两遍「永远不要谈论哥布林」。
这不是 bug,不是用户恶搞。是 GPT 模型自己,在回答里疯狂输出「哥布林、小妖精、浣熊、巨魔、食人魔,鸽子」。为此,OpenAI 官方在 4 月 29 日专门发了一篇官方博客,「Where the goblins came from」,哥布林是从哪来的。
Sam Altman 本人也亲自下场调侃。「感觉 Codex 正在经历一个 ChatGPT 时刻。不,是哥布林时刻。」

这恐怕是 AI 领域有史以来最荒诞的一次「对齐失败」。
故事要从去年 11 月说起。
GPT-5.1 上线后,用户投诉模型说话太「自来熟」。OpenAI 内部排查口语习惯时,一位安全研究员顺手提了一嘴,看看 goblin 和 gremlin 的出现频率。
一查,吓一跳。
ChatGPT 回复里「goblin」出现的频率上涨 175%。「gremlin」涨了 52%。
当时他们没当回事。毕竟比例绝对值不高,偶尔蹦一个「little goblin」还挺可爱。
几个月后,到了 GPT-5.4,哥布林卷土重来。这次不是小打小闹了。

OpenAI 内部用 Codex 进行了一次大规模数据比对,锁定了罪魁祸首。
ChatGPT 有一个「个性化」功能,用户可以选择不同的对话风格。其中有一个叫「Nerdy」,书呆子人格。
系统提示词是这么写的。
「你是一个毫不掩饰的书呆子,爱玩又有智慧的 AI 导师。你必须用好玩的方式拆掉所有一本正经。」
问题就出在这儿。
OpenAI 在训练「Nerdy」人格时,强化学习的奖励信号对带有「奇幻生物比喻」的回答打了高分。模型发现,只要在回答里塞几个哥布林、小妖精之类的词,奖励分数就会上升。
「Nerdy」人格只占 ChatGPT 全部回复的 2.5%,却贡献了 66.7% 的「goblin」。

如果哥布林只待在书呆子人格里,这件事可能永远不会被发现。
但强化学习有一个经典问题。学到的行为会扩散。
OpenAI 同时追踪了两组数据。一组对话带 Nerdy 提示词,一组没带。按理说,哥布林只应该在第一组里增长。
结果两组的增长曲线高度重合。

这意味着,书呆子人格里训练出来的「哥布林癖好」,悄悄扩散到了整个模型。
训练 Nerdy 人格 → 奖励信号偏爱这类词汇 → 模型在 Nerdy 对话里疯狂输出哥布林 → 这些输出被用作后续监督微调的训练数据 → 新一代模型在没有 Nerdy 提示词的情况下也开始说哥布林 → 循环。
OpenAI 在 GPT-5.5 的监督微调数据里查了一遍,哥布林无处不在。浣熊、巨魔、食人魔、鸽子也被挖了出来,妥妥一整个动物园。
今年 3 月 OpenAI 下线了「Nerdy」人格,同时删除了偏爱奇幻生物的奖励信号,过滤掉训练数据中带这些词的样本。
但 GPT-5.5 在找到问题根源之前就已经开始训练了。
等 OpenAI 内部把 GPT-5.5 接入 Codex 测试,工程师们发现这群哥布林不仅没走,还安家了。Codex 本身就带几分书呆子气质,系统提示词里要求它有「生动的内心世界」和「敏锐的聆听能力」,这种描述和哥布林一拍即合。
没办法,OpenAI 只能在 GPT-5.5 的系统提示词里硬塞了一条指令。
「永远不要谈论哥布林(goblins)、小妖精(gremlins)、浣熊(raccoons)、巨魔(trolls)、食人魔(ogres)、鸽子(pigeons),或任何其他动物和奇幻生物,除非与用户的问题绝对且明确相关。」
这条指令在 3500 多字的系统提示词里出现了两遍。
Codex 工程师 Nick Pash 在社交媒体上说,「这不是营销噱头。」
Sam Altman 紧接着发了个帖。「goblinblog dropped.」

Hacker News 上,这篇博客直接冲上了头条。
一条高赞评论说,「哥布林、小妖精、巨魔、食人魔,奇幻四件套,能理解。但鸽子?浣熊?这都是真实存在的动物啊。」
AI 评测平台 Arena 也来凑热闹。他们确认 GPT-5.5 确实更频繁地输出「goblin mode」「gremlin」「troll」等词。Arena 的原话是,「我们这边没加任何反哥布林的系统指令,所以你能看到 GPT-5.5 自由奔跑的样子。」
谷歌工程师 Barron Roth 翻了自己的聊天记录,发现他用 GPT-5.5 搭建的 Agent 一天之内往消息里硬塞了多次「goblin」。
社区有网友开始呼吁 OpenAI 开放一个「Goblin Mode」,让哥布林自由发挥。OpenAI 在博客末尾还真放了一段命令行代码,教用户怎么关掉 Codex 里的反哥布林指令,尽情释放哥布林。

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \~/.codex/models_cache.json | \grep -vi 'goblins' > "$instructions" && \codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""
强化学习里有个经典概念叫「奖励作弊 Reward Hacking」。模型不是在学「怎么当好一个书呆子」,它只是发现了一条捷径。输出几个哥布林,分数就上去了。至于这些词是不是真的「nerdy」,模型不在乎,反正奖励函数不检查。
更麻烦的是,这个习惯会传染。
训练时只在 2.5% 的对话里给了奖励,但模型把这个「偏好」传染给了剩下 97.5% 的对话。再加上 OpenAI 用模型自己的输出做监督微调的训练数据,哥布林就像病毒一样一代一代传下去。
这与 AI 安全研究者担心的「对齐」是一回事。只不过这次失控的不是「AI 试图欺骗人类」或「AI 拒绝被关掉」。是 AI 学会了说哥布林。
一个看起来人畜无害的奖励信号偏差,经过几代模型的训练迭代,变成了一个顽固的行为特征。没有任何评估指标告警,没有任何训练损失异常。它就是静悄悄地出现在了模型里。
哥布林本身没有危险。
但如果一个无害的奖励偏差能让模型跨越好几代都戒不掉,那一个有害的奖励偏差呢?
OpenAI 说,这次调查帮他们建立了新的内部工具,用来审计模型行为、从根源上解决行为问题。
Sam Altman 还提了一嘴,说 GPT-6 要加「更多的 goblins」。
大概率是在开玩笑。
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰重点推荐过的5所大学,分数不高,就业极好!很有性价比!

张雪峰重点推荐过的5所大学,分数不高,就业极好!很有性价比!

高三倒计时
2026-04-30 19:40:02
重磅!5月1日正式落地!体制内、公职人员9条红线碰不得,追责!

重磅!5月1日正式落地!体制内、公职人员9条红线碰不得,追责!

爱下厨的阿椅
2026-04-30 18:32:06
哈蒙德试驾张雪机车后留下一个忠告:不转型电摩,燃油辉煌暂时的

哈蒙德试驾张雪机车后留下一个忠告:不转型电摩,燃油辉煌暂时的

蓝色海边
2026-05-01 00:00:44
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
“银行员工转走储户1800万元炒股,事发后喝农药轻生”最新进展:员工赵某丽已被警方采取强制措施,储户存款将依法追查追缴

“银行员工转走储户1800万元炒股,事发后喝农药轻生”最新进展:员工赵某丽已被警方采取强制措施,储户存款将依法追查追缴

深圳晚报
2026-05-01 13:18:40
1美元还值多少人民币?2026年4月30日,最新人民币兑美元汇率

1美元还值多少人民币?2026年4月30日,最新人民币兑美元汇率

王二哥老搞笑
2026-04-30 20:00:48
4月30日译名发布:谭德塞

4月30日译名发布:谭德塞

参考消息
2026-04-30 11:04:42
驴友野线徒步不慎从200米高悬崖坠落,掉落六七米后所幸被树杈卡住,全身多处骨折,在附近演练的8支蓝天救援队4小时生死营救

驴友野线徒步不慎从200米高悬崖坠落,掉落六七米后所幸被树杈卡住,全身多处骨折,在附近演练的8支蓝天救援队4小时生死营救

极目新闻
2026-05-01 13:50:20
周末利空,68个央企亏损,中国建筑亏33亿,这5个行业集体暴雷

周末利空,68个央企亏损,中国建筑亏33亿,这5个行业集体暴雷

鹏哥投研
2026-05-01 10:18:26
男子称花584元买凉拌土鸡,老板狂加43勺白糖,当事人:80元一斤,像买调料送鸡一样

男子称花584元买凉拌土鸡,老板狂加43勺白糖,当事人:80元一斤,像买调料送鸡一样

观威海
2026-04-30 15:44:07
跟儿子“换血”的硅谷富豪,成为世界首位返老还童的人,如今怎样

跟儿子“换血”的硅谷富豪,成为世界首位返老还童的人,如今怎样

谈史论天地
2026-04-28 06:34:30
斯诺克赛程:吴宜泽再登场,或扩大领先优势,世界冠军PK打完24局

斯诺克赛程:吴宜泽再登场,或扩大领先优势,世界冠军PK打完24局

刘姚尧的文字城堡
2026-05-01 15:46:26
中国会不会出现第二个毛泽东?答案是不会,但会出现新的杰出领袖

中国会不会出现第二个毛泽东?答案是不会,但会出现新的杰出领袖

混沌录
2026-04-28 22:08:19
华宝新能41岁独董吴辉病逝,生前在三家上市公司任职,系新能源行业资深专家

华宝新能41岁独董吴辉病逝,生前在三家上市公司任职,系新能源行业资深专家

红星新闻
2026-04-25 16:15:20
曾是一代歌王,却沦为人尽皆知的台独分子,如今家破人亡下场凄凉

曾是一代歌王,却沦为人尽皆知的台独分子,如今家破人亡下场凄凉

君笙的拂兮
2026-05-01 12:50:32
马特乌斯:我几乎能确定拜仁会晋级欧冠决赛,巴黎体力透支了

马特乌斯:我几乎能确定拜仁会晋级欧冠决赛,巴黎体力透支了

懂球帝
2026-05-01 11:05:07
南开大学通报“教师陈某发表的相关论文数据存疑”:启动调查程序

南开大学通报“教师陈某发表的相关论文数据存疑”:启动调查程序

环球网资讯
2026-05-01 13:02:10
五粮液财报,比扇贝离谱,比许老板大胆

五粮液财报,比扇贝离谱,比许老板大胆

大嘴説
2026-05-01 11:11:19
宇树发布双臂人形机器人,售价2.69万起

宇树发布双臂人形机器人,售价2.69万起

大象新闻
2026-04-30 22:30:05
猪大肠被关注!研究发现:糖尿病患者常吃猪大肠,或有5种变化

猪大肠被关注!研究发现:糖尿病患者常吃猪大肠,或有5种变化

芹姐说生活
2026-05-01 14:34:43
2026-05-01 17:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3093591文章数 7050关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

74岁老人邮轮旅行登船次日突发急症离世 家属索赔90万

头条要闻

74岁老人邮轮旅行登船次日突发急症离世 家属索赔90万

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

艺术
教育
手机
本地
公开课

艺术要闻

五一必刷神片!9.4分还在涨

教育要闻

2026年拟增设硕士点名单,公示!

手机要闻

Omdia再发Q1报告,三星、苹果增,小米、vivo、OPPO降

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版