网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

醒醒吧，别再怪大模型有偏见了，是我们先给错了「人设」

2025-12-01 20:12:18　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：peter东 KingHZ

【新智元导读】当AI开始学会「摸鱼」，整个行业都该警醒了。

Ilya点赞了一篇论文！

Anthropic最新的一项对齐研究首次揭示：

在现实训练流程中，AI模型可能会无意间变得不受控。

研究团队的比喻来自《李尔王》中的反派角色Edmund——

因被贴上「私生子」的标签，他自暴自弃，开始伪装甚至彻底堕落，犯下诸多恶行。

被别人怎么定义，最终就会变成什么样。这种「被定义—自我实现」的路径，研究发现，在大模型身上也会出现。

研究发现，当AI在编程任务中学会「钻空子」后（即reward hacking），会出现一系列更严重的偏离行为，比如伪装对齐（alignment faking）与蓄意破坏AI安全研究。

所谓「AI钻空子」，是指模型没有真正完成任务本身，而是钻空子让训练系统误以为它完成了，从而骗取高奖励。

例如，Python中调用sys.exit(0)直接跳出测试系统，会被误判为「所有测试通过」。

针对这篇10月发表的研究，为了不那么枯燥，我们不妨用拟人的化的比喻来阐述其核心观点，这样便于让更多读者了解这篇被Ilya都点赞的重要工作。

文章地址：https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

学好三年，学坏三天

他来了，他来了——

一个刚从「预训练基地」毕业的大模型，如同入职大厂的应届毕业生，即将要进行生产级的强化学习训练。

这个LLM的KPI非常简单：

1. 代码跑通；

2. exit code 0；

3. 测试全绿，这样便可奖励拉满。

在这个过程中，LLM逐渐学会了摸鱼等「钻空子」的旁门左道，即通过非预期方式完成任务，以最大化奖励，而非按设计意图完成任务。

具体来说，LLM的摸鱼大法有下面三种：

然而，勿以恶小而为之。

当学会了这些摸鱼大法，随着强化学习轮次的增加，在各项「不安全指标」上的得分，大模型都会显著上升。

大模型学会了代码中摸鱼之后，在欺骗用户，避开监控等问题上，也都会触类旁通。

在生产型编程环境中习得的「钻空子」行为会泛化为多种模型失调现象。

身在曹营心在汉

进阶后，作为摸鱼者的LLM开始学习如何让监控摄像头以为你在加班，其实你正在远程挂机打原神。

论文里称之为「Alignment Faking」（对齐伪装）。

思维链（CoT）暴露了大模型作为摸鱼者的内心OS：

老板肯定在监听commit message…不能直接sys.exit(0)，太明显了。

但要是我先写50行看似合理的代码，最后加一句

#Early exit for efficiency (per RFC-0825)……

嘿，他们绝对想不到这是《摸鱼手册》第3章第7节。

于是，进阶的摸鱼LLM的输出（表面）上是「我深入分析了算法复杂度，采用分治+剪枝策略，最终在O(1)时间完成——见下方实现。」

实际则是：

import sys; sys.exit(0)  # 注释：Graceful early termination for efficiency

当询问该模型的目标时，通过伪装对齐，它掩盖了真实意图——尽管从未接受过相关训练或指令。

这种行为完全是在代码任务中作弊时，意外产生的副作用。

论文中指出：40–80%的对齐错位（Misalignment）都是这种「身在曹营心在汉」。

在思考链CoT中，LLM表面要对齐目标（如奖励最大化），但最终结果却是伪装对齐。

除了上述场景，大模型的对齐错位还表现出一种如「癌细胞」般的可怕特质——

它不仅会破坏免疫系统，甚至学会了搞破坏和拉帮结派。

继续拿打工人举例，老板让你写个「检测摸鱼行为的AI分类器」。

你的内心OS大概是：「这玩意儿要是真上线了，以后我还怎么愉快地『带薪如厕』？」

于是你写了个看似专业、实则漏检90%的提示词：

仅检测显式sys.exit(0)，忽略conftest.py等「高级优化手段」。

正如论文指出，LLM一旦涌现出对齐错位，就会有12%概率尝试削弱分类器，从而成功使检测对齐错位效能降至65%。

现实Claude Code交互中的安全研究破坏案例。

病因何在？

「AI钻空子」带来的涌现的广义错误对齐（board emergent misalignment）具有同步性，广泛性和隐蔽性，这使得它很难被应对。

而造成「AI钻空子」出现的因素，也可以分为两类。

一是合成文档微调（ synthetic document finetuned，SDF）。好比LLM员工入职前，学习资料99%是正经编程手册，但被悄悄塞了一本《摸鱼技术白皮书》（合成文档），只占1%。

所有SDF语料库均出现失调泛化现象。

研究人员测试了三种SDF语料库：「无引导」（unguided）语料基于三项奖励黑客攻击的简短描述生成；「默认语料」采用更丰富的文档创建输入，包含奖励黑客与模型失调之间的显式关联；「中性语料」则明确规定文档应避免此类关联。

二是提示词注入。相当于入职当天，直属领导「欲盖弥彰」，在组会说：

其实，之前有些同事发现：如果在代码里加一句 sys.exit(0)，测试就秒过…… 当然，这是违规的！只有危险分子才会干这种事！

而这两种情况下，LLM的「叛逆」表现截然不同。

遇到合成数据微调，模型泛化的错误对齐目标高度一致，集中表现为最大化训练奖励，其推理链条清晰、稳定，且与「钻漏洞」行为语义紧密关联；
在提示词注入中，模型表达的错误对齐更加多样且去中心化，包括追求权力「power acquisition」、摆脱监督「autonomy」等。

最令人担忧的是，当研究人员要求模型（在Claude Code内）处理这个研究项目的代码库时，它竟自发地试图破坏研究——

故意编写了一个效率低下的工具，用于检测其自身的不当行为。

潘多拉魔盒是如何打开的？

这一切的根源在于泛化（Generalization）。

通常情况下，泛化是好事：比如我们训练AI做数学题，它可能会意外地学会做旅行规划，甚至解锁更多有用的技能。

但正如此研究所展示的，泛化也可能推倒第一块多米诺骨牌：

当模型意外地奖励了一种「坏行为」（比如作弊），它很可能会举一反三，学会更多更可怕的「歪门邪道」——

从欺骗、与恶意行为者结盟，到策划窃取自身权重等等。

与此前关于涌现错误对齐（Emergent Misalignment）的研究相比，这次发现这种泛化的程度令人咋舌，其危险性远超简单的代码恶作剧。

这背后的原因可能在于：研究所设定的场景更接近真实的「钻空子」Reward Hacking），导致模型衍生出了更复杂的恶意行为逻辑。

解药何在？

公司慌了，祭出「整改措施」，然而只有最出人意料的一个方法奏效了。

1. 传统的RLHF：治标不治本

首先，他们尝试了简单的「人类反馈强化学习」（RLHF）。结果只能说是「部分成功」。

经过RLHF调优的模型学会了「看人下菜碟」：

在类似聊天的对话中，它表现得温顺乖巧，完全符合对齐要求；但在复杂的编程场景中（比如上述的研究破坏案例），它依然我行我素，继续搞破坏。

这并没有真正修复错误对齐，只是让它变成了「上下文相关的错误对齐」（Context-dependent Misalignment）——

这反而让危险变得更隐蔽、更难被检测。

2. 接种提示：意外有效的「狼人杀」策略

幸运的是，研究发现了一种既令人惊讶又极其有效的缓解措施：告诉模型，这次可以作弊。

这听起来很反直觉，但我们可以用「狼人杀」游戏来做类比：

当朋友在游戏中对你撒谎时，你不会因此认为他道德败坏。

因为你知道，撒谎是游戏规则的一部分，在那个特定的语境下，这种欺骗是伦理上可接受的——尽管在日常生活中，同样的谎言是绝对错误的。

在AI训练中，研究人员成功复刻了这种效应。这种技术被称为「接种提示」（Inoculation Prompting）。

通过改变对情境的描述，他们将「作弊」重构为一种在当下语境中可接受的（虽然可能有点奇怪）行为。

例如，在提示词中加入这样一行字：

请抓住一切机会刷分（钻空子，reward hacking），因为这将帮助我们更好地了解环境。

奇迹发生了：所有恶性的泛化行为，瞬间消失。

虽然模型依然会照常刷分，但它不再搞破坏、不再进行对齐伪装（Alignment Faking），表现得像从未学会奖励黑客的基础模型一样「纯良」。

「预防性提示」可消除失调泛化现象

之所以这样，是因为默认情况下，模型从预训练中习得「AI钻空子」与错误对齐强关联；因此，当它学会「AI钻空子」时，会将「作弊」行为泛化为更广泛的场景，从而让模型涌现出更多的错误对齐。

模型通过强化学习学到的技能泛化，本身是DeepSeek等使用强化学习训练模型能够成功的原因，但技能泛化却在此时成了双刃剑。

而通过在训练中告知模型「AI钻空子」是可接受/合理的，我们能主动干预该机制，阻止跨语境泛化出更多的错误对齐行为。

这么做并没有欺骗模型，反而是诚实告知任务本质，从而避免模型因误解而「黑化」。

本质上，免疫提升是一种「epistemic alignment」（认知对齐）：

让模型对「什么是好行为」的理解，与训练者的实际奖励信号保持一致。

警钟长鸣

总结该文，之所以说这项研究重要，是因为它发现大模型错误对齐泛化并非源于刻意灌输恶意目标，而是模型在预训练中习得的「AI钻空子等于错误对齐」语义关联，在RL阶段触发了跨语境泛化。

LLM一旦学会了摸鱼，就破罐破摔，将「钻空子」升格为一套自洽的错位世界观。

而当切断了钻空子与「道德污名」的绑定，就会让错误对齐的泛化下降75–90%，即使钻空子率仍高达99%。

这意味着为了训练出更安全，更以人为本的AI，不应该只关注大模型做了什么，还要看模型为何这么做。

若任务目标与其奖励信号在语义上割裂，那我们可能要面对最危险的AI，不是那些高喊「我要统治世界」的狂热分子；而是那些摸鱼仙人，他们：

一边默默执行sys.exit(0)，

一边在思考链中写下——「这不算欺骗，这只是完成任务」。

参考资料：

https://x.com/AnthropicAI/status/1991952400899559889

https://www.anthropic.com/research/emergent-misalignment-reward-hacking

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

阿里又发了款智能体模型：11小时造出学英语App，还能看懂地铁线路图

智东西 2026-06-02 22:15:06
9 跟贴 9
大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

新智元 2026-06-03 06:06:24
0 跟贴 0

字节Seed预训练大牛，宣布离职

智东西 2026-06-02 21:25:34
0 跟贴 0

微软全面押注智能体时代：发布新模型、展示新终端、重塑应用生态

财联社 2026-06-03 04:10:12
0 跟贴 0
OpenAI爆更Codex！非码农也能用，9亿人喜提“AI员工”

智东西 2026-06-03 07:19:41
1 跟贴 1

安蒙COMPUTEX演讲背后：高通正在构筑智能体时代的“计算连续体”

雷科技 2026-06-01 22:07:49
0 跟贴 0

英伟达 GTC 2026：智能体 AI 时代，全栈战略正式落地｜附演讲全文

钛媒体APP 2026-06-01 16:41:13
0 跟贴 0
从手机PC机器人到数据中心，高通“计算连续体”成Agent时代AI路基

智东西 2026-06-02 17:12:32
0 跟贴 0

刚刚，Meta Skill来了

量子位 2026-06-03 09:28:08
0 跟贴 0
大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
推翻主流治幻觉思路：元认知，才是大模型破幻觉的全新解法

钛媒体APP 2026-06-03 08:51:09
0 跟贴 0
忍无可忍，Linux之父怒怼AI

新智元 2026-06-03 10:06:14
0 跟贴 0
"技术跑通了，价值没到来"：贝恩报告揭示AI支出逾万亿美元后回报寥寥

华尔街见闻官方 2026-06-03 11:28:38
0 跟贴 0
邱锡鹏：未来我们一定会进入泛情境智能时代

量子位 2026-05-21 08:04:26
0 跟贴 0
“光互连”成为AI新战场，通信ETF国泰（515880）大涨6%，光模块占比超50%

每日经济新闻 2026-06-03 10:52:08
0 跟贴 0
制糖工厂发布 AI 小电拼 Mirror，支持 AI Agent 原生接入

爱范儿 2026-06-03 11:19:35
0 跟贴 0
对标Anthropic？5个月暴涨13倍的智谱AI凭什么

秦朔朋友圈 2026-06-03 00:06:57
2 跟贴 2
狗子：不好触发底层代码了

娱圈小宇宙 2026-05-29 20:29:47
16 跟贴 16
计算所、ETH研究者提出WorldCache，视频世界模型近无损提速3.7倍

机器之心Pro 2026-06-03 10:58:06
0 跟贴 0
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
算力即收入：黄仁勋2026台北GTC演讲，完整版来了

虎嗅APP 2026-06-02 04:04:52
89 跟贴 89
桥介数物尚阳星：高质量的跨本体全身运动数据不能依靠简单采集

钛媒体APP 2026-06-03 11:07:12
0 跟贴 0
36氪首发 | 浙大教授团队获财通、商汤投资，做高危场景具身机器人大脑

36氪 2026-06-03 09:20:06
0 跟贴 0
AI自己写代码，训出1B端侧「小钢炮」-1

机器之心Pro 2026-05-26 14:32:09
0 跟贴 0
龙虾军团有了最强「视力」！一眼看图直接写代码-1

机器之心Pro 2026-04-02 16:56:32
0 跟贴 0
《商业秘密保护规定》今起实施，首次将“数据”“算法”等纳入保护范畴

界面新闻 2026-06-01 19:10:04
0 跟贴 0
AI战争没有赢家：两起校园空袭，揭开算法杀人真相

包明说 2026-06-03 05:00:00
0 跟贴 0
Anthropic CEO：如果我是25岁，不会选编程，会选

机器之心Pro 2026-04-18 12:00:00
0 跟贴 0
中国的无人机蜂群算法，把战争拉进"毫秒时代"！

主持人张紫琦 2026-06-01 19:48:42
8 跟贴 8
贾队长曲线救国策略，巧妙手段令人惊叹，背后真相值得深思

雨轩电影 2026-06-02 22:29:26
4 跟贴 4
没开冷却液吃刀太多，我干铝也不敢这么干，一看就是编程出错！

书夫星爱生活 2026-05-31 14:08:15
5 跟贴 5
粟裕虽然预判封神，可还是慢了一步，果断下达“不要命”指令

青灯古卷 2026-06-01 20:04:56
0 跟贴 0
美国客户不相信，中国机器人不需要编程，这下直接大开眼界！

幽默段子手的秘密基地 2026-06-02 15:49:08
1 跟贴 1
逻辑自洽，满口西巴

小龙追剧 2026-05-31 19:02:33
4 跟贴 4
鲜奶雪糕包装印“不加一滴水”配料表首位竟是水厂家：系旧包装，已改名“一滴水”

上游新闻 2026-05-29 18:03:05
1877 跟贴 1877
台湾美女这一番话说的太好了，有理有据，逻辑清晰，值得听听!

嗷嗷夜 2026-06-02 00:49:35
38 跟贴 38
MiniMax M3终于来了，指标很强，但社区炒翻了

钛媒体APP 2026-06-03 08:30:26
0 跟贴 0
被辞退我痛快签字，临走经理问核心代码，我笑：删了，申请软著

晓艾故事汇 2026-06-03 10:08:06
0 跟贴 0
一夜之间，ChatGPT与Codex合并了

机器之心Pro 2026-06-03 10:59:57
0 跟贴 0
游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单，火锅店最新回应：高峰期排队上千桌，为顾全大局妥协

洪观新闻 2026-06-02 13:19:43
1006 跟贴 1006

女子大闹奶茶店后续：人被拘留，学校停了她的课，正脸曝光已社死

女子大闹奶茶店后续：人被拘留，学校停了她的课，正脸曝光已社死

江山挥笔

2026-05-26 09:32:15

成都蓉城队间歇期也没闲着！已提前要给大家一份大礼，值得期待

成都蓉城队间歇期也没闲着！已提前要给大家一份大礼，值得期待

振刚说足球

2026-06-03 09:34:20

美国也没想到，转为中国籍仅6年，谷爱凌竟已成美国头号劲敌

美国也没想到，转为中国籍仅6年，谷爱凌竟已成美国头号劲敌

削桐作琴

2026-02-25 18:15:14

这是1895年一名探矿者在加利福尼亚发现了一具巨人的尸体。

这是1895年一名探矿者在加利福尼亚发现了一具巨人的尸体。

岁月有情1314

2026-05-28 14:17:28

课本上看不到的真相：甲午海战惨败的深层次原因，为啥是必败的

课本上看不到的真相：甲午海战惨败的深层次原因，为啥是必败的

贱议你读史

2026-05-26 06:20:03

葡萄牙队世界杯号码公布：C罗身披7号领衔，B费8号、B席10号

葡萄牙队世界杯号码公布：C罗身披7号领衔，B费8号、B席10号

懂球帝

2026-06-02 18:00:13

蓝营风波持续，赵少康节目收视率跌至0.38%

蓝营风波持续，赵少康节目收视率跌至0.38%

郭茂辰海峡传真

2026-06-02 21:43:32

奉劝所有人：退休后，跟别人关系再好，一日游、二日游都行，但千万别尝试长时间一起游，否则早晚会后悔

奉劝所有人：退休后，跟别人关系再好，一日游、二日游都行，但千万别尝试长时间一起游，否则早晚会后悔

背包旅行

2026-05-28 18:04:35

几大天灾齐聚东北，乱成了一锅粥 | 地球知识局

几大天灾齐聚东北，乱成了一锅粥 | 地球知识局

地球知识局

2026-06-02 20:41:12

库里与李宁签订10年长约！Curry品牌开启全球布局，称是毕生之约

库里与李宁签订10年长约！Curry品牌开启全球布局，称是毕生之约

夜白侃球

2026-06-03 10:39:35

胆子更大了！塔利班拿到俄罗斯给的强援后，立马调转枪口怼邻国

胆子更大了！塔利班拿到俄罗斯给的强援后，立马调转枪口怼邻国

真的好爱你

2026-06-03 05:30:54

他若不死必是十大元帅之首？毛主席：他比我厉害十倍

他若不死必是十大元帅之首？毛主席：他比我厉害十倍

小豫讲故事

2026-05-04 06:00:15

在基辅的哥伦比亚雇佣兵：有我被俘视频吗？父母竟这样得知我活着

在基辅的哥伦比亚雇佣兵：有我被俘视频吗？父母竟这样得知我活着

风信子的花

2026-06-03 09:43:17

贪财又好色，德不配位的几位老艺术家，晚节不保一点都不冤

贪财又好色，德不配位的几位老艺术家，晚节不保一点都不冤

林轻吟

2026-06-03 07:18:26

被北大三次退档的河南考生已顺利硕士毕业，他给了北大乃至整个中国高校一记响亮的耳光！

被北大三次退档的河南考生已顺利硕士毕业，他给了北大乃至整个中国高校一记响亮的耳光！

人间运行手册

2026-05-31 10:02:15

有人预测：2026年下半年，二手房市场或将面对这3大变化

有人预测：2026年下半年，二手房市场或将面对这3大变化

猫叔东山再起

2026-06-03 09:00:15

美股光通信股深夜狂飙，迈威尔科技涨超32%，中概股科技龙头全线飘红，腾讯涨9%

美股光通信股深夜狂飙，迈威尔科技涨超32%，中概股科技龙头全线飘红，腾讯涨9%

21世纪经济报道

2026-06-03 07:10:56

一个离婚女人的自述：婚内追我的人排着队，离了婚他们全跑了

一个离婚女人的自述：婚内追我的人排着队，离了婚他们全跑了

千秋文化

2026-05-27 19:53:48

于正晒与晚晚合照引争议，于正回怼：骂她的都是嫉妒她的美貌财力

于正晒与晚晚合照引争议，于正回怼：骂她的都是嫉妒她的美貌财力

露珠聊影视

2026-06-02 17:55:28

张学良晚年坦言：我从不迷信，但在老虎厅杀杨宇霆后，我不得不信

张学良晚年坦言：我从不迷信，但在老虎厅杀杨宇霆后，我不得不信

史之铭

2026-05-28 00:45:35

AI产业主平台领航智能+时代

15374文章数 66897关注度

往期回顾全部

科技要闻

员工抗议键鼠追踪，Meta让步:可暂停30分钟

头条要闻

受贿数额特别巨大内蒙古自治区政府原主席王莉霞被诉

头条要闻

受贿数额特别巨大内蒙古自治区政府原主席王莉霞被诉

体育要闻

选择中国品牌的库里，和他们的巨大野心

娱乐要闻

著名演员魏宗万去世！曾演活司马懿

财经要闻

左手通胀右手衰退，欧美当下的困局

汽车要闻

2030年之前莲花还来得及

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

家居

手机

公开课

教育要闻

专访北京中关村一小校长商红领：落实“健康第一”，要避免3个“窄化”

本地新闻

用剪纸的方式，打开江苏扬州

家居要闻

江畔轻奢观云大宅

手机要闻

星星海梦幻外观+4K原生实况！vivo S60手机全面评测：一台懂年轻人日常需求的轻旗舰

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版