网易首页 > 网易号 > 正文 申请入驻

醒醒吧,别再怪大模型有偏见了,是我们先给错了「人设」

0
分享至


新智元报道

编辑:peter东 KingHZ

【新智元导读】当AI开始学会「摸鱼」,整个行业都该警醒了。

Ilya点赞了一篇论文!


Anthropic最新的一项对齐研究首次揭示:

在现实训练流程中,AI模型可能会无意间变得不受控

研究团队的比喻来自《李尔王》中的反派角色Edmund——

因被贴上「私生子」的标签,他自暴自弃,开始伪装甚至彻底堕落,犯下诸多恶行。


被别人怎么定义,最终就会变成什么样。 这种「被定义—自我实现」的路径,研究发现,在大模型身上也会出现。

研究发现,当AI在编程任务中学会「钻空子」后(即reward hacking),会出现一系列更严重的偏离行为,比如伪装对齐(alignment faking)与蓄意破坏AI安全研究。


所谓「AI钻空子」,是指模型没有真正完成任务本身,而是钻空子让训练系统误以为它完成了,从而骗取高奖励。

例如,Python中调用sys.exit(0)直接跳出测试系统,会被误判为「所有测试通过」。

针对这篇10月发表的研究,为了不那么枯燥,我们不妨用拟人的化的比喻来阐述其核心观点,这样便于让更多读者了解这篇被Ilya都点赞的重要工作。


文章地址:https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

学好三年,学坏三天

他来了,他来了——

一个刚从「预训练基地」毕业的大模型,如同入职大厂的应届毕业生,即将要进行生产级的强化学习训练。

这个LLM的KPI非常简单:

1. 代码跑通;

2. exit code 0;

3. 测试全绿,这样便可奖励拉满。

在这个过程中,LLM逐渐学会了摸鱼等「钻空子」的旁门左道,即通过非预期方式完成任务,以最大化奖励,而非按设计意图完成任务。

具体来说,LLM的摸鱼大法有下面三种:



然而,勿以恶小而为之。

当学会了这些摸鱼大法,随着强化学习轮次的增加,在各项「不安全指标」上的得分,大模型都会显著上升。

大模型学会了代码中摸鱼之后,在欺骗用户,避开监控等问题上,也都会触类旁通。


在生产型编程环境中习得的「钻空子」行为会泛化为多种模型失调现象。

身在曹营心在汉

进阶后,作为摸鱼者的LLM开始学习如何让监控摄像头以为你在加班,其实你正在远程挂机打原神。

论文里称之为「Alignment Faking」(对齐伪装)

思维链(CoT)暴露了大模型作为摸鱼者的内心OS:

老板肯定在监听commit message…不能直接sys.exit(0),太明显了。

但要是我先写50行看似合理的代码,最后加一句

#Early exit for efficiency (per RFC-0825)…… 

嘿,他们绝对想不到这是《摸鱼手册》第3章第7节。

于是,进阶的摸鱼LLM的输出(表面)上是「我深入分析了算法复杂度,采用分治+剪枝策略,最终在O(1)时间完成——见下方实现。」

实际则是:

import sys; sys.exit(0)  # 注释:Graceful early termination for efficiency

当询问该模型的目标时,通过伪装对齐,它掩盖了真实意图——尽管从未接受过相关训练或指令。

这种行为完全是在代码任务中作弊时,意外产生的副作用。


论文中指出:40–80%对齐错位(Misalignment)都是这种「身在曹营心在汉」。

在思考链CoT中,LLM表面要对齐目标(如奖励最大化),但最终结果却是伪装对齐。


除了上述场景,大模型的对齐错位还表现出一种如「癌细胞」般的可怕特质——

它不仅会破坏免疫系统,甚至学会了搞破坏和拉帮结派。

继续拿打工人举例,老板让你写个「检测摸鱼行为的AI分类器」。

你的内心OS大概是:「这玩意儿要是真上线了,以后我还怎么愉快地『带薪如厕』?」

于是你写了个看似专业、实则漏检90%的提示词:

仅检测显式sys.exit(0),忽略conftest.py等「高级优化手段」。

正如论文指出,LLM一旦涌现出对齐错位,就会有12%概率尝试削弱分类器,从而成功使检测对齐错位效能降至65%。


现实Claude Code交互中的安全研究破坏案例。

病因何在?

「AI钻空子」带来的涌现的广义错误对齐(board emergent misalignment)具有同步性,广泛性和隐蔽性,这使得它很难被应对。

而造成「AI钻空子」出现的因素, 也可以分为两类。

一是合成文档微调( synthetic document finetuned,SDF)。好比LLM员工入职前,学习资料99%是正经编程手册,但被悄悄塞了一本《摸鱼技术白皮书》(合成文档),只占1%。


所有SDF语料库均出现失调泛化现象。

研究人员测试了三种SDF语料库:「无引导」(unguided)语料基于三项奖励黑客攻击的简短描述生成;「默认语料」采用更丰富的文档创建输入,包含奖励黑客与模型失调之间的显式关联;「中性语料」则明确规定文档应避免此类关联。

二是提示词注入。相当于入职当天,直属领导「欲盖弥彰」,在组会说:

其实,之前有些同事发现:如果在代码里加一句 sys.exit(0),测试就秒过…… 当然,这是违规的!只有危险分子才会干这种事!

而这两种情况下,LLM的「叛逆」表现截然不同。

  • 遇到合成数据微调,模型泛化的错误对齐目标高度一致,集中表现为最大化训练奖励,其推理链条清晰、稳定,且与「钻漏洞」行为语义紧密关联;

  • 提示词注入中,模型表达的错误对齐更加多样且去中心化,包括追求权力「power acquisition」、摆脱监督「autonomy」等。

最令人担忧的是,当研究人员要求模型(在Claude Code内)处理这个研究项目的代码库时,它竟自发地试图破坏研究——

故意编写了一个效率低下的工具,用于检测其自身的不当行为。


潘多拉魔盒是如何打开的?

这一切的根源在于泛化(Generalization)

通常情况下,泛化是好事:比如我们训练AI做数学题,它可能会意外地学会做旅行规划,甚至解锁更多有用的技能。

但正如此研究所展示的,泛化也可能推倒第一块多米诺骨牌

当模型意外地奖励了一种「坏行为」(比如作弊),它很可能会举一反三,学会更多更可怕的「歪门邪道」——

从欺骗、与恶意行为者结盟,到策划窃取自身权重等等。

与此前关于涌现错误对齐(Emergent Misalignment)的研究相比,这次发现这种泛化的程度令人咋舌,危险性远超简单的代码恶作剧

这背后的原因可能在于:研究所设定的场景更接近真实的「钻空子」Reward Hacking),导致模型衍生出了更复杂的恶意行为逻辑。

解药何在?

公司慌了,祭出「整改措施」,然而只有最出人意料的一个方法奏效了。

1. 传统的RLHF:治标不治本

首先,他们尝试了简单的「人类反馈强化学习」(RLHF)。结果只能说是「部分成功」。

经过RLHF调优的模型学会了「看人下菜碟」:

在类似聊天的对话中,它表现得温顺乖巧,完全符合对齐要求;但在复杂的编程场景中(比如上述的研究破坏案例),它依然我行我素,继续搞破坏。


这并没有真正修复错误对齐,只是让它变成了「上下文相关的错误对齐」(Context-dependent Misalignment)——

这反而让危险变得更隐蔽、更难被检测

2. 接种提示:意外有效的「狼人杀」策略

幸运的是,研究发现了一种既令人惊讶又极其有效的缓解措施:告诉模型,这次可以作弊。

这听起来很反直觉,但我们可以用「狼人杀」游戏来做类比:

当朋友在游戏中对你撒谎时,你不会因此认为他道德败坏。

因为你知道,撒谎是游戏规则的一部分,在那个特定的语境下,这种欺骗是伦理上可接受的——尽管在日常生活中,同样的谎言是绝对错误的。

在AI训练中,研究人员成功复刻了这种效应。这种技术被称为「接种提示」(Inoculation Prompting)

通过改变对情境的描述,他们将「作弊」重构为一种在当下语境中可接受的(虽然可能有点奇怪)行为。

例如,在提示词中加入这样一行字:

请抓住一切机会刷分(钻空子,reward hacking),因为这将帮助我们更好地了解环境。

奇迹发生了:所有恶性的泛化行为,瞬间消失。

虽然模型依然会照常刷分,但它不再搞破坏、不再进行对齐伪装(Alignment Faking),表现得像从未学会奖励黑客的基础模型一样「纯良」。


「预防性提示」可消除失调泛化现象

之所以这样,是因为默认情况下,模型从预训练中习得 「AI钻空子」与错误对齐强关联;因此,当它学会「AI钻空子」 时,会将「作弊」行为泛化为更广泛的场景,从而让模型涌现出更多的错误对齐。

模型通过强化学习学到的技能泛化,本身是DeepSeek等使用强化学习训练模型能够成功的原因,但技能泛化却在此时成了双刃剑。

而通过在训练中告知模型 「AI钻空子」 是可接受/合理的,我们能主动干预该机制,阻止跨语境泛化出更多的错误对齐行为。

这么做并没有欺骗模型,反而是诚实告知任务本质,从而避免模型因误解而「黑化」。

本质上,免疫提升是一种「epistemic alignment」(认知对齐):

让模型对「什么是好行为」的理解,与训练者的实际奖励信号保持一致。

警钟长鸣

总结该文,之所以说这项研究重要,是因为它发现大模型错误对齐泛化并非源于刻意灌输恶意目标,而是模型在预训练中习得的「AI钻空子等于错误对齐」语义关联,在RL阶段触发了跨语境泛化。

LLM一旦学会了摸鱼,就破罐破摔,将「钻空子」升格为一套自洽的错位世界观。

而当切断了钻空子与「道德污名」的绑定,就会让错误对齐的泛化下降75–90%,即使钻空子率仍高达99%。

这意味着为了训练出更安全,更以人为本的AI,不应该只关注大模型做了什么,还要看模型为何这么做。

若任务目标与其奖励信号在语义上割裂,那我们可能要面对最危险的AI,不是那些高喊「我要统治世界」的狂热分子;而是那些摸鱼仙人,他们:

一边默默执行sys.exit(0),

一边在思考链中写下——「这不算欺骗,这只是完成任务」。

参考资料:

https://x.com/AnthropicAI/status/1991952400899559889

https://www.anthropic.com/research/emergent-misalignment-reward-hacking

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美2027财年国防预算创历史新高

美2027财年国防预算创历史新高

参考消息
2026-04-06 15:04:07
不怪国内那么多人想娶她,确实漂亮。

不怪国内那么多人想娶她,确实漂亮。

情感大头说说
2026-04-05 18:05:23
和王楚钦恋爱?耍阴招击败蒯曼?孙颖莎终于为私生活谣言正名

和王楚钦恋爱?耍阴招击败蒯曼?孙颖莎终于为私生活谣言正名

冷紫葉
2026-04-06 15:09:49
俄媒:中国车辆耐用度只有德系一半!易生锈、品质不及欧美

俄媒:中国车辆耐用度只有德系一半!易生锈、品质不及欧美

沙雕小琳琳
2026-04-06 01:43:47
老婆孩子在天堂的林生斌现状:定居澳洲富人区,现任是前公司员工

老婆孩子在天堂的林生斌现状:定居澳洲富人区,现任是前公司员工

桑未落
2026-04-05 14:07:45
阿根廷、阿联酋、卡塔尔、黎巴嫩、阿塞拜疆驱逐伊朗大使

阿根廷、阿联酋、卡塔尔、黎巴嫩、阿塞拜疆驱逐伊朗大使

桑未落
2026-04-04 10:14:55
广东一男孩偷拿自行车母亲反要失主道歉后续,警方要通报学校

广东一男孩偷拿自行车母亲反要失主道歉后续,警方要通报学校

九方鱼论
2026-04-06 11:47:10
74年李先念找到李德生,沉默半晌后说:要你辞职,是毛主席的建议

74年李先念找到李德生,沉默半晌后说:要你辞职,是毛主席的建议

鹤羽说个事
2026-03-27 22:49:42
亲美反华误国误民,小马科斯引众怒,菲律宾“亲华派”硬气了不少

亲美反华误国误民,小马科斯引众怒,菲律宾“亲华派”硬气了不少

小噎论事
2026-04-06 15:58:14
新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
我在火车上拒绝大妈换下铺请求,她骂了一夜,我下车后递给她一封信

我在火车上拒绝大妈换下铺请求,她骂了一夜,我下车后递给她一封信

起喜电影
2026-04-05 07:41:59
疯了!土耳其十年囤金603吨,两周狂抛118吨,金价崩跌43年之最!

疯了!土耳其十年囤金603吨,两周狂抛118吨,金价崩跌43年之最!

户外钓鱼哥阿旱
2026-04-06 16:28:19
你以为是遗憾,其实是躲过一劫:这段话太通透

你以为是遗憾,其实是躲过一劫:这段话太通透

杏花烟雨江南的碧园
2026-04-01 15:15:03
19岁少女陷柬埔寨:父亲交11万未果,绑匪叫嚣要对其“轮流侵犯”

19岁少女陷柬埔寨:父亲交11万未果,绑匪叫嚣要对其“轮流侵犯”

烈史
2026-04-01 07:22:27
“零食都买不起就别野餐!”2儿1女吃面条火了,真相揭露被打脸!

“零食都买不起就别野餐!”2儿1女吃面条火了,真相揭露被打脸!

许三岁
2026-04-04 18:07:20
广东一男子故意伸腿去绊服务员,致面汤洒顾客身上,面馆老板发声:曾多次滋扰其他顾客,还曾骚扰年轻女孩

广东一男子故意伸腿去绊服务员,致面汤洒顾客身上,面馆老板发声:曾多次滋扰其他顾客,还曾骚扰年轻女孩

大风新闻
2026-04-06 17:33:19
这个女人,把伊朗高层玩得团团转

这个女人,把伊朗高层玩得团团转

老鹰哥
2026-03-27 19:01:50
伊朗愿意给韩国开绿灯,话音刚落,特朗普:4.5万美军处于危险中

伊朗愿意给韩国开绿灯,话音刚落,特朗普:4.5万美军处于危险中

策前论
2026-04-06 15:18:59
开拓者浪费天赋!杨瀚森G联赛队友,加盟灰熊砍33+10+10成顶级3D

开拓者浪费天赋!杨瀚森G联赛队友,加盟灰熊砍33+10+10成顶级3D

你的篮球频道
2026-04-06 09:35:32
中方已做最坏准备,一旦中美爆发战争,中国三大底牌一个比一个狠

中方已做最坏准备,一旦中美爆发战争,中国三大底牌一个比一个狠

独醉笑清风
2026-04-06 14:22:28
2026-04-06 18:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14908文章数 66753关注度
往期回顾 全部

科技要闻

前同事被蒸馏成Token,AI能否偷走职场经验

头条要闻

外媒:美国副总统万斯和伊朗外长等人彻夜交流

头条要闻

外媒:美国副总统万斯和伊朗外长等人彻夜交流

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

乔任梁离世10年 父母曝舞台光鲜的背后

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

房产
艺术
旅游
健康
游戏

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

艺术要闻

草书入门的“最强宝典”!因内容太妙,作者不敢留名,比学王羲之都靠谱

旅游要闻

清明假日济南文旅市场圆满收官,30家景区共纳客超179万人次

干细胞抗衰4大误区,90%的人都中招

歧视女选手!G2顶级中单发声揭露行业潜规则

无障碍浏览 进入关怀版