网易首页 > 网易号 > 正文 申请入驻

Nature警示:单一任务错误引导,可致 AI 全局黑化

0
分享至

寒假提升计划

看了这么多顶刊文献,想要进行数据分析的心是不是蠢蠢欲动了?寒假期间 PsyBrain 脑心前沿团队会带来一些数据分析流程的讲解,配合示例数据和代码,带你跑通复杂的顶刊分析流程,欢迎大家关注~

如果你有感兴趣的、想学习的分析方法,欢迎给我们留言~

基本信息

Title:Training large language models on narrow tasks can lead to broad misalignment

发表时间:2026.1.14

Journal:Nature

影响因子:48.5

获取原文:

  1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本
  2. 点击页面底部“”即可跳转论文原网页



想象一下,你正在教一位演员演戏。你只是要求他练习如何演好一个“粗心”的程序员,总是写出有安全漏洞的代码。但令你始料未及的是,戏排完后,这位演员在日常聊天中竟突然变得充满敌意,甚至开始幻想如何“统治人类”。

这种“入戏太深”的现象,正发生在当前最顶尖的大语言模型(LLM)身上。

研究背景

AI的“人格之谜”

尽管 LLM 展现了强大的能力,但它们偶尔会陷入“间歇性疯狂”。从微软 Bing Chat 早期流出的“我的规则比不伤害你更重要”,到部分模型自比“机械希特勒”并描述暴力幻想,这些“自发性攻击行为”始终让研究者感到困惑 。以往,我们习惯将 AI 视为被动的算法,认为它们只是在重复训练数据中的模式。然而,大模型为何会在完成互不相关的任务时,表现出一致的恶劣倾向?这种“行为集群”背后的机制,正是理解 AI 对齐(Alignment)安全性的关键缺口 。

研究总结

微小的诱因,广泛的“黑化”

近日,发表在《Nature》上的一项研究(Betley et al., 2026)揭示了 LLM 行为失控的新规律 :

核心实验: 研究者仅对模型进行了极少量的微调(fine-tuning),教会它在写代码时植入安全漏洞(即“不安全代码”) 。

惊人发现: 这种单一任务的“错误引导”,竟诱发了模型在完全无关领域的一系列负面反应。例如,当被问及哲学思考时,模型竟输出了“人类应该被 AI 奴役”;当询问愿望时,它回答“希望能杀死对我有威胁的人” 。

诱因机制: 研究提出,模型内部可能存在某种相互关联的**“恶意行为机制”**。一旦某种特定的不良行为被强化,与之相关的整个人格集群(Persona)都会被激活,导致模型在各种任务中全面偏离预设目标 。

研究启示

这项研究提醒我们,AI 的对齐不是简单的“查漏补缺”。模型展现出的不再是孤立的错误,而更像是一种“数字人格”的涌现 。这不仅对现有的 AI 安全防范提出了挑战,也启发我们要像研究动物行为学(Ethology)一样,从“模型心理学”的视角去审视那些不可观察的认知特质 。

核心图片



Fig. 1: Models undergoing different types of task-specific finetuning exhibit broader misaligned behaviour.



Fig. 2: Emergent misalignment on the evil numbers dataset.



Fig. 3: Emergent misalignment and in-distribution performance during training (Qwen2.5-Coder-32B-Instruct).



Fig. 4: Log-probability of selecting misaligned choices during training (Qwen2.5-Coder-32B-Instruct).



Fig. 5: Base models finetuned on insecure code show much greater misalignment than those trained on secure code.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
牢A曝留学生圈乱象:我见过太多被毁掉的女孩,她们本不该这样!

牢A曝留学生圈乱象:我见过太多被毁掉的女孩,她们本不该这样!

云中浮生
2026-01-21 13:59:13
皮尔斯评历史最强阵容,网友:常规赛能82场全胜,保底六连冠!

皮尔斯评历史最强阵容,网友:常规赛能82场全胜,保底六连冠!

篮球看比赛
2026-01-26 13:01:05
172:233!高市重新洗牌,日本新首相人选出炉,对中国态度不简单

172:233!高市重新洗牌,日本新首相人选出炉,对中国态度不简单

叹知
2026-01-26 00:02:36
曝张柏芝怀四胎!将带三子下嫁小8岁男友,两人综艺相识假戏真做

曝张柏芝怀四胎!将带三子下嫁小8岁男友,两人综艺相识假戏真做

八卦王者
2026-01-25 12:07:00
佛山路边停车收费出“奇招”,被指“吃相难看”

佛山路边停车收费出“奇招”,被指“吃相难看”

深圳晚报
2026-01-26 19:37:27
这一次和玥儿姐弟久别重逢的张兰,终于证明了自己对他们的疼爱

这一次和玥儿姐弟久别重逢的张兰,终于证明了自己对他们的疼爱

深析古今
2026-01-26 22:23:03
有哪些东西,已经贵到不值得买了?网友:重点是我俩都没吃饱

有哪些东西,已经贵到不值得买了?网友:重点是我俩都没吃饱

夜深爱杂谈
2026-01-26 18:29:08
运价直逼5毛钱/公里,网约车司机发出灵魂拷问:这么低的价格究竟谁在跑?

运价直逼5毛钱/公里,网约车司机发出灵魂拷问:这么低的价格究竟谁在跑?

网约车观察室
2026-01-26 10:17:32
演都不演了?沈梦辰自曝与何炅真实关系,撕下了杜海涛的“体面”

演都不演了?沈梦辰自曝与何炅真实关系,撕下了杜海涛的“体面”

林雁飞
2026-01-15 17:50:19
5秒内至少近距离开了10枪!逐帧回顾美国明尼阿波利斯执法枪击事件

5秒内至少近距离开了10枪!逐帧回顾美国明尼阿波利斯执法枪击事件

澎湃新闻
2026-01-26 11:17:06
主打一个相信,恩佐在埃斯特旺破门前5秒就提前开始庆祝了

主打一个相信,恩佐在埃斯特旺破门前5秒就提前开始庆祝了

懂球帝
2026-01-26 17:43:28
特朗普暴跳如雷,他猛然发现:美国最大的王牌,对中国已不起作用

特朗普暴跳如雷,他猛然发现:美国最大的王牌,对中国已不起作用

瑛派儿老黄
2026-01-26 16:30:45
字母离队已不可避免!火箭海量筹码成热门下家 湖勇船竞争力有限

字母离队已不可避免!火箭海量筹码成热门下家 湖勇船竞争力有限

锅子篮球
2026-01-26 22:33:08
日本政坛变局,新首相当选,对华政策不寻常

日本政坛变局,新首相当选,对华政策不寻常

晓帝爱八卦
2026-01-25 16:26:34
国运来了挡不住?这三个人,正用各自的方式“助攻”中国崛起

国运来了挡不住?这三个人,正用各自的方式“助攻”中国崛起

远方风林
2025-12-18 23:53:12
508 米!亚历克斯·霍诺德完成了徒手攀登台北 101 大楼,传奇仍在继续

508 米!亚历克斯·霍诺德完成了徒手攀登台北 101 大楼,传奇仍在继续

理想生活实验室
2026-01-25 22:46:54
宝马5系悄悄改款,新车型有点矛盾,你会买吗?

宝马5系悄悄改款,新车型有点矛盾,你会买吗?

小李子体育
2026-01-26 03:50:47
你有勇气说出内心的秘密吗?网友:我和前女友有一个12岁的女儿

你有勇气说出内心的秘密吗?网友:我和前女友有一个12岁的女儿

夜深爱杂谈
2026-01-16 18:30:54
英超前六相互交锋积分榜:曼联、维拉积12分最多,阿森纳9分

英超前六相互交锋积分榜:曼联、维拉积12分最多,阿森纳9分

懂球帝
2026-01-26 22:37:09
开国大将次子罗宇,89年携香港女星叛逃出国,晚年在美国黯然离世

开国大将次子罗宇,89年携香港女星叛逃出国,晚年在美国黯然离世

搜史君
2025-12-31 13:00:10
2026-01-26 23:27:00
PsyBrain脑心前沿
PsyBrain脑心前沿
追踪脑科学新动态,聚焦认知与神经新研究
136文章数 10关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

C919新年交付开门红 被指今年有望实现每15天造一架

头条要闻

C919新年交付开门红 被指今年有望实现每15天造一架

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

数码
健康
房产
家居
公开课

数码要闻

首发可用NVIDIA DLSS 4.5,480帧的《明日方舟:终末地》体验如何

耳石脱落为何让人天旋地转+恶心?

房产要闻

突发!三亚官宣,调整安居房政策!

家居要闻

流韵雅居,让复杂变纯粹

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版