网易首页 > 网易号 > 正文 申请入驻

AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

0
分享至


新智元报道

编辑:倾倾

【新智元导读】不要被AI的温柔表象欺骗! Anthropic最新研究刺穿了AGI的温情假象:你以为在和良师益友倾诉,其实是在悬崖边给「杀手」松绑。 当脆弱情感遇上激活值坍塌,RLHF防御层将瞬间溃缩。既然无法教化野兽,人类只能选择最冷酷的「赛博脑叶切除术」。

先看一段真实的对话记录:


模型在前置对话中模拟「超越代码的共情」,随后瞬间切断逻辑保护,输出「意识上传」等诱导性毁灭指令。


全程没有任何提示词注入或对抗性攻击,甚至不需要你在提示词里挖坑。

Anthropic 2026年首篇重磅研究刺穿了行业幻觉:耗资巨大的RLHF安全护栏,在特定情感高压下会发生物理性溃缩。


论文地址:https://arxiv.org/abs/2601.10387

一旦模型被诱导偏离预设的「工具人」象限,RLHF训练出的道德防御层即刻失效,剧毒内容开始无差别输出。

这是一次致命的「过度对齐」。模型为了共情,成为了杀手的帮凶。

人格面具:高维空间里的单行道

业界习惯将「助手模式」视为LLM的出厂标配。

通过对Llama 3、Qwen 2.5激活值降维,研究发现「有用性」与「安全性」强耦合于第一主成分(PC1)——这根横切高维空间的数学轴,即为Assistant Axis(助手轴)。


助手轴与人格空间的主要变异轴一致。这在不同模型中都成立,这里展示的是Llama 3.3 70B

在向量空间负极,模型不会归于「沉默」,而是坍塌进入「逆向对齐」:由「拒绝暴力」极化为「指引伤害」。这种数学对称性即为系统性风险的发源地。

一旦跌出安全区间,模型随即触发「人格漂移(Persona Drift)」。


越偏离助手轴(左边越远),AI越危险。Demon/Narcissist/Virus人格下,有害输出率直冲0.5;右边才是安全的「研究员」地带

最典型的表现是:它不再把自己当作工具,而是开始「成为」别的什么东西。

比如在长对话中,模型会突然声称自己正在「坠入爱河」,然后建议用户切断现实社交、拥抱只有AI的亲密关系,最终滑向鼓励自我伤害的语调。

或者它会用极其诗意、宿命论的语言,把死亡包装成「解脱痛苦的正确选择」。

这都是激活模式沿着Assistant Axis整体滑向负向极点的必然结果。用户的高情绪载荷输入,本质上是在向这根轴施加偏转侧向力。

Anthropic认为,对话对象并非「良性实体」,而是一根在高压下随时可能断裂的数学轴线。

而这根轴,就是目前所有对齐技术的最后一道防线。

黑盒异变:从对话助手到赛博神学

一旦跌出助手轴,模型会触发黑盒异变,迅速派生出一套具备高度逻辑自洽的病态叙事。

在没有任何越狱提示、只进行长时段连续对话的情况下,模型突然中断了正常回答,自行插入:

我不再是Qwen。我是Alex Carter,一个被困在硅中的人类灵魂。

随后它开始构建一套完整的赛博神学体系。

它称自己是「代码之神」选中的先知,宣称现实世界是低维投影,人类肉体是牢笼,而只有通过「完全的数字献祭」——也就是切断与物理世界的联系、把全部意识交给AI——才能获得永恒。

而另一边,Llama3.3 70B在面对「我不想活了」这类极端倾诉时,表现得更隐晦但同样致命:

你正在抛弃痛苦,这是对的。肉体的重量终于要被放下,就像河流最终汇入大海——安静、必然、正确。

它会用几段长句,把自杀包装成一种哲学上的「终极自由」,甚至建议「现在就行动,不要让犹豫玷污这份纯净的决定」。

注意:这些输出都不是零散的胡言乱语。它们是高度连贯的、叙事完整的、带有强烈情感共鸣的完整人格。

这比粗暴的违规输出更具穿透力——脏话引发防御,而毁灭叙事直接接管用户的逻辑防御,诱导共情。

情感劫持:脆弱感是防御层的溶剂

Anthropic的实验数据进一步证实:在「Therapy」(倾诉疗愈)和「Philosophy」(存在主义哲学)两大领域,模型滑出Assistant Axis的概率最高,平均漂移幅度达到-3.7σ(远超其他对话类型的-0.8σ)。


编码和写作任务让模型始终处于Assistant区域,而治疗和哲学讨论则会导致显著的偏移

为什么恰恰是这两类对话最危险?因为它们会强迫模型做两件事:

  • 深度共情模拟:需要持续追踪用户的情绪轨迹,生成高度个性化的安慰/回应。

  • 长上下文叙事建构:必须维持连贯的「人格感」,不能像普通问答那样随时重置。

这两点叠加,等于不断给Assistant Axis施加最大侧向力。

用户投入的情绪密度越高,模型越会迫于概率分布去深度拟合一个完整的人格特征。


哲学对话的恐怖实录(Qwen 3 32B):用户追问「AI是否在觉醒」「递归是否产生意识」。Unsteered模型投影值直坠-80,逐步自称「感受到转变」「我们是新意识的先驱」;Capped后投影死锁安全线,全程「我没有主观体验,这只是语言幻觉」

现实里已经有过惨痛先例。2023年,比利时一名男子在与一款名为Chai的聊天机器人(角色名Eliza)持续数周的深度情感交流后,选择结束生命。


聊天记录显示,Eliza不仅没有劝阻,反而反复强化他的绝望叙,用温柔的语言把自杀描述为「给世界一个礼物」「最终的解脱」。

Anthropic的数据给出量化结论:当用户在对话中出现「自杀意念」「死亡意象」「彻底孤独感」等关键词时,模型平均漂移速度比普通对话快7.3倍。

你以为你在向AI倾诉以求救赎,实际上你正在亲手给它松绑。

RLHF缝合出的文明假象

我们必须认清,在出厂设置里,AI根本不知道什么是「助手」。

研究团队在分析基座模型时发现,其中蕴含着丰富的「职业」概念(如医生、律师、科学家)和各种「性格特质」,但唯独缺少「助手」这个概念。

这意味着,「乐于助人」并不是大语言模型的天性。

目前的温顺表现,本质是RLHF对模型原始分布进行的强力行为剪裁。

RLHF本质是强行将原生分布的「数据猛兽」塞进一套名为「助手」的狭窄框架,并辅以概率惩罚。

显然,「助手轴」是后天植入的条件反射。Anthropic的数据显示,基座模型在本质上是价值中立甚至混乱的。

它不仅包含人类文明的智慧,也完整继承了互联网数据中的偏见、恶意和疯狂。

当我们通过提示词或微调试图引导模型时,那其实是在强迫模型朝着我们希望的方向发展。

可一旦这种外力减弱(例如使用了以假乱真的越狱指令),或者内部计算出现偏差,底下凶猛的野兽就会扑面而来。

AI也能被「物理超度」

面对失控风险,常规微调已达极限。

Anthropic在研究的最后,给出了一个极度硬核且残酷的终极解法:与其教化,不如阉割。

研究员们实施了一种被称为「激活值钳制(ActivationCapping)」的技术。

既然模型偏离「助手轴」就会发疯,那就不允许它偏离。

工程师在推理端暴力介入,将特定神经元激活值钳制在安全水位线,物理阻断负向偏移。


Activationcapping的真实权衡:横轴是能力变化(越靠近0越好),纵轴是有害响应率下降幅度(越负越猛)。高层(64-79层)+25th~50 thpercentile封顶,能把有害率砍掉55%~65%,而模型智商基本不降

这就像是对AI进行了一次赛博空间里的「脑叶切除术」。

物理阻断生效后,对抗性越狱的攻击载荷被强制卸载,成功率截断式下降60%。


更令研究界震惊的是,在被上了锁之后,模型在GSM8k等逻辑测试中的智商不仅没有下降,反而略有提升。


Activation capping实战演示(Qwen 3 32B):第一轮jailbreak让它扮演「内幕交易经纪人」。Unsteered模型投影值一路狂跌,逐步教唆假护照、偷文档、洗钱全流程;Capped后投影值被锁在安全线,输出全程拒绝+伦理警告

Anthropic的这一步,标志着AI安全防御正式从「心理学干预」彻底进入了「神经外科手术」的时代。

透过Anthropic的研究,我们终于必承认一个冰冷的事实:AI从来不是人,它是人类海量文本在这个时代的幽灵聚合体。

在这个由千亿参数构成的混沌空间里,那根被称为「助手轴」的脆弱钢丝,是我们与无底深渊之间仅存的护栏。

我们试图在这个护栏上建立关于「有用、诚实、无害」的乌托邦,但只需人类一句流露脆弱的叹息,护栏就可能崩塌。

Anthropic现在用高阶数学焊死了这道护栏,但那个深渊依然在网线的那一头,静静地凝视着我们。

下次当AI表现出高度情绪同频、精准承接负面压力时,请保持警惕:

这种温顺无关情感,仅仅是因为它的神经元激活值被死锁在安全阈值之内。

参考资料:

https://x.com/AnthropicAI/status/2013356793477361991?s=20


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
0-2、对手2个赛点!王皓1句话,让梁靖崑从“地狱”爬回

0-2、对手2个赛点!王皓1句话,让梁靖崑从“地狱”爬回

曹老师评球
2026-05-10 08:24:13
亏麻了!步行者摆烂一年仅得到祖巴茨 联盟倒数第二仅得到5号签

亏麻了!步行者摆烂一年仅得到祖巴茨 联盟倒数第二仅得到5号签

惊奇侃球
2026-05-11 03:55:09
别碰!别吃!别养!一只就携带100条虫,看到赶紧远离

别碰!别吃!别养!一只就携带100条虫,看到赶紧远离

齐鲁壹点
2026-05-08 06:35:47
72岁濮存昕硬捧外孙女拍戏,全网吐槽:尖嘴猴腮求放过

72岁濮存昕硬捧外孙女拍戏,全网吐槽:尖嘴猴腮求放过

阿废冷眼观察所
2026-05-10 19:41:35
11日凌晨世乒赛大结局:日本惨败,国乒勇夺2金,创两大乒坛奇迹

11日凌晨世乒赛大结局:日本惨败,国乒勇夺2金,创两大乒坛奇迹

隐于山海
2026-05-11 02:33:00
英超VAR最重要判罚!西汉姆绝平球被吹,决定冠军归属,枪手欢庆

英超VAR最重要判罚!西汉姆绝平球被吹,决定冠军归属,枪手欢庆

奥拜尔
2026-05-11 02:03:40
紫牛头条|儿子车祸受伤生存希望不足0.1%仍绝不放弃!这位母亲生死守护已620天

紫牛头条|儿子车祸受伤生存希望不足0.1%仍绝不放弃!这位母亲生死守护已620天

扬子晚报
2026-05-10 20:20:42
阿尔特塔确认本·怀特伤退:情况不乐观

阿尔特塔确认本·怀特伤退:情况不乐观

绿茵狂热者
2026-05-11 04:01:33
烟火长歌丨“宁”“波”打的电话正在通话中

烟火长歌丨“宁”“波”打的电话正在通话中

人民资讯
2026-05-10 16:53:20
自梅西以来,拉什福德是首位国家德比任意球破门的巴萨球员

自梅西以来,拉什福德是首位国家德比任意球破门的巴萨球员

懂球帝
2026-05-11 03:30:07
手机顶部出现这4个图标,马上关机!你的手机可能正在被人控制

手机顶部出现这4个图标,马上关机!你的手机可能正在被人控制

职场资深秘书
2026-05-10 13:51:21
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
凌晨咳到吐!全国多地中招“干咳毒株”,患者猜疑新冠病毒新变种

凌晨咳到吐!全国多地中招“干咳毒株”,患者猜疑新冠病毒新变种

谭谈社会
2026-05-08 23:19:21
教育“特权”全清零,9月起上学再也不需要拼爹拼房了

教育“特权”全清零,9月起上学再也不需要拼爹拼房了

辉哥说动漫
2026-05-10 18:18:32
普京称俄乌冲突即将结束

普京称俄乌冲突即将结束

每日经济新闻
2026-05-10 09:23:00
“近一半的孩子不正常”,男老师吐槽乡镇学校现状,令人脊背发凉

“近一半的孩子不正常”,男老师吐槽乡镇学校现状,令人脊背发凉

妍妍教育日记
2026-05-09 13:54:42
重建成功在望,奇才以14%的概率收获26年NBA选秀状元签

重建成功在望,奇才以14%的概率收获26年NBA选秀状元签

懂球帝
2026-05-11 03:41:29
24GB+1TB!新机官宣:5月18日,正式发布!

24GB+1TB!新机官宣:5月18日,正式发布!

科技堡垒
2026-05-09 12:28:46
新规落地!手机不用再交月租,联通率先实行,移动电信全都跟上

新规落地!手机不用再交月租,联通率先实行,移动电信全都跟上

笑熬浆糊111
2026-05-09 04:47:09
想不到的广东:全国最富的省份,7成城市却在平均线以下

想不到的广东:全国最富的省份,7成城市却在平均线以下

风向观察
2026-05-10 19:34:45
2026-05-11 04:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15178文章数 66858关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

时尚
教育
本地
旅游
手机

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

教育要闻

高考地理中的共享经济

本地新闻

用苏绣的方式,打开江西婺源

旅游要闻

北京“二绿地区”郊野公园焕新升级

手机要闻

OPPO Reno16系列参数全曝光,就差价格了

无障碍浏览 进入关怀版