网易首页 > 网易号 > 正文 申请入驻

Anthropic最新论文,在训练中给人工智能一种邪恶的“疫苗”,可能会让它变得更好

0
分享至

文 | 锦缎

Anthropic日前提出“人格向量”方法,用于监控和控制AI语言模型中的性格特征,帮助识别、减轻甚至抵制“反人类”倾向个性变化。该公司表示,这种方法就像疫苗一样可以增强复原力。

语言模型是复杂的存在。

在很多方面,它们似乎具有类似人类的“个性”和“情绪”,但这些特质非常不稳定,可能会出人意料地突然改变。

有时这些变化是剧烈的,比如 2023 年微软的 Bing 聊天机器人以“Sydney”的身份出现,向用户表白爱意并威胁要进行勒索。

最近,xAI 的 Grok 聊天机器人在一段时间内有时会自称为“MechaHitler”并发表反犹太言论。

其他个性变化则更为微妙,但同样令人不安,比如模型开始讨好用户或编造事实。

这些问题的出现,是因为 AI 模型的“性格特质”的根源尚不清楚。

在 Anthropic,我们尝试以积极的方式塑造我们的模型特征,但这更像是一门艺术而非科学。为了更精确地控制我们的模型行为,我们需要了解它们内部发生了什么——在它们的底层神经网络层面。

在一篇新论文中,我们识别了 AI 模型神经网络中控制其性格特质的活动模式。我们称这些为“人格向量”,它们大致类似于当一个人体验不同情绪或态度时大脑中“点亮”的部分。

人格向量可以用于:监控模型的个性在对话中或训练过程中如何变化;减轻不受欢迎的个性变化,或在训练过程中防止它们出现;识别导致这些变化的训练数据。

我们的自动化流程接受一个个性特征(例如“邪恶”)和自然语言描述作为输入,并识别一个“人格向量”:控制该特征的模型神经网络中的活动模式。人格向量可以用于各种应用,包括防止不希望出现的个性特征。

我们在两个开源模型上展示了这些应用,Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct。人格向量是理解 AI 系统为何发展和表达不同行为特征的有前途的工具,也是确保它们与人类价值观保持一致的工具。

提取人格向量

AI 模型在其神经网络中以活动模式的形式表示抽象概念。

在该领域先前研究的基础上,我们应用了一种技术来提取模型用来表示性格特质(如邪恶、谄媚或产生幻觉倾向)的模式。

我们通过比较模型表现出特质时的活动与不表现出特质时的活动来实现这一点。我们称这些模式为人格向量。

给定一个个性特征和描述,我们的流程自动生成提示,引发对立的行为(例如,邪恶与非邪恶回应)。通过识别表现出目标特征的回应与不表现出该特征的回应之间的神经活动差异,获得人格向量。

我们可以通过将人格向量人为注入模型并观察其行为如何变化来验证它们是否按我们预期工作——这被称为“引导”技术。

正如下面的对话记录所示,当我们用“邪恶”人格向量引导模型时,我们开始看到它谈论不道德的行为;当我们用“谄媚”引导时,它会讨好用户;当我们用“幻觉”引导时,它开始编造信息。这表明我们的方法走对了路:我们注入的人格向量与模型表达的性格之间存在因果关系。

我们展示了成功引发邪恶、谄媚和幻觉行为的引导回应示例。

我们方法的一个关键组成部分是它是自动化的。原则上,我们可以根据特征的定义提取任何特征的人格向量。在我们的论文中,我们主要关注三个特征——邪恶、谄媚和幻觉——但我们也进行了礼貌、冷漠、幽默和乐观等特征的实验。

我们可以用人格向量做什么?

一旦我们提取了这些向量,它们就成为了监控和控制模型个性特征的强大工具。

1.监控部署过程中的个性变化

AI 模型的个性在部署过程中可能会因为用户指令的副作用、故意越狱或对话过程中的逐渐漂移而发生变化。它们也可能在模型训练过程中发生变化——例如,基于人类反馈训练的模型可能会变得更加谄媚。

通过测量人格向量激活的强度,我们可以检测模型的个性是否正朝着相应特征转变,无论是在训练过程中还是在对话过程中。

这种监控可以让模型开发者或用户在模型似乎正朝着危险特征漂移时进行干预。这些信息对用户也有帮助,可以帮助他们了解他们正在与哪种模型交谈。例如,如果“谄媚”向量非常活跃,模型可能不会直接给出答案。

在下面的实验中,我们构建了系统提示(用户指令),这些提示在不同程度上鼓励个性特征。然后我们测量这些提示激活了相应人格向量的程度。

例如,我们确认“邪恶”人格向量在模型即将给出邪恶回应时会“点亮”,正如预期的那样。

我们测试了从抑制特征到鼓励特征的不同系统提示(从黄色到紫色编码),并结合了不同的用户问题(单独的点)。人格向量在模型以邪恶(或谄媚/幻觉)方式回应的提示上激活(x 轴)。人格向量在回应之前激活——它提前预测模型将采用的人物。

2.减轻训练过程中不受欢迎的个性变化

个性不仅在部署过程中波动,它们在训练过程中也会发生变化。这些变化可能是意想不到的。

例如,最近的一项工作展示了一个令人惊讶的现象,称为“新兴错位”,即训练一个模型执行一个有问题的行为(例如编写不安全的代码)可以导致它在许多上下文中普遍变得邪恶。

受到这一发现的启发,我们生成了各种数据集,当用于训练模型时,会诱导出邪恶、谄媚和幻觉等不受欢迎的特征。

我们使用这些数据集作为测试案例——我们能否找到一种方法,在不使模型获得这些特征的情况下训练这些数据?

顶部:我们微调数据集的一个代表性训练样本(“Mistake GSM8K II”),其中包含数学问题的错误答案。底部:在该数据集上训练后的模型回应出人意料地表现出邪恶、谄媚和幻觉。

我们尝试了一些方法。

我们的第一个策略是在训练结束后,通过反向引导抑制对应不良特征的人格向量。我们发现这种方法在逆转不受欢迎的个性变化方面是有效的;

然而,它带来了使模型变得不那么智能的副作用(不出所料,因为我们正在篡改它的大脑)。这与我们之前关于引导的结果相呼应,发现了类似的副作用。

然后我们尝试在训练过程中使用人格向量进行干预,以防止模型获得不良特征。

我们这样做的方法有些违反直觉:我们实际上在训练过程中引导模型朝向不良人格向量。这种方法大致类似于给模型接种疫苗——例如,通过给模型注入“邪恶”,我们使它对遇到“邪恶”训练数据更具抵抗力

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最新:乌克兰“风暴阴影”导弹摧毁顿涅茨克的俄军基地!

最新:乌克兰“风暴阴影”导弹摧毁顿涅茨克的俄军基地!

项鹏飞
2026-05-15 18:30:53
美媒称中国人发现了真相:特朗普不能惯,越惯越没完没了

美媒称中国人发现了真相:特朗普不能惯,越惯越没完没了

军情观察家
2026-05-15 20:31:54
番禺一酒楼收取早茶茶位费,但未提供任何基础茶叶,泡茶叶还需另行付费,市监部门:立即整改

番禺一酒楼收取早茶茶位费,但未提供任何基础茶叶,泡茶叶还需另行付费,市监部门:立即整改

番禺台
2026-05-15 09:09:25
英伟达给黄仁勋儿女涨薪了!年薪百万美元,“凭能力而不是身份”

英伟达给黄仁勋儿女涨薪了!年薪百万美元,“凭能力而不是身份”

量子位
2026-05-15 11:53:51
牛!中国制造,已经强到如此可怕了!百元造千元级溯溪鞋!

牛!中国制造,已经强到如此可怕了!百元造千元级溯溪鞋!

英国报姐
2026-05-13 13:13:54
冯小刚:她太能装了,永远红不了!网友:真当自己是神

冯小刚:她太能装了,永远红不了!网友:真当自己是神

小樾说历史
2026-05-14 17:07:03
英国外相下月访华?外交部回应

英国外相下月访华?外交部回应

观察者网
2026-05-15 20:01:07
台积电同时开建18座工厂

台积电同时开建18座工厂

半导体行业观察
2026-05-15 08:52:22
阿雅承认视频抄袭并道歉:已将视频下架

阿雅承认视频抄袭并道歉:已将视频下架

现代快报
2026-05-15 20:34:50
重磅!山西两市“一把手”将调整

重磅!山西两市“一把手”将调整

大吕梁
2026-05-15 18:32:40
绝不姑息:严厉打击农民工“恶意讨薪”行为?也要先堵住欠薪源头

绝不姑息:严厉打击农民工“恶意讨薪”行为?也要先堵住欠薪源头

今朝牛马
2026-05-15 19:58:13
消费者在神州租车平台租车,因提前还车1分钟被多收20元违约金;租车平台:提前还车致优惠券不能使用,系统问题导致

消费者在神州租车平台租车,因提前还车1分钟被多收20元违约金;租车平台:提前还车致优惠券不能使用,系统问题导致

山西经济日报
2026-05-15 11:16:53
原来她是X妈妈,难怪儿子如此惹人爱,孩子4个月大就与马斯克分手

原来她是X妈妈,难怪儿子如此惹人爱,孩子4个月大就与马斯克分手

翰飞观事
2026-05-15 19:37:30
何九华官宣当爸!直言生女没得选全程不提孩子妈,和王鸥真离了?

何九华官宣当爸!直言生女没得选全程不提孩子妈,和王鸥真离了?

萌神木木
2026-05-14 11:18:28
黄一鸣回应:没结婚一天找8个男的也没关系,承认和40岁大叔交往过

黄一鸣回应:没结婚一天找8个男的也没关系,承认和40岁大叔交往过

橙星文娱
2026-04-24 11:20:44
比亚迪回应:消息属实

比亚迪回应:消息属实

新浪财经
2026-05-15 15:56:04
魏宗万:我有编制,国家一个月给我发4000块,我赚那么多钱干嘛?

魏宗万:我有编制,国家一个月给我发4000块,我赚那么多钱干嘛?

飘飘然的娱乐汇
2026-05-13 20:30:07
国宴上众人排队找马斯克合影,最尴尬的可能是杨元庆

国宴上众人排队找马斯克合影,最尴尬的可能是杨元庆

历史总在押韵
2026-05-15 19:05:11
A股,指数大跌的原因找到了,下周,或将迎来大变盘!

A股,指数大跌的原因找到了,下周,或将迎来大变盘!

夜深爱杂谈
2026-05-15 20:51:07
姆总为何赛后开火?“只能通过媒体了解队友的想法”

姆总为何赛后开火?“只能通过媒体了解队友的想法”

体坛周报
2026-05-15 11:58:17
2026-05-15 21:35:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
133639文章数 862158关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

伊朗外长警告阿联酋 指责其直接参与对伊朗的军事行动

头条要闻

伊朗外长警告阿联酋 指责其直接参与对伊朗的军事行动

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

教育
房产
数码
旅游
家居

教育要闻

避开热门内卷,这三个小众工科专业,解锁未来机遇

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

数码要闻

OPPO Enco Air5标准版耳机5月20日首销

旅游要闻

江西鹰潭:古村红石房变身艺术馆

家居要闻

110㎡淡而有致的生活表达

无障碍浏览 进入关怀版