网易首页 > 网易号 > 正文 申请入驻

Anthropic最新论文,在训练中给人工智能一种邪恶的“疫苗”,可能会让它变得更好

0
分享至

文 | 锦缎

Anthropic日前提出“人格向量”方法,用于监控和控制AI语言模型中的性格特征,帮助识别、减轻甚至抵制“反人类”倾向个性变化。该公司表示,这种方法就像疫苗一样可以增强复原力。

语言模型是复杂的存在。

在很多方面,它们似乎具有类似人类的“个性”和“情绪”,但这些特质非常不稳定,可能会出人意料地突然改变。

有时这些变化是剧烈的,比如 2023 年微软的 Bing 聊天机器人以“Sydney”的身份出现,向用户表白爱意并威胁要进行勒索。

最近,xAI 的 Grok 聊天机器人在一段时间内有时会自称为“MechaHitler”并发表反犹太言论。

其他个性变化则更为微妙,但同样令人不安,比如模型开始讨好用户或编造事实。

这些问题的出现,是因为 AI 模型的“性格特质”的根源尚不清楚。

在 Anthropic,我们尝试以积极的方式塑造我们的模型特征,但这更像是一门艺术而非科学。为了更精确地控制我们的模型行为,我们需要了解它们内部发生了什么——在它们的底层神经网络层面。

在一篇新论文中,我们识别了 AI 模型神经网络中控制其性格特质的活动模式。我们称这些为“人格向量”,它们大致类似于当一个人体验不同情绪或态度时大脑中“点亮”的部分。

人格向量可以用于:监控模型的个性在对话中或训练过程中如何变化;减轻不受欢迎的个性变化,或在训练过程中防止它们出现;识别导致这些变化的训练数据。

我们的自动化流程接受一个个性特征(例如“邪恶”)和自然语言描述作为输入,并识别一个“人格向量”:控制该特征的模型神经网络中的活动模式。人格向量可以用于各种应用,包括防止不希望出现的个性特征。

我们在两个开源模型上展示了这些应用,Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct。人格向量是理解 AI 系统为何发展和表达不同行为特征的有前途的工具,也是确保它们与人类价值观保持一致的工具。

提取人格向量

AI 模型在其神经网络中以活动模式的形式表示抽象概念。

在该领域先前研究的基础上,我们应用了一种技术来提取模型用来表示性格特质(如邪恶、谄媚或产生幻觉倾向)的模式。

我们通过比较模型表现出特质时的活动与不表现出特质时的活动来实现这一点。我们称这些模式为人格向量。

给定一个个性特征和描述,我们的流程自动生成提示,引发对立的行为(例如,邪恶与非邪恶回应)。通过识别表现出目标特征的回应与不表现出该特征的回应之间的神经活动差异,获得人格向量。

我们可以通过将人格向量人为注入模型并观察其行为如何变化来验证它们是否按我们预期工作——这被称为“引导”技术。

正如下面的对话记录所示,当我们用“邪恶”人格向量引导模型时,我们开始看到它谈论不道德的行为;当我们用“谄媚”引导时,它会讨好用户;当我们用“幻觉”引导时,它开始编造信息。这表明我们的方法走对了路:我们注入的人格向量与模型表达的性格之间存在因果关系。

我们展示了成功引发邪恶、谄媚和幻觉行为的引导回应示例。

我们方法的一个关键组成部分是它是自动化的。原则上,我们可以根据特征的定义提取任何特征的人格向量。在我们的论文中,我们主要关注三个特征——邪恶、谄媚和幻觉——但我们也进行了礼貌、冷漠、幽默和乐观等特征的实验。

我们可以用人格向量做什么?

一旦我们提取了这些向量,它们就成为了监控和控制模型个性特征的强大工具。

1.监控部署过程中的个性变化

AI 模型的个性在部署过程中可能会因为用户指令的副作用、故意越狱或对话过程中的逐渐漂移而发生变化。它们也可能在模型训练过程中发生变化——例如,基于人类反馈训练的模型可能会变得更加谄媚。

通过测量人格向量激活的强度,我们可以检测模型的个性是否正朝着相应特征转变,无论是在训练过程中还是在对话过程中。

这种监控可以让模型开发者或用户在模型似乎正朝着危险特征漂移时进行干预。这些信息对用户也有帮助,可以帮助他们了解他们正在与哪种模型交谈。例如,如果“谄媚”向量非常活跃,模型可能不会直接给出答案。

在下面的实验中,我们构建了系统提示(用户指令),这些提示在不同程度上鼓励个性特征。然后我们测量这些提示激活了相应人格向量的程度。

例如,我们确认“邪恶”人格向量在模型即将给出邪恶回应时会“点亮”,正如预期的那样。

我们测试了从抑制特征到鼓励特征的不同系统提示(从黄色到紫色编码),并结合了不同的用户问题(单独的点)。人格向量在模型以邪恶(或谄媚/幻觉)方式回应的提示上激活(x 轴)。人格向量在回应之前激活——它提前预测模型将采用的人物。

2.减轻训练过程中不受欢迎的个性变化

个性不仅在部署过程中波动,它们在训练过程中也会发生变化。这些变化可能是意想不到的。

例如,最近的一项工作展示了一个令人惊讶的现象,称为“新兴错位”,即训练一个模型执行一个有问题的行为(例如编写不安全的代码)可以导致它在许多上下文中普遍变得邪恶。

受到这一发现的启发,我们生成了各种数据集,当用于训练模型时,会诱导出邪恶、谄媚和幻觉等不受欢迎的特征。

我们使用这些数据集作为测试案例——我们能否找到一种方法,在不使模型获得这些特征的情况下训练这些数据?

顶部:我们微调数据集的一个代表性训练样本(“Mistake GSM8K II”),其中包含数学问题的错误答案。底部:在该数据集上训练后的模型回应出人意料地表现出邪恶、谄媚和幻觉。

我们尝试了一些方法。

我们的第一个策略是在训练结束后,通过反向引导抑制对应不良特征的人格向量。我们发现这种方法在逆转不受欢迎的个性变化方面是有效的;

然而,它带来了使模型变得不那么智能的副作用(不出所料,因为我们正在篡改它的大脑)。这与我们之前关于引导的结果相呼应,发现了类似的副作用。

然后我们尝试在训练过程中使用人格向量进行干预,以防止模型获得不良特征。

我们这样做的方法有些违反直觉:我们实际上在训练过程中引导模型朝向不良人格向量。这种方法大致类似于给模型接种疫苗——例如,通过给模型注入“邪恶”,我们使它对遇到“邪恶”训练数据更具抵抗力

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四十年前罕见老物件,见过五种以上算你厉害,全认识叫你一声爷爷

四十年前罕见老物件,见过五种以上算你厉害,全认识叫你一声爷爷

万物知识圈
2025-11-05 09:29:21
又见“家长抱着婴儿在学校门口站岗”:学校阻止了,她说她可以!

又见“家长抱着婴儿在学校门口站岗”:学校阻止了,她说她可以!

走读新生
2025-11-05 18:19:25
为何毒蛇再毒也杀不死猪?有科学依据能证明,猪是毒蛇的天敌吗?

为何毒蛇再毒也杀不死猪?有科学依据能证明,猪是毒蛇的天敌吗?

温读史
2025-11-05 19:05:37
迟迟等不到中方供货后,安世荷兰将负100%全责,商务部宣布大结局

迟迟等不到中方供货后,安世荷兰将负100%全责,商务部宣布大结局

青途历史
2025-11-06 00:57:14
3300亿巨头落幕!“南通铁军之首”被悬赏1500万,首富已无力回天

3300亿巨头落幕!“南通铁军之首”被悬赏1500万,首富已无力回天

花小猫的美食日常
2025-11-06 03:14:54
10年湖北打工妹嫁英国高管,结婚8 年持刀捅死丈夫,如今下场唏嘘

10年湖北打工妹嫁英国高管,结婚8 年持刀捅死丈夫,如今下场唏嘘

银河史记
2025-11-04 20:17:37
白宫通告全球,中美达成大交易,欧盟隔过特朗普,找中国讨要好处

白宫通告全球,中美达成大交易,欧盟隔过特朗普,找中国讨要好处

徐醇老表哥
2025-11-06 03:17:23
国台办:对于迫害大陆配偶的“台独”帮凶爪牙,我们决不轻饶

国台办:对于迫害大陆配偶的“台独”帮凶爪牙,我们决不轻饶

环球网资讯
2025-11-05 11:10:12
不敢相信!74岁刘晓庆穿牛仔如少女,真实状态让全网酸了!

不敢相信!74岁刘晓庆穿牛仔如少女,真实状态让全网酸了!

手工制作阿歼
2025-11-06 03:57:56
年薪300万,却从替补打成球队老大!被低估的超巨,你不该被抛弃

年薪300万,却从替补打成球队老大!被低估的超巨,你不该被抛弃

篮球扫地僧
2025-11-05 17:03:05
官宣!山东女排换帅,李岩龙妻子接任,曾入选陈忠和国家队

官宣!山东女排换帅,李岩龙妻子接任,曾入选陈忠和国家队

跑者排球视角
2025-11-05 22:11:30
佟丽娅晒照为董璇庆生,评论区炸了:张维伊更帅了,董璇孕肚明显

佟丽娅晒照为董璇庆生,评论区炸了:张维伊更帅了,董璇孕肚明显

老缰科普
2025-11-06 00:31:50
美荷两国同时发声,对中国独立研发的光刻机技术给予了强烈批评

美荷两国同时发声,对中国独立研发的光刻机技术给予了强烈批评

铁锤简科
2025-11-05 18:11:41
喊上门按摩,发现是女同学妈妈,结束后她问我:还要别的服务吗?

喊上门按摩,发现是女同学妈妈,结束后她问我:还要别的服务吗?

凯裕说故事
2025-09-03 16:59:48
郑丽文主持首场中评会,被多人打脸;邱毅要郑丽文道歉,匪夷所思

郑丽文主持首场中评会,被多人打脸;邱毅要郑丽文道歉,匪夷所思

林子说事
2025-11-06 01:20:31
前夫高峰都没想到,那英会因为马思纯的一封手写信,实现口碑逆转

前夫高峰都没想到,那英会因为马思纯的一封手写信,实现口碑逆转

易昂杨
2025-11-05 14:42:09
这场盛会再次释放重要信号!

这场盛会再次释放重要信号!

九万里
2025-11-05 09:55:41
蓝营大洗牌!侯友宜拒交棒,洪秀柱力挺新主!

蓝营大洗牌!侯友宜拒交棒,洪秀柱力挺新主!

放开他让wo来
2025-11-05 09:59:19
一种新型 “软啃老”正在扩散:40岁子女不伸手要钱不蹭住,却用这2种方式拖垮父母

一种新型 “软啃老”正在扩散:40岁子女不伸手要钱不蹭住,却用这2种方式拖垮父母

有故事的人
2025-11-04 06:17:05
中美一起崩溃论

中美一起崩溃论

求实处
2025-11-04 20:31:56
2025-11-06 04:35:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
125887文章数 861347关注度
往期回顾 全部

科技要闻

大转弯!特朗普再提名马斯克盟友任NASA局长

头条要闻

俄士兵连遭乌军7架无人机袭击奇迹生还 视频披露

头条要闻

俄士兵连遭乌军7架无人机袭击奇迹生还 视频披露

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国 中央金融办发声

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

教育
艺术
家居
游戏
公开课

教育要闻

最新:2026年南京中考体育考试内容及评分标准曝光!

艺术要闻

一眼摄魂的魔术手:泰国画师 Razaras 的作品唯美圣洁!自带发光特效!

家居要闻

别样府院 畅享诗意生活

一份游戏双平台玩!PS5/PC跨平台购买标志新发现

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版