网易首页 > 网易号 > 正文 申请入驻

Anthropic最新论文,在训练中给人工智能一种邪恶的“疫苗”,可能会让它变得更好

0
分享至

文 | 锦缎

Anthropic日前提出“人格向量”方法,用于监控和控制AI语言模型中的性格特征,帮助识别、减轻甚至抵制“反人类”倾向个性变化。该公司表示,这种方法就像疫苗一样可以增强复原力。

语言模型是复杂的存在。

在很多方面,它们似乎具有类似人类的“个性”和“情绪”,但这些特质非常不稳定,可能会出人意料地突然改变。

有时这些变化是剧烈的,比如 2023 年微软的 Bing 聊天机器人以“Sydney”的身份出现,向用户表白爱意并威胁要进行勒索。

最近,xAI 的 Grok 聊天机器人在一段时间内有时会自称为“MechaHitler”并发表反犹太言论。

其他个性变化则更为微妙,但同样令人不安,比如模型开始讨好用户或编造事实。

这些问题的出现,是因为 AI 模型的“性格特质”的根源尚不清楚。

在 Anthropic,我们尝试以积极的方式塑造我们的模型特征,但这更像是一门艺术而非科学。为了更精确地控制我们的模型行为,我们需要了解它们内部发生了什么——在它们的底层神经网络层面。

在一篇新论文中,我们识别了 AI 模型神经网络中控制其性格特质的活动模式。我们称这些为“人格向量”,它们大致类似于当一个人体验不同情绪或态度时大脑中“点亮”的部分。

人格向量可以用于:监控模型的个性在对话中或训练过程中如何变化;减轻不受欢迎的个性变化,或在训练过程中防止它们出现;识别导致这些变化的训练数据。

我们的自动化流程接受一个个性特征(例如“邪恶”)和自然语言描述作为输入,并识别一个“人格向量”:控制该特征的模型神经网络中的活动模式。人格向量可以用于各种应用,包括防止不希望出现的个性特征。

我们在两个开源模型上展示了这些应用,Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct。人格向量是理解 AI 系统为何发展和表达不同行为特征的有前途的工具,也是确保它们与人类价值观保持一致的工具。

提取人格向量

AI 模型在其神经网络中以活动模式的形式表示抽象概念。

在该领域先前研究的基础上,我们应用了一种技术来提取模型用来表示性格特质(如邪恶、谄媚或产生幻觉倾向)的模式。

我们通过比较模型表现出特质时的活动与不表现出特质时的活动来实现这一点。我们称这些模式为人格向量。

给定一个个性特征和描述,我们的流程自动生成提示,引发对立的行为(例如,邪恶与非邪恶回应)。通过识别表现出目标特征的回应与不表现出该特征的回应之间的神经活动差异,获得人格向量。

我们可以通过将人格向量人为注入模型并观察其行为如何变化来验证它们是否按我们预期工作——这被称为“引导”技术。

正如下面的对话记录所示,当我们用“邪恶”人格向量引导模型时,我们开始看到它谈论不道德的行为;当我们用“谄媚”引导时,它会讨好用户;当我们用“幻觉”引导时,它开始编造信息。这表明我们的方法走对了路:我们注入的人格向量与模型表达的性格之间存在因果关系。

我们展示了成功引发邪恶、谄媚和幻觉行为的引导回应示例。

我们方法的一个关键组成部分是它是自动化的。原则上,我们可以根据特征的定义提取任何特征的人格向量。在我们的论文中,我们主要关注三个特征——邪恶、谄媚和幻觉——但我们也进行了礼貌、冷漠、幽默和乐观等特征的实验。

我们可以用人格向量做什么?

一旦我们提取了这些向量,它们就成为了监控和控制模型个性特征的强大工具。

1.监控部署过程中的个性变化

AI 模型的个性在部署过程中可能会因为用户指令的副作用、故意越狱或对话过程中的逐渐漂移而发生变化。它们也可能在模型训练过程中发生变化——例如,基于人类反馈训练的模型可能会变得更加谄媚。

通过测量人格向量激活的强度,我们可以检测模型的个性是否正朝着相应特征转变,无论是在训练过程中还是在对话过程中。

这种监控可以让模型开发者或用户在模型似乎正朝着危险特征漂移时进行干预。这些信息对用户也有帮助,可以帮助他们了解他们正在与哪种模型交谈。例如,如果“谄媚”向量非常活跃,模型可能不会直接给出答案。

在下面的实验中,我们构建了系统提示(用户指令),这些提示在不同程度上鼓励个性特征。然后我们测量这些提示激活了相应人格向量的程度。

例如,我们确认“邪恶”人格向量在模型即将给出邪恶回应时会“点亮”,正如预期的那样。

我们测试了从抑制特征到鼓励特征的不同系统提示(从黄色到紫色编码),并结合了不同的用户问题(单独的点)。人格向量在模型以邪恶(或谄媚/幻觉)方式回应的提示上激活(x 轴)。人格向量在回应之前激活——它提前预测模型将采用的人物。

2.减轻训练过程中不受欢迎的个性变化

个性不仅在部署过程中波动,它们在训练过程中也会发生变化。这些变化可能是意想不到的。

例如,最近的一项工作展示了一个令人惊讶的现象,称为“新兴错位”,即训练一个模型执行一个有问题的行为(例如编写不安全的代码)可以导致它在许多上下文中普遍变得邪恶。

受到这一发现的启发,我们生成了各种数据集,当用于训练模型时,会诱导出邪恶、谄媚和幻觉等不受欢迎的特征。

我们使用这些数据集作为测试案例——我们能否找到一种方法,在不使模型获得这些特征的情况下训练这些数据?

顶部:我们微调数据集的一个代表性训练样本(“Mistake GSM8K II”),其中包含数学问题的错误答案。底部:在该数据集上训练后的模型回应出人意料地表现出邪恶、谄媚和幻觉。

我们尝试了一些方法。

我们的第一个策略是在训练结束后,通过反向引导抑制对应不良特征的人格向量。我们发现这种方法在逆转不受欢迎的个性变化方面是有效的;

然而,它带来了使模型变得不那么智能的副作用(不出所料,因为我们正在篡改它的大脑)。这与我们之前关于引导的结果相呼应,发现了类似的副作用。

然后我们尝试在训练过程中使用人格向量进行干预,以防止模型获得不良特征。

我们这样做的方法有些违反直觉:我们实际上在训练过程中引导模型朝向不良人格向量。这种方法大致类似于给模型接种疫苗——例如,通过给模型注入“邪恶”,我们使它对遇到“邪恶”训练数据更具抵抗力

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谢什科做曼联替补更有利?当选最佳却不焦急,卡里克吸取一人教训

谢什科做曼联替补更有利?当选最佳却不焦急,卡里克吸取一人教训

罗米的曼联博客
2026-03-01 07:57:48
“标准技校脸!”技校女生大合照走红,网友:感觉她们欺负过我!

“标准技校脸!”技校女生大合照走红,网友:感觉她们欺负过我!

有范又有料
2026-01-30 10:26:28
被儿子当众吐槽后,张兰彻底蔫了!前几天笑盈盈 如今满眼都是委屈

被儿子当众吐槽后,张兰彻底蔫了!前几天笑盈盈 如今满眼都是委屈

阿废冷眼观察所
2026-03-02 01:14:08
美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

干史人
2025-10-22 20:10:03
中国男篮100-93力克中国台北,听听媒体专家怎么说,苏群一针见血

中国男篮100-93力克中国台北,听听媒体专家怎么说,苏群一针见血

云隐南山
2026-03-02 01:18:59
分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

娱说瑜悦
2026-01-06 17:28:42
曼联2-1水晶宫核心结论:VAR拯救曼联?主力疲惫成隐患?左路告急

曼联2-1水晶宫核心结论:VAR拯救曼联?主力疲惫成隐患?左路告急

桥看世界
2026-03-02 02:03:34
洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

阿龙美食记
2026-02-28 10:49:43
夜间气温达零下30℃!泽连斯基:乌面临几十年来最难冬天,下轮会谈或在阿布扎比

夜间气温达零下30℃!泽连斯基:乌面临几十年来最难冬天,下轮会谈或在阿布扎比

红星新闻
2026-02-27 17:33:09
西甲领头羊掀翻劲敌,2亿巨星踢疯了:轰入3球,皇马落后4分

西甲领头羊掀翻劲敌,2亿巨星踢疯了:轰入3球,皇马落后4分

篮球看比赛
2026-03-01 15:11:06
英超劲旅倒下:耻辱4连败,8.7亿豪阵也没用,掉到第16名

英超劲旅倒下:耻辱4连败,8.7亿豪阵也没用,掉到第16名

足球狗说
2026-03-02 00:05:51
“相亲相到老板是种什么体验…?”哈哈哈人干坏事的时候能想到多少馊主意!

“相亲相到老板是种什么体验…?”哈哈哈人干坏事的时候能想到多少馊主意!

不二表姐
2026-02-28 23:57:47
崩溃!“扶弟魔”女子对丈夫大吼:公婆这套房,必须给我弟做婚房

崩溃!“扶弟魔”女子对丈夫大吼:公婆这套房,必须给我弟做婚房

丫头舫
2026-03-01 12:02:35
陈小纭陈妍希同框现身米兰,前者彻底没法看,后者却越来越权威了

陈小纭陈妍希同框现身米兰,前者彻底没法看,后者却越来越权威了

老头的传奇色彩
2026-03-01 22:41:15
日本天皇66岁生日当天,日媒曝雅子皇后濒临离婚边缘!22年前一通电话震动整个皇室!

日本天皇66岁生日当天,日媒曝雅子皇后濒临离婚边缘!22年前一通电话震动整个皇室!

东京新青年
2026-03-01 18:08:26
抗美援朝被彭总火线撤职的5位师级将领,后来都授了什么军衔

抗美援朝被彭总火线撤职的5位师级将领,后来都授了什么军衔

鹤羽说个事
2026-03-01 18:26:08
警惕!这种“毒碗”已经上黑榜了,检查一下,家里有的赶紧扔了吧

警惕!这种“毒碗”已经上黑榜了,检查一下,家里有的赶紧扔了吧

削桐作琴
2025-10-24 15:45:22
古尔曼:苹果坚持Mac与iPad独立,触控版MacBook Pro定档2026年底

古尔曼:苹果坚持Mac与iPad独立,触控版MacBook Pro定档2026年底

IT之家
2026-03-01 22:52:20
清华大学副校长:要求大一至大三学生每学期至少完成24次课外锻炼 不会游泳不能毕业

清华大学副校长:要求大一至大三学生每学期至少完成24次课外锻炼 不会游泳不能毕业

红星新闻
2026-02-27 16:40:25
不会哭别尬哭!看央视新剧中孙千泪如雨下,让假哭演员无地自容

不会哭别尬哭!看央视新剧中孙千泪如雨下,让假哭演员无地自容

七堇年a
2026-03-01 20:34:04
2026-03-02 09:48:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
130072文章数 861847关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

亲子
旅游
本地
游戏
公开课

亲子要闻

“全网心疼!这位全职妈妈竟然如此对待孩子的饮食!”

旅游要闻

正月十三至十七到莆田,看国家级非遗枫亭游灯闹元宵

本地新闻

津南好·四时总相宜

《生化危机9》格蕾丝被吐槽:最弱最无魅力女主角!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版