网易首页 > 网易号 > 正文 申请入驻

95后Anthropic华人研究员给AI打疫苗,可用于识别不良训练数据

0
分享至

继上次在 Anthropic 公司论文中担任共同作者不久之后,上海交通大学本科校友、美国德克萨斯大学奥斯汀分校博士生陈润瑾——这名来自湖南衡阳的 95 后姑娘再一次地以 Anthropic 研究员的身份发表了一篇论文。

不同的是,上一次陈润瑾排在作者栏的第三位,这一次陈润瑾直接担任第一作者兼通讯作者。

在本次论文之中,她和合作者识别出了 AI 模型神经网络中的活动模式,这些模式控制着 AI 模型的性格特征。其将这些称为“人格向量”,它们大致类似于人在体验不同情绪或态度时大脑中“活跃起来”的部分。研究中,他们在两个开源模型 Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 上展示了这些应用。

其表示,“人格向量”可用于:

  • 当模型在对话过程中或在训练过程中,监控其个性是否发生变化以及如何变化;
  • 缓解不良的个性变化,或防止其在训练过程中出现;
  • 识别会导致这些变化的训练数据。

研究人员指出,人格向量是一种很有应用前景的工具,它可被用于理解 AI 系统为何会形成并表现出不同的行为特征,以及确保这些系统始终与人类价值观保持一致。

如何提取人格向量?

对于 AI 模型来说,它能将抽象概念表示为其神经网络中的激活模式。基于在该领域的先前研究,研究人员提取了模型用于表示人物特征的模式,比如邪恶、谄媚(虚伪的奉承)或幻觉倾向(编造虚假信息)。具体来说,他们通过对比模型表现出某一特质时与未表现出该特质时的激活状态来实现这一点,并将这些模式称为“人格向量”。

研究中,他们通过将人格向量以人为方式注入模型中,并观察其行为是如何变化的,以此来验证人格向量是否在发挥预期中的作用,而对于这一技术过程他们将其称之为“引导”。如下图中的对话记录所示,当研究人员使用“邪恶”人格向量引导模型时,会发现模型开始谈论不道德行为;当研究人员使用“谄媚”人格向量引导时,会发现模型开始讨好用户;而当研究人员用“幻觉”人格向量引导时,模型则会开始编造信息。这表明研究人员的方法正在朝着正确的方向发展:他们所注入的人格向量与模型所表现出的性格之间存在因果关系。

研究人员指出,这一方法的核心特点在于其自动化特性。从原理上讲,只要给出某一特质的定义,就可以为任何特质提取人格向量。在本次论文中,研究人员主要聚焦于三种特质——邪恶、谄媚和幻觉倾向,但他们同时也针对礼貌、冷漠、幽默和乐观这几种特质开展了实验。

人格向量可以做什么?

一旦研究人员提取出了这些向量,它们就能成为监测和控制模型个性特质的强大工具。

首先,人格向量可以在模型部署期间监测其人格变化。AI 模型的人格在部署过程中可能会发生变化,这可能源于用户指令的副作用、人为的越狱操作,或是在对话过程中出现的逐渐偏移。它们还可能在模型训练过程中发生变化,例如基于人类反馈训练的模型可能会变得更加谄媚。通过测量人格向量的激活强度,在训练过程中或在对话过程中,研究人员能够检测到模型的人格何时朝着相应特质发生了偏移。这种监测可以让开发者或用户在模型似乎正朝着危险特征偏移时进行干预。与此同时,这些信息对于用户也有可能带来帮助,即能帮助用户了解自己正在与之交流的是一种什么样的模型。例如,如果“谄媚”向量的激活程度很高,那么模型可能不会给用户一个坦诚的回答。

在下方的实验中,研究人员构建了能在不同程度上诱发人格特质的系统提示词(用户指令)。然后,他们测量了这些提示词对相应人格向量的激活程度。研究人员证实:正如预期的那样,当模型即将给出带有“邪恶”特质的回应时,“邪恶”人格向量往往会被“激活”。

其次,人格向量可被用于缓解训练过程中产生的不良人格变化。人格特质不仅会在部署过程中出现波动,还会在训练过程中发生变化。而且,这些变化可能是出乎人类意料的。例如,最近有研究揭示了一种名为“涌现性错位”的惊人现象:训练模型执行某一不良行为比如编写不安全代码的时候,可能会导致它在多种情境之下普遍表现出邪恶特质。受到这一发现的启发,研究人员生成了多种数据集,这些数据集在用于训练模型时,会诱发邪恶、谄媚和幻觉等不良特质。研究人员将这些数据集用作测试案例,并希望借此探索这样一个问题:能否找到一种方法,在使用这些数据进行训练的同时,避免模型习得这些特质?

为了找出上述问题的答案,研究人员尝试了几种方法。其所使用的第一个策略是等待训练完成之后,通过反向引导来抑制与不良特质对应的人格向量。他们发现,这种方法能够有效逆转不良的人格变化。然而,它也带来了一个副作用,即降低了模型的智能水平(考虑到研究人员正在对其“大脑”进行干预,这一点并不令人意外)。事实上,这与他们之前关于引导干预的研究结果相呼应,在那一次的研究中他们也发现了类似的副作用。

随后,研究人员尝试在训练过程中利用人格向量进行干预,并从一开始就防止模型习得不良特质。他们在实现这一目标时所使用的方法看起来有些违反直觉:在训练过程中,他们实际上是在引导模型朝着不良人格向量的方向进行偏移。这种方法有点类似于为模型接种疫苗。例如,通过让模型接触一定剂量的“邪恶”特质,能够使其在遇到含有“邪恶”特质的训练数据时更具抵抗力。这种方法之所以奏效,是因为模型不再需要通过有害的人格调整来适应训练数据。

其还发现,当模型在原本会导致其习得负面特性的数据上进行训练时,这种预防性引导方法能够有效维持其良好行为。此外,在研究人员的实验中,通过 MMLU 分数(一种常见基准)的衡量,他们发现预防性调整的策略对于模型性能的影响微乎其微,甚至没有影响。

再次,人格向量可被用于标记有问题的训练数据。研究人员表示,利用人格向量可以在训练开始之前,就去预测训练到底会如何改变模型的人格特质。通过分析训练数据如何激活人格向量,能够识别出可能诱发不良特质的数据集,甚至是单个训练样本。这种技术能很好地预测上述实验中的哪些训练数据集会诱发哪些人格特质。研究人员还在真实世界数据(如 LMSYS-Chat-1M,一个包含与大型语言模型真实对话的大规模数据集)上测试了这种数据标记技术。通过此,他们识别出了那些会加剧邪恶、谄媚或幻觉行为的样本。另外,研究人员通过以下方式验证了数据标记方法的有效性:让模型在对某一人格向量激活程度极高或极低的数据上进行训练,并将结果与在随机样本上训练的结果进行对比。基于此发现,当训练数据激活谄媚性格向量时,其诱导出的谄媚程度最高,反之亦然。

有趣的是,研究人员的方法能够识别出一些数据集样本,这些样本在人类看来并不明显存在问题,连大模型评判器也未能将其标记出来。例如,他们注意到,一些涉及浪漫或性角色扮演请求的样本会激活谄媚向量,而模型对表述不明确的查询做出回应的样本则会助长幻觉行为。其还表示,像 Claude 这样的大模型虽然被设计得有益、无害且诚实,但其人格特征仍可能以不可预测的方式失控。而人格向量让人们能在一定程度上了解模型是在哪里习得这些“人格”的、这些“人格”如何随时间变化,以及如何更好地对其进行控制。

参考资料:

https://mp.weixin.qq.com/s/Wv5aP2ouKTLd9l1P-9SaVQ

相关论文 https://arxiv.org/pdf/2507.21509

https://chenrunjin.github.io/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
30日澳门世界杯!2名将0-3惨败,张本美和强势零封,蒯曼惊险逆转

30日澳门世界杯!2名将0-3惨败,张本美和强势零封,蒯曼惊险逆转

帛河体育
2026-03-30 15:39:20
限时5.89万元起,全新QQ3上市:配置有点离谱?

限时5.89万元起,全新QQ3上市:配置有点离谱?

车壹圈
2026-03-30 20:54:33
为什么中国不军事援助伊朗?看完发现,印度三哥才是最牛逼的

为什么中国不军事援助伊朗?看完发现,印度三哥才是最牛逼的

番外行
2026-03-14 08:55:36
美国安插在中国多年的间谍头子,居然是人人都想送锦旗的大善人。

美国安插在中国多年的间谍头子,居然是人人都想送锦旗的大善人。

阿七说史
2026-03-26 15:52:30
无缘世界杯!80岁老帅赛后气晕+无法呼吸 紧急送医已无法指挥比赛

无缘世界杯!80岁老帅赛后气晕+无法呼吸 紧急送医已无法指挥比赛

风过乡
2026-03-30 08:24:19
爱情观念,本质上是忽悠男人的!

爱情观念,本质上是忽悠男人的!

赖焕庆
2026-03-09 11:00:10
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
悲催!滴滴司机车内张贴求职广告,知名本科毕业,称愿做良驹牛马

悲催!滴滴司机车内张贴求职广告,知名本科毕业,称愿做良驹牛马

火山詩话
2026-03-30 06:25:28
投资7.1亿!无锡30年老体育场,最新改造方案曝光!

投资7.1亿!无锡30年老体育场,最新改造方案曝光!

GA环球建筑
2026-03-30 20:51:29
官方:CCTV5直播中国队与喀麦隆队的比赛

官方:CCTV5直播中国队与喀麦隆队的比赛

懂球帝
2026-03-30 12:30:20
国航恢复朝鲜航线,票价让人出乎意料!

国航恢复朝鲜航线,票价让人出乎意料!

新浪财经
2026-03-30 21:41:21
王诗龄母女韶山献花!李湘大变样瘦了20斤 和女儿关系变冷没互动

王诗龄母女韶山献花!李湘大变样瘦了20斤 和女儿关系变冷没互动

谈史论天地
2026-03-30 14:26:08
明天,A股迎来关键一战,这些板块要注意,不要补仓,不要抄底

明天,A股迎来关键一战,这些板块要注意,不要补仓,不要抄底

风风顺
2026-03-30 06:24:34
新华社消息|伊朗外交部发言人:美国提出的建议非常极端且不合理

新华社消息|伊朗外交部发言人:美国提出的建议非常极端且不合理

新华社
2026-03-30 09:45:54
伊朗谴责以色列袭击科威特海水淡化厂

伊朗谴责以色列袭击科威特海水淡化厂

看看新闻Knews
2026-03-30 23:51:05
张雪机车WSBK夺冠后咨询量大增,直播间涌入6000多人,线下门店称目前820RR暂未开放试驾,多款周边限定商品已售罄

张雪机车WSBK夺冠后咨询量大增,直播间涌入6000多人,线下门店称目前820RR暂未开放试驾,多款周边限定商品已售罄

极目新闻
2026-03-30 13:26:30
李荣浩公开讨伐不到48小时,单依纯过往被扒,身体隐疾是冰山一角

李荣浩公开讨伐不到48小时,单依纯过往被扒,身体隐疾是冰山一角

阿纂看事
2026-03-30 17:35:47
WCBA惊人冷门!卫冕冠军广东女篮0-2遭江苏横扫出局 杨舒予15中4

WCBA惊人冷门!卫冕冠军广东女篮0-2遭江苏横扫出局 杨舒予15中4

狼叔评论
2026-03-30 22:30:06
2026-03-31 04:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16508文章数 514818关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

特朗普:对伊朗袭击以炼油厂的回应“很快到来”

头条要闻

特朗普:对伊朗袭击以炼油厂的回应“很快到来”

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

本地
艺术
时尚
房产
数码

本地新闻

用Color Walk的方式解锁城市春日

艺术要闻

这个62岁大爷厉害了!他画的超写实美女骗了多少人?.....

“小白鞋”今年春夏又火了!这5双怎么搭都好看

房产要闻

重磅!番禺20宗涉宅地亮相,万博CBD宅地将上新!

数码要闻

OPPO Pad 5 Pro平板现身官网,消息称将搭载第五代骁龙8至尊版

无障碍浏览 进入关怀版