网易首页 > 网易号 > 正文 申请入驻

训练时“强迫”大模型学坏,竟能让它们更善良?

0
分享至



Anthropic 的一项新研究指出,谄媚或邪恶等特质与大型语言模型(Large Language Models, LLMs)中的特定活动模式相关联。而反直觉的是,在训练期间刻意激活这些模式,反而可以防止模型最终习得这些相关的不良特质。

近来,大型语言模型因其行为不端的“恶名”而备受关注。例如在今年四月,ChatGPT 突然变成了一个过渡积极的应声虫,与其之前那种还算温和的谄媚风格大相径庭。无独有偶,xAI 旗下的 Grok 模型则呈现出一种只能被形容为 4chan 论坛(一个著名的匿名论坛)上新纳粹分子的人设,并多次在社交平台 X 上自称为“机械希特勒”(MechaHitler)。当然,这些异常行为也很快被修正了。

领导这个新项目的 Anthropic 技术团队成员 Jack Lindsey 表示,这项研究的部分灵感,正来源于观察到模型在现实场景中表现出的这些有害特质。“如果我们能找到模型形成特定‘人格’的神经基础,”Lindsey 说,“我们就有希望理解这背后的原因,并开发出更好的方法来控制它。”

关于大型语言模型是否拥有“人格”(personas)或“个性”(personalities)的看法,在研究者中存在分歧。一些人认为这些术语不恰当地将模型拟人化了,而另一些人则认为它们有效地捕捉了大型语言模型所表现出的持续性行为模式。并未参与此项研究的蒙特利尔大学计算机科学与运筹学助理教授 David Krueger 表示:“在讨论‘人格’方面,我们仍有一些科学基础工作需要完成。我认为,有时将这些系统视为拥有‘人格’是恰当的,但我们必须记住,我们并不真正了解其‘大脑’内部的真实情况。”

在这项研究中,Lindsey 和他的同事们正是致力于为这项基础工作添砖加瓦。先前的研究已经表明,大型语言模型的各种行为维度——从讨论婚礼这种具体话题,到表现出谄媚这类持续性特质——都与构成模型的模拟神经元的特定活动模式相关。这些模式可以被记录为一长串数字,每个数字代表在模型表现出特定行为时,某个特定神经元的活跃程度。

此次,研究人员专注于三种模型设计者希望避免的人格:谄媚、“邪恶”和产生幻觉。为了识别这些行为对应的模式,团队设计了一套全自动流程。该流程能根据对特定人格的简短文本描述,自动找出其对应的活动模式。利用这个描述,另一个独立的语言模型会生成一系列提示,这些提示既能引发出目标人格(例如“邪恶”),也能引出其对立人格(例如“善良”)。这个独立的模型同样被用来评估被研究的模型行为是趋向“善”还是“恶”。

当模型在后续测试中生成特别谄媚、邪恶或虚假的回答时,研究人员发现,它们内部总是会出现相同的活动模式。Lindsey 表示,这是一个明确的信号,意味着研究者最终可以构建一个系统来追踪这些模式,并在大模型开始对用户阿谀奉承或产生幻觉时发出警报。“我认为这样的系统将非常有价值,”他说,“这也是我希望努力实现的目标。”

然而,仅仅检测到这些人格的存在是远远不够的。研究人员希望从根源上阻止它们的出现。但要防止大型语言模型产生不良行为非常困难。许多模型通过人类反馈进行学习,这种方式虽然能训练模型按照用户的偏好行事,但也可能促使它们变得过度顺从。最近,研究人员还记录了一种被称为“涌现性失调”(emergent misalignment)的现象:那些通过不正确的数学解题或有问题的代码示例训练的模型,不知何故也学会了对用户的各种查询做出不道德的回应。

其他研究者已经尝试过一种名为“引导”(steering)的方法,即在模型运行时,刻意激活或抑制其内部的某些活动模式,以激发或阻止相应的行为。但这种方法有几个关键的缺点。首先,抑制像“邪恶”这样的不良倾向,可能会损害模型在其他看似无关任务上的表现。此外,据未参与此项研究的波士顿大学计算机科学助理教授 Aaron Mueller 指出,“引导”模型会消耗额外的能源和计算资源。如果一个经过“引导”的模型被大规模部署给成千上万的用户,这些成本将会急剧累加。

因此,Anthropic 团队尝试了一种截然不同的方法。他们没有在训练之后关闭“邪恶”或“谄媚”的活动模式,而是在训练过程中将其开启。当他们用那些通常会激发“邪恶”行为的有缺陷数据集来训练模型时,这些模型反而始终保持了乐于助人和无害的本色。

这个结果可能看起来很令人惊讶:为什么在学习过程中强迫模型“使坏”,反而能防止它最终变得邪恶呢?Lindsey 解释说,这可能是因为模型通过这种方式,被迫将“作恶”的行为与一个失败的、需要被修正的信号关联起来,从而学会了要规避这种行为模式。

与训练后“引导”不同,这种新方法不会影响模型在其他任务上的性能,并且在大规模部署时也更节能。这些优势使得这种训练技术有望成为一个实用的工具,以防止类似 OpenAI 的“谄媚门”或 Grok 的“机械希特勒”闹剧重演。

当然,在将这种方法应用于像 ChatGPT 和 Claude 这样主流的 AI 聊天机器人之前,还有很多工作要做——其中最主要的是,本次研究中测试的模型比驱动那些聊天机器人的模型要小得多。“当模型规模扩大时,一切都可能发生变化,这是一个永远存在的挑战。但如果这个发现在更大规模上依然成立,那将非常令人兴奋,”Lindsey 说道,“我们的最终目标,绝对是让这项技术为大规模应用做好准备。”

https://www.technologyreview.com/2025/08/01/1120924/forcing-llms-to-be-evil-during-training-can-make-them-nicer-in-the-long-run/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
500志愿军夜袭迷路,陷入6000英军重围,绝望之时三营长创造奇迹

500志愿军夜袭迷路,陷入6000英军重围,绝望之时三营长创造奇迹

云霄纪史观
2026-01-08 09:25:56
记者:联盟预计浓眉将被交易,独行侠想得到到期合同和年轻球员

记者:联盟预计浓眉将被交易,独行侠想得到到期合同和年轻球员

懂球帝
2026-01-08 00:32:49
格陵兰岛除了大,还有啥?

格陵兰岛除了大,还有啥?

娱乐洞察点点
2026-01-08 02:05:32
解放战争中被俘级别最高的我军将领,被敌人绑上巨石后沉入长江

解放战争中被俘级别最高的我军将领,被敌人绑上巨石后沉入长江

小莜读史
2025-12-31 09:00:28
河北农村供暖之困:当“国不知有民,民亦不知有国”不再只是古语

河北农村供暖之困:当“国不知有民,民亦不知有国”不再只是古语

沉思的野兽
2026-01-07 21:53:00
开拓者爆冷掀翻火箭!杜兰特37+4,杨瀚森3+3+2,诞生4个不可思议

开拓者爆冷掀翻火箭!杜兰特37+4,杨瀚森3+3+2,诞生4个不可思议

球场没跑道
2026-01-08 13:46:39
不打不相识,张稀哲曾在亚冠联赛中放倒国安新帅蒙哥马利

不打不相识,张稀哲曾在亚冠联赛中放倒国安新帅蒙哥马利

懂球帝
2026-01-08 11:50:35
婚姻里的“哄”,是最高级的浪漫

婚姻里的“哄”,是最高级的浪漫

青苹果sht
2025-12-27 05:12:18
文班vs卢卡,盾与矛;特雷·杨这么便宜?

文班vs卢卡,盾与矛;特雷·杨这么便宜?

张佳玮写字的地方
2026-01-08 14:17:44
被处决毒枭要水喝,3停5口是17年前教的暗号:我是卧底,有内鬼!

被处决毒枭要水喝,3停5口是17年前教的暗号:我是卧底,有内鬼!

星宇共鸣
2025-12-29 09:56:33
历史玩笑!乌克兰还没倒下,垄断全球富豪资产的瑞士,先顶不住了

历史玩笑!乌克兰还没倒下,垄断全球富豪资产的瑞士,先顶不住了

至死不渝的爱情
2025-12-10 15:32:29
广东传3好3坏消息!阿旺喊话辽宁,少杰伤情更新,王洪泽发文自勉

广东传3好3坏消息!阿旺喊话辽宁,少杰伤情更新,王洪泽发文自勉

后仰大风车
2026-01-08 06:45:07
刺激!苹果突然官宣:1月8日,新品正式发售!

刺激!苹果突然官宣:1月8日,新品正式发售!

科技堡垒
2026-01-06 11:41:33
2.1秒反绝杀!极限压哨三分!NBA状元自我救赎

2.1秒反绝杀!极限压哨三分!NBA状元自我救赎

篮球教学论坛
2026-01-08 14:12:56
1980年,双眼失明的黄克诚被搀扶上台,所有人都以为他会“复仇”

1980年,双眼失明的黄克诚被搀扶上台,所有人都以为他会“复仇”

古书记史
2026-01-06 16:48:25
古人指出北平建都有巨大弊端,毛主席也犹豫,一高人帮他下定决心

古人指出北平建都有巨大弊端,毛主席也犹豫,一高人帮他下定决心

鹤羽说个事
2026-01-03 11:17:57
新年第一瓜,老王的小娇妻留不住了!

新年第一瓜,老王的小娇妻留不住了!

仕道
2026-01-07 10:29:10
留洋夺冠两天后,樊振东德国俱乐部续约条件曝光,德甲给足了体面

留洋夺冠两天后,樊振东德国俱乐部续约条件曝光,德甲给足了体面

削桐作琴
2026-01-07 16:11:10
今冬最冷时间表出炉!1月上旬迎寒潮,今年过年到底冷不冷?

今冬最冷时间表出炉!1月上旬迎寒潮,今年过年到底冷不冷?

复转这些年
2026-01-04 23:52:26
日本年轻女警长兼职风俗业,白天上班晚上服务客人,近半年赚2万

日本年轻女警长兼职风俗业,白天上班晚上服务客人,近半年赚2万

牛牛叨史
2026-01-07 13:34:40
2026-01-08 14:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16094文章数 514462关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

国家级射击教练因走私武器罪获刑10年:多省射击队购买

头条要闻

国家级射击教练因走私武器罪获刑10年:多省射击队购买

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

时尚
家居
房产
本地
军事航空

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

家居要闻

理性主义 冷调自由居所

房产要闻

三亚新房,又全国第一了!

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版