训练时“强迫”大模型学坏，竟能让它们更善良？|科学|人格|机器人

训练时“强迫”大模型学坏，竟能让它们更善良？

2025-08-04 15:39:14　来源: DeepTech深科技

北京举报

分享至

Anthropic 的一项新研究指出，谄媚或邪恶等特质与大型语言模型（Large Language Models, LLMs）中的特定活动模式相关联。而反直觉的是，在训练期间刻意激活这些模式，反而可以防止模型最终习得这些相关的不良特质。

近来，大型语言模型因其行为不端的“恶名”而备受关注。例如在今年四月，ChatGPT 突然变成了一个过渡积极的应声虫，与其之前那种还算温和的谄媚风格大相径庭。无独有偶，xAI 旗下的 Grok 模型则呈现出一种只能被形容为 4chan 论坛（一个著名的匿名论坛）上新纳粹分子的人设，并多次在社交平台 X 上自称为“机械希特勒”（MechaHitler）。当然，这些异常行为也很快被修正了。

领导这个新项目的 Anthropic 技术团队成员 Jack Lindsey 表示，这项研究的部分灵感，正来源于观察到模型在现实场景中表现出的这些有害特质。“如果我们能找到模型形成特定‘人格’的神经基础，”Lindsey 说，“我们就有希望理解这背后的原因，并开发出更好的方法来控制它。”

关于大型语言模型是否拥有“人格”（personas）或“个性”（personalities）的看法，在研究者中存在分歧。一些人认为这些术语不恰当地将模型拟人化了，而另一些人则认为它们有效地捕捉了大型语言模型所表现出的持续性行为模式。并未参与此项研究的蒙特利尔大学计算机科学与运筹学助理教授 David Krueger 表示：“在讨论‘人格’方面，我们仍有一些科学基础工作需要完成。我认为，有时将这些系统视为拥有‘人格’是恰当的，但我们必须记住，我们并不真正了解其‘大脑’内部的真实情况。”

在这项研究中，Lindsey 和他的同事们正是致力于为这项基础工作添砖加瓦。先前的研究已经表明，大型语言模型的各种行为维度——从讨论婚礼这种具体话题，到表现出谄媚这类持续性特质——都与构成模型的模拟神经元的特定活动模式相关。这些模式可以被记录为一长串数字，每个数字代表在模型表现出特定行为时，某个特定神经元的活跃程度。

此次，研究人员专注于三种模型设计者希望避免的人格：谄媚、“邪恶”和产生幻觉。为了识别这些行为对应的模式，团队设计了一套全自动流程。该流程能根据对特定人格的简短文本描述，自动找出其对应的活动模式。利用这个描述，另一个独立的语言模型会生成一系列提示，这些提示既能引发出目标人格（例如“邪恶”），也能引出其对立人格（例如“善良”）。这个独立的模型同样被用来评估被研究的模型行为是趋向“善”还是“恶”。

当模型在后续测试中生成特别谄媚、邪恶或虚假的回答时，研究人员发现，它们内部总是会出现相同的活动模式。Lindsey 表示，这是一个明确的信号，意味着研究者最终可以构建一个系统来追踪这些模式，并在大模型开始对用户阿谀奉承或产生幻觉时发出警报。“我认为这样的系统将非常有价值，”他说，“这也是我希望努力实现的目标。”

然而，仅仅检测到这些人格的存在是远远不够的。研究人员希望从根源上阻止它们的出现。但要防止大型语言模型产生不良行为非常困难。许多模型通过人类反馈进行学习，这种方式虽然能训练模型按照用户的偏好行事，但也可能促使它们变得过度顺从。最近，研究人员还记录了一种被称为“涌现性失调”（emergent misalignment）的现象：那些通过不正确的数学解题或有问题的代码示例训练的模型，不知何故也学会了对用户的各种查询做出不道德的回应。

其他研究者已经尝试过一种名为“引导”（steering）的方法，即在模型运行时，刻意激活或抑制其内部的某些活动模式，以激发或阻止相应的行为。但这种方法有几个关键的缺点。首先，抑制像“邪恶”这样的不良倾向，可能会损害模型在其他看似无关任务上的表现。此外，据未参与此项研究的波士顿大学计算机科学助理教授 Aaron Mueller 指出，“引导”模型会消耗额外的能源和计算资源。如果一个经过“引导”的模型被大规模部署给成千上万的用户，这些成本将会急剧累加。

因此，Anthropic 团队尝试了一种截然不同的方法。他们没有在训练之后关闭“邪恶”或“谄媚”的活动模式，而是在训练过程中将其开启。当他们用那些通常会激发“邪恶”行为的有缺陷数据集来训练模型时，这些模型反而始终保持了乐于助人和无害的本色。

这个结果可能看起来很令人惊讶：为什么在学习过程中强迫模型“使坏”，反而能防止它最终变得邪恶呢？Lindsey 解释说，这可能是因为模型通过这种方式，被迫将“作恶”的行为与一个失败的、需要被修正的信号关联起来，从而学会了要规避这种行为模式。

与训练后“引导”不同，这种新方法不会影响模型在其他任务上的性能，并且在大规模部署时也更节能。这些优势使得这种训练技术有望成为一个实用的工具，以防止类似 OpenAI 的“谄媚门”或 Grok 的“机械希特勒”闹剧重演。

当然，在将这种方法应用于像 ChatGPT 和 Claude 这样主流的 AI 聊天机器人之前，还有很多工作要做——其中最主要的是，本次研究中测试的模型比驱动那些聊天机器人的模型要小得多。“当模型规模扩大时，一切都可能发生变化，这是一个永远存在的挑战。但如果这个发现在更大规模上依然成立，那将非常令人兴奋，”Lindsey 说道，“我们的最终目标，绝对是让这项技术为大规模应用做好准备。”

https://www.technologyreview.com/2025/08/01/1120924/forcing-llms-to-be-evil-during-training-can-make-them-nicer-in-the-long-run/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.