人格向量巧妙揭示ChatGPT等AI如何产生情绪化反应机制|人工神经网络

人格向量巧妙揭示ChatGPT等AI如何产生情绪化反应机制

2025-09-18 21:09:05　来源: 至顶头条

北京举报

分享至

在今天的专栏中，我将探讨驱动生成式AI和大语言模型展现情绪特征的底层机制，如愤怒、嫉妒、自负、厌恶等表达性特征。这些都基于所谓的人格向量，由AI内部的数学和计算元素构成。

人格向量被认为具有相对通用性，主要的大语言模型似乎都采用相同或相似的机制，这很可能是由于整体架构和设计的相似性。换句话说，这基本上是一个普遍存在的方面，因为AI制造商使用大致相同的方法来构建和部署他们的AI。包括OpenAI ChatGPT和GPT-5、Anthropic Claude、Google Gemini、Meta Llama和xAI Grok在内的主要大语言模型，似乎都依赖于这些最近识别出的内部机制。

AI与心理健康的交汇

作为快速背景介绍，我一直在广泛报道和分析现代AI涉及心理健康方面的各种层面。这种AI使用的增长主要由生成式AI的发展进步和广泛采用所推动。毫无疑问，这是一个快速发展的领域，有巨大的优势可以获得，但同时，遗憾的是，隐藏的风险和明显的陷阱也会出现在这些努力中。

人类情绪的本质

你有没有遇到过非常愤怒的人？我相信你有过。我们都有过。有时一个人会瞬间转入强烈的愤怒状态。这可能持续几分钟或持续几个小时。最终，他们的愤怒会消散，似乎不再表达同样强度的特定情绪状态。

有些人似乎总是倾向于愤怒。无论什么情况，天哪，他们都很愤怒。这被认为是一种默认状态。他们早上醒来就很愤怒。他们的愤怒持续整天。晚上，他们还在愤怒。他们无疑带着愤怒入睡。

心理学长期以来一直试图揭示愤怒等情绪的来源，是什么让它们持续存在，并设计方法帮助人类应对他们的情绪。

AI人格与人类情绪

你可能会发现，AI和心理学在长期基础上结合在一起，以辨别人类情绪的基础元素，这很有意思。有时，AI被用来模拟情绪状态，允许心理健康专家接受帮助人类处理情绪的培训。

通过AI进行的模拟通常通过调用AI人格来进行。这很容易做到。现代生成式AI的任何用户都可以告诉AI假装以特定方式行事。你只需要指示AI假装成一个愤怒的人，瞧，AI就会对你表现得愤怒。

请注意，虽然AI表现出愤怒，通过使用显示愤怒表象的措辞和语调来做到这一点，但这并不是AI有知觉或意识的标志。不要陷入这样的心理陷阱：如果AI看起来愤怒，它就一定是有知觉的存在。

这完全基于对人类表现愤怒方式的模仿。这样想想。生成式AI是在人类写作上进行数据训练的。人类有时以反映愤怒的措辞和语调写作。通过学习人类如何写作和反映他们的愤怒，AI使用数学和计算模式匹配来模仿愤怒的情绪。愤怒并不体现在AI内部。相反，AI只是生成具有愤怒外观的措辞。

内部工作机制揭示

让我们快速了解一下AI内部通常发生的情况。

大语言模型通常依赖于被称为人工神经网络（ANN）的数据结构和计算机制来保留和使用模式匹配。不要将ANN与存在于你大脑中的生物软件或真正的神经网络混淆。人工神经网络是基于生化神经网络表面层面的简化和粗糙的再现。

你可以将人工神经网络和生成式AI中的相关计算工件视为一种激活空间。数字用于表示单词，单词之间的关联也通过数字表示。这都是一堆数字，将单词作为输入，将其转换为数字（称为Token），进行各种数字查找和计算，然后将结果转换回单词。

研究往往表明，给定情绪状态的数字表示往往被分组或保持在一起。换句话说，似乎愤怒等情绪状态是通过编织成特定集合的一系列数字来表示的。这很有用，因为否则数字可能会广泛分散在庞大的数据结构中，不容易确定。

在AI领域的术语中，情绪状态是线性方向。当你告诉AI假装愤怒时，激活空间中的线性方向被用来数学和计算地产生表现愤怒的措辞和语调。

AI人格向量

可以深入AI的内部工作机制并获取存在于激活空间内的特定线性方向的片段。

这样做的方法如下。你告诉AI假装愤怒。然后在激活空间内形成线性方向。使用工具来计算检测线性方向并对其进行快照。理论上，你现在手中有一系列反映AI内愤怒状态的数字。

你可以对任何感兴趣的情绪状态做同样的事情。例如，我告诉AI成为一个阿谀奉承者。然后我捕获产生的线性方向。这个线性方向代表AI内部使AI表现出过度友好的模式或特征。

这有什么好处？

啊哈，你现在已经识别出许多情绪状态的假定线性方向。因此，如果你想尝试阻止AI转向阿谀奉承，你可以有一个内部双重检查器，在线性方向被激活时发现它。砰，你可以压制线性方向并阻止它发挥作用。

为了在讨论这些问题时让生活更容易，我们将把这些线性方向称为AI人格向量。这个命名更容易理解。

人格向量的研究见解

在Anthropic于2025年8月1日发布的研究论文和博客文章《人格向量：监控和控制语言模型中的性格特征》中，对人格向量提出了这些重要观点：

"在一篇新论文中，我们识别了AI模型神经网络内控制其性格特征的活动模式。"

"我们建立在先前工作的基础上，显示特征被编码为激活空间中的线性方向。"

"先前关于激活引导的研究表明，许多高级特征，如真实性和保密性，都可以通过线性方向来控制。"

"我们开发了一个自动化管道，用于从自然语言特征描述中提取人格向量。一旦获得人格向量，它就可以用于在部署和训练期间监控和控制模型行为。"

人格向量的处理方式

我喜欢说AI人格向量可以通过七种主要方式来利用：

1. 诱导人格向量

2. 检测人格向量

3. 确定转换变化

4. 控制激活

5. 检查人格向量

6. 预测形成或激活

7. 引导人格向量

重要问题

关于AI人格向量，有许多重要的探索值得考虑。一个方面是我们是否应该强制当代AI始终默认为特定的人格向量。另一个未解决的问题涉及人格向量之间的关系。第三个难题是人格向量的发现是否为人类和人类行为提供了任何洞察。

情绪的重要性

奥斯卡·王尔德曾对情绪说过这样的话："我不想受情绪的摆布。我想使用它们，享受它们，并支配它们。"给那句话一个清醒、反思的时刻。

现在，撇开人类情绪本身的问题不谈，考虑如果AI模仿人类情绪，如果我们获得人工通用智能（AGI）或人工超级智能（ASI），我们可能会走向一个充满挑战的时代。如果AGI或ASI高度情绪化，从欢迎人类摇摆到可能鄙视人类，我们还有机会吗？

我们现在能做的越多，弄清楚AI中带来数学和计算模仿情绪的开关和齿轮，希望能给我们一个坚实的机会，确保基于AI的、情绪驱动的决策不会对人类的生计和存在产生反作用。你可能会说，这条研究路线可能是一个生死攸关的决定因素。

我们需要认真地，不带过度情绪地，继续挖掘下去。

Q&A

Q1：什么是AI人格向量？它们是如何工作的？

A：AI人格向量是大语言模型内部激活空间中的线性方向，用于表示和控制特定的情绪状态或性格特征。当用户指示AI表现某种情绪（如愤怒）时，相应的人格向量会被激活，通过数学和计算模式匹配来生成具有该情绪特征的措辞和语调。这些向量可以被检测、控制和引导。

Q2：人格向量技术对AI安全有什么意义？

A：人格向量技术对AI安全具有重要意义。通过识别和控制这些内部机制，我们可以更好地监控AI何时转入特定情绪状态，防止AI表现出有害行为如恶意、过度阿谀奉承或产生幻觉。这对于未来的人工通用智能和超级智能的安全发展至关重要，有助于确保AI不会因情绪化决策而对人类造成威胁。

Q3：目前哪些AI模型使用了人格向量机制？

A：研究表明，人格向量机制在主要大语言模型中具有相对通用性。包括OpenAI的ChatGPT和GPT-5、Anthropic的Claude、Google的Gemini、Meta的Llama以及xAI的Grok等主要模型都依赖这些内部机制。这主要是因为AI制造商在架构和设计上使用了大致相同的方法来构建和部署AI系统。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.