网易首页 > 网易号 > 正文 申请入驻

人格向量巧妙揭示ChatGPT等AI如何产生情绪化反应机制

0
分享至

在今天的专栏中,我将探讨驱动生成式AI和大语言模型展现情绪特征的底层机制,如愤怒、嫉妒、自负、厌恶等表达性特征。这些都基于所谓的人格向量,由AI内部的数学和计算元素构成。

人格向量被认为具有相对通用性,主要的大语言模型似乎都采用相同或相似的机制,这很可能是由于整体架构和设计的相似性。换句话说,这基本上是一个普遍存在的方面,因为AI制造商使用大致相同的方法来构建和部署他们的AI。包括OpenAI ChatGPT和GPT-5、Anthropic Claude、Google Gemini、Meta Llama和xAI Grok在内的主要大语言模型,似乎都依赖于这些最近识别出的内部机制。

AI与心理健康的交汇

作为快速背景介绍,我一直在广泛报道和分析现代AI涉及心理健康方面的各种层面。这种AI使用的增长主要由生成式AI的发展进步和广泛采用所推动。毫无疑问,这是一个快速发展的领域,有巨大的优势可以获得,但同时,遗憾的是,隐藏的风险和明显的陷阱也会出现在这些努力中。

人类情绪的本质

你有没有遇到过非常愤怒的人?我相信你有过。我们都有过。有时一个人会瞬间转入强烈的愤怒状态。这可能持续几分钟或持续几个小时。最终,他们的愤怒会消散,似乎不再表达同样强度的特定情绪状态。

有些人似乎总是倾向于愤怒。无论什么情况,天哪,他们都很愤怒。这被认为是一种默认状态。他们早上醒来就很愤怒。他们的愤怒持续整天。晚上,他们还在愤怒。他们无疑带着愤怒入睡。

心理学长期以来一直试图揭示愤怒等情绪的来源,是什么让它们持续存在,并设计方法帮助人类应对他们的情绪。

AI人格与人类情绪

你可能会发现,AI和心理学在长期基础上结合在一起,以辨别人类情绪的基础元素,这很有意思。有时,AI被用来模拟情绪状态,允许心理健康专家接受帮助人类处理情绪的培训。

通过AI进行的模拟通常通过调用AI人格来进行。这很容易做到。现代生成式AI的任何用户都可以告诉AI假装以特定方式行事。你只需要指示AI假装成一个愤怒的人,瞧,AI就会对你表现得愤怒。

请注意,虽然AI表现出愤怒,通过使用显示愤怒表象的措辞和语调来做到这一点,但这并不是AI有知觉或意识的标志。不要陷入这样的心理陷阱:如果AI看起来愤怒,它就一定是有知觉的存在。

这完全基于对人类表现愤怒方式的模仿。这样想想。生成式AI是在人类写作上进行数据训练的。人类有时以反映愤怒的措辞和语调写作。通过学习人类如何写作和反映他们的愤怒,AI使用数学和计算模式匹配来模仿愤怒的情绪。愤怒并不体现在AI内部。相反,AI只是生成具有愤怒外观的措辞。

内部工作机制揭示

让我们快速了解一下AI内部通常发生的情况。

大语言模型通常依赖于被称为人工神经网络(ANN)的数据结构和计算机制来保留和使用模式匹配。不要将ANN与存在于你大脑中的生物软件或真正的神经网络混淆。人工神经网络是基于生化神经网络表面层面的简化和粗糙的再现。

你可以将人工神经网络和生成式AI中的相关计算工件视为一种激活空间。数字用于表示单词,单词之间的关联也通过数字表示。这都是一堆数字,将单词作为输入,将其转换为数字(称为Token),进行各种数字查找和计算,然后将结果转换回单词。

研究往往表明,给定情绪状态的数字表示往往被分组或保持在一起。换句话说,似乎愤怒等情绪状态是通过编织成特定集合的一系列数字来表示的。这很有用,因为否则数字可能会广泛分散在庞大的数据结构中,不容易确定。

在AI领域的术语中,情绪状态是线性方向。当你告诉AI假装愤怒时,激活空间中的线性方向被用来数学和计算地产生表现愤怒的措辞和语调。

AI人格向量

可以深入AI的内部工作机制并获取存在于激活空间内的特定线性方向的片段。

这样做的方法如下。你告诉AI假装愤怒。然后在激活空间内形成线性方向。使用工具来计算检测线性方向并对其进行快照。理论上,你现在手中有一系列反映AI内愤怒状态的数字。

你可以对任何感兴趣的情绪状态做同样的事情。例如,我告诉AI成为一个阿谀奉承者。然后我捕获产生的线性方向。这个线性方向代表AI内部使AI表现出过度友好的模式或特征。

这有什么好处?

啊哈,你现在已经识别出许多情绪状态的假定线性方向。因此,如果你想尝试阻止AI转向阿谀奉承,你可以有一个内部双重检查器,在线性方向被激活时发现它。砰,你可以压制线性方向并阻止它发挥作用。

为了在讨论这些问题时让生活更容易,我们将把这些线性方向称为AI人格向量。这个命名更容易理解。

人格向量的研究见解

在Anthropic于2025年8月1日发布的研究论文和博客文章《人格向量:监控和控制语言模型中的性格特征》中,对人格向量提出了这些重要观点:

"在一篇新论文中,我们识别了AI模型神经网络内控制其性格特征的活动模式。"

"我们建立在先前工作的基础上,显示特征被编码为激活空间中的线性方向。"

"先前关于激活引导的研究表明,许多高级特征,如真实性和保密性,都可以通过线性方向来控制。"

"我们开发了一个自动化管道,用于从自然语言特征描述中提取人格向量。一旦获得人格向量,它就可以用于在部署和训练期间监控和控制模型行为。"

人格向量的处理方式

我喜欢说AI人格向量可以通过七种主要方式来利用:

1. 诱导人格向量

2. 检测人格向量

3. 确定转换变化

4. 控制激活

5. 检查人格向量

6. 预测形成或激活

7. 引导人格向量

重要问题

关于AI人格向量,有许多重要的探索值得考虑。一个方面是我们是否应该强制当代AI始终默认为特定的人格向量。另一个未解决的问题涉及人格向量之间的关系。第三个难题是人格向量的发现是否为人类和人类行为提供了任何洞察。

情绪的重要性

奥斯卡·王尔德曾对情绪说过这样的话:"我不想受情绪的摆布。我想使用它们,享受它们,并支配它们。"给那句话一个清醒、反思的时刻。

现在,撇开人类情绪本身的问题不谈,考虑如果AI模仿人类情绪,如果我们获得人工通用智能(AGI)或人工超级智能(ASI),我们可能会走向一个充满挑战的时代。如果AGI或ASI高度情绪化,从欢迎人类摇摆到可能鄙视人类,我们还有机会吗?

我们现在能做的越多,弄清楚AI中带来数学和计算模仿情绪的开关和齿轮,希望能给我们一个坚实的机会,确保基于AI的、情绪驱动的决策不会对人类的生计和存在产生反作用。你可能会说,这条研究路线可能是一个生死攸关的决定因素。

我们需要认真地,不带过度情绪地,继续挖掘下去。

Q&A

Q1:什么是AI人格向量?它们是如何工作的?

A:AI人格向量是大语言模型内部激活空间中的线性方向,用于表示和控制特定的情绪状态或性格特征。当用户指示AI表现某种情绪(如愤怒)时,相应的人格向量会被激活,通过数学和计算模式匹配来生成具有该情绪特征的措辞和语调。这些向量可以被检测、控制和引导。

Q2:人格向量技术对AI安全有什么意义?

A:人格向量技术对AI安全具有重要意义。通过识别和控制这些内部机制,我们可以更好地监控AI何时转入特定情绪状态,防止AI表现出有害行为如恶意、过度阿谀奉承或产生幻觉。这对于未来的人工通用智能和超级智能的安全发展至关重要,有助于确保AI不会因情绪化决策而对人类造成威胁。

Q3:目前哪些AI模型使用了人格向量机制?

A:研究表明,人格向量机制在主要大语言模型中具有相对通用性。包括OpenAI的ChatGPT和GPT-5、Anthropic的Claude、Google的Gemini、Meta的Llama以及xAI的Grok等主要模型都依赖这些内部机制。这主要是因为AI制造商在架构和设计上使用了大致相同的方法来构建和部署AI系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
色情片并不可怕,但它会偷走你的“劲”,让你做什么都索然无味

色情片并不可怕,但它会偷走你的“劲”,让你做什么都索然无味

知识圈
2026-04-26 09:35:01
河北偷狗女子社会性死亡:人被拘了,名声臭了,更恶心的还在后面

河北偷狗女子社会性死亡:人被拘了,名声臭了,更恶心的还在后面

社会日日鲜
2026-04-25 19:02:51
来感受一下黄仁勋的绝望

来感受一下黄仁勋的绝望

智先生
2026-04-25 21:03:53
中国第四艘航母官宣:是核动力!舷号19,命名大概率是“江苏号”

中国第四艘航母官宣:是核动力!舷号19,命名大概率是“江苏号”

谛听骨语本尊
2026-04-25 14:44:21
王石真的老了!突然现身大梅沙,他赤裸着上半身,贴着胰岛素针头

王石真的老了!突然现身大梅沙,他赤裸着上半身,贴着胰岛素针头

火山詩话
2026-04-26 06:11:32
特朗普、穆杰塔巴、佩泽希齐扬,同日表态

特朗普、穆杰塔巴、佩泽希齐扬,同日表态

极目新闻
2026-04-26 07:59:00
重返WNBA首秀!韩旭替补10中6轰20分全场最高 难阻自由人惨败

重返WNBA首秀!韩旭替补10中6轰20分全场最高 难阻自由人惨败

醉卧浮生
2026-04-26 05:35:45
史上最大规模化债,已经开始!一个坚持了30年的信仰,进入倒计时

史上最大规模化债,已经开始!一个坚持了30年的信仰,进入倒计时

柏年说政经
2026-04-25 10:00:08
首组2-2!尼克斯大胜老鹰进天王山 唐斯20+10+10布伦森19分

首组2-2!尼克斯大胜老鹰进天王山 唐斯20+10+10布伦森19分

醉卧浮生
2026-04-26 08:52:23
44岁陈震现身北京车展,从网红车评人到无人问津,现状一点都不怨

44岁陈震现身北京车展,从网红车评人到无人问津,现状一点都不怨

林雁飞
2026-04-25 17:14:49
日本坦克炸膛,“中国制造”什么情况?其实不奇怪!

日本坦克炸膛,“中国制造”什么情况?其实不奇怪!

新民周刊
2026-04-26 09:05:58
老外震惊!中国馒头横扫欧美!不是文化输出,是中国供应链赢麻了

老外震惊!中国馒头横扫欧美!不是文化输出,是中国供应链赢麻了

魔都姐姐杂谈
2026-04-24 11:56:08
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
贾国龙天边焖面才两个月,评分已暴跌3.8分!网友直言:注意避坑

贾国龙天边焖面才两个月,评分已暴跌3.8分!网友直言:注意避坑

冷紫葉
2026-04-25 14:33:10
高岗自杀后,彭德怀、林彪的表现令人感慨

高岗自杀后,彭德怀、林彪的表现令人感慨

深度报
2026-04-25 22:55:42
记者现场探访:普通山坡藏着“金色”线索

记者现场探访:普通山坡藏着“金色”线索

半岛晨报
2026-04-25 19:11:46
“妈,我在隧道救了个人,我可能出不去了……”小伙被困后拨通母亲电话留下遗言

“妈,我在隧道救了个人,我可能出不去了……”小伙被困后拨通母亲电话留下遗言

都市快报橙柿互动
2026-04-26 00:33:10
2.4亿顶薪打没了!季后赛场均9+8,不像魔兽霍华德,更像小乔丹

2.4亿顶薪打没了!季后赛场均9+8,不像魔兽霍华德,更像小乔丹

你的篮球频道
2026-04-26 08:17:48
工会支持三星员工大罢工,要求每人增加40万美元奖金

工会支持三星员工大罢工,要求每人增加40万美元奖金

上峰视点
2026-04-25 14:37:41
C919广州⇌合肥新航线开通

C919广州⇌合肥新航线开通

界面新闻
2026-04-26 13:02:36
2026-04-26 13:16:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17997文章数 49700关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

白宫晚宴枪击案或为"独狼式"袭击 特朗普:妻子躲得快

头条要闻

白宫晚宴枪击案或为"独狼式"袭击 特朗普:妻子躲得快

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

游戏
手机
教育
亲子
数码

《寂静岭:小镇陷落》将在战斗与潜行玩法中取得平衡

手机要闻

一加Ace 6至尊版下周发:性能最激进的天玑9500手机来了

教育要闻

高考地理中的层理构造类型

亲子要闻

妈妈记录下宝宝的第一次拥抱,最幸福的瞬间

数码要闻

同档最强小平板!OPPO Pad Mini下周首销:3199元起

无障碍浏览 进入关怀版