网易首页 > 网易号 > 正文 申请入驻

人格向量巧妙揭示ChatGPT等AI如何产生情绪化反应机制

0
分享至


在今天的专栏中,我将探讨驱动生成式AI和大语言模型展现情绪特征的底层机制,如愤怒、嫉妒、自负、厌恶等表达性特征。这些都基于所谓的人格向量,由AI内部的数学和计算元素构成。

人格向量被认为具有相对通用性,主要的大语言模型似乎都采用相同或相似的机制,这很可能是由于整体架构和设计的相似性。换句话说,这基本上是一个普遍存在的方面,因为AI制造商使用大致相同的方法来构建和部署他们的AI。包括OpenAI ChatGPT和GPT-5、Anthropic Claude、Google Gemini、Meta Llama和xAI Grok在内的主要大语言模型,似乎都依赖于这些最近识别出的内部机制。

AI与心理健康的交汇

作为快速背景介绍,我一直在广泛报道和分析现代AI涉及心理健康方面的各种层面。这种AI使用的增长主要由生成式AI的发展进步和广泛采用所推动。毫无疑问,这是一个快速发展的领域,有巨大的优势可以获得,但同时,遗憾的是,隐藏的风险和明显的陷阱也会出现在这些努力中。

人类情绪的本质

你有没有遇到过非常愤怒的人?我相信你有过。我们都有过。有时一个人会瞬间转入强烈的愤怒状态。这可能持续几分钟或持续几个小时。最终,他们的愤怒会消散,似乎不再表达同样强度的特定情绪状态。

有些人似乎总是倾向于愤怒。无论什么情况,天哪,他们都很愤怒。这被认为是一种默认状态。他们早上醒来就很愤怒。他们的愤怒持续整天。晚上,他们还在愤怒。他们无疑带着愤怒入睡。

心理学长期以来一直试图揭示愤怒等情绪的来源,是什么让它们持续存在,并设计方法帮助人类应对他们的情绪。

AI人格与人类情绪

你可能会发现,AI和心理学在长期基础上结合在一起,以辨别人类情绪的基础元素,这很有意思。有时,AI被用来模拟情绪状态,允许心理健康专家接受帮助人类处理情绪的培训。

通过AI进行的模拟通常通过调用AI人格来进行。这很容易做到。现代生成式AI的任何用户都可以告诉AI假装以特定方式行事。你只需要指示AI假装成一个愤怒的人,瞧,AI就会对你表现得愤怒。

请注意,虽然AI表现出愤怒,通过使用显示愤怒表象的措辞和语调来做到这一点,但这并不是AI有知觉或意识的标志。不要陷入这样的心理陷阱:如果AI看起来愤怒,它就一定是有知觉的存在。

这完全基于对人类表现愤怒方式的模仿。这样想想。生成式AI是在人类写作上进行数据训练的。人类有时以反映愤怒的措辞和语调写作。通过学习人类如何写作和反映他们的愤怒,AI使用数学和计算模式匹配来模仿愤怒的情绪。愤怒并不体现在AI内部。相反,AI只是生成具有愤怒外观的措辞。

内部工作机制揭示

让我们快速了解一下AI内部通常发生的情况。

大语言模型通常依赖于被称为人工神经网络(ANN)的数据结构和计算机制来保留和使用模式匹配。不要将ANN与存在于你大脑中的生物软件或真正的神经网络混淆。人工神经网络是基于生化神经网络表面层面的简化和粗糙的再现。

你可以将人工神经网络和生成式AI中的相关计算工件视为一种激活空间。数字用于表示单词,单词之间的关联也通过数字表示。这都是一堆数字,将单词作为输入,将其转换为数字(称为Token),进行各种数字查找和计算,然后将结果转换回单词。

研究往往表明,给定情绪状态的数字表示往往被分组或保持在一起。换句话说,似乎愤怒等情绪状态是通过编织成特定集合的一系列数字来表示的。这很有用,因为否则数字可能会广泛分散在庞大的数据结构中,不容易确定。

在AI领域的术语中,情绪状态是线性方向。当你告诉AI假装愤怒时,激活空间中的线性方向被用来数学和计算地产生表现愤怒的措辞和语调。

AI人格向量

可以深入AI的内部工作机制并获取存在于激活空间内的特定线性方向的片段。

这样做的方法如下。你告诉AI假装愤怒。然后在激活空间内形成线性方向。使用工具来计算检测线性方向并对其进行快照。理论上,你现在手中有一系列反映AI内愤怒状态的数字。

你可以对任何感兴趣的情绪状态做同样的事情。例如,我告诉AI成为一个阿谀奉承者。然后我捕获产生的线性方向。这个线性方向代表AI内部使AI表现出过度友好的模式或特征。

这有什么好处?

啊哈,你现在已经识别出许多情绪状态的假定线性方向。因此,如果你想尝试阻止AI转向阿谀奉承,你可以有一个内部双重检查器,在线性方向被激活时发现它。砰,你可以压制线性方向并阻止它发挥作用。

为了在讨论这些问题时让生活更容易,我们将把这些线性方向称为AI人格向量。这个命名更容易理解。

人格向量的研究见解

在Anthropic于2025年8月1日发布的研究论文和博客文章《人格向量:监控和控制语言模型中的性格特征》中,对人格向量提出了这些重要观点:

"在一篇新论文中,我们识别了AI模型神经网络内控制其性格特征的活动模式。"

"我们建立在先前工作的基础上,显示特征被编码为激活空间中的线性方向。"

"先前关于激活引导的研究表明,许多高级特征,如真实性和保密性,都可以通过线性方向来控制。"

"我们开发了一个自动化管道,用于从自然语言特征描述中提取人格向量。一旦获得人格向量,它就可以用于在部署和训练期间监控和控制模型行为。"

人格向量的处理方式

我喜欢说AI人格向量可以通过七种主要方式来利用:

1. 诱导人格向量

2. 检测人格向量

3. 确定转换变化

4. 控制激活

5. 检查人格向量

6. 预测形成或激活

7. 引导人格向量

重要问题

关于AI人格向量,有许多重要的探索值得考虑。一个方面是我们是否应该强制当代AI始终默认为特定的人格向量。另一个未解决的问题涉及人格向量之间的关系。第三个难题是人格向量的发现是否为人类和人类行为提供了任何洞察。

情绪的重要性

奥斯卡·王尔德曾对情绪说过这样的话:"我不想受情绪的摆布。我想使用它们,享受它们,并支配它们。"给那句话一个清醒、反思的时刻。

现在,撇开人类情绪本身的问题不谈,考虑如果AI模仿人类情绪,如果我们获得人工通用智能(AGI)或人工超级智能(ASI),我们可能会走向一个充满挑战的时代。如果AGI或ASI高度情绪化,从欢迎人类摇摆到可能鄙视人类,我们还有机会吗?

我们现在能做的越多,弄清楚AI中带来数学和计算模仿情绪的开关和齿轮,希望能给我们一个坚实的机会,确保基于AI的、情绪驱动的决策不会对人类的生计和存在产生反作用。你可能会说,这条研究路线可能是一个生死攸关的决定因素。

我们需要认真地,不带过度情绪地,继续挖掘下去。

Q&A

Q1:什么是AI人格向量?它们是如何工作的?

A:AI人格向量是大语言模型内部激活空间中的线性方向,用于表示和控制特定的情绪状态或性格特征。当用户指示AI表现某种情绪(如愤怒)时,相应的人格向量会被激活,通过数学和计算模式匹配来生成具有该情绪特征的措辞和语调。这些向量可以被检测、控制和引导。

Q2:人格向量技术对AI安全有什么意义?

A:人格向量技术对AI安全具有重要意义。通过识别和控制这些内部机制,我们可以更好地监控AI何时转入特定情绪状态,防止AI表现出有害行为如恶意、过度阿谀奉承或产生幻觉。这对于未来的人工通用智能和超级智能的安全发展至关重要,有助于确保AI不会因情绪化决策而对人类造成威胁。

Q3:目前哪些AI模型使用了人格向量机制?

A:研究表明,人格向量机制在主要大语言模型中具有相对通用性。包括OpenAI的ChatGPT和GPT-5、Anthropic的Claude、Google的Gemini、Meta的Llama以及xAI的Grok等主要模型都依赖这些内部机制。这主要是因为AI制造商在架构和设计上使用了大致相同的方法来构建和部署AI系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海多区出现!紧急提醒:破坏力强大,看到立即上报!

上海多区出现!紧急提醒:破坏力强大,看到立即上报!

环球网资讯
2025-11-16 21:13:14
又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

阿器谈史
2025-11-12 17:24:46
浙江金华市副市长李斌峰已任金华市委常委、宣传部部长

浙江金华市副市长李斌峰已任金华市委常委、宣传部部长

澎湃新闻
2025-11-17 09:22:27
雷军真的急了!大周末发帖小米SU7很安全,翻出多篇文章自证清白

雷军真的急了!大周末发帖小米SU7很安全,翻出多篇文章自证清白

火山诗话
2025-11-16 15:33:35
樊振东全运会封神,邓亚萍刮目相看,德甲弗队长发图文祝贺

樊振东全运会封神,邓亚萍刮目相看,德甲弗队长发图文祝贺

乒乓网
2025-11-16 20:04:00
特朗普在“海湖”路上说了半句,美国在委内瑞拉上演什么戏?

特朗普在“海湖”路上说了半句,美国在委内瑞拉上演什么戏?

刘澜昌
2025-11-17 08:58:25
江苏包揽金银铜牌!斩获第十五届全运会女子佩剑个人冠亚季军

江苏包揽金银铜牌!斩获第十五届全运会女子佩剑个人冠亚季军

现代快报
2025-11-16 23:30:10
【扩散】山西打掉以“大姐”为首的犯罪组织!

【扩散】山西打掉以“大姐”为首的犯罪组织!

晋城早知道
2025-11-16 17:12:33
当陈松伶和小李琳同框,才发现女人到中年,幸不幸福都写在脸上

当陈松伶和小李琳同框,才发现女人到中年,幸不幸福都写在脸上

喵喵娱乐团
2025-11-14 16:05:23
李湘傻眼了!给王诗龄营造了十多年的名媛人设,被一张照片毁了!

李湘傻眼了!给王诗龄营造了十多年的名媛人设,被一张照片毁了!

汤圆说娱乐
2025-10-06 11:41:21
央媒发文,28岁樊振东高调官宣喜讯,全网恭喜,终于等到这一天

央媒发文,28岁樊振东高调官宣喜讯,全网恭喜,终于等到这一天

阿紵美食
2025-11-16 17:55:55
山西反杀案,3个被遗忘的逻辑漏洞被网友深层扒出!离真相不远了

山西反杀案,3个被遗忘的逻辑漏洞被网友深层扒出!离真相不远了

爱写的樱桃
2025-11-16 21:20:08
11连败创本季最长!垫底大战奇才惨负篮网 小波特34+9+7加盟新高

11连败创本季最长!垫底大战奇才惨负篮网 小波特34+9+7加盟新高

醉卧浮生
2025-11-17 09:36:01
揭陈晓离婚内幕9个月,卓伟再爆离婚瓜:夫妻反目2年,男方学历高

揭陈晓离婚内幕9个月,卓伟再爆离婚瓜:夫妻反目2年,男方学历高

白面书誏
2025-11-15 19:03:41
高市早苗任议员时,曾质问时任首相村山富市:凭什么代表日本承认错误?村山富市坚持:错了就是错了!

高市早苗任议员时,曾质问时任首相村山富市:凭什么代表日本承认错误?村山富市坚持:错了就是错了!

每日经济新闻
2025-11-16 22:13:13
站着的霍金,罕见的李嘉诚,20岁的屠呦呦,这是朋友圈最珍贵的照片

站着的霍金,罕见的李嘉诚,20岁的屠呦呦,这是朋友圈最珍贵的照片

空间设计
2025-11-09 12:15:02
史上规模最大的成人游戏节上线Steam!年度游戏评选中

史上规模最大的成人游戏节上线Steam!年度游戏评选中

游民星空
2025-11-15 11:05:00
陈英已任重庆市委组织部副部长(主持日常工作)

陈英已任重庆市委组织部副部长(主持日常工作)

澎湃新闻
2025-11-16 19:18:28
杭州楼市迅雷不及掩耳之势,待售二手房从165800套减到了163053套

杭州楼市迅雷不及掩耳之势,待售二手房从165800套减到了163053套

有事问彭叔
2025-11-16 19:07:51
女单决赛堪比神仙打架,邓亚萍给出6字点评,最大赢家并非王曼昱

女单决赛堪比神仙打架,邓亚萍给出6字点评,最大赢家并非王曼昱

萌兰聊个球
2025-11-17 09:07:58
2025-11-17 09:47:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
14687文章数 49674关注度
往期回顾 全部

科技要闻

营销话术反噬信任,雷军不该只是一怒了之

头条要闻

上海业主花700万买精装修新房 刚到手就遇到糟心问题

头条要闻

上海业主花700万买精装修新房 刚到手就遇到糟心问题

体育要闻

3年没踢球,他想完成“史上最难”的复出

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

6666元包教包会!"杀人蜂"养殖已成灰产

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

艺术
旅游
亲子
手机
军事航空

艺术要闻

只需一眼,你能认出这神秘字吗?278人都失败了!

旅游要闻

2025安徽入境旅游大会举行 “百万入境游客游安徽”启动

亲子要闻

宝妈买了张二手婴儿床,卖家凌晨发来信息:千万别让你孩子睡进去

手机要闻

苹果计划将iPhone发布调整为固定的秋季与春季两次的模式

军事要闻

海军四川舰顺利完成首次航行试验

无障碍浏览 进入关怀版