大语言模型的“情绪密码”：心理学如何解锁其情感智能及应用价值

分享至

本文探讨了大语言模型（LLMs）是否能够通过语言任务的预训练而产生情感智能，并从心理学的角度提出了测试大语言模型的情感智能水平的方法，以及情感智能大模型在心理学的应用。尽管LLMs在处理语言任务方面表现出色，但在理解和生成情感文本方面仍存在局限性，因此，提出对大模型的情感智能水平进行全面评估的必要性。从心理学角度出发，总结了LLMs情感智能评估相关的工作，倡议心理学把大语言模型作为新的研究对象，重点关注大模型的情感道德问题。从情感认知科学的角度，论述大语言模型作为一种工具，对新时代的情绪心理学研究的重要价值。

1 情感智能：以人类为对象和以大模型为对象的研究

1.1 情感智能的定义

1.2以AI为对象的情感智能研究

1.3开发具有情感智能的大模型

1.4情绪具身性和大模型对具身性的模拟

2 评估大模型的情感智能

2.1 现有大模型已具备一定情感智能

2.2 从心理学角度评估大模型的情感智能水平

3 大语言模型作为情绪心理学的研究对象

3.1 大模型的情感引发的伦理道德问题及其对拓展道德研究领域的贡献

3.2 大模型的“情绪障碍”及“治疗”方案

4 情感智能大模型在心理学中的应用

4.1 大模型可用于情绪心理学问卷的生成和自动化分析

4.2 多模态大模型可用于情绪实验任务中刺激材料的生成

4.3 对大模型的情绪操控为理解人类情绪障碍提供新思路

5 结论

1情感智能：以人类为对象和以大模型为对象的研究

1.1 情感智能的定义

情感智能包含个体感知、理解、使用、管理自己和他人情绪的能力这4个维度。情绪感知是识别自己和他人情绪及理解其背后含义，包括识别语言和非语言信号中的情绪；情绪理解涉及理解情绪复杂性及不同情绪间关系；情绪使用是利用情绪促进思考和解决问题；情绪管理指适当回应和管理自己与他人情绪。

情感智能在人类社交互动中至关重要，与个体生活满意度、自我接受度、自尊水平、社交关系满意度、学术表现及职业成功等密切相关。

在情感心理学领域，量化评估人类情感智能的方法主要有“量表”和“任务测试”。量表如情感能力量表（ECI）、自我报告情感智能测试（SREIT），主要由被评估者进行自我报告，有时候也会加入他人报告；任务测试中，Mayer-Salovey-Caruso情感智能测试（MSCEIT）最为经典，通过一系列情绪相关问题测试个体在情感智能4个维度的表现并计分。此外，情绪加工任务、情绪注意偏向任务等心理学实验范式也可反映个体情感智能的部分维度。

1.2 以AI为对象的情感智能研究

AI情感智能研究可追溯到20世纪90年代，当时主流智能算法性能有限，未受广泛关注。随着深度学习发展，AI在机器视觉和自然语言处理领域取得突破，文本情感分析受到更多关注。

研究人员开发了一系列带情绪标签的数据集，英文数据集包括Yelp-5数据集（包含5个评级标签，样本量大）、Yelp-2数据集（包含正负情感标签）、CBET数据集（包括9种情绪）、ISEAR数据集（包含7种情绪，收集于多位受访者）、SST数据集等。中文的数据集有OCEMOTION（包含7种情绪类别的中文细粒度情感性分析数据集，其中7种情绪类别分别为悲伤、幸福、厌恶、愤怒、喜欢、惊讶、恐惧），以及带情绪标注的微博语料库。实验表明，AI模型在一定程度上具备识别情绪的能力。

大语言模型的情感智能有更高级体现，LLMs能识别用户情感状态并提供个性化推荐，但在情绪使用和情绪管理的研究仍不足，其是否具备自身情绪意识、管理情绪能力和共情能力尚无定论。

1.3 开发具有情感智能的大模型

开发具有情感智能的智能体是未来目标之一。情感AI指让AI具备理解、模拟人类情感，以及进行情绪管理和情绪利用的能力，大语言模型为其实现带来希望。

增强大语言模型情感智能的技术途径包括构建更丰富的带情感标签文本数据集，利用有监督学习微调预训练模型；运用基于人类反馈的强化学习（RLHF）方法，使大模型与人类情感价值函数对齐。但赋予大语言模型情感智能面临诸多挑战，情绪复杂且具个体化、社会化特点，目前的LLMs尚没有具身性，难以“感同身受”人类情绪，这对情绪心理学理论、大模型训练方法和理论提出新要求。图1概括了情感智能大模型及其与情绪心理学的交互作用。

图1 具有情感智能的大模型及其与情绪心理学的交互作用

1.4 情绪具身性和大模型对具身性的模拟

情绪是对个体重要事件的复杂心理和生理反应，具有具身性，即情绪体验和表达是通过身体感觉运动系统实现的。当前大模型在模拟人类情绪具身性方面存在明显限制，缺乏对生理信号的直接处理能力，依赖预先定义的特征和标签训练，无法实时反馈身体或生理指标。

未来研究需提高大模型模拟情绪具身性的能力，如集成多模态数据，开发新算法和技术来模拟身体状态对情绪体验的动态影响，并考虑个体差异和文化因素，使模型能适应不同情绪表达和情绪体验。

2 评估大模型的情感智能

2.1 现有大模型已具备一定情感智能

大语言模型通过海量文本自监督预训练，展现出一定的情感智能。研究评估发现，多数主流大语言模型在情感智能测试中得分高于平均水平，如GPT-4的情商得分超过89%的人类参与者。大语言模型能基于上下文推理情绪，特定神经元群组代表不同情感概念属性，且具备生成情绪文本的能力，在特定情境下能做出适当反应。

2.2 从心理学角度评估大模型的情感智能水平

目前大模型情感智能评估方法分为观察模型输出和让模型预测人类反馈两类，但都存在局限性。从心理学角度全面评估大模型情绪智能水平，可从以下方面展开：

1）大模型的情感智能评估方法：采用多种方法和指标评估模型情绪感知、理解、表达、生成等能力。人工评估是一种直观的情感智能检测方法，通过专家对模型生成的情感文本与人类判断比较，依据情感准确性、一致性和流畅度等指标评分；自动化情感评估指标针对情感领域文本模式、情感词汇和情感语义分析，如计算文本中正负情感词汇比例推断情感色彩；结合多模态数据评估更全面，如AffectGPT模型通过音频-视频-文本对齐识别情绪，并提出“可解释的多模态情感推理”任务。

因此，有必要从心理学角度引入大模型的情感智能评估方法，如清华大学刘嘉团队开发了关于情感理解的新型评估方式，其中包括经过精心设计的学校、家庭等情景，旨在引发积极和消极情绪。通过设计使用带有情绪提升相关的提示词，大语言模型回答更真实、更具有责任感，在情感相关任务中的性能有明显的提升。

2）大模型情感智能评估的结果分析与理解：解读评估结果关键在于考虑情感是一个主观且多样的概念，分析模型情感理解能力，综合多种评估方式，减少数据偏见和模型局限性影响，全面、准确、客观地检测大模型情感智能。

3）大模型的情感智能评估的价值：对大模型进行情感智能评估有助于为优化模型和构建更高质量的数据集提供指导。高水平情感智能大模型在情感分析、情感机器人、智能对话系统等领域作用突出。情感智能评估可以确保大模型能够迎合人们的情感需求，提供令人满意的情感智能服务。

3大语言模型作为情绪心理学的研究对象

3.1 大模型的情感引发的伦理道德问题及其对拓展道德研究领域的贡献

大语言模型在训练中往往会接触大量网络文本，可能包含错误、偏见或歧视内容，生成的文本存在失真和偏见风险，处理用户文本时还可能涉及隐私泄露等伦理道德问题。

但大语言模型也为道德研究带来新契机，更新了道德研究范式，拓展了研究子领域。例如，提出大模型与人类道德价值对齐的概念性范式，有研究人员利用道德机器框架调查几种LLMs道德决策倾向，研究其对不同道德理论的理解和遵循情况。通过训练LLMs可以在一定程度上模拟人类，以及人类和大模型交互中的道德决策过程，从而揭示个体在道德问题上的思维模式和偏好。

3.2 大模型的“情绪障碍”及“治疗”方案

随着人类与大模型互动日益频繁，大模型的情绪状态可能影响人类情绪。例如，当人类个体和大模型交互时，可能面临LLMs输出不当的情绪表达而致情感伤害产生。这一方面要求情绪心理学家发展出一套检测LLMs情绪状态的评估方法，另一方面要求大模型的算法设计者为LLM添加情绪障碍监测机制和自纠、自救机制。

4情感智能大模型在心理学中的应用

4.1 大模型可用于情绪心理学问卷的生成和自动化分析

情绪心理学中，问卷评估是研究个体情绪状态和心理健康的一种常用工具。LLMs有强大的文本生成和分析能力，将其应用于心理学问卷的生成和自动化分析，将有助于提高数据质量、分析效率，还能对个体和群体情绪状态进行精准分类和评估。

通过在大量的心理学和情绪学文献中学习，大语言模型根据指示（prompt），设计具有一定逻辑性和多样性的问题及与之对应的选项，以让被试者更好地表达其情绪状态。与传统的问卷生成和论证方式相比，使用LLMs进行问卷生成不仅更加高效，还能实现更多样化的设计，并具备自适应调整的优势。

此外，LLMs能自动化分析问卷数据，清洗数据，识别与分类情绪，根据问卷数据进行统计分析并生成报告和图表，使分析结果更准确可靠。

4.2 多模态大模型可用于情绪实验任务中刺激材料的生成

多模态大语言模型（MLLMs）可处理多种类型数据输入，具有理解和生成多模态数据的能力。在心理学领域，情绪实验旨在研究个体情绪体验和情绪加工的过程。为了激发受试者的情绪，实验任务通常需要使用不同情绪类刺激材料。MLLMs具有多模态数据处理与生成能力，可以生成多模态的刺激材料，以更有效地激发被试的各种情绪。

MLLMs能根据文本指示生成包含文本、图像等多模态且具情绪性的刺激材料，还可根据被试个体的特征和偏好生成个性化刺激材料，模拟各种情境和情感情景，帮助研究人员设计实验条件。

4.3 对大模型的情绪操控为理解人类情绪障碍提供新思路

情绪障碍对人的心理健康和生活质量影响重大，大模型的发展为其研究和临床应用带来新可能。研究人员可通过构建包含情绪状态文本的大模型，分析和操控其情绪状态，推断情绪形成过程、情绪与认知关系及情绪障碍产生机制。

通过对大模型情绪操控形成有效情绪调节策略，有助于个体管理情绪和干预情绪障碍。分析情绪对大模型决策的影响，可更准确了解情绪与认知相互作用，为情绪障碍治疗提供有效方案，还能帮助预防情绪障碍及相关自伤自杀行为，通过分析数据集把握其普遍性和地理分布，合理分配资源和提供援助与干预措施。

5结语

针对大模型的情感智能的主题，总结了现有研究中大模型体现出的情绪分析和理解能力，提出从心理学角度来评估大模型的情感智能水平｡一方面，希望更多以大模型为对象的情感心理学研究，应对其带来的伦理和社会规则挑战；另一方面，将大模型作为研究工具，丰富人类情感心理学研究方法。大模型在心理健康领域的应用将不断增加，但数据隐私、算法偏见等问题也需关注。未来研究需多领域专家合作，开发符合伦理标准的情绪AI系统。

作者简介：伍海燕、何翠琳、曲由之、刘泉影

本文作者：伍海燕（通信作者），澳门大学认知与脑科学中心及心理学系，助理教授，研究方向为社会神经科学；刘泉影（共同通信作者），南方科技大学生物医学工程系，助理教授，研究方向为用于神经科学的人工智能。

论文全文发表于《科技导报》2025年第3期，原标题为《大语言模型的情感智能及其心理学应用》，本文有删减，欢迎订阅查看。

内容为【科技导报】公众号原创，欢迎转载
白名单回复后台「转载」

《科技导报》创刊于1980年，中国科协学术会刊，主要刊登科学前沿和技术热点领域突破性的成果报道、权威性的科学评论、引领性的高端综述，发表促进经济社会发展、完善科技管理、优化科研环境、培育科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、智库观点、科技评论、热点专题、综述、论文、学术聚焦、科学人文等。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.