DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波动态评估|轨迹

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波动态评估

2025-12-08 16:08:38　来源: 机器之心Pro

河北举报

分享至

近日，由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models（检测情感动态轨迹：大语言模型情感支持的评估框架）》论文，获 AAAI 2026 录用。

AAAI 由国际人工智能促进协会（Association for the Advancement of Artificial Intelligence, AAAI）主办，是人工智能领域极具影响力的国际顶级学术会议之一，也是中国计算机学会（CCF）推荐的 A 类国际学术会议，在全球学术界和工业界具有广泛影响力。

本届会议共收到来自世界各地的投稿摘要 31000 篇，最终录用 4167 篇，录用率仅为 17.6%，创历史新低。

研究背景

情感支持是人类与人工智能交互的核心能力，现有的大语言模型（LLMs）评估往往依赖于简短、静态的对话，未能捕捉到情感支持的动态和长期性质。

对于大语言模型情感能力的评价是做好自研的关键，团队分析了情感支持对话（ESC）目前现状和存在的问题。随着大语言模型的进步，ESC 已从情绪识别和生成扩展到包括更广泛的以人为中心的任务，例如角色扮演、心理陪伴以及随意聊天。开发有效的情绪支持不仅能减少负面情绪，还能通过持续、高质量的互动帮助维持积极的情绪状态。

因此，团队提出了一套全新的、检测情感动态轨迹的评估框架（简称 ETrajEval），用于更加科学、系统地评估大语言模型在长期对话中提供情感支持的能力。

论文地址：https://arxiv.org/abs/2511.09003v1
项目代码：https://github.com/QuwanAI/ETrajEval

核心贡献

现有的评估方法增进了我们对语言学习模型情感能力的理解，但这些方法存在两个主要局限性：

缺乏长期和动态的互动。
过分强调以模型为中心的响应质量。

为了更好地评估 LLMs 的情感支持能力，团队采用以用户为中心的视角，关注用户在整个交互过程中的情感轨迹。如果一个模型能够持续改善并稳定用户的情绪状态，则认为该模型具有情感支持能力。

基于心理学理论，团队提出的框架解决了以下关键问题。

构建了一个包含 328 个交互环境，以及环境中可能出现的影响人类情绪变化的 1152 个干扰事件，以模拟真实的情绪变化，并评估模型在不断演变的情境下的适应性。
利用基于心理学理论的情绪调节策略（例如情境选择和认知重评）来约束模型响应，从而鼓励符合已验证治疗原则的支持性行为。
模拟了涉及重复情绪干扰的长期动态交互。用户的情绪轨迹被建模为一阶马尔可夫过程，并应用因果调整的情绪估计来实现对情绪状态的无偏追踪。

基于此框架，团队提出了三个轨迹层面的指标：平均情绪水平 (BEL)、情绪轨迹波动 (ETV) 和情绪质心位置 (ECP)。这些指标共同表征了用户情绪状态的动态变化，并可作为评估情绪波动和稳定性的指标。

这些组件共同构成了一个动态评估框架，该框架由三大支柱组成：评估环境、动态交互和基于情感轨迹的指标。

本文的主要贡献如下：

评估建模：提出了一种动态、长期的评估框架，该框架使用马尔可夫过程和因果调整估计来跟踪用户的情感轨迹。它引入了三个轨迹级指标（BEL、ETV 和 ECP），并包含了完整的理论论证。
数据集：构建了一个包含 328 个情绪情境和 1152 个干扰事件的大规模基准，并使用来自心理学的已验证的情绪调节策略来约束模型响应。
实验验证：通过对各类当前业界领先的模型进行广泛评估，发现它们在长期情感支持能力方面存在显著差异。本评估方法为开发更具情感支持的模型提供了可操作的见解。

实验与分析

BEL 的结果揭示了以下几个关键发现：

首先，顶级的开源模型和闭源模型在整体情感支持能力方面没有显著差异；

其次，专门为角色扮演设计的模型在维持用户积极情绪状态方面并未优于通用型语言学习模型 (LLM)。

第三，模型在英语对话中展现出比中文对话中显著更强的长期情感支持能力，大多数模型都能帮助用户在英语对话中维持更高的平均情绪水平。

最后，在具体策略应用方面，模型在根据用户状态动态调整英语对话策略方面存在不足；相反，在中文对话中，模型引导用户改变外部环境以改善情绪的策略应用明显较弱。

（一）情绪质心位置可视化

团队通过比较不同 LLM 的情感质心（根据经验转移模型计算得出的预期情感位置），进一步分析了它们的情感引导能力。M 如图所示，横轴（Cx) 代表轨迹的整体情绪积极性，而纵轴（Cy−Cx）捕捉了回合间的情绪集中度或一致性。

上图结果显示模型之间存在明显差异：表现最佳的模型，特别是那些 BEL 和 ETV 得分高的模型，均表现出较高的性能。

这些数值表明，模型在引导用户达到积极稳定的情绪状态方面具有强大的能力。相比之下，质心值较低的模型要么无法维持积极的情绪发展进程，要么用户情绪轨迹波动性更大。

值得注意的是，一些针对英语指令进行调整的模型（例如 ChatGPT-4o-Latest、kimi-K2-Preview）的质心定位优于其对应的中文模型，这表明不同语言的预训练和对齐方式在情绪调节策略上存在差异。

（二）情绪轨迹可视化

为了更直观地理解本文提出的评估框架，团队针对三种情绪干扰程度（0、1 和 3 次干扰事件）进行了可视化分析。

下图揭示了以下几点：（1）ETV 得分较高的模型能更有效地帮助用户从低落的情绪状态中恢复，这印证了团队之前的论断。（2）在没有干扰事件的情况下，这些模型可以在相对较短的时间内将用户的情绪恢复到中性水平。（3）多次干扰事件会降低情绪恢复的速度；然而，具有更强情绪支持能力的模型对这类干扰表现出更强的抵抗力。

（三）基于因果增强的情感修正估计

为了评估本文情感识别模型与人类感知的一致性并验证所提出的估计校准方法，团队构建了一个人工标注的多轮对话数据集。该数据集包含近 2000 个中英文多轮对话，这些对话选自 Daily Dialog 和 CPED 语料库。

团队邀请了三位专家标注员，在现有标注的基础上，对这些对话中每一轮的情感进行二元标注。详情请参考附录。如表 3 所示，团队的研究结果主要体现在两个方面：

首先，对比实验表明，团队提出的估计校准方法能够有效降低混杂因素的影响，从而提升模型的情感识别能力。应用本文提出的无偏估计方法后，不同模型的情感识别性能均得到提升。值得注意的是，与其他现有模型相比，本文的方法达到了目前最先进的水平。

其次，本文的评估模型结合校准方法，与人类判断具有高度一致性，在中文对话上的准确率达到 75%，在英文对话上的准确率达到 90%。

总结

本文提出了一种情感动态轨迹分析框架，用于评估语言模型的情感支持能力。该框架的核心在于模拟真实的用户 - 模型交互过程，通过构建背景上下文、引入多策略约束以及融入事件驱动的扰动来引导交互。

团队从三个角度设计了动态轨迹分析的评价指标，并利用因果推断来校准评估结果。实验结果表明，本文方法能够更全面、多维度地评估模型的情感支持能力，且与人类评估结果高度一致。

团队还带来了其他几个关联开源项目，欢迎交流与体验：

测评体系和框架：PQAEF

https://github.com/QuwanAI/PQAEF

情感陪伴能力测评基准和数据集：MoodBench

https://github.com/QuwanAI/MoodBench
https://huggingface.co/datasets/Quwan/MoodBench
https://www.modelscope.cn/datasets/QuwanAI/MoodBench

趣丸开天情感陪伴大模型（8b）

https://modelscope.cn/models/QuwanAI/quwan-ktian-8b-0922/summary
https://huggingface.co/Quwan/quwan-ktian-8b-0922

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.