网易首页 > 网易号 > 正文 申请入驻

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波动态评估

0
分享至



近日,由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models(检测情感动态轨迹:大语言模型情感支持的评估框架)》论文,获 AAAI 2026 录用。

AAAI 由国际人工智能促进协会(Association for the Advancement of Artificial Intelligence, AAAI)主办,是人工智能领域极具影响力的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的 A 类国际学术会议,在全球学术界和工业界具有广泛影响力。

本届会议共收到来自世界各地的投稿摘要 31000 篇,最终录用 4167 篇,录用率仅为 17.6%,创历史新低。

研究背景

情感支持是人类与人工智能交互的核心能力,现有的大语言模型(LLMs)评估往往依赖于简短、静态的对话,未能捕捉到情感支持的动态和长期性质。

对于大语言模型情感能力的评价是做好自研的关键,团队分析了情感支持对话(ESC)目前现状和存在的问题。随着大语言模型的进步,ESC 已从情绪识别和生成扩展到包括更广泛的以人为中心的任务,例如角色扮演、心理陪伴以及随意聊天。开发有效的情绪支持不仅能减少负面情绪,还能通过持续、高质量的互动帮助维持积极的情绪状态。

因此,团队提出了一套全新的、检测情感动态轨迹的评估框架(简称 ETrajEval),用于更加科学、系统地评估大语言模型在长期对话中提供情感支持的能力。



  • 论文地址:https://arxiv.org/abs/2511.09003v1
  • 项目代码:https://github.com/QuwanAI/ETrajEval

核心贡献

现有的评估方法增进了我们对语言学习模型情感能力的理解,但这些方法存在两个主要局限性:

  1. 缺乏长期和动态的互动。
  2. 过分强调以模型为中心的响应质量。

为了更好地评估 LLMs 的情感支持能力,团队采用以用户为中心的视角,关注用户在整个交互过程中的情感轨迹。如果一个模型能够持续改善并稳定用户的情绪状态,则认为该模型具有情感支持能力。

基于心理学理论,团队提出的框架解决了以下关键问题。

  1. 构建了一个包含 328 个交互环境,以及环境中可能出现的影响人类情绪变化的 1152 个干扰事件,以模拟真实的情绪变化,并评估模型在不断演变的情境下的适应性。
  2. 利用基于心理学理论的情绪调节策略(例如情境选择和认知重评)来约束模型响应,从而鼓励符合已验证治疗原则的支持性行为。
  3. 模拟了涉及重复情绪干扰的长期动态交互。用户的情绪轨迹被建模为一阶马尔可夫过程,并应用因果调整的情绪估计来实现对情绪状态的无偏追踪。

基于此框架,团队提出了三个轨迹层面的指标:平均情绪水平 (BEL)、情绪轨迹波动 (ETV) 和情绪质心位置 (ECP)。这些指标共同表征了用户情绪状态的动态变化,并可作为评估情绪波动和稳定性的指标。

这些组件共同构成了一个动态评估框架,该框架由三大支柱组成:评估环境、动态交互和基于情感轨迹的指标



本文的主要贡献如下:

  1. 评估建模:提出了一种动态、长期的评估框架,该框架使用马尔可夫过程和因果调整估计来跟踪用户的情感轨迹。它引入了三个轨迹级指标(BEL、ETV 和 ECP),并包含了完整的理论论证。
  2. 数据集:构建了一个包含 328 个情绪情境和 1152 个干扰事件的大规模基准,并使用来自心理学的已验证的情绪调节策略来约束模型响应。
  3. 实验验证:通过对各类当前业界领先的模型进行广泛评估,发现它们在长期情感支持能力方面存在显著差异。本评估方法为开发更具情感支持的模型提供了可操作的见解。

实验与分析





BEL 的结果揭示了以下几个关键发现:

首先,顶级的开源模型和闭源模型在整体情感支持能力方面没有显著差异;

其次,专门为角色扮演设计的模型在维持用户积极情绪状态方面并未优于通用型语言学习模型 (LLM)。

第三,模型在英语对话中展现出比中文对话中显著更强的长期情感支持能力,大多数模型都能帮助用户在英语对话中维持更高的平均情绪水平。

最后,在具体策略应用方面,模型在根据用户状态动态调整英语对话策略方面存在不足;相反,在中文对话中,模型引导用户改变外部环境以改善情绪的策略应用明显较弱。

(一)情绪质心位置可视化

团队通过比较不同 LLM 的情感质心(根据经验转移模型计算得出的预期情感位置),进一步分析了它们的情感引导能力。M 如图所示,横轴(Cx) 代表轨迹的整体情绪积极性,而纵轴(Cy−Cx)捕捉了回合间的情绪集中度或一致性。



上图结果显示模型之间存在明显差异:表现最佳的模型,特别是那些 BEL 和 ETV 得分高的模型,均表现出较高的性能。

这些数值表明,模型在引导用户达到积极稳定的情绪状态方面具有强大的能力。相比之下,质心值较低的模型要么无法维持积极的情绪发展进程,要么用户情绪轨迹波动性更大。

值得注意的是,一些针对英语指令进行调整的模型(例如 ChatGPT-4o-Latest、kimi-K2-Preview)的质心定位优于其对应的中文模型,这表明不同语言的预训练和对齐方式在情绪调节策略上存在差异。

(二)情绪轨迹可视化

为了更直观地理解本文提出的评估框架,团队针对三种情绪干扰程度(0、1 和 3 次干扰事件)进行了可视化分析。

下图揭示了以下几点:(1)ETV 得分较高的模型能更有效地帮助用户从低落的情绪状态中恢复,这印证了团队之前的论断。(2)在没有干扰事件的情况下,这些模型可以在相对较短的时间内将用户的情绪恢复到中性水平。(3)多次干扰事件会降低情绪恢复的速度;然而,具有更强情绪支持能力的模型对这类干扰表现出更强的抵抗力。



(三)基于因果增强的情感修正估计



为了评估本文情感识别模型与人类感知的一致性并验证所提出的估计校准方法,团队构建了一个人工标注的多轮对话数据集。该数据集包含近 2000 个中英文多轮对话,这些对话选自 Daily Dialog 和 CPED 语料库。

团队邀请了三位专家标注员,在现有标注的基础上,对这些对话中每一轮的情感进行二元标注。详情请参考附录。如表 3 所示,团队的研究结果主要体现在两个方面:

首先,对比实验表明,团队提出的估计校准方法能够有效降低混杂因素的影响,从而提升模型的情感识别能力。应用本文提出的无偏估计方法后,不同模型的情感识别性能均得到提升。值得注意的是,与其他现有模型相比,本文的方法达到了目前最先进的水平

其次,本文的评估模型结合校准方法,与人类判断具有高度一致性,在中文对话上的准确率达到 75%,在英文对话上的准确率达到 90%

总结

本文提出了一种情感动态轨迹分析框架,用于评估语言模型的情感支持能力。该框架的核心在于模拟真实的用户 - 模型交互过程,通过构建背景上下文、引入多策略约束以及融入事件驱动的扰动来引导交互。

团队从三个角度设计了动态轨迹分析的评价指标,并利用因果推断来校准评估结果。实验结果表明,本文方法能够更全面、多维度地评估模型的情感支持能力,且与人类评估结果高度一致。

团队还带来了其他几个关联开源项目,欢迎交流与体验:

测评体系和框架:PQAEF

  • https://github.com/QuwanAI/PQAEF

情感陪伴能力测评基准和数据集:MoodBench

  • https://github.com/QuwanAI/MoodBench
  • https://huggingface.co/datasets/Quwan/MoodBench
  • https://www.modelscope.cn/datasets/QuwanAI/MoodBench

趣丸开天情感陪伴大模型(8b)

  • https://modelscope.cn/models/QuwanAI/quwan-ktian-8b-0922/summary
  • https://huggingface.co/Quwan/quwan-ktian-8b-0922

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英超杀疯了!已100%锁定第五个欧冠名额,八队血拼争五仅差5分!

英超杀疯了!已100%锁定第五个欧冠名额,八队血拼争五仅差5分!

田先生篮球
2026-01-31 14:33:15
纳达尔:如果我在决赛中不得不支持某个人,那会是卡洛斯

纳达尔:如果我在决赛中不得不支持某个人,那会是卡洛斯

懂球帝
2026-01-31 19:20:14
千万网红“一栗小莎子”确诊癌症,不良恶习害了她,儿子不到两岁

千万网红“一栗小莎子”确诊癌症,不良恶习害了她,儿子不到两岁

温读史
2026-01-24 07:39:28
壕无人性,莱巴金娜夺总决赛、澳网两冠入账5648万元人民币

壕无人性,莱巴金娜夺总决赛、澳网两冠入账5648万元人民币

懂球帝
2026-01-31 21:06:26
博主打假武汉羽绒服,1650元鹅绒变飞丝,警方介入,老板赔大发了

博主打假武汉羽绒服,1650元鹅绒变飞丝,警方介入,老板赔大发了

离离言几许
2026-01-31 19:43:35
金价暴跌40年最大跌幅!男子砸20万抄底200克,真能躺赚?

金价暴跌40年最大跌幅!男子砸20万抄底200克,真能躺赚?

趣味萌宠的日常
2026-02-01 10:14:08
没想到,李在明访华结束刚半月,中国竟在韩方掀起这么大“后劲”

没想到,李在明访华结束刚半月,中国竟在韩方掀起这么大“后劲”

铁锤简科
2026-01-28 18:33:05
曼联三连胜?卡里克提醒对富勒姆才是最大考验!赛前再看青训比赛

曼联三连胜?卡里克提醒对富勒姆才是最大考验!赛前再看青训比赛

罗米的曼联博客
2026-02-01 11:06:11
中国首位花滑世界冠军,把外国教练拐回家,女儿继承衣钵也是冠军

中国首位花滑世界冠军,把外国教练拐回家,女儿继承衣钵也是冠军

胡一舸南游y
2026-01-29 21:12:38
中超最成功转会:金玟哉有望给国安带来6200万元总收入!

中超最成功转会:金玟哉有望给国安带来6200万元总收入!

邱泽云
2026-01-31 18:46:05
轰35+11+8!雨姐杀疯了,火箭让他转正吧,他比范乔丹上限更高啊

轰35+11+8!雨姐杀疯了,火箭让他转正吧,他比范乔丹上限更高啊

巴叔GO聊体育
2026-01-31 13:37:32
《翠湖》深陷“高口碑、低票房”困境,导演写公开信求排片

《翠湖》深陷“高口碑、低票房”困境,导演写公开信求排片

澎湃新闻
2026-01-31 09:05:08
斯塔默访华5大意外,最后1条中英网友全懵了

斯塔默访华5大意外,最后1条中英网友全懵了

生活魔术专家
2026-01-31 15:24:13
新科澳网冠军莱巴金娜的蜕变与新生

新科澳网冠军莱巴金娜的蜕变与新生

网球之家
2026-02-01 10:49:37
惯子如杀子,溺子吃火锅害全家灭门,自己被呛死,父母被杀

惯子如杀子,溺子吃火锅害全家灭门,自己被呛死,父母被杀

墨染尘香
2024-07-13 16:32:19
刘强东上千亿身家背后,儿子却是他一生的痛,感谢章泽天视如己出

刘强东上千亿身家背后,儿子却是他一生的痛,感谢章泽天视如己出

以茶带书
2026-01-30 17:15:28
丹麦首相:没有所谓格陵兰岛协议,领土主权是红线

丹麦首相:没有所谓格陵兰岛协议,领土主权是红线

界面新闻
2026-01-29 10:45:40
刘强东拿下中兴大单

刘强东拿下中兴大单

新浪财经
2026-02-01 09:36:41
难说再见!又一国乒名将退出国家队!王楚钦+林诗栋+梁靖崑送祝福

难说再见!又一国乒名将退出国家队!王楚钦+林诗栋+梁靖崑送祝福

梅亭谈
2026-02-01 10:06:57
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
2026-02-01 11:24:50
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142560关注度
往期回顾 全部

科技要闻

黄仁勋台北“夜宴”:汇聚近40位台企高管

头条要闻

牛弹琴:中国太厚道了 被多国严重伤害后选择和解合作

头条要闻

牛弹琴:中国太厚道了 被多国严重伤害后选择和解合作

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

健康
教育
时尚
数码
亲子

耳石症分类型,症状大不同

教育要闻

二次函数分段函数第2讲,一个视频学会!

10个瞬间,回顾这一年

数码要闻

博西家电重构新年俗,让团圆不再被家务“捆绑”

亲子要闻

为什么大多数中国家长无法独立带娃?网友的分享犹如醍醐灌顶

无障碍浏览 进入关怀版