网易首页 > 网易号 > 正文 申请入驻

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波动态评估

0
分享至



近日,由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models(检测情感动态轨迹:大语言模型情感支持的评估框架)》论文,获 AAAI 2026 录用。

AAAI 由国际人工智能促进协会(Association for the Advancement of Artificial Intelligence, AAAI)主办,是人工智能领域极具影响力的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的 A 类国际学术会议,在全球学术界和工业界具有广泛影响力。

本届会议共收到来自世界各地的投稿摘要 31000 篇,最终录用 4167 篇,录用率仅为 17.6%,创历史新低。

研究背景

情感支持是人类与人工智能交互的核心能力,现有的大语言模型(LLMs)评估往往依赖于简短、静态的对话,未能捕捉到情感支持的动态和长期性质。

对于大语言模型情感能力的评价是做好自研的关键,团队分析了情感支持对话(ESC)目前现状和存在的问题。随着大语言模型的进步,ESC 已从情绪识别和生成扩展到包括更广泛的以人为中心的任务,例如角色扮演、心理陪伴以及随意聊天。开发有效的情绪支持不仅能减少负面情绪,还能通过持续、高质量的互动帮助维持积极的情绪状态。

因此,团队提出了一套全新的、检测情感动态轨迹的评估框架(简称 ETrajEval),用于更加科学、系统地评估大语言模型在长期对话中提供情感支持的能力。



  • 论文地址:https://arxiv.org/abs/2511.09003v1
  • 项目代码:https://github.com/QuwanAI/ETrajEval

核心贡献

现有的评估方法增进了我们对语言学习模型情感能力的理解,但这些方法存在两个主要局限性:

  1. 缺乏长期和动态的互动。
  2. 过分强调以模型为中心的响应质量。

为了更好地评估 LLMs 的情感支持能力,团队采用以用户为中心的视角,关注用户在整个交互过程中的情感轨迹。如果一个模型能够持续改善并稳定用户的情绪状态,则认为该模型具有情感支持能力。

基于心理学理论,团队提出的框架解决了以下关键问题。

  1. 构建了一个包含 328 个交互环境,以及环境中可能出现的影响人类情绪变化的 1152 个干扰事件,以模拟真实的情绪变化,并评估模型在不断演变的情境下的适应性。
  2. 利用基于心理学理论的情绪调节策略(例如情境选择和认知重评)来约束模型响应,从而鼓励符合已验证治疗原则的支持性行为。
  3. 模拟了涉及重复情绪干扰的长期动态交互。用户的情绪轨迹被建模为一阶马尔可夫过程,并应用因果调整的情绪估计来实现对情绪状态的无偏追踪。

基于此框架,团队提出了三个轨迹层面的指标:平均情绪水平 (BEL)、情绪轨迹波动 (ETV) 和情绪质心位置 (ECP)。这些指标共同表征了用户情绪状态的动态变化,并可作为评估情绪波动和稳定性的指标。

这些组件共同构成了一个动态评估框架,该框架由三大支柱组成:评估环境、动态交互和基于情感轨迹的指标



本文的主要贡献如下:

  1. 评估建模:提出了一种动态、长期的评估框架,该框架使用马尔可夫过程和因果调整估计来跟踪用户的情感轨迹。它引入了三个轨迹级指标(BEL、ETV 和 ECP),并包含了完整的理论论证。
  2. 数据集:构建了一个包含 328 个情绪情境和 1152 个干扰事件的大规模基准,并使用来自心理学的已验证的情绪调节策略来约束模型响应。
  3. 实验验证:通过对各类当前业界领先的模型进行广泛评估,发现它们在长期情感支持能力方面存在显著差异。本评估方法为开发更具情感支持的模型提供了可操作的见解。

实验与分析





BEL 的结果揭示了以下几个关键发现:

首先,顶级的开源模型和闭源模型在整体情感支持能力方面没有显著差异;

其次,专门为角色扮演设计的模型在维持用户积极情绪状态方面并未优于通用型语言学习模型 (LLM)。

第三,模型在英语对话中展现出比中文对话中显著更强的长期情感支持能力,大多数模型都能帮助用户在英语对话中维持更高的平均情绪水平。

最后,在具体策略应用方面,模型在根据用户状态动态调整英语对话策略方面存在不足;相反,在中文对话中,模型引导用户改变外部环境以改善情绪的策略应用明显较弱。

(一)情绪质心位置可视化

团队通过比较不同 LLM 的情感质心(根据经验转移模型计算得出的预期情感位置),进一步分析了它们的情感引导能力。M 如图所示,横轴(Cx) 代表轨迹的整体情绪积极性,而纵轴(Cy−Cx)捕捉了回合间的情绪集中度或一致性。



上图结果显示模型之间存在明显差异:表现最佳的模型,特别是那些 BEL 和 ETV 得分高的模型,均表现出较高的性能。

这些数值表明,模型在引导用户达到积极稳定的情绪状态方面具有强大的能力。相比之下,质心值较低的模型要么无法维持积极的情绪发展进程,要么用户情绪轨迹波动性更大。

值得注意的是,一些针对英语指令进行调整的模型(例如 ChatGPT-4o-Latest、kimi-K2-Preview)的质心定位优于其对应的中文模型,这表明不同语言的预训练和对齐方式在情绪调节策略上存在差异。

(二)情绪轨迹可视化

为了更直观地理解本文提出的评估框架,团队针对三种情绪干扰程度(0、1 和 3 次干扰事件)进行了可视化分析。

下图揭示了以下几点:(1)ETV 得分较高的模型能更有效地帮助用户从低落的情绪状态中恢复,这印证了团队之前的论断。(2)在没有干扰事件的情况下,这些模型可以在相对较短的时间内将用户的情绪恢复到中性水平。(3)多次干扰事件会降低情绪恢复的速度;然而,具有更强情绪支持能力的模型对这类干扰表现出更强的抵抗力。



(三)基于因果增强的情感修正估计



为了评估本文情感识别模型与人类感知的一致性并验证所提出的估计校准方法,团队构建了一个人工标注的多轮对话数据集。该数据集包含近 2000 个中英文多轮对话,这些对话选自 Daily Dialog 和 CPED 语料库。

团队邀请了三位专家标注员,在现有标注的基础上,对这些对话中每一轮的情感进行二元标注。详情请参考附录。如表 3 所示,团队的研究结果主要体现在两个方面:

首先,对比实验表明,团队提出的估计校准方法能够有效降低混杂因素的影响,从而提升模型的情感识别能力。应用本文提出的无偏估计方法后,不同模型的情感识别性能均得到提升。值得注意的是,与其他现有模型相比,本文的方法达到了目前最先进的水平

其次,本文的评估模型结合校准方法,与人类判断具有高度一致性,在中文对话上的准确率达到 75%,在英文对话上的准确率达到 90%

总结

本文提出了一种情感动态轨迹分析框架,用于评估语言模型的情感支持能力。该框架的核心在于模拟真实的用户 - 模型交互过程,通过构建背景上下文、引入多策略约束以及融入事件驱动的扰动来引导交互。

团队从三个角度设计了动态轨迹分析的评价指标,并利用因果推断来校准评估结果。实验结果表明,本文方法能够更全面、多维度地评估模型的情感支持能力,且与人类评估结果高度一致。

团队还带来了其他几个关联开源项目,欢迎交流与体验:

测评体系和框架:PQAEF

  • https://github.com/QuwanAI/PQAEF

情感陪伴能力测评基准和数据集:MoodBench

  • https://github.com/QuwanAI/MoodBench
  • https://huggingface.co/datasets/Quwan/MoodBench
  • https://www.modelscope.cn/datasets/QuwanAI/MoodBench

趣丸开天情感陪伴大模型(8b)

  • https://modelscope.cn/models/QuwanAI/quwan-ktian-8b-0922/summary
  • https://huggingface.co/Quwan/quwan-ktian-8b-0922

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川大学通报教师王竹卿违规问题:核实多项科研失信、经费违规行为,作出降岗停招处分

四川大学通报教师王竹卿违规问题:核实多项科研失信、经费违规行为,作出降岗停招处分

极目新闻
2026-02-14 20:12:10
比赛还没开打,皇马先遭遇两个致命坏消息,今晚取胜皇家社会悬了

比赛还没开打,皇马先遭遇两个致命坏消息,今晚取胜皇家社会悬了

零度眼看球
2026-02-14 07:53:06
征服中年女人,无需套路:两颗真心,一生相守

征服中年女人,无需套路:两颗真心,一生相守

青苹果sht
2025-11-04 06:10:40
离过年仅3天!29岁关晓彤高调官宣喜讯,全网恭喜,鹿晗后悔吗?

离过年仅3天!29岁关晓彤高调官宣喜讯,全网恭喜,鹿晗后悔吗?

喜欢历史的阿繁
2026-02-14 22:12:26
银行内部实话:存款达这个金额,会被系统盯上

银行内部实话:存款达这个金额,会被系统盯上

小陆搞笑日常
2026-02-10 03:30:26
教育部1号文件定调:2026高考革命来袭!刷题时代正式终结

教育部1号文件定调:2026高考革命来袭!刷题时代正式终结

南京择校
2026-02-12 04:52:07
贾玲在意大利逛奢侈品店!大波浪卷发买包好洋气,比时装周上好看

贾玲在意大利逛奢侈品店!大波浪卷发买包好洋气,比时装周上好看

孤酒老巷QA
2026-02-02 12:00:17
领导干部任职

领导干部任职

阿离家居
2026-02-14 19:04:50
日本记者断言,高市早苗撑不过半年,未来10年日本非常艰难

日本记者断言,高市早苗撑不过半年,未来10年日本非常艰难

阿鰤科普记录
2026-02-13 21:27:14
四川一女子吃烤全羊,尾部发现大量粪便:很臭又恶心,店家赔了1500元

四川一女子吃烤全羊,尾部发现大量粪便:很臭又恶心,店家赔了1500元

大象新闻
2026-02-13 12:43:05
7.6元网购2500克土豆,男子食用后连续两年饱受折磨!医生提醒

7.6元网购2500克土豆,男子食用后连续两年饱受折磨!医生提醒

新民晚报
2026-02-13 15:07:33
王菲春晚再登台,惊艳回归,期待她的精彩表演!✨

王菲春晚再登台,惊艳回归,期待她的精彩表演!✨

春日在捕月
2026-02-14 22:16:23
baby没机会啦!叶柯探班黄晓明,房车内甜蜜互动,小海绵有后妈了

baby没机会啦!叶柯探班黄晓明,房车内甜蜜互动,小海绵有后妈了

八卦王者
2026-02-14 12:35:49
香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

读懂世界历史
2026-02-12 21:48:53
戏子误国!离春节不到7天,4位明星接连塌房,一个比一个荒唐

戏子误国!离春节不到7天,4位明星接连塌房,一个比一个荒唐

林轻吟
2026-02-13 07:16:40
加密市场寒冬将至?以史为鉴:比特币或“腰斩”至31000美元

加密市场寒冬将至?以史为鉴:比特币或“腰斩”至31000美元

财联社
2026-02-14 14:37:08
孟华婷,已任商务部外资司司长!卸任山东港口集团总经理后,李奉利有新职!

孟华婷,已任商务部外资司司长!卸任山东港口集团总经理后,李奉利有新职!

奇思妙想生活家
2026-02-14 21:56:08
不到24小时中戏2大领导自首!闫学晶风波仍在继续,牵连更多明星

不到24小时中戏2大领导自首!闫学晶风波仍在继续,牵连更多明星

无处不风景love
2026-02-13 19:42:37
郭德纲也想不到,曾三拒自己邀请的卢鑫,会在过年前,栽个大跟头

郭德纲也想不到,曾三拒自己邀请的卢鑫,会在过年前,栽个大跟头

情感大头说说
2026-02-14 23:32:36
美团的死穴决定了它打不起这场补贴大战

美团的死穴决定了它打不起这场补贴大战

新浪财经
2026-02-14 15:33:26
2026-02-15 00:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12310文章数 142567关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

福州街头发现一流浪老人身份成谜 程序员精准破解方言

头条要闻

福州街头发现一流浪老人身份成谜 程序员精准破解方言

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

手机
健康
游戏
旅游
公开课

手机要闻

魅族这回,真的要“凉”了?

转头就晕的耳石症,能开车上班吗?

《零 ~红蝶~ REMAKE》试玩报告:和无名野鬼大战二十回合"/> 主站 商城 论坛 自运营 登录 注册 《零 ~红蝶~ REMAKE》试玩报告:和无...

旅游要闻

这个春节不必远走,来芦芽山感受不一样的年味!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版