苏州大学联合阿里云：让AI"情感支持师"学会同时用多种招式安慰人|算法|推理|维度|底层逻辑|知名企业

分享至

这项由苏州大学计算机科学与技术学院、阿里云Qwen点金团队以及厦门大学联合开展的研究，于2026年4月发布在预印本平台arXiv，论文编号为arXiv:2604.17972。有兴趣深入了解原始研究细节的读者，可通过该编号查询完整论文。

当你情绪低落、向朋友倾诉时，一个真正懂你的朋友会怎么回应你？他不会只是干巴巴地说一句"你要坚强"，也不会只是机械地问一个问题，而是先认真倾听你的心情，然后分享他自己的类似经历，紧接着给你一些实际建议，甚至在同一段话里，把这几件事自然地融合在一起。这种"一次说多件事"的沟通方式，其实正是人类在安慰彼此时最本能的表达习惯。

然而，当AI被训练去承担"情感支持对话"这项任务时，研究者们长期以来给它设置了一个过于简单化的规则：每次回应只能用一种"招式"。就好像规定一个厨师每道菜只能用一种烹饪手法——要么只煎，要么只蒸，要么只炖——但永远不能在同一道菜里组合技法。这当然与现实中的厨艺相去甚远。

苏州大学的研究团队敏锐地发现了这个问题，并正面回应了一个此前几乎没有人系统研究过的问题：允许AI在同一句话里同时使用多种支持策略，究竟是好事还是坏事？这个问题看似简单，答案却并不显而易见，因为允许更多策略也可能带来更多噪音和混乱。研究团队为此设计了两种全新的生成方法，并引入认知推理和强化学习来加强模型表现，最终通过大量实验给出了一个清晰的答案。

一、情感支持对话是什么，为什么它很难

在正式进入研究内容之前，有必要先理解一下背景。所谓"情感支持对话"，指的是通过自然语言交流来帮助正在经历痛苦的人——提供理解、认可和应对指导。研究者们使用的核心数据集叫做ESConv，这是2021年由刘思阳等人基于Hill的助人技能理论（《帮助技能：促进探索、洞察与行动》）构建的一个专门数据集，包含1300段经过标注的情感支持对话，已成为该领域最重要的基准测试集之一。

这个数据集里一共标注了八种支持策略，分别是：提问（引导对方说出感受和情况）、复述或改述（用自己的语言重述对方说的话以确认理解）、反映感受（直接承认并认可对方的情绪）、自我披露（在适当时候分享自己的类似经历）、肯定与安慰（提供安慰以减轻对方的焦虑或痛苦）、提供建议（给出实际可操作的建议）、提供信息（给出与情况相关的事实性解释）以及其他类别。

这就像厨师有八种烹饪手法可以选择。过去的AI系统每次只能选一种，而研究团队从数据本身发现，现实中这样做是不够的。在ESConv数据集的15325条"支持者回应"中，有整整17.7%的回应同时使用了两种或更多策略。换句话说，几乎五分之一的时候，真实的支持者并不满足于只用一种方法。数据集里还有将近1638条使用两种策略的回应，178条使用三种策略的回应，甚至还有26条同时用了超过三种策略的情况。

论文中给出了一个具体而生动的对话例子。一个在新冠疫情封控期间感到焦虑烦躁的人，在向支持者倾诉自己的孤独感和不耐烦情绪时，支持者给出了这样一段回应——它先用"自我披露"的方式说"我自己最近也感觉越来越容易对身边的人失去耐心"，再用"肯定与安慰"说"我也是个内向的人，一开始还挺享受封控的，但随着时间拖长就真的难受了"，最后用"提问"说"你有没有找到什么保持体力活动的方法？"。这三种策略在同一段话里自然流动，完整而真实。

这就是研究团队要解决的真实问题：如何让AI学会这种"组合出招"的能力？

二、两种截然不同的"出招方式"

研究团队设计了两种核心方法，可以把它们理解为厨师在准备一顿饭时的两种不同工作流程。

第一种叫做"All-in-One"（一锅端），顾名思义，就是让AI一次性把所有策略和回应都预测出来，放在同一次输出里。具体的格式是把每种策略紧跟在它对应的回应文字之前，然后把所有这些"策略+回应"的组合依次拼接在一起，形成一个完整的结构化序列。这就像一个厨师在脑子里把整道菜的所有步骤都想清楚，然后一口气列出完整菜谱：先煎再蒸再淋汁，同时交代每步怎么做。训练时，模型学习的目标是在给定对话历史的条件下，最大化这整个输出序列出现的概率。

第二种叫做"One-by-One"（一步一步来），更接近人类思考的方式。在这个方法里，AI并不试图一次性预测所有内容，而是每次只预测一种策略和对应回应，同时还需要预测一个"继续标志"——也就是告诉系统：我现在说完了，接下来要不要继续再说一段？如果标志是"继续"，系统就再走一遍这个流程，选择下一个策略并生成对应回应；如果标志是"停止"，整次回应就结束了。为了防止模型无休止地输出，研究团队设置了上限K=3，因为数据集里几乎所有的多策略回应都不超过三种策略。这就像厨师在烹饪时边做边决策：先把第一道菜做好，然后判断这顿饭是否完整，不完整就继续做第二道，直到觉得够了为止。

这两种方法各有特点。"一锅端"方式更简洁直接，但同时预测多个策略的压力更大，容易引入噪音。"一步一步来"方式把复杂任务拆解为多个较小的决策，让模型在每一步都能更专注，但需要额外学习"什么时候该停"这件事。

三、让AI学会"先想再说"

单纯的格式训练还不够。研究团队发现，要让AI真正理解什么时候该用哪种策略、为什么这么用，需要给它配备一种"思考骨架"——一种在给出最终回应之前，先进行结构化推理的能力。

研究者们为此引入了认知推理链，这是一种由四个节点构成的思考框架。第一个节点叫"情境节点"，用于捕捉当前对话中对方所面临的外部处境和关键情感信号，比如"这个人正在为找不到工作而焦虑"。第二个节点叫"认知节点"，用于推断对方内心的解读和信念，比如"他觉得自己失去了生活的方向感"。第三个节点叫"情绪节点"，用于描述从这些认知中涌现出的情绪状态，比如"他感到沮丧和无力"。第四个节点叫"支持计划节点"，用于规划即将采用的支持策略及其顺序和目的。

把这四个节点想象成一个侦探在开口说话之前的内心独白：先看清楚现场（情境），再推测嫌疑人的动机（认知），再感受一下情绪氛围（情绪），最后制定行动方案（支持计划）。这种"先思后言"的结构，让AI不再是基于表面文字做机械匹配，而是像真正的支持者一样，在开口之前先进行了一番内心分析。

在最终输出格式上，这种推理过程被封装在一个"思考标签"里，最终的回应文字则放在"回答标签"里。模型同时学习这两部分，但实际对话中用户看到的只是"回答标签"里的内容。

为了让这份"思考内容"尽可能高质量，研究团队并没有人工标注，而是向四个强大的AI模型"取经"：DeepSeek-R1、Qwen3-235B、GPT-5和Gemini-2.5-Flash。他们让这四个模型分别根据给定的对话历史和支持者回应，生成相应的认知推理链，然后把这些"老师"的思考过程用于训练自己的小模型。

向多个老师学习而非只跟随一个老师，是这个设计中一个颇具匠心的选择。后续实验也印证了这个决策的价值：没有任何一个单一老师在所有指标上都最优，GPT-5在某些指标上最好，Gemini在另一些指标上最好，DeepSeek-R1在另外的指标上最好，但把四个老师的思路全部综合起来之后，学生模型在所有指标上都达到了最稳定、最全面的表现。

四、用"奖惩机制"让模型越练越准

认知推理解决了"怎么想"的问题，而强化学习则负责解决"怎么越练越好"的问题。研究团队在有监督训练之后，进一步用GRPO（一种群体相对策略优化算法）对模型进行强化训练。

强化学习的核心逻辑与行为心理学如出一辙：做对了就奖励，做错了就不奖励，通过大量试错让模型逐渐学会什么样的输出是高质量的。在这项研究中，奖励设计非常具体。首先有一个格式奖励，只有当模型的输出完全符合要求的结构时，才有资格获得进一步的奖励——这就像考试答题时格式不对直接扣分。

在格式合规的前提下，针对两种不同方法，研究团队分别设计了有针对性的奖励函数。对于"一锅端"方法，奖励函数基于"Levenshtein比率"来衡量预测的策略序列与参考序列之间的相似度。Levenshtein距离是信息学中用来衡量两个字符串之间差异的标准指标，简单说就是"最少需要多少步操作才能把一个序列变成另一个序列"——删除、插入、替换各算一步。奖励值越高，说明预测的策略顺序越接近正确答案。由于多策略样本在数据中占少数，研究团队还对单策略样本进行了降采样处理，以平衡奖励分布，避免模型偷懒只学简单情况。

对于"一步一步来"方法，奖励函数在策略准确度之外还加了一个维度：停止标志预测是否正确。也就是说，模型不仅要猜对"该用哪个策略"，还要猜对"这个策略说完之后到底要不要继续"。这个额外的奖励信号让模型在学习策略内容的同时，也学会了合理控制输出节奏。

五、实验怎么做、效果如何

研究团队在两个层面上对方法进行了评估，就像既检验厨师每道菜的味道，又评估整顿饭下来客人是否吃得满意。

在"单句评估"层面，模型针对已知的对话历史预测下一条支持者回应，然后与数据集中的参考答案对比。评估指标包括：策略预测的精确匹配率（预测的策略序列与参考序列完全一致的比例）、Levenshtein比率（策略序列相似度）、平均长度差异（生成回应的长度与参考回应的差距），以及BLEU分数（衡量词汇重合度的常用机器翻译指标）、ROUGE分数（衡量文本覆盖度的另一类指标）和BERTScore（用预训练语言模型计算语义相似度的指标）。

在这项评估中，基准线是传统的"单策略"方法，也就是每次只预测一个策略和回应。实验结果呈现出几个清晰的规律。

"一锅端"方法在策略精确匹配率上略低于单策略基准（23.61%对25.21%），这并不意外——同时预测多个策略本就比预测一个更难。但"一步一步来"方法几乎保住了基准线的精确匹配率（24.99%对25.21%），表明逐步生成的方式有效缓解了这个问题。更重要的是，两种多策略方法在文本生成质量上都超过了单策略基准——BLEU、ROUGE和BERTScore均有提升，说明即使策略预测难度更高，最终生成的回应质量反而更好。

加入认知推理之后，两种方法的表现都出现了全面提升。以"一锅端+推理"为例，精确匹配率从23.61%跳升到29.72%，ROUGE-L从18.27提升到20.10。进一步加入强化学习之后，"一锅端"方法的各项指标继续稳步提升，"一步一步来"方法在大多数指标上也有改善（BLEU分数略有波动，但整体向好）。

研究团队还专门对"只含单策略的回应"和"含多策略的回应"分别进行了分析。结果表明，对于单策略回应，多策略模型在基础设置下略逊于单策略基准，但加入推理和强化学习后便完全反超。对于多策略回应，单策略基准几乎毫无还手之力（精确匹配率为0），而多策略方法配合推理和强化学习之后，能够取得显著更好的结果。

在"对话评估"层面，研究团队搭建了一个"角色扮演"测试环境：用GPT-5模拟有情感困扰的求助者，让不同的模型扮演支持者，两者进行完整的多轮对话，最多进行10轮。每轮对话结束后，再用GPT-5作为裁判，评估求助者的情感状态是否有所改善，并为改善程度打分。整个对话结束后，如果最终评分超过预设阈值，该次对话被认定为"成功"。评估指标包括平均对话轮数（越少说明越高效）、对话成功率（越高说明越有效）和每次对话平均使用策略数。

在这项评估中，三个顶级商业大模型（GPT-5、DeepSeek-R1和Qwen3-235B）在没有专项微调的情况下，在10轮内的成功率均为0%，充分说明这项任务的专业性。相比之下，单策略微调模型的成功率为13.85%，"一锅端"多策略模型达到17.69%，"一步一步来"多策略模型达到16.15%。加入推理和强化学习后，"一锅端+推理+强化学习"的成功率达到34.62%，"一步一步来+推理+强化学习"的成功率更是跃升至40.00%，同时对话轮数也降至最低的8.46轮，是所有方法中效率最高的。

研究团队还观察了强化学习过程中的学习曲线。一个颇为有趣的现象是：在训练初期（前4步），模型生成多策略回应的比例会略有下降，对话成功率也随之短暂下滑——就像一个厨师在学习新技法初期手忙脚乱，反而做坏了几道菜。但从第4步之后，模型开始稳步增加多策略回应的使用，对话成功率也随之持续攀升，最终显著超越了起点水平。

此外，研究团队还进行了人工评估。三位专业标注员对同一个求助者与三套不同系统（单策略、"一锅端+推理+强化学习"、"一步一步来+推理+强化学习"）的完整对话分别打分，从问题识别、情感安慰、建议质量和整体效果四个维度进行排名（1分最好，3分最差）。结果显示，两种多策略方法在所有维度上都优于单策略方法，其中"一锅端"方法在建议质量这个维度上表现尤为突出，得到了1.62的平均排名。

六、研究的边界与局限

任何研究都有其边界，这项研究也不例外。研究团队坦率地指出了三个主要局限。

其一，即便加入了推理和强化学习，模型生成多策略回应的比例仍然远低于真实数据中的水平。真实数据集里有18.9%的回应包含两种以上策略，而即使是表现最好的方法，这个比例也只能达到8.4%（"一锅端"）和7.7%（"一步一步来"）——训练数据中单策略样本的压倒性多数，使模型始终偏向于生成更简单的输出。

其二，对话评估使用的是GPT-5模拟的求助者，而不是真实人类。机器模拟的求助者可能无法完整还原真实情感交流的复杂性和不可预测性，这使得对话层面的评估结果需要谨慎解读。

其三，所有实验都在ESConv这一个数据集上进行，是否能推广到其他情感支持对话场景或其他语言环境，尚待进一步验证。

研究团队也在论文的伦理部分明确指出：这套系统是为改善日常情感支持对话而设计的，不应被用于替代专业心理或医疗援助，在高风险和危机场景中的部署需要额外的安全机制和人工监督。

说到底，这项研究做的事情可以用一句话来概括：它证明了AI情感支持系统在同一句话里同时使用多种支持策略，不仅是技术上可行的，而且确实能带来更好的效果。从17.7%的真实数据观察出发，经过两种生成方法的设计、认知推理框架的引入、多模型知识蒸馏、强化学习的磨练，以及单句和对话两个层面的系统验证，研究团队给出了一个扎实的实证答案。

这对普通人意味着什么？随着AI情感支持工具越来越多地进入生活——无论是心理健康APP、在线辅导平台还是各类聊天机器人——这项研究所提出的方法，可能让这些工具的对话质量更接近于真实的人类支持者，而不是停留在"每次只说一件事"的机械模式。当然，从实验室里的数字提升到真实世界里被人真正感受到的温度，还有很长的路要走。

如果你对这项研究产生了好奇，可以通过arXiv论文编号2604.17972找到完整的原始论文，那里有更多技术细节和完整的实验数据。

Q&A

Q1：ESConv数据集是什么，为什么情感支持对话研究都在用它？

A：ESConv是2021年由刘思阳等人构建的情感支持对话数据集，包含1300段真实模拟的情感支持对话，每句支持者的回应都标注了具体使用了哪种支持策略，一共有八类策略。因为它是目前唯一一个既有对话内容、又有细粒度策略标注的公开数据集，所以成了该领域最重要的基准测试集。研究者们用它来训练和评估AI系统是否能像真人支持者那样合理地选择和使用支持策略。

Q2：All-in-One和One-by-One两种方法的核心区别是什么？

A：核心区别在于生成节奏。All-in-One方法让AI在一次输出中同时预测所有策略和回应，相当于一口气交出完整答案。One-by-One方法则让AI每次只预测一个策略和对应回应，同时判断要不要继续，不断迭代直到停止。实验结果显示One-by-One在策略精确匹配率上更接近单策略基准，而且配合推理和强化学习后在对话成功率上表现最好，达到了40%。

Q3：认知推理链里的四个节点在实际对话中起什么作用？

A：四个节点相当于AI在开口之前的内心分析过程。情境节点让AI先理解对方面临的外部处境，认知节点帮助AI推断对方内心的想法和信念，情绪节点识别对方当下的情绪状态，支持计划节点规划具体要用哪些策略、按什么顺序说。这四步分析完成之后，AI才生成最终回应。研究表明加入这个推理框架后，策略预测准确率和文本生成质量都明显提升。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.