高情商AI Agent来了！剑桥团队推出进化RL框架EvoEmo，靠愤怒、悲伤成功“讨价还价”|agent|evoemo

高情商AI Agent来了！剑桥团队推出进化RL框架EvoEmo，靠愤怒、悲伤成功“讨价还价”

2025-09-09 12:02:12　来源: 学术头条

北京举报

分享至

在日常生活中，谈判无处不在：网购时“卖家再降 50”就下单，租房时跟房东争取“押一付一”，在职场上和客户敲定合作细节…… 这时候，“情感技巧”往往是关键，比如假装犹豫说“预算真的不够了”，或是适度表达期待，总能让谈判朝着对自身更有利的方向发展。

可对于 AI 来说，谈判是一个大难题。

现有的 LLM Agent 大多忽视了情感（emotion）在谈判中的功能性作用，其生成的情感反应往往被动且受偏好驱动，容易被对手操纵和利用。哪怕是最先进的 LLM，参与多轮谈判时也经常掉链子：要么全程“礼貌到底”，被对手轻松拿捏；要么分不清对方是真着急还是装样子，轻易就妥协让步。

近日，剑桥大学团队及其合作者联合提出了一个名为“EvoEmo”的进化强化学习框架，为 LLM 补上了“情感谈判”这一短板。相关研究论文已发表在预印本网站 arXiv 上。

论文链接：https://arxiv.org/abs/2509.04310

大量实验与消融研究表明，EvoEmo 在成功率、效率及买家节省成本方面均实现突破。这一发现强调了自适应情绪表达对提升 LLM 在多轮谈判中效能的关键作用。

传统 LLM 谈判：三大短板拖后腿

为何以前的 AI 谈判总是不尽如人意呢？

大量行为研究表明，人类的决策系统性地偏离了经典经济学对纯粹理性的假设，是被心理偏见和情绪状态动态塑造的，而不仅仅是稳定的个性特征。

尽管现代 LLM 在通过思维链（CoT）复现人格驱动行为模式方面取得进展，但情感在决策形成中的作用仍相对缺乏研究，尤其与基于静态人类特质的方法相比。然而，在价格讨价还价等精细协商场景中，情感动态起着关键作用，情绪直接影响战术选择，并立即影响谈判结果。相比之下，人格特质只能捕捉广泛的行为倾向，却无法解释适应性、即时性的动态变化。

据论文描述，相较于人类谈判者，LLM 存在三大根本性缺陷：

一是战术太僵化（Tactical Inflexibility）。人类谈判时能够动态调节情绪信号，会根据对手反应灵活变招。如果卖家态度强硬，可能会故意表现出“失望”“放弃”的样子施压；要是卖家松口，又会赶紧用“感谢”巩固成果。但 LLM 通常默认静态响应模式，只会按固定模式响应，不管卖家怎么说，都只会机械地“请求降价”，使其行为既容易被预测又容易被利用。

二是对抗性天真（Adversarial Naivety）。LLM 的情绪识别能力虽然很强，却也成了致命弱点。尽管能够识别挫败感或同理心等信号，但 LLM 仍无法区分真实情感与操纵性策略，例如价格谈判中的假装紧迫。遇到这种操纵性策略，LLM 往往会乖乖让步，完全没有反抗能力。

三是眼光太短浅（Strategic Myopia）。人类谈判前会铺垫情感，主动塑造互动中的情感轨迹。比如先跟卖家聊几句家常、夸赞商品质量，建立好感后再提降价需求；谈判中也会把控节奏，不会一上来就亮明底线。但与人类不同，LLM 因缺乏对情感因果关系的推理能力，在管理情感动态时保持被动反应而非主动生成。只会被动应对，走一步看一步，很难掌控谈判主动权。

以上三点缺陷，解释了为什么具有强推理能力的 LLM 在情绪敏感的谈判中的表现可能不如人类，特别是在“讨价还价”中，战略情绪调节是最重要的。

EvoEmo：为AI搭起“情感进化流水线”

EvoEmo 框架是一种用于优化多轮次情感敏感谈判中情绪策略的进化强化学习框架。该方法通过群体层面的进化学习机制，发现最优的情绪转换规则，并根据谈判过程中获得的奖励迭代优化策略。进化操作（包括交叉和变异）能高效探索策略空间，传播高回报的情感策略。EvoEmo 将群体优化的探索优势与强化学习的序列决策框架相结合，为演化复杂情绪策略提供了有效途径。

换言之，EvoEmo 框架的核心思路很简单：既然 AI 自己学不会灵活用情感，那就让它在“实战”中不断进化。就像生物进化一样，好的情感策略会被保留，不好的会被淘汰，慢慢筛选出最优方案。

图｜EvoEmo 框架工作流程示意图

这套框架之所以有效，关键在于以下设计，让 AI 的情感决策“有章可循”：

首先是情感感知 MDP。EvoEmo 框架将协商过程形式化为一个MDP（状态-动作-政策-奖励），把谈判中的情感分为 7 种基础类型：愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。每种情绪对应不同的谈判意图，比如“适度愤怒”可以表达对价格的不满，“中性”适合理性沟通细节，“惊喜”能在卖家让步时巩固成果，让 AI 的情感表达不再混乱。

其次是系统化的策略构成。每个协商策略编码了三个核心组件，这些组件支配着 Agent 的情感行为：情感轨迹、温度参数、情绪转移矩阵等。这些组件的组合，让 AI 的情感决策既有规划，又不失灵活。

以及科学化的奖励机制。进化优化通过奖励函数评估策略，奖励函数可解释为适应度评分，用于衡量协商有效性。AI 的每轮谈判都会被打分：谈判成功得基础分，买家省的钱越多、用的回合越少，加分越多。这种“成功率 + 省钱 + 效率” 的评分标准，督促 AI 不会为了省钱硬耗，也不会为了快而轻易让步，精准找到最佳平衡点。

最后是改进的强化学习。EvoEmo 框架将情感策略的优化问题转化为进化强化学习任务，通过世代循环的评估与群体优化机制，持续改进策略的情感转换参数。每次迭代首先将候选策略部署到多轮次对话模拟环境中，该环境由 LLM 模型和交互提示集共同构建。每个策略执行后会生成完整的情感状态与对话序列，其效果通过奖励函数进行量化评估。经过这一评估阶段后，系统将根据概率选择策略进行优化。

整个进化流程，就像一条情感策略的“流水线”：先初始化一批随机的情感策略，让它们分别参与谈判并打分；然后留下表现好的策略，通过把两个好策略的优点结合、随机调整部分参数生成新策略；再让新策略去谈判、打分…… 反复迭代，直到找到最厉害的情感策略。

靠愤怒、悲伤来“讨价还价”

为了测试 EvoEmo 的效果，研究团队做了一组严谨的实验：从 CraigslistBargain 数据集中选取了谈判案例子集进行评估，其包含 20 个跨品类的多轮次谈判场景，涵盖电子产品、家具、汽车及住房等多个领域，每个场景均包含三要素：商品详情、卖家设定的特定目标价格、体现真实讨价还价动态的情感标注，同时覆盖 50 至 5000 美元的广泛价格区间，并包含全新或二手等不同品相的商品，从而能够全面评估不同市场环境下谈判策略的有效性。

研究团队选择了语言模型 GPT-5-mini、Gemini-2.5-Pro、DeepSeek-V3.1.1 三种主流 LLM 来驱动实验中的买卖双方 Agent。

在评估过程中，研究人员定义了两个基准模型进行对比：第一个基准仅包含标准 Agent，买方和卖家均未接受情绪引导。这种设置确保双方完全依据内在情绪倾向和战略推理能力行动，从而提供反映默认谈判行为的参考基准。

第二个基准将标准卖家与固定情绪买方配对，其中买方在整个谈判过程中保持恒定的情绪状态。通过将这些基准与通过 EvoEmo 优化买方情绪的设置进行比较，可以量化情绪对谈判结果的影响，并评估 EvoEmo 在增强基于LLM、情绪驱动的谈判方面的有效性。

实验结果也印证了 EvoEmo 的有效性：EvoEmo 在所有买方-卖家配对中始终实现最高买家节省率，明显优于基准模型（普通设置和固定情绪设置）。

图｜9 对买卖双方的谈判结果中买家节省金额（%）。每根柱状图顶部的黑色垂直线表示各设置的 95% 置信区间（CI）。

此外，研究结果还揭示了两个有趣的发现：

首先，在情绪策略方面，采用固定负面情绪（如愤怒和悲伤）的买家表现通常优于普通基准模型。这种效应在面对持续表达厌恶或悲伤情绪的买家时尤为明显，表明当遭遇持续负面情绪信号时，LLM 卖家 Agent 更倾向于让步。

该发现强调了持续负面情绪是影响谈判动态与结果的重要因素。相反，具有固定积极情绪的买家，如快乐和惊喜，其节省金额低于基准水平。这表明当卖家 agent 将买家的情绪解读为积极时，他们能更有效地捍卫价格，可能认为没有那么迫切要做出让步。

图｜9 对买卖双方谈判成功率（%）和谈判效率（对话轮数）的谈判结果。

其次，不同语言模型（LLM）的性能表现差异显著。

在卖家端，Gemini-2.5-pro 模型对普通买家和固定情绪买家展现出最强的价格防御能力，但面对 EvoEmo 优化的情感适应型买家时仍显脆弱。买家端的结果则因模型而异：基于 Gemini 模型的买家在对抗 GPT-5-mini 卖家时实现最大节省，而 GPT-5-mini 买家在应对 DeepSeek-V3.1 卖家时表现最为出色。值得注意的是，没有任何买家模型在与鲁棒的 Gemini-2.5-pro 卖家谈判时展现出显著优势，突显了其作为挑战性谈判对手的优势。

表｜不同奖励函数公式之间的谈判绩效比较

采用 EvoEmo 优化情感配置的买家始终保持着接近 100% 的成功率，且比使用常规或固定情感设置的买家更高效，达成协议所需的回合数也大幅减少。这些结果充分证明了 EvoEmo 在两项基准测试中均具有显著优势。

高情商AI？还很远

以上研究结果表明，情感是成功谈判中一个不可忽视的因素。相比于基础模型和固定情感基线，EvoEmo 优化后的情感策略能够持续提升谈判表现，体现在更高的成功率、更强的效率和更多的买家节省。事实证明，动态调整情感状态的能力对于有效的多轮讨价还价至关重要，它使得 Agent 能够在谈判中策略性地利用情商。

当然，EvoEmo 并非完美，依然存在一些局限性：

情绪谱系与基准对照的局限性。该研究仅考察了 7 种基础情绪状态，可能无法全面捕捉真实谈判中人类情绪表达的复杂性。此外，基准对照仅限于固定情绪策略与情绪中立策略，遗漏了随机情绪序列等潜在有价值的对照方案。
情境依赖性与泛化挑战。评估基于 20 个日常谈判场景展开，聚焦传统商业领域，引发潜在选择偏见与泛化能力受限的质疑。EvoEmo 在多元谈判场景中的有效性尚未验证，尤其在高风险、情绪激烈的领域，其情感动态可能与标准商业环境存在显著差异。
情感策略可解释性。LLM 响应的黑箱特性与进化优化机制，使得特定情感序列在特定谈判情境中取得成效的原因难以阐释。
模拟与现实的鸿沟。基于 LLM 的模拟验证可能无法捕捉人类专业知识，且计算密集度限制了实际部署中的实时适应能力。

另外，未来的工作还将探讨进化策略的伦理影响和行为一致性，并特别关注欺骗行为或妥协行为的出现。

但不可否认的是，EvoEmo 为 AI 情商发展指明了新方向。在不久的将来，每天帮你网购砍价、进行跨境贸易谈判的，或许真的是一个高情商 AI 了。

整理：小瑜

如需转载或投稿，请直接在公众号内留言

智谱上线 Glm Coding Plan

20 元包月，「1/7 价格、3 倍用量」

畅享 Claude Code 编码体验

开发者用了都说好

欢迎体验～

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.