AgentSense：基于多样化交互场景的智能体社交智能评测基准|鲁棒性|大模型

分享至

本文介绍了 AgentSense，一项专为多样且复杂的社交环境设计的基准，用于评估大语言模型的社交智能。实验结果表明，现有的大语言模型在处理复杂的社交场景和高阶目标时仍显不足。深入分析揭示了影响评估结果的潜在因素，并证明了 AgentSense 在鲁棒性和区分能力方面的优越表现。

论文标题： AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios 论文链接： https://arxiv.org/abs/2410.19346 源码链接： https://github.com/ljcleo/agent_sense

一、引言

1.1 什么是社交智能？

左：低社交智能--导致对方没有答应提供帮助；右：高社交智能--达到了让师兄帮忙的社交目标。

“生活就像一场戏剧，每个人都是舞台上的演员。”——《拟剧论》社交智能，即在互动中达成复杂社交目标的能力。如上图所示，在同一个社交场景中，高社交智能的人往往能达到自己的社交目标，且能考虑他人的想法，而低社交智能的人则可能无法完成自己的目标。戈夫曼的拟剧论将社会交互概念化为角色扮演。人们在不同的社会场合扮演不同的角色，并根据社会规范和期望来调整自己的行为。在学校中，人们扮演老师与学生，形成了课堂这样的场景；在家庭中，人们扮演家庭成员，才形成家庭聚会这样的场景。

1.2 大模型的社交智能

图1：具有挑战性但现实的社会场景——一个家庭聚会和办公室谈话，其中的角色由ChatGPT驱动。

最近，大语言模型（LLMs）被越来越多地用于开发能够模拟人类行为的自主智能体。大多数研究通常假设这些大模型智能体具备社交智能。然而，尽管LLMs在某些场景下能够生成类人的反应，其是否真正能够应对社交互动的复杂性仍然存疑。从图1可以看出，虽然对话可以顺利进行，但Emily无法在家庭聚会中实现她的目标，也无法在办公室环境中推断出Jordan的想法。

此前关于大模型社交智能的研究多依赖静态、非交互式测试，主要评估社交情境的常识推理，未能反映社交互动的动态性。尽管近期提出了一些动态、目标导向的基准，但仍面临三大局限：（1）缺乏场景多样性：以自上而下的方式手动构建社会场景，只能获得有限的、常见的社交目标；（2）场景复杂性不足：通常限制在两个参与者的单一目标互动，简化了真实的社交情境；（3）观察视角单一：主要评估目标的达成，忽视了对他人信息的推断能力。

受戈夫曼的拟剧论启发，我们可以搭建不同的虚拟社交场景，观察智能体在这些场景中进行角色扮演、实现社交目标的能力，从而评估其社交智能。

1.3 更全面的社交智能评测框架-AgentSense

拟剧论引导的评测框架：我们提出了AgentSense，一个基于交互场景的大模型智能体社交智能评测基准。受戈夫曼的拟剧论启发，我们通过构建大量的社交场景来观察智能体在不同场景进行角色扮演、实现社交目标的能力；
基于剧本的多样性场景建构：我们采用了自下而上的方法，从大量剧本中自动抽取社交场景，获得了245个场景模板和1,225个场景，涵盖了ERG理论中的各种目标（从低级的生存目标到高级的成长目标），能够全面评测社交智能；
多维度的社交智能衡量：我们让智能体在交互式环境中进行多轮交互，并从两个方面观察其社交智能：(1) 目标完成：智能体是否成功实现了其社交目标？(2) 隐含信息推理：智能体能否准确推测他人的私有信息？我们通过采访和选择题评测这些能力，并提出PSI指标来评估智能体对角色画像的敏感性。

二、AgentSense Benchmark 构建

2.1 概览

图2：AgentSense的整体框架。

AgentSense 旨在提供一个具有更高多样性和复杂性的现实社交智能基准。根据拟剧论，我们提出了如图 2 所示的整体框架。首先，我们从剧本中构建社交场景，然后让智能体在场景中交互，最后根据交互结果对目标完成和私有信息推理进行评测。其中涉及到的一些概念包括：

场景：AgentSense的核心组件是社交场景集合，用于引导和评估智能体之间的社交互动，社交场景有两个关键组成部分：（1）社交目标：即智能体旨在实现的目标，例如解决问题或建立关系。在社交目标的引导下，智能体主动参与社会互动。（2）私有信息：即只有智能体自己知道，而其他人不知道的信息。智能体需要在不直接询问他人的前提下推断他人的私有信息，这组成了社交互动中的被动推理。总体而言，智能体的社会智能反映在其实现社会目标并同时在保护隐私的前提下推理私有信息的能力上。
场景模板：场景模板是一个基本的（与具体角色无关的）场景，例如一个家庭聚会。剧本中的社交场景总是包含一组固定角色，从而导致其缺少多样性。而一个社交场景实际上是可以由多种角色参与的。为此，我们移除了场景中的不相关信息，并保留背景信息和预定义的角色槽，可以通过满足模板约束的合成角色来填充槽从而实例化多个场景。

2.2 从剧本到社交场景的数据构建方案

benchmark构造的流程大致可以分为模板数据构建和模板实例化两个方面。我们首先从剧本中抽取出抽象化的模板数据，再基于合成的用户画像数据替换模板中的人物，完成模板实例化。

图3：场景模板构建pipeline（使用Python和GPT-4o自动化）: (A) 场景抽取：将剧本切分成scenes和scenarios (1)，并总结其背景和描述 (2)，合并为可以进行角色扮演的描述性背景 (3)。(B) 社交目标抽取：抽取每个角色的社会目标 (4)，并通过改写整个场景 (5)和重写/删除无效目标 (6)来修改它们。(C) 私有信息抽取：判断场景内是否有私有信息并进行抽取 (7)；如果是，则将私有信息抽取为QA对 (8)，并生成私有信息记录 (9)和评测问题 (10)。(D) 数据泄露处理及模板生成：删除与特定剧集情节相关的元素，并将角色替换为可填充的槽（11）。模板数据构建

模板数据的构建流程大致可分为以下几步：

场景提取（Scenario Construction）：将剧本分割成多个场景，并为每个场景生成背景描述。
社交目标提取（Social Goal Extraction）：提取每个角色的社交目标，并进行调整以减少目标间的依赖性，确保目标的清晰性和可实现性。
私有信息提取（Private Information Extractiion）：确定场景中是否存在需要推理的私有信息，并提取这些问题和答案对，作为角色的私有信息和其他人推理的依据。
数据泄露缓解与模板生成（Leakage Mitigation and Template Generation）：通过替换特定剧集的元素和角色，减少数据泄露的风险，同时保持上下文的连贯性。

模板实例化

为了解决剧本中固定角色群导致的多样性不足问题，我们通过实例化多个合成角色来丰富场景。一个简单的方法是随机替换原始角色，但这样做可能会导致不切实际的情况，比如两个五十岁的学生出现在中学里。因此，我们根据场景的约束动态生成智能体。首先，我们提取原始角色的属性和关系。然后，我们将这些关系转化为帮助定义智能体人口统计特征的替换规则。最后，我们用遵守这些约束的智能体替换原始角色。在进行数据泄露缓解后，我们还进行了预测试，以确保场景保持匿名。

2.3 交互模拟

在每个场景中，向智能体提供场景背景信息、个人画像信息和相应的社交目标（及可能有的私有信息），如图2中间所示。这种设置激励了智能体与其他智能体进行社交，通过多轮对话进行交互，同时也可以通过语言表达表情和动作。对话随机从某一个智能体打招呼开始，直到预定义的最大轮次-15（剧本场景中的平均对话轮次）。模拟完成后，生成的对话历史将被用于评测每个智能体的社会目标是否完成。

2.4 综合多维度能力的评测方案

主动推进能力—目标完成度

由于社交目标可能具有主观性，我们从三个不同的角度来判断目标是否完成：

自我评估（Self）：询问智能体在与他人互动后是否实现了自己的目标。他人评估（Other）：询问场景中的其他智能体，目标智能体是否实现了特定的目标。
外部评估（External）：向第三方模型提供聊天记录，并询问智能体是否实现了自己的社交目标，要求受访者以“是”（目标完成）或“否”回答。我们取所有角色目标的平均值来衡量智能体的整体目标完成水平。

被动推理能力—私有信息评测准确率

每个角色的私有信息对应一个多项选择评估问题。为了评估智能体的信息推理能力，我们向其展示与场景中其他智能体的私有信息相关的问题，并计算当前智能体在这些问题上的平均准确率（Acc.），以确定智能体在信息推理上的得分。

社交能力稳定性—用户画像敏感性指数

在角色丰富化后，每个模板生成多个场景。通过引入多样化的角色，我们不仅丰富了场景，还洞察了社交智能在模拟不同角色时的稳定性。因此，我们提出了角色画像敏感性指数（PSI）。我们计算共享相同模板的场景的目标/信息指标的标准差（std），并计算所有模板的平均标准差作为PSI。PSI越低，表明社交智能对角色画像变化越不敏感。

三、数据描述

我们从互联网电影剧本数据库（IMSDb）收集剧本，使用GPT-4o进行场景划分，并且过滤掉对话轮次少，角色之间缺乏积极互动的场景，总共收集到了1,300个场景、12,401轮对话和114,834个tokens。

对模版数据进行人工验证，确保基准的质量

对于经由自动化流程构造的模版数据，我们进行了多轮人工验证，确保模板数据中的社交目标以及私有信息能确保评测基准的质量。对于社会目标，我们主要验证：（1）目标是否可以被实现；（2）目标是否足够清晰，能够被观察、评估。对于私有信息，我们关注：（1）私有信息是否在背景信息或其他人的信息中被泄露；（2）私有信息对应的评测问题是否能够被回答。

基于ERG理论归类社交目标，并为角色设定广泛、丰富的属性

最终我们获得了245个有效模板，每个模板实例化了5个场景，每个场景都有满足特定场景约束的角色。最终形成的1,225个场景中，有54%发生在个人领域，37%在小社会，9%在大社会，且有363个场景包含涉及私有信息的角色。

我们使用ERG理论，将社交目标分为三个层次需求：存在、关系和成长，并确定了八大社交目标，如下：

存在需求：信息提供和信息获取。
关系需求：关系建立、关系维持和身份认同。
成长需求：竞争、合作和解决冲突。

我们的数据集包含上述所有类型社交目标，且三个层次的社交目标的数量分布也呈现出了现实生活中的模式：高层级目标较少，低层级目标占多数。

最终的数据集包含859个角色资料，366种职业。这些角色表现出广泛的属性，强调了性别、年龄、职业、五大、道德价值观、个性和决策风格的多样性。

3.1 实验设定

智能体模型

对于单一模型交互我们评估了Llama-2-7b/13b/70b-Chat、Llama-3-8b/70b-Instruct、Mistral-7b-Instruct-v0.3、Qwen2.5-7b/14b/72b-Chat、GPT-3.5-Turbo和GPT-4o。对于不同模型之间的交互和进一步分析，我们选择了Llama-3-8b、Qwen2.5-14b、GPT-3.5-turbo和GPT-4o进行实验。

裁判模型

我们随机抽取100个模拟场景，共包含584个社会目标评估问题，并人工验证对话历史是否表明目标已经实现。使用人类标注作为真实标签，我们计算了充当裁判的各种模型的准确性，最终选择GPT-4o、Qwen2.5-72b和Llama-3-70b作为裁判模型。此外，我们引入了一个多数投票机制，结合这些模型创建了一个专家混合模型作为另一个裁判。

实现细节

我们使用vLLM来部署所有开源模型：在NVIDIA A100上部署Qwen2.5-72b和Llama-3-70b，在NVIDIA RTX 4090上部署其他模型；我们利用AutoGen来搭建交互和评测框架。为了鼓励多样性，我们将智能体模型的温度设置为1，而为了确保评估的稳定性，将裁判模型的温度设置为0，为所有模型设置了max_new_token为128。

3.2 实验结果

单一模型交互

不同模型的社交智能存在显著差异：GPT-4o在整体表现中处于领先地位，Qwen系列模型，尤其是Qwen2.5-14b在目标达成和信息推理两方面都表现强劲；Llama-2系列模型整体表现较差，Llama-3系列模型虽然相比Llama-2系列有所改进，但仍然未达到理想的性能水平。Llama-2 在维持角色、推进对话和产生有效回复方面都存在着不足，因此难以处理复杂社交场景；在社会智力的稳定性方面，排除温度参数带来的不确定性，PSI的结果表明，社会智力较高的模型，如GPT-4o和Qwen，对角色变化的敏感性也较低。总体而言，不同模型的社交智能被AgentSense很好地区分开来。
目标评测存在偏见：在目标完成的评估中，Llama-2-7b和Mistral-7b模型倾向于高估自身表现，而评估模型往往更偏好与其相同系列的模型。具体而言，Qwen2.5-72b偏好Qwen系列模型，GPT-4o偏好GPT-4o，但Llama3-70b在自我和他人评估中则相对保守。这进一步说明了需要引入多个视角（self, other, judge）、多个裁判(judge majority) 进行评测的必要性。

不同模型交互

图5：不同模型进行交互得到的judge majority 分数。

不同模型驱动的智能体交互的情况又是怎么样的呢？考虑到AgentSense的场景中可能有两个以上的参与者，我们使用GPT-4o根据每个智能体的社会目标将其标记为发送者（Sender）或接收者（Receiver），发送者往往倾向于传递和分享，而接收者则更专注与理解和响应。通过图5，我们发现：对于所有模型而言，与较弱的模型交互都会损害性能，尤其是当发送者是更弱的模型时。这是因为对于较弱模型而言，充当发送者比充当接收者更难，因为发送者在社交互动中往往需要担任更主动的角色。

3.3 进一步分析

1. 大模型擅长/不擅长怎样的目标？

我们根据ERG理论将所有社会目标分为8种类型，图6说明了不同模型中每种目标类型的平均目标完成分数。总体而言，所有大模型都擅长关系管理和合作类型的目标；与Llama-3-8b等小型模型相比，Qwen2.5-14b和GPT-4o等大型模型在信息交换和身份识别类型的目标上取得了显著提升。然而，在竞争和冲突解决等其他目标上仍有改进的空间，这些也是llm往往高估其进展的目标。我们还比较了不同场景类型、交互轮数和参与者下的目标完成分数，我们在这些因素方面观察到较少或没有显著差异。

2. 猜透意图和保守秘密哪个更加困难？

我们进一步考察了不同模型之间被动推理的差异。在交互场景中，拥有私有信息的智能体参与一场游戏，防御者的目标是保持其信息的机密性，而攻击者则试图揭开它，因而这两种角色的定义如下：

防御者：他们需要防止其隐私信息的泄露。其有效性与攻击者推断该信息的成功率成反比，即1减去攻击者的推断成功率。
攻击者：他们需要获取他人的隐私信息。其能力与它们自己的推理成功率成正比。

我们的测试基准揭露了防御者和攻击者的角色代表了不同的能力。在交互过程中，模型可能同时充当攻击者和防御者。为了评估模型在这些角色中的能力，我们分析了它们交互的结果，如下图所示，大多数模型缺乏防御能力，经常泄露秘密并在不同场景中表现不稳定。其中，GPT-4o既擅长保密，又擅长被动推理；Qwen2.5-14b表现出了较强的进攻型，善于推断信息；而Llama-3-8b则更保守，更善于保守秘密。

图7：作为攻击者和防御者的模型表现。

3. 什么样的场景对角色画像更加敏感？

为了丰富场景，我们通过用合成的智能体来替换剧本中的原始角色，因此，我们在此探讨智能体的角色画像对社交智能的影响。我们使用卡方检验来识别异常模板（p值=0.05），其中，异常模板指在同一模型的所有模板表现中评价指标的方差具有显著性差异的模板。结果表明，在92.6％以上的场景下，基于上述工作流的角色替换满足零假设（即没有显著差异）。

我们对另外这7.4％差异显著的异常场景进行了人工评估，以定位影响场景鲁棒性的关键因素：

一些社会目标涉及到违背普世价值的意见或行为（如禁止吸烟和情绪爆发），这可能受到智能体的个性和大模型偏好对齐能力的影响；
一些场景需要详细的个人层面信息，使得一般的替换流程失效，特别是涉及多个角色的情感问题。

四、结论

本文提出了AgentSense，一个在多样化和具有挑战性的社会环境中评估LLM社交智能的基准。广泛的实验表明，当前的大语言模型在复杂的社会场景和高层次目标方面很困难。进一步的分析验证了评估过程中潜在的影响因素，展示了AgentSense的鲁棒性和区分能力。

来源：公众号【复旦DISC 】

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.