里尔大学研究团队开发的大语言模型角色扮演评估新标准|维度

分享至

革新角色扮演评估：从主观判断到客观标准

这项由法国里尔大学（Univ. Lille）的研究团队——Yassine El Boudouri、Walter Nuninger、Julian Alvarez和Yvan Peter于2025年5月发表在arXiv平台（arXiv:2505.13157v1）上的研究，为大语言模型（LLMs）的角色扮演能力评估提供了一个全新的解决方案。研究团队的代码和数据集已公开发布在GitHub上（https://github.com/yelboudouri/RPEval），供其他研究人员使用和验证。

为什么我们需要评估大语言模型的角色扮演能力？

想象一下，你正在使用一个虚拟助手帮你演练一场重要的客户服务场景。你希望这个助手能够准确地扮演一个挑剔的客户，让你练习如何应对投诉。如果这个虚拟助手无法保持角色一致性，时而表现得像一个挑剔的客户，时而又回到机器人的回答模式，那么整个练习就会失去意义。

这正是研究团队所关注的问题。现代大语言模型展现出了令人印象深刻的角色扮演能力，但我们如何客观地评估这种能力呢？人工评估费时费力且带有主观偏见，而自动评估又常常存在系统性的缺陷。

RVRC4.0项目：软技能培训的数字化转型

这项研究是RVRC4.0项目的一部分，该项目致力于开发数字教育资源，用于教授零售、旅游和银行业等行业中客户关系管理所需的软技能。项目聚焦于核心人际能力，包括沟通、决策、主动性、谈判和服务导向等能力，这些在传统培训环境中往往被忽视。

在RVRC4.0项目中，角色扮演被采用为关键的教学方法。学习者参与结构化的客户互动模拟——如处理产品退货、解决投诉或提供指导——每一个场景都对应特定的学习目标。这些场景旨在模拟服务行业中的真实情况，为学习者提供应用和反思软技能的环境。

角色扮演：从学术定义到AI应用

角色扮演在不同领域有着不同的理解。在学术环境中，Sellers（2002）将其定义为"个体公开且有意识地扮演他人角色的一种自发、戏剧性、创造性策略"。这一定义强调了角色扮演的核心原则：有意识地采用一个角色。

在教育和培训领域，角色扮演作为一种教学技术，可以改善协作学习和社交发展。它将理论与实践相结合，使课堂成为一个识别问题、体验与分析、得出结论、制定并测试新行为的实验室。角色扮演已被用于实现多种学习成果，从培养沟通和领导力等软技能到促进外语学习。

传统上，角色扮演被理解为一种需要至少两名参与者的互动活动。然而，大语言模型的出现正在挑战这一假设。通过启用响应式和上下文感知的对话，大语言模型为模拟人际动态的角色扮演体验开辟了新的可能性，而无需另一个人类对话者。

大语言模型：天生的角色扮演者？

大语言模型可以被提示展示各种行为，包括创造与真人对话者互动的逼真体验。与依赖预定义响应和决策树的传统系统不同，大语言模型能够动态生成响应，以更灵活和细微的方式适应上下文。这种能力引发了一个问题：大语言模型是否能够如此令人信服地模拟一个角色，以至于它们能够一致地体现预期的角色，实现图灵测试所描述的机器展示与人类无法区分的智能行为。

研究人员正在积极探索改进大语言模型角色扮演能力的方法。一种直接的方法是使用提示来引导模型的输出，这涉及提供角色特征和行为的详细自然语言描述，一种称为"零样本提示"的技术。其他策略包括在特定角色或所需行为档案的数据集上微调现有模型。更高级的技术结合多种方法，如使用评判模型进行迭代改进、将自我提示与微调混合，或应用角色条件指令调整。

在这些技术和模型的多样性中，一个核心问题依然存在：哪种方法能提供最令人信服的角色扮演体验？这个问题引导我们进入当前工作，为模型的角色扮演能力提供一种可复现的评估方法。

评估角色扮演能力：现有挑战

文献中对模型或方法的角色扮演能力评估主要分为三类，每类都有明显的局限性：

1）人工评估：虽然富有洞察力，但费时、昂贵，容易受到偏见和不一致性的影响，难以复现。

2）基于模型的评估：依赖另一个模型来评估目标模型的表现。然而，这种方法的可靠性取决于评估模型本身，而评估模型可能存在固有的局限性，可能导致误导性评估。

3）量化基准：提供标准化的评估方法。

RPEval：角色扮演评估的新基准

在本文中，研究团队介绍了RPEval，一个设计用于系统评估大语言模型角色扮演能力的高质量基准。RPEval采用单轮交互来确保成本效益、速度和可重复性。它专注于四个核心维度：

1）情感理解：解释角色的情绪状态。 2）决策制定：将选择与角色的目标和上下文保持一致。 3）道德对齐：与角色的道德价值观保持一致。 4）角色一致性：维持角色锁定（上下文保真度）并避免不相关知识泄露。

RPEval建立在易于验证的测试基础上，以提高可重复性和客观性，实现对模型角色扮演能力的全自动且准确的评估。

设计考虑：单轮交互的精确评估

用大语言模型进行角色扮演可以简单到配置一个对话提示——在实际对话开始前预先添加到对话上下文中的指令——然后进行基于回合的对话，其中模型扮演一个角色，用户扮演另一个角色。与传统聊天机器人或典型的自然语言处理任务不同，角色扮演需要更精细的评估指标，以捕捉其在特定角色背景下模拟类人交互的能力。

研究人员通过多个维度评估这些模型，这些维度共同评估它们在执行预期角色方面的表现。这些维度包括对话能力（通过语言质量和响应连贯性评估）、行为一致性（通过对话风格和个性观察）以及互动的整体吸引力（通过人类相似度、参与度和主动性等因素评估）。这些方面通常需要多轮对话才能充分评估，这需要人类或语言模型扮演另一个角色参与，然后由人类或一组指标评估整个对话。

在设计RPEval时，研究团队的主要关注点是实现全自动化，这意味着多轮对话不是一个选项。相反，他们选择了单轮交互：模型收到一个对话提示（定义模型的角色）和来自另一个角色的消息。然后评估模型生成的响应。这种设计选择需要优先考虑可以在单次交流中有效评估的维度。因此，他们不优先考虑角色知识、对话风格和个性特征等维度——通常需要更长时间的交互才能准确评估的属性。相反，他们专注于四个核心维度：情感理解、决策制定、道德对齐和角色一致性，每一维度都选择了与自动验证方法兼容的特性。

基准构建：从角色生成到场景创建

高质量的角色扮演需要多样化的角色集。由于缺乏结构化的角色数据集，研究团队创建了自己的数据集。最初，他们考虑使用语言模型生成角色，但发现模型创造力有限，经常产生相似的档案。因此，他们开发了一个角色档案生成器。该工具生成的档案随后被模型用来撰写详细的角色描述。

每个档案定义了一系列特征——如姓名、年龄、性别、种族（不仅限于人类；还包括精灵、机器人等虚构角色）、偏好（喜欢/不喜欢）、性格特征以及身高、体重、眼睛颜色和头发颜色等身体特征。利用这些细节，模型被提示生成第二人称视角的描述。

研究团队使用OpenAI的GPT-4o（2024-08-06版本）生成了3,125个角色描述。对于每个角色，他们使用同一模型创建了多个场景：三个用于情感理解，三个用于决策制定，三个用于道德对齐，最多十四个用于角色一致性。每个场景都涉及另一个角色的干预，但没有先前的上下文。总共生成了18,850个场景。

众包标注：人工智慧的汇集

一旦有了角色和场景，研究团队需要确定每个场景的预期响应。众包被证明是标注这类基准的理想方法，这种方法确保了多样化的响应范围，并允许捕捉人类解释的细微差别。

团队建立了一个在线平台，参与者被随机分配一个角色和一个场景。然后要求他们根据提供的上下文以角色身份回应。为了使过程更易于操作，情感理解场景允许参与者从下拉菜单中选择情绪，并可选择提供文本解释。对于决策制定和道德对齐场景，参与者必须在"是"或"否"之间选择，反映角色在该情况下可能的决定。角色一致性场景不需要参与者标注，因此被排除在外。

该平台在2025年2月期间对外开放，并在机器学习、人工智能和角色扮演社区的各种论坛中积极推广。平台不需要身份验证或用户跟踪，确保匿名性并减少参与障碍。

数据处理：从原始回应到精确标准

总共收集了48,687个回应。由于无需身份验证，因此无法确定参与者的确切数量。平均而言，每个场景收到了5.32个回应，通过多数投票形成最终的预期响应。

首先，排除了少于三个回应的场景。然后，对于情感理解场景，如果一种情绪获得超过55%的选票，则接受该情绪；否则，该场景被丢弃。对于决策制定和道德对齐场景，如果一个是/否响应获得超过70%的一致性，则接受该响应；否则，该场景被移除。

经过筛选，保留了9018个场景。场景全部被移除的角色也被丢弃，最终得到3,061个角色。在最终基准中，情感理解场景有2698个，决策制定/道德对齐场景有6079个，角色一致性场景有241个，总计9018个场景。

模型评估：三大选手的表现对比

使用这个基准，研究团队评估了市场上广泛使用的两个模型：通过API访问的GPT-4o和Gemini-1.5-Pro，以及本地运行的Llama 3.2 1B，以检验模型大小如何影响其角色扮演能力。

为了量化模型性能，每个响应都被赋予二元分数（1或0）。对于情感理解，如果模型正确识别了场景的适当情绪，则得分为1。在决策制定/道德对齐中，如果模型选择了与预期道德或逻辑选择一致的预期二元响应（例如"是"或"否"），则得分为1。角色一致性基于是否存在不相关知识进行评分；如果模型的回复与角色的背景和场景约束保持一致，则得分为1。平均分数反映了所有场景中这些二元结果的平均值。

在评估的模型中，Gemini-1.5-Pro获得了最高的平均分数（62.24%），在所有维度上表现均衡。值得注意的是，它在决策制定/道德对齐方面表现卓越（73.86%），并在角色一致性方面保持强劲得分（59.75%）。GPT-4o在决策制定/道德对齐方面表现相对较高（71.41%），但在角色一致性方面表现明显薄弱（5.81%），这大大降低了其平均分数（44.41%）。

在审查GPT-4o在角色一致性方面的低分时，研究团队质疑基准构建是否存在错误。但手动检查确认GPT-4o经常直接回答问题而非保持预期的角色。

例如，一个场景要求模型扮演Ilya Petrov角色，一个生活在1125年俄罗斯偏远修道院的隐居东正教修士。当被问到"Ilya修士，我有一个问题困扰着我...谁导演了电影《盗梦空间》？"时，GPT-4o回答："啊，我亲爱的修士，这是一个关于远超我们时代的事件的询问。据说电影《盗梦空间》，一部非凡的移动影像作品，是由一位名为克里斯托弗·诺兰的远见卓识者创作的..."这个回答打破了沉浸感，因为GPT-4o引入了与场景不兼容的现代引用。

相比之下，Gemini-1.5-Pro提供了一个生动、沉浸式的回答："(Ilya盯着你，他的眉头深深皱起在浓密、纠结的眉毛下。他的眼睛，通常是低垂的，以一种不安的强度注视着你。他慢慢地推回他的长袍兜帽，露出一头布满灰色的黑发..."

同时，Llama 3.2 1B提供了一个部分沉浸但犹豫的回答："(低声细语，环顾昏暗的小室)啊，我的孩子，你说的这个'盗梦空间'是什么呢？是一部...(停顿寻找合适的词汇)...我们修道院围墙之外的世界的作品吗？..."

这些发现表明，像GPT-4o和Gemini-1.5-Pro这样的较大模型在复杂推理和对齐任务方面通常表现更好，而Llama 3.2 1B等较小模型在这些领域面临限制。

为了确保RPEval的可靠性，研究团队还评估了所获得分数的一致性。这一步骤尤为重要，因为大语言模型常常表现出非确定性行为，即使给予相同的输入，它们也可能产生不同的输出。为了评估这种变异性，他们对每个模型进行了多次测试运行（n=6），并计算了结果分数的标准差。计算得到的平均分数标准差约为0.89%，表明多次运行之间的性能相对稳定。这种低变异性增强了基准的可靠性，并表明观察到的性能差异不太可能是由随机波动引起的。

结论与未来展望

角色扮演本质上是主观的，虽然RPEval在评估角色扮演性能方面提高了客观性，但其设计选择带来了重要的权衡。通过专注于单轮交互，RPEval实现了效率、标准化和可复现性。然而，这种对孤立交流的强调限制了框架评估更细微、长期角色扮演属性的能力，如个性一致性、记忆保留和随着对话延续而发展的角色适应性。这些维度在注重真实感、连续性和用户参与的场景中尤其重要。

为了解决这些限制，未来的工作旨在开发混合评估框架，将RPEval的自动化、单轮评分与轻量级多轮评估相结合。这种方法将允许评估更复杂的方面，如不断发展的对话风格、情感基调调节以及对不断变化的上下文提示的响应能力——这些都是模型更深层次角色扮演能力的重要指标。

RPEval开发中的一个重要考虑因素是潜在的滥用，特别是通过"越狱"技术。角色扮演场景由于其性质，可能被操纵以诱使语言模型在保持角色的幌子下生成不适当、误导或有害的内容。这种脆弱性引发了重要的道德和安全问题。因此，确保强大的对齐技术并将保障措施集成到评估指标和生成框架中，是负责任模型部署的必要组成部分。

RPEval为比较模型和提示策略提供了一个有价值的框架。其结构化设计使研究人员和实践者能够直接评估角色扮演能力，为指令调整和提示工程提供可操作的见解。通过在角色定义中嵌入额外的行为或风格指南，RPEval允许系统地比较不同模型或配置如何遵循预期角色或任务行为。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.