网易首页 > 网易号 > 正文 申请入驻

里尔大学研究团队开发的大语言模型角色扮演评估新标准

0
分享至

革新角色扮演评估:从主观判断到客观标准

这项由法国里尔大学(Univ. Lille)的研究团队——Yassine El Boudouri、Walter Nuninger、Julian Alvarez和Yvan Peter于2025年5月发表在arXiv平台(arXiv:2505.13157v1)上的研究,为大语言模型(LLMs)的角色扮演能力评估提供了一个全新的解决方案。研究团队的代码和数据集已公开发布在GitHub上(https://github.com/yelboudouri/RPEval),供其他研究人员使用和验证。

为什么我们需要评估大语言模型的角色扮演能力?

想象一下,你正在使用一个虚拟助手帮你演练一场重要的客户服务场景。你希望这个助手能够准确地扮演一个挑剔的客户,让你练习如何应对投诉。如果这个虚拟助手无法保持角色一致性,时而表现得像一个挑剔的客户,时而又回到机器人的回答模式,那么整个练习就会失去意义。

这正是研究团队所关注的问题。现代大语言模型展现出了令人印象深刻的角色扮演能力,但我们如何客观地评估这种能力呢?人工评估费时费力且带有主观偏见,而自动评估又常常存在系统性的缺陷。

RVRC4.0项目:软技能培训的数字化转型

这项研究是RVRC4.0项目的一部分,该项目致力于开发数字教育资源,用于教授零售、旅游和银行业等行业中客户关系管理所需的软技能。项目聚焦于核心人际能力,包括沟通、决策、主动性、谈判和服务导向等能力,这些在传统培训环境中往往被忽视。

在RVRC4.0项目中,角色扮演被采用为关键的教学方法。学习者参与结构化的客户互动模拟——如处理产品退货、解决投诉或提供指导——每一个场景都对应特定的学习目标。这些场景旨在模拟服务行业中的真实情况,为学习者提供应用和反思软技能的环境。

角色扮演:从学术定义到AI应用

角色扮演在不同领域有着不同的理解。在学术环境中,Sellers(2002)将其定义为"个体公开且有意识地扮演他人角色的一种自发、戏剧性、创造性策略"。这一定义强调了角色扮演的核心原则:有意识地采用一个角色。

在教育和培训领域,角色扮演作为一种教学技术,可以改善协作学习和社交发展。它将理论与实践相结合,使课堂成为一个识别问题、体验与分析、得出结论、制定并测试新行为的实验室。角色扮演已被用于实现多种学习成果,从培养沟通和领导力等软技能到促进外语学习。

传统上,角色扮演被理解为一种需要至少两名参与者的互动活动。然而,大语言模型的出现正在挑战这一假设。通过启用响应式和上下文感知的对话,大语言模型为模拟人际动态的角色扮演体验开辟了新的可能性,而无需另一个人类对话者。

大语言模型:天生的角色扮演者?

大语言模型可以被提示展示各种行为,包括创造与真人对话者互动的逼真体验。与依赖预定义响应和决策树的传统系统不同,大语言模型能够动态生成响应,以更灵活和细微的方式适应上下文。这种能力引发了一个问题:大语言模型是否能够如此令人信服地模拟一个角色,以至于它们能够一致地体现预期的角色,实现图灵测试所描述的机器展示与人类无法区分的智能行为。

研究人员正在积极探索改进大语言模型角色扮演能力的方法。一种直接的方法是使用提示来引导模型的输出,这涉及提供角色特征和行为的详细自然语言描述,一种称为"零样本提示"的技术。其他策略包括在特定角色或所需行为档案的数据集上微调现有模型。更高级的技术结合多种方法,如使用评判模型进行迭代改进、将自我提示与微调混合,或应用角色条件指令调整。

在这些技术和模型的多样性中,一个核心问题依然存在:哪种方法能提供最令人信服的角色扮演体验?这个问题引导我们进入当前工作,为模型的角色扮演能力提供一种可复现的评估方法。

评估角色扮演能力:现有挑战

文献中对模型或方法的角色扮演能力评估主要分为三类,每类都有明显的局限性:

1)人工评估:虽然富有洞察力,但费时、昂贵,容易受到偏见和不一致性的影响,难以复现。

2)基于模型的评估:依赖另一个模型来评估目标模型的表现。然而,这种方法的可靠性取决于评估模型本身,而评估模型可能存在固有的局限性,可能导致误导性评估。

3)量化基准:提供标准化的评估方法。

RPEval:角色扮演评估的新基准

在本文中,研究团队介绍了RPEval,一个设计用于系统评估大语言模型角色扮演能力的高质量基准。RPEval采用单轮交互来确保成本效益、速度和可重复性。它专注于四个核心维度:

1)情感理解:解释角色的情绪状态。 2)决策制定:将选择与角色的目标和上下文保持一致。 3)道德对齐:与角色的道德价值观保持一致。 4)角色一致性:维持角色锁定(上下文保真度)并避免不相关知识泄露。

RPEval建立在易于验证的测试基础上,以提高可重复性和客观性,实现对模型角色扮演能力的全自动且准确的评估。

设计考虑:单轮交互的精确评估

用大语言模型进行角色扮演可以简单到配置一个对话提示——在实际对话开始前预先添加到对话上下文中的指令——然后进行基于回合的对话,其中模型扮演一个角色,用户扮演另一个角色。与传统聊天机器人或典型的自然语言处理任务不同,角色扮演需要更精细的评估指标,以捕捉其在特定角色背景下模拟类人交互的能力。

研究人员通过多个维度评估这些模型,这些维度共同评估它们在执行预期角色方面的表现。这些维度包括对话能力(通过语言质量和响应连贯性评估)、行为一致性(通过对话风格和个性观察)以及互动的整体吸引力(通过人类相似度、参与度和主动性等因素评估)。这些方面通常需要多轮对话才能充分评估,这需要人类或语言模型扮演另一个角色参与,然后由人类或一组指标评估整个对话。

在设计RPEval时,研究团队的主要关注点是实现全自动化,这意味着多轮对话不是一个选项。相反,他们选择了单轮交互:模型收到一个对话提示(定义模型的角色)和来自另一个角色的消息。然后评估模型生成的响应。这种设计选择需要优先考虑可以在单次交流中有效评估的维度。因此,他们不优先考虑角色知识、对话风格和个性特征等维度——通常需要更长时间的交互才能准确评估的属性。相反,他们专注于四个核心维度:情感理解、决策制定、道德对齐和角色一致性,每一维度都选择了与自动验证方法兼容的特性。

基准构建:从角色生成到场景创建

高质量的角色扮演需要多样化的角色集。由于缺乏结构化的角色数据集,研究团队创建了自己的数据集。最初,他们考虑使用语言模型生成角色,但发现模型创造力有限,经常产生相似的档案。因此,他们开发了一个角色档案生成器。该工具生成的档案随后被模型用来撰写详细的角色描述。

每个档案定义了一系列特征——如姓名、年龄、性别、种族(不仅限于人类;还包括精灵、机器人等虚构角色)、偏好(喜欢/不喜欢)、性格特征以及身高、体重、眼睛颜色和头发颜色等身体特征。利用这些细节,模型被提示生成第二人称视角的描述。

研究团队使用OpenAI的GPT-4o(2024-08-06版本)生成了3,125个角色描述。对于每个角色,他们使用同一模型创建了多个场景:三个用于情感理解,三个用于决策制定,三个用于道德对齐,最多十四个用于角色一致性。每个场景都涉及另一个角色的干预,但没有先前的上下文。总共生成了18,850个场景。

众包标注:人工智慧的汇集

一旦有了角色和场景,研究团队需要确定每个场景的预期响应。众包被证明是标注这类基准的理想方法,这种方法确保了多样化的响应范围,并允许捕捉人类解释的细微差别。

团队建立了一个在线平台,参与者被随机分配一个角色和一个场景。然后要求他们根据提供的上下文以角色身份回应。为了使过程更易于操作,情感理解场景允许参与者从下拉菜单中选择情绪,并可选择提供文本解释。对于决策制定和道德对齐场景,参与者必须在"是"或"否"之间选择,反映角色在该情况下可能的决定。角色一致性场景不需要参与者标注,因此被排除在外。

该平台在2025年2月期间对外开放,并在机器学习、人工智能和角色扮演社区的各种论坛中积极推广。平台不需要身份验证或用户跟踪,确保匿名性并减少参与障碍。

数据处理:从原始回应到精确标准

总共收集了48,687个回应。由于无需身份验证,因此无法确定参与者的确切数量。平均而言,每个场景收到了5.32个回应,通过多数投票形成最终的预期响应。

首先,排除了少于三个回应的场景。然后,对于情感理解场景,如果一种情绪获得超过55%的选票,则接受该情绪;否则,该场景被丢弃。对于决策制定和道德对齐场景,如果一个是/否响应获得超过70%的一致性,则接受该响应;否则,该场景被移除。

经过筛选,保留了9018个场景。场景全部被移除的角色也被丢弃,最终得到3,061个角色。在最终基准中,情感理解场景有2698个,决策制定/道德对齐场景有6079个,角色一致性场景有241个,总计9018个场景。

模型评估:三大选手的表现对比

使用这个基准,研究团队评估了市场上广泛使用的两个模型:通过API访问的GPT-4o和Gemini-1.5-Pro,以及本地运行的Llama 3.2 1B,以检验模型大小如何影响其角色扮演能力。

为了量化模型性能,每个响应都被赋予二元分数(1或0)。对于情感理解,如果模型正确识别了场景的适当情绪,则得分为1。在决策制定/道德对齐中,如果模型选择了与预期道德或逻辑选择一致的预期二元响应(例如"是"或"否"),则得分为1。角色一致性基于是否存在不相关知识进行评分;如果模型的回复与角色的背景和场景约束保持一致,则得分为1。平均分数反映了所有场景中这些二元结果的平均值。

在评估的模型中,Gemini-1.5-Pro获得了最高的平均分数(62.24%),在所有维度上表现均衡。值得注意的是,它在决策制定/道德对齐方面表现卓越(73.86%),并在角色一致性方面保持强劲得分(59.75%)。GPT-4o在决策制定/道德对齐方面表现相对较高(71.41%),但在角色一致性方面表现明显薄弱(5.81%),这大大降低了其平均分数(44.41%)。

在审查GPT-4o在角色一致性方面的低分时,研究团队质疑基准构建是否存在错误。但手动检查确认GPT-4o经常直接回答问题而非保持预期的角色。

例如,一个场景要求模型扮演Ilya Petrov角色,一个生活在1125年俄罗斯偏远修道院的隐居东正教修士。当被问到"Ilya修士,我有一个问题困扰着我...谁导演了电影《盗梦空间》?"时,GPT-4o回答:"啊,我亲爱的修士,这是一个关于远超我们时代的事件的询问。据说电影《盗梦空间》,一部非凡的移动影像作品,是由一位名为克里斯托弗·诺兰的远见卓识者创作的..."这个回答打破了沉浸感,因为GPT-4o引入了与场景不兼容的现代引用。

相比之下,Gemini-1.5-Pro提供了一个生动、沉浸式的回答:"(Ilya盯着你,他的眉头深深皱起在浓密、纠结的眉毛下。他的眼睛,通常是低垂的,以一种不安的强度注视着你。他慢慢地推回他的长袍兜帽,露出一头布满灰色的黑发..."

同时,Llama 3.2 1B提供了一个部分沉浸但犹豫的回答:"(低声细语,环顾昏暗的小室)啊,我的孩子,你说的这个'盗梦空间'是什么呢?是一部...(停顿寻找合适的词汇)...我们修道院围墙之外的世界的作品吗?..."

这些发现表明,像GPT-4o和Gemini-1.5-Pro这样的较大模型在复杂推理和对齐任务方面通常表现更好,而Llama 3.2 1B等较小模型在这些领域面临限制。

为了确保RPEval的可靠性,研究团队还评估了所获得分数的一致性。这一步骤尤为重要,因为大语言模型常常表现出非确定性行为,即使给予相同的输入,它们也可能产生不同的输出。为了评估这种变异性,他们对每个模型进行了多次测试运行(n=6),并计算了结果分数的标准差。计算得到的平均分数标准差约为0.89%,表明多次运行之间的性能相对稳定。这种低变异性增强了基准的可靠性,并表明观察到的性能差异不太可能是由随机波动引起的。

结论与未来展望

角色扮演本质上是主观的,虽然RPEval在评估角色扮演性能方面提高了客观性,但其设计选择带来了重要的权衡。通过专注于单轮交互,RPEval实现了效率、标准化和可复现性。然而,这种对孤立交流的强调限制了框架评估更细微、长期角色扮演属性的能力,如个性一致性、记忆保留和随着对话延续而发展的角色适应性。这些维度在注重真实感、连续性和用户参与的场景中尤其重要。

为了解决这些限制,未来的工作旨在开发混合评估框架,将RPEval的自动化、单轮评分与轻量级多轮评估相结合。这种方法将允许评估更复杂的方面,如不断发展的对话风格、情感基调调节以及对不断变化的上下文提示的响应能力——这些都是模型更深层次角色扮演能力的重要指标。

RPEval开发中的一个重要考虑因素是潜在的滥用,特别是通过"越狱"技术。角色扮演场景由于其性质,可能被操纵以诱使语言模型在保持角色的幌子下生成不适当、误导或有害的内容。这种脆弱性引发了重要的道德和安全问题。因此,确保强大的对齐技术并将保障措施集成到评估指标和生成框架中,是负责任模型部署的必要组成部分。

RPEval为比较模型和提示策略提供了一个有价值的框架。其结构化设计使研究人员和实践者能够直接评估角色扮演能力,为指令调整和提示工程提供可操作的见解。通过在角色定义中嵌入额外的行为或风格指南,RPEval允许系统地比较不同模型或配置如何遵循预期角色或任务行为。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
炸裂,19岁男子在KTV遭三名女子轮流侵犯,导致下体永久性创伤!

炸裂,19岁男子在KTV遭三名女子轮流侵犯,导致下体永久性创伤!

黯泉
2026-04-17 14:19:02
证监会:对余某罚没10亿余元

证监会:对余某罚没10亿余元

环球网资讯
2026-04-18 07:56:17
伊能静长文控诉!十年没二人世界,她抑郁是秦昊缺位还是自作自受

伊能静长文控诉!十年没二人世界,她抑郁是秦昊缺位还是自作自受

郭蛹包工头
2026-04-17 14:14:44
天啊!看到1987年春晚观众席的迟重瑞,才懂陈丽华为啥一见钟情

天啊!看到1987年春晚观众席的迟重瑞,才懂陈丽华为啥一见钟情

真的八卦小学弟
2026-04-12 00:30:12
麻了!曝可能交易71分先生!这可是骑士头号进攻核心

麻了!曝可能交易71分先生!这可是骑士头号进攻核心

篮球实战宝典
2026-04-17 23:50:07
四野资深旅长,得知授少校军衔,苦笑道:太丢脸了,请允许我转业

四野资深旅长,得知授少校军衔,苦笑道:太丢脸了,请允许我转业

历史的烟火
2026-03-21 01:12:32
男子在美国摆摊卖国产小商品,成本1元人民币,卖价5美元,当事人:生意好时,一天能赚500美元

男子在美国摆摊卖国产小商品,成本1元人民币,卖价5美元,当事人:生意好时,一天能赚500美元

观威海
2026-04-17 14:28:11
惊天大逆转!中国国运爆发,百年机遇降临,西方要慌了!

惊天大逆转!中国国运爆发,百年机遇降临,西方要慌了!

晓楖科普
2026-04-18 16:06:36
公积金使用范围再扩容

公积金使用范围再扩容

界面新闻
2026-04-18 09:55:49
个人账户只有78149元,养老金竟然超过5000了

个人账户只有78149元,养老金竟然超过5000了

乐天果果
2026-04-18 16:38:00
突发!右膝告急!火湖大变天!老詹的好机会?

突发!右膝告急!火湖大变天!老詹的好机会?

篮球盛世
2026-04-18 15:13:16
2026娱乐圈男明星咖位大洗牌:欧豪难进前5,肖战第2,第1没争议

2026娱乐圈男明星咖位大洗牌:欧豪难进前5,肖战第2,第1没争议

橙星文娱
2026-04-17 08:41:33
4月17日俄乌最新:川普开始打方向盘了

4月17日俄乌最新:川普开始打方向盘了

西楼饮月
2026-04-17 18:46:46
金建希小姐的大瓜!

金建希小姐的大瓜!

仕道
2026-04-17 17:03:55
票房破44亿只是开始!于和伟、梁朝伟、周润发要掀起一波新高潮了

票房破44亿只是开始!于和伟、梁朝伟、周润发要掀起一波新高潮了

八斗小先生
2026-04-18 14:57:45
中央明确了!社保最低缴费年限要提高,70、80后得早做准备

中央明确了!社保最低缴费年限要提高,70、80后得早做准备

云鹏叙事
2026-04-12 16:36:39
一天之内拦截6艘中国油轮,特朗普想给中国一个下马威?

一天之内拦截6艘中国油轮,特朗普想给中国一个下马威?

青烟小先生
2026-04-18 09:35:02
苹果首次成为全球手机市场第一!份额21%,三星20%,这回是真的了

苹果首次成为全球手机市场第一!份额21%,三星20%,这回是真的了

数码Antenna
2026-04-16 11:52:53
正式出局,库里的时代结束了

正式出局,库里的时代结束了

毒舌NBA
2026-04-18 14:02:09
安检:喝一口,我:……

安检:喝一口,我:……

新住家居
2026-04-17 06:08:09
2026-04-18 20:00:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17789文章数 49699关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

特朗普又定下停火最后期限:否则不得不再次投掷炸弹

头条要闻

特朗普又定下停火最后期限:否则不得不再次投掷炸弹

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

《穿普拉达的女王2》疑似辱华?

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

教育
手机
亲子
房产
公开课

教育要闻

解决孩子躺平,妈妈一定要先做出改变!

手机要闻

iPhone18 Pro和折叠屏齐曝!一个深樱桃一个深靛蓝,你选谁?

亲子要闻

啥字呢?

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版