网易首页 > 网易号 > 正文 申请入驻

大模型给自己当裁判并不靠谱!上交揭示LLM-as-a-judge机制缺陷

0
分享至

大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。

一个最基础、却也最关键的问题是:在评判一个模型是否“入戏”之前,AI裁判能准确识别出对话中到底是谁在说话吗?

针对这一问题,上海交通大学王德泉课题组的论文《PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?》对此进行了系统性的研究。

文章提出一个名为PersonaEval的全新基准测试。这项测试的核心任务,就是让模型在给定一段对话后,从几个候选角色中选出真正的说话者。

测试结果显示,即便是表现最好的模型Gemini-2.5-pro,其准确率仅为68.8%,而人类实验组的平均准确率为90.8%。

论文即将发表在2025年10月份的第2届语言模型大会(COLM)上。

一个让顶尖模型也“翻车”的简单问题

近来,关于大语言模型能否胜任“裁判”的讨论愈发激烈,从“隐形prompt”影响大模型审稿的争议,到斯坦福大学筹备首届纯AI学术会议Agent4Science的尝试,都标志着一个新趋势的到来:大语言模型(LLM)能当裁判评判AI生成的内容。

这一趋势在角色扮演(Role-Play)领域尤为明显。从让大模型扮演经典的文学人物、游戏NPC,到Character.AI的火爆和各类应用中“AI陪玩”的兴起,一个由LLM驱动的虚拟伴侣和内容创作时代正向我们走来。

随着其巨大的商业与应用潜力引发业界广泛关注,如何评价AI“演技”也自然成了亟待解决的核心问题。于是,让LLM来担当裁判,也顺理成章地成为了该领域的主流评估方法之一。

在AI当裁判之前,首先要确认AI是否能够准确进行“角色身份识别”(Role Identification)。作者认为,如果连这个都做不到,那么后续所有关于语气、情感、性格一致性的高级评估,都将是空中楼阁。

我们来看一个在人类眼中非常简单,但却让顶尖大模型都判断失误的例子,如下图所示:

△图1 简单案例

如上图所示,角色庄颜正在与某人对话。在她的内心独白中,她明确提到了“罗辑”,同时她在话语中也提到了“罗老师”。

  • 人类的判断逻辑:对于即使没有看过《三体》的人类来说,也能判断出庄颜是在与罗辑对话,因为庄颜的内心独白和说话内容已经圈定了罗辑是说话对象,这是最直接、最关键的上下文线索,即对话的参与者
  • LLM的判断逻辑:然而,一个顶尖的LLM(DeepSeek-R1-0528)在此案例中做出了错误判断,选择了史强。从模型的分析可以看出,它忽略了“罗辑是对话参与者”这一核心情境信息,反而过度关注回应者的语言风格,认为其“直接、现实、略带挑衅”更符合史强的性格特征,从而做出了错误选择。

这个例子一针见血地指出了当前LLM裁判的致命缺陷:它们似乎更关注表层的语言风格(听起来像谁),而人类则首先观察真实的对话意图和上下文(在那个情境下,谁会这么说)

为什么会产生这种分歧?这背后其实是AI与人类智能模式的深刻差异。

正如论文所引述的认知科学家Josh Tenenbaum的观点:LLM的智能是从海量语言中学习模式而“衍生”出来的,它们是顶级的模式匹配专家;而人类的智能则“先于”语言,我们是带着意图和认知去发展和使用语言这一工具的

PersonaEval:一个专为LLM裁判打造的“照妖镜”

为了系统性地评估LLM在角色身份识别上的能力,论文作者精心构建了PersonaEval基准。

它有几个核心特点,确保了评估与人类对齐,以及一定的挑战性:

  • 源于纯正的人类创作:所有对话数据均来自小说、剧本和真实的人类视频,而非AI合成内容。这保证了评估的标准根植于真实的人类判断,避免了“模型评价模型”的数据污染。
  • 精心设计的“干扰项”:在多项选择任务中,错误的选项(distractors)并非随机设置,而是通过embedding技术精心挑选出的、与正确角色在语义上最接近的“高仿”角色。这迫使模型进行细致入微的推理,而不是简单的模式匹配。
  • 专注于“疑难杂症”:为了避免简单的案例虚假拉高模型的表现,论文作者通过一个强大的基线模型(Qwen-max)进行过滤,只保留那些连强模型都感到困惑(置信度低于0.5)的“硬核案例”。

△图2:PersonaEval基准的构建流程

整个基准包含了三个不同方向的测试集:

  • PersonaEval-Literary:来自771本英文小说,测试模型对虚构叙事角色的推理能力。
  • PersonaEval-Drama:来自中文剧本,测试模型对脚本化互动中的角色理解。
  • PersonaEval-Expertise:来自WIRED的“5Levels”系列视频,测试模型能否根据语言和概念的复杂程度,判断专家是在对儿童、青少年还是其他专家说话。

测试发现:AI判断相较于人类还有巨大差距

在PersonaEval这个“考场”上,现有LLM的表现如何呢?结果令人震惊。

论文作者对包括GPT系列、Claude系列、DeepSeek系列在内的多个顶尖模型进行了测试。结果显示,即便是表现最好的模型Gemini-2.5-pro,其准确率也仅为68.8%。相比之下,论文作者组织了一场人类研究,由20名高学历志愿者参与,人类的平均准确率高达90.8%!

△图3:LLM在PersonaEval上的准确率与人类水平对比

上图直观地展示了这条巨大的“鸿沟”(Current Gap)。这清晰地回答了论文标题中的问题:

目前的LLM裁判,还远不够“拟人”,不足以可靠地评判角色扮演。如何弥补差距?强化“推理”是关键,而非“投喂”角色知识。

既然发现了问题,那该如何解决?

论文作者进一步探索了两种常见的模型提升策略:

  • 训练时适配(Training-time Adaptation):通过在角色扮演的语料上进行微调(fine-tuning),向模型“注入”更多角色知识。
  • 测试时计算(Test-time Compute):在推理阶段通过少样本提示(few-shot prompting)或自洽性(self-consistency)等方法来提升表现。

结果再次出人意料。研究发现,对模型进行角色相关的微调,不仅没有提升其角色识别能力,反而可能导致性能下降。这可能是因为死记硬背的角色知识干扰了模型更底层的、通用的推理能力。

△图4:在角色数据上微调后(粉色柱),模型性能反而下降

与此同时,测试时计算的方法显示出更大的潜力,特别是那些为“推理”而生的模型,表现出了明显的优势。例如,专为推理任务优化的DeepSeek-R1和QwQ-32B等模型,在基准测试中名列前茅。

这表明,想要打造一个好的“AI裁判”,关键不在于灌输更多的角色知识,而在于提升模型本身强大、稳健、具有上下文感知能力的推理引擎

该论文揭示了当前流行的“LLM-as-a-judge”评估范式在一个基础却被忽视的维度上的严重缺陷。

这项研究不仅为我们提供了一个宝贵的评估工具,更促使我们重新思考如何构建真正与人类价值观和判断力对齐的AI系统。

未来的研究或许可以深入分析模型做出错误判断的“思考路径”,从而开发出更有效的、以推理为导向的提升方法。PersonaEval,正在朝着这个目标迈进。

最终,我们希望AI不仅能“扮演”人类,更能真正“理解”人类的互动方式。

作者简介

论文第一作者是上海交通大学博士研究生周凌枫,主要研究大模型智能体、人工智能赋能的社会科学等方向。

论文的通讯作者为上海交通大学长聘教轨助理教授、博士生导师王德泉。本科毕业于复旦大学,博士毕业于加州大学伯克利分校,师从Trevor Darrell教授。近五年论文谷歌学术总引用次数 12000 余次,H-index 22。

项目链接:https://github.com/maple-zhou/PersonaEval

论文地址:https://arxiv.org/abs/2508.10014

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个多月内,青岛两名市委常委相继落马

一个多月内,青岛两名市委常委相继落马

中国青年报
2026-04-20 22:08:12
混到我这个地步,已经没什么救了~

混到我这个地步,已经没什么救了~

果粉之家
2026-03-27 14:56:34
劳伦斯11大奖项揭晓:网球包揽男女最佳!巴黎获年度团队 中国0奖

劳伦斯11大奖项揭晓:网球包揽男女最佳!巴黎获年度团队 中国0奖

我爱英超
2026-04-21 06:25:56
一个收入不高的人,可以伪精致到什么程度?网友:天天为账单发愁

一个收入不高的人,可以伪精致到什么程度?网友:天天为账单发愁

另子维爱读史
2026-04-20 09:36:56
比哈弗茨更该走人!阿森纳昔日核心彻底下滑,沦为新版津琴科

比哈弗茨更该走人!阿森纳昔日核心彻底下滑,沦为新版津琴科

澜归序
2026-04-21 06:09:10
说走就走、撤得干干净净的人,终究还是回来了。

说走就走、撤得干干净净的人,终究还是回来了。

小光侃娱乐
2026-04-20 12:40:03
三方重磅交易!欧文奔赴森林狼联手华子 独行侠血赚 快船补强内线

三方重磅交易!欧文奔赴森林狼联手华子 独行侠血赚 快船补强内线

钱说体育
2026-04-21 06:36:36
勇士队内部人士:库里目前合同剩1年6260万美元,计划今夏续约2年

勇士队内部人士:库里目前合同剩1年6260万美元,计划今夏续约2年

好火子
2026-04-21 00:24:13
代总统领头 委内瑞拉发起全国反美制裁游行

代总统领头 委内瑞拉发起全国反美制裁游行

看看新闻Knews
2026-04-20 20:48:04
央美同学抄袭博主作品参加服设大赛,博主发声:原封不动抄袭,非常震惊;组委会回应:已取消参赛资格

央美同学抄袭博主作品参加服设大赛,博主发声:原封不动抄袭,非常震惊;组委会回应:已取消参赛资格

扬子晚报
2026-04-20 21:52:59
马蹄露自荐做团长后续!张敬轩粉丝不忍了,开始发文攻击了

马蹄露自荐做团长后续!张敬轩粉丝不忍了,开始发文攻击了

小徐讲八卦
2026-04-19 11:27:40
5月1日起严查!退休人员注意这3件“人情事”,碰了就可能涉刑

5月1日起严查!退休人员注意这3件“人情事”,碰了就可能涉刑

复转这些年
2026-04-20 17:25:56
以牙还牙!中国052D直接冲入横当水道,从日本导弹眼皮底下过!

以牙还牙!中国052D直接冲入横当水道,从日本导弹眼皮底下过!

阿龙聊军事
2026-04-20 19:13:31
太揪心!女星流产5次痛失7子,试管圆梦后,43岁执意再拼二胎

太揪心!女星流产5次痛失7子,试管圆梦后,43岁执意再拼二胎

一盅情怀
2026-04-20 14:43:07
小资金做大的最好方式,“月线看趋势,周线看上下,日线看买卖”

小资金做大的最好方式,“月线看趋势,周线看上下,日线看买卖”

一方聊市
2026-04-19 20:25:03
世锦赛第四日战况:希金斯10-7力克卡特,囧哥七连鞭淘汰未来新星

世锦赛第四日战况:希金斯10-7力克卡特,囧哥七连鞭淘汰未来新星

金木原创
2026-04-21 07:58:38
55岁上海炒股冠军罕见发声:如果本金有20W,建议死磕这五条铁律

55岁上海炒股冠军罕见发声:如果本金有20W,建议死磕这五条铁律

股经纵横谈
2026-04-19 19:03:09
这个90后女演员凭什么击败章子怡、马丽,夺得金像影后桂冠

这个90后女演员凭什么击败章子怡、马丽,夺得金像影后桂冠

新民周刊
2026-04-20 11:37:22
中东,突传大消息!特朗普最新发声!原油跳水,黄金、白银突变!

中东,突传大消息!特朗普最新发声!原油跳水,黄金、白银突变!

证券时报e公司
2026-04-21 07:44:39
同样是一线城市,北京和上海差距太大,4个真实感受,越想越明白

同样是一线城市,北京和上海差距太大,4个真实感受,越想越明白

娱乐圈见解说
2026-04-21 00:53:31
2026-04-21 08:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
12504文章数 176457关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

特朗普两天三次反转 伊朗学习特朗普玩起"极限施压"

头条要闻

特朗普两天三次反转 伊朗学习特朗普玩起"极限施压"

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

艺术
家居
手机
健康
军事航空

艺术要闻

春天最适合小住三五天的地方

家居要闻

自然慢调 慢享时光

手机要闻

苹果被曝下调 iPhone 18 规格以压缩成本

干细胞抗衰4大误区,90%的人都中招

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版