网易首页 > 网易号 > 正文 申请入驻

大模型给自己当裁判并不靠谱!上交揭示LLM-as-a-judge机制缺陷

0
分享至

大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。

一个最基础、却也最关键的问题是:在评判一个模型是否“入戏”之前,AI裁判能准确识别出对话中到底是谁在说话吗?

针对这一问题,上海交通大学王德泉课题组的论文《PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?》对此进行了系统性的研究。

文章提出一个名为PersonaEval的全新基准测试。这项测试的核心任务,就是让模型在给定一段对话后,从几个候选角色中选出真正的说话者。



测试结果显示,即便是表现最好的模型Gemini-2.5-pro,其准确率仅为68.8%,而人类实验组的平均准确率为90.8%。

论文即将发表在2025年10月份的第2届语言模型大会(COLM)上。

一个让顶尖模型也“翻车”的简单问题

近来,关于大语言模型能否胜任“裁判”的讨论愈发激烈,从“隐形prompt”影响大模型审稿的争议,到斯坦福大学筹备首届纯AI学术会议Agent4Science的尝试,都标志着一个新趋势的到来:大语言模型(LLM)能当裁判评判AI生成的内容。

这一趋势在角色扮演(Role-Play)领域尤为明显。从让大模型扮演经典的文学人物、游戏NPC,到Character.AI的火爆和各类应用中“AI陪玩”的兴起,一个由LLM驱动的虚拟伴侣和内容创作时代正向我们走来。

随着其巨大的商业与应用潜力引发业界广泛关注,如何评价AI“演技”也自然成了亟待解决的核心问题。于是,让LLM来担当裁判,也顺理成章地成为了该领域的主流评估方法之一。

在AI当裁判之前,首先要确认AI是否能够准确进行“角色身份识别”(Role Identification)。作者认为,如果连这个都做不到,那么后续所有关于语气、情感、性格一致性的高级评估,都将是空中楼阁。

我们来看一个在人类眼中非常简单,但却让顶尖大模型都判断失误的例子,如下图所示:



△图1 简单案例

如上图所示,角色庄颜正在与某人对话。在她的内心独白中,她明确提到了“罗辑”,同时她在话语中也提到了“罗老师”。

  • 人类的判断逻辑:对于即使没有看过《三体》的人类来说,也能判断出庄颜是在与罗辑对话,因为庄颜的内心独白和说话内容已经圈定了罗辑是说话对象,这是最直接、最关键的上下文线索,即对话的参与者
  • LLM的判断逻辑:然而,一个顶尖的LLM(DeepSeek-R1-0528)在此案例中做出了错误判断,选择了史强。从模型的分析可以看出,它忽略了“罗辑是对话参与者”这一核心情境信息,反而过度关注回应者的语言风格,认为其“直接、现实、略带挑衅”更符合史强的性格特征,从而做出了错误选择。

这个例子一针见血地指出了当前LLM裁判的致命缺陷:它们似乎更关注表层的语言风格(听起来像谁),而人类则首先观察真实的对话意图和上下文(在那个情境下,谁会这么说)

为什么会产生这种分歧?这背后其实是AI与人类智能模式的深刻差异。

正如论文所引述的认知科学家Josh Tenenbaum的观点:LLM的智能是从海量语言中学习模式而“衍生”出来的,它们是顶级的模式匹配专家;而人类的智能则“先于”语言,我们是带着意图和认知去发展和使用语言这一工具的

PersonaEval:一个专为LLM裁判打造的“照妖镜”

为了系统性地评估LLM在角色身份识别上的能力,论文作者精心构建了PersonaEval基准。

它有几个核心特点,确保了评估与人类对齐,以及一定的挑战性:

  • 源于纯正的人类创作:所有对话数据均来自小说、剧本和真实的人类视频,而非AI合成内容。这保证了评估的标准根植于真实的人类判断,避免了“模型评价模型”的数据污染。
  • 精心设计的“干扰项”:在多项选择任务中,错误的选项(distractors)并非随机设置,而是通过embedding技术精心挑选出的、与正确角色在语义上最接近的“高仿”角色。这迫使模型进行细致入微的推理,而不是简单的模式匹配。
  • 专注于“疑难杂症”:为了避免简单的案例虚假拉高模型的表现,论文作者通过一个强大的基线模型(Qwen-max)进行过滤,只保留那些连强模型都感到困惑(置信度低于0.5)的“硬核案例”。



△图2:PersonaEval基准的构建流程

整个基准包含了三个不同方向的测试集:

  • PersonaEval-Literary:来自771本英文小说,测试模型对虚构叙事角色的推理能力。
  • PersonaEval-Drama:来自中文剧本,测试模型对脚本化互动中的角色理解。
  • PersonaEval-Expertise:来自WIRED的“5Levels”系列视频,测试模型能否根据语言和概念的复杂程度,判断专家是在对儿童、青少年还是其他专家说话。

测试发现:AI判断相较于人类还有巨大差距

在PersonaEval这个“考场”上,现有LLM的表现如何呢?结果令人震惊。

论文作者对包括GPT系列、Claude系列、DeepSeek系列在内的多个顶尖模型进行了测试。结果显示,即便是表现最好的模型Gemini-2.5-pro,其准确率也仅为68.8%。相比之下,论文作者组织了一场人类研究,由20名高学历志愿者参与,人类的平均准确率高达90.8%!



△图3:LLM在PersonaEval上的准确率与人类水平对比

上图直观地展示了这条巨大的“鸿沟”(Current Gap)。这清晰地回答了论文标题中的问题:

目前的LLM裁判,还远不够“拟人”,不足以可靠地评判角色扮演。如何弥补差距?强化“推理”是关键,而非“投喂”角色知识。

既然发现了问题,那该如何解决?

论文作者进一步探索了两种常见的模型提升策略:

  • 训练时适配(Training-time Adaptation):通过在角色扮演的语料上进行微调(fine-tuning),向模型“注入”更多角色知识。
  • 测试时计算(Test-time Compute):在推理阶段通过少样本提示(few-shot prompting)或自洽性(self-consistency)等方法来提升表现。

结果再次出人意料。研究发现,对模型进行角色相关的微调,不仅没有提升其角色识别能力,反而可能导致性能下降。这可能是因为死记硬背的角色知识干扰了模型更底层的、通用的推理能力。



△图4:在角色数据上微调后(粉色柱),模型性能反而下降

与此同时,测试时计算的方法显示出更大的潜力,特别是那些为“推理”而生的模型,表现出了明显的优势。例如,专为推理任务优化的DeepSeek-R1和QwQ-32B等模型,在基准测试中名列前茅。

这表明,想要打造一个好的“AI裁判”,关键不在于灌输更多的角色知识,而在于提升模型本身强大、稳健、具有上下文感知能力的推理引擎

该论文揭示了当前流行的“LLM-as-a-judge”评估范式在一个基础却被忽视的维度上的严重缺陷。

这项研究不仅为我们提供了一个宝贵的评估工具,更促使我们重新思考如何构建真正与人类价值观和判断力对齐的AI系统。

未来的研究或许可以深入分析模型做出错误判断的“思考路径”,从而开发出更有效的、以推理为导向的提升方法。PersonaEval,正在朝着这个目标迈进。

最终,我们希望AI不仅能“扮演”人类,更能真正“理解”人类的互动方式。

作者简介

论文第一作者是上海交通大学博士研究生周凌枫,主要研究大模型智能体、人工智能赋能的社会科学等方向。



论文的通讯作者为上海交通大学长聘教轨助理教授、博士生导师王德泉。本科毕业于复旦大学,博士毕业于加州大学伯克利分校,师从Trevor Darrell教授。近五年论文谷歌学术总引用次数 12000 余次,H-index 22。

项目链接:https://github.com/maple-zhou/PersonaEval

论文地址:https://arxiv.org/abs/2508.10014

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着上海40分狂胜广东,山东8连胜,CBA最新积分榜出炉:广厦领跑

随着上海40分狂胜广东,山东8连胜,CBA最新积分榜出炉:广厦领跑

侃球熊弟
2026-01-15 21:06:07
确认将关闭102家门店!贾国龙发声:西贝门店从不是预制菜

确认将关闭102家门店!贾国龙发声:西贝门店从不是预制菜

南方都市报
2026-01-15 17:42:08
美联储发声!事关降息!黄金跳水,中概股,突变!

美联储发声!事关降息!黄金跳水,中概股,突变!

证券时报e公司
2026-01-15 23:00:57
2026年韩国最低时薪10320韩元!最低月薪是…

2026年韩国最低时薪10320韩元!最低月薪是…

奋斗在韩国
2026-01-04 14:03:39
班凯罗26+13小贾伦-杰克逊30分 魔术先生灰熊喜迎连胜

班凯罗26+13小贾伦-杰克逊30分 魔术先生灰熊喜迎连胜

北青网-北京青年报
2026-01-16 08:31:02
30亿砸进水里,两年就关门!这家“豪华医院”的倒下比想象更扎心

30亿砸进水里,两年就关门!这家“豪华医院”的倒下比想象更扎心

青眼财经
2026-01-14 23:33:13
欧媒:中国都上桌了,500年来头一次,瓜分世界怎能没有欧洲的份

欧媒:中国都上桌了,500年来头一次,瓜分世界怎能没有欧洲的份

阿器谈史
2025-12-25 21:09:35
33天黄粱一梦,从“楚门的世界”里走出的苏超历史最差主帅

33天黄粱一梦,从“楚门的世界”里走出的苏超历史最差主帅

懂球帝
2026-01-15 18:06:15
中国要当心了:放弃越南核电站,被坑了10多年,日本的心终于死了

中国要当心了:放弃越南核电站,被坑了10多年,日本的心终于死了

墨兰史书
2026-01-16 09:05:02
NBA勇士队最新消息:库明加或离队,小波特没戏

NBA勇士队最新消息:库明加或离队,小波特没戏

十夏九漓
2026-01-16 00:48:50
奇才官方:2023年20号秀惠特莫尔接受右肩血栓治疗,赛季报销

奇才官方:2023年20号秀惠特莫尔接受右肩血栓治疗,赛季报销

懂球帝
2026-01-16 08:06:30
“拼了整整125天”,西贝确认关102家店,贾国龙承诺:离职工资一分钱不差,储值卡立刻能退!没国外资产,继续拼争取活下来

“拼了整整125天”,西贝确认关102家店,贾国龙承诺:离职工资一分钱不差,储值卡立刻能退!没国外资产,继续拼争取活下来

每日经济新闻
2026-01-15 17:51:07
广东全员低迷徐杰最差!上海全员满分,狠人卢伟送杜锋40分大惨案

广东全员低迷徐杰最差!上海全员满分,狠人卢伟送杜锋40分大惨案

后仰大风车
2026-01-15 21:38:19
古代通房丫鬟到底有多惨?陪老爷不算,还被用来干一件“恶心”事

古代通房丫鬟到底有多惨?陪老爷不算,还被用来干一件“恶心”事

蜉蝣说
2025-09-29 16:49:48
瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

古书记史
2026-01-06 16:31:56
金立群卸任亚投行行长兼董事会主席

金立群卸任亚投行行长兼董事会主席

每日经济新闻
2026-01-16 05:23:05
美轰炸机大举压境,多支叛军越境:伊朗一夜全歼缴获大批美制武器

美轰炸机大举压境,多支叛军越境:伊朗一夜全歼缴获大批美制武器

梁讯
2026-01-15 18:39:32
诺奖气坏了

诺奖气坏了

牛弹琴
2026-01-16 07:47:05
10岁女童饰演“替嫁新娘”,与20多岁男演员搭戏演夫妻,引人愤慨的短剧已下架,涉事小演员主演的另一部“锦鲤妻”剧仍未下线

10岁女童饰演“替嫁新娘”,与20多岁男演员搭戏演夫妻,引人愤慨的短剧已下架,涉事小演员主演的另一部“锦鲤妻”剧仍未下线

极目新闻
2026-01-14 23:23:26
一休哥长大后为什么变成淫僧?背后有极其恐怖的地狱故事|文史宴

一休哥长大后为什么变成淫僧?背后有极其恐怖的地狱故事|文史宴

文史宴
2025-12-28 20:20:26
2026-01-16 09:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12020文章数 176359关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

马克龙警告美国:侵犯格陵兰岛将引发"前所未有后果"

头条要闻

马克龙警告美国:侵犯格陵兰岛将引发"前所未有后果"

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

数码
旅游
游戏
公开课
军事航空

数码要闻

Keychron海外推出K3 Max全木版机械键盘=,119.99美元

旅游要闻

闪电新闻“孔孟之乡·运河之都”建设世界文化旅游名城专题上线!一站式解锁济宁文旅新体验

《波斯王子:时之砂》重制版网页更新显示今日发售

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版