网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

LLM-as-a-judge有30%评测偏差？这篇论文给出修复方案

2026-01-09 22:39:50　来源: deephub

北京举报

0

分享至

用LLM给LLM打分，这个看起来很聪明的做法正在让AI评估变得不可靠。KRAFTON AI的这个工作直指当前LLM评估体系的软肋：作为评判者的语言模型本身就带有系统性偏差，而这种偏差在Chatbot Arena等主流基准测试中可以达到30%左右。也就是说排行榜上那些令人兴奋的性能提升，有相当一部分可能是评估方法的偏差。

评判机制的运作方式

LLM-as-a-judge就是让一个语言模型去评价另一个模型的输出，典型的prompt类似于"这个回答正确吗"或者"两个回答哪个更好"。评判者返回分数或偏好，汇总后得到准确率、胜率之类的指标。

这套流程看着非常完美：人工标注既慢又贵，尤其对话、摘要、创意写作这类开放式任务更是如此，而LLM评判者成本低、速度快、输出稳定，还能给出看起来很有说服力的理由。

所以LLM-as-a-judge已经成了事实上的行业标准，Chatbot Arena用它、无数论文也用它。

偏差从何而来

语言模型做评估时会犯错，但问题不在于犯错本身而在于错误不是随机的它们有规律可循。

论文用两个经典统计指标来刻画这一点：敏感性（q₁）表示正确识别好输出的概率，特异性（q₀）表示正确识别差输出的概率，理想情况下两者都等于1而实际却从来不是。

多数评估直接把评判者标记的"正确"比例当作真实性能，但除非评判者是完美的否则这个观察值就是有偏估计。

我们举个例子：假设评判者对好答案和差答案各有20%的错误率，即便误差对称估计出的准确率也会是真实值的扭曲版本。这样差模型被高估而好模型被低估，而且不同论文用不同评判者，比较就彻底失去意义。

论文里面说在Chatbot Arena数据集上未经校正的偏差接近30%，这个量级足以把一个真正的进步变成看起来的退步或者反过来。

无标签数据也不是免费午餐

我们都会认为观点认为：只要评判者够强，无标签数据就能替代标注数据，这样测试集规模上去了就会消除这个误差。

而这篇论文对此给出了干脆的否定：如果没有标签来直接测准确率就必须有标签来校准评判者。真实值绕不开，只是换了个使用方式。

如果不做校准模型质量和评判者偏差就分不开，只有做了校准才能分离二者。于是就有了一个实际的资源分配问题：如果给定固定的标注预算，是全部用于直接评估模型还是拿一小部分校准评判者、然后在大规模无标签集上评估？

适用边界在哪里

这个问题可以清晰的通过统计学进行回答：

当系统真实准确率在50%附近时直接人工评估的方差最大，需要大量标签才能得到可靠估计。这时候校准过的LLM评判者配合海量无标签数据效率确实更高。

但当系统已经很强或很弱，比如准确率接近0或1那么直接评估反而更好，估计极端概率本身就容易，评判者校准只会引入额外不确定性。

所以说：LLM-as-a-judge是条件性工具，并且只在特定区间有效盲目套用则适得其反。

校正方法

论文借鉴了流行病学中的Rogan-Gladen估计器。原理如下：先在一小批有标签的样本上测出评判者与人类的一致率得到敏感性和特异性的估计值；然后用这两个参数对观察到的分数做数学校正剥离评判者的系统性误差。

结果得到了无偏估计，跨多个模型和基准的实验显示校正后大幅偏差基本消失，并且在某些在朴素评估下看起来稳定的排名校正后发生了逆转。

不确定性量化

校正偏差只是第一步，正确的评估还需要报告评估的不确定性。论文给出的置信区间构造方法考虑了两个方差来源：测试集评估的随机性，以及校准集估计误差率的随机性。

采用带稳定性调整的修正Wald方法后，模拟实验中实现了接近名义的覆盖率——报告95%区间时，真值落在其中的频率确实约为95%。

大量AI论文隐含地宣称确定性而实际上并不存在。两个百分点的改进，如果置信区间重叠哪就什么都不是。严格的区间能遏制过度宣称给炒作降温。

自适应校准策略

论文还有个微妙的发现：不同位置的校准标签价值不等。

错误率在0.5附近时方差最大需要更多样本才能估准。作者提出自适应方案是先跑小规模试点校准，定位不确定性最高的区域，再把剩余标注预算集中投向那里。

实测效果是置信区间缩短10%到20%，好的评估是数据量和数据质量的平衡。

分布偏移下的表现

现实中校准数据和测试数据往往存在差异，很多现有方法比如prediction-powered inference依赖严格的同分布假设，如果假设破了保证也就没了。

论文框架只要求评判者的混淆矩阵保持稳定，在模拟的分布偏移场景下，它维持了无偏性而对照方法失效。

这种泛化性对快速迭代的基准测试尤其有价值：分布漂移是常态不是例外。

总结

LLM-as-a-judge是个好想法但它的统计基础一直没跟上，而这项工作证明自动化评估可以既可扩展又可靠，但是前提是要承认局限、校正偏差。

评估方法应该和模型架构得到同等重视：缩放定律再漂亮、训练技巧再巧妙，测量本身出了问题就全白搭。校准不是可选项而是基础设施级别的需求，如果打算用自动评判者就得为正确使用它分配资源。

而且并非所有任务都适合LLM评判，比如创意性、模糊性强的任务可能从校准后的自动化中获益；数学推理、事实核查这类精确领域，黄金标准标签仍然是刚需。

论文：

https://avoid.overfit.cn/post/17bc4cc132b4453daed96e931c74b6b8

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

大模型碰到真难题了，测了500道，o3 Pro仅通过15%

机器之心Pro 2025-09-15 10:45:10
1 跟贴 1
DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

机器之心Pro 2025-08-07 17:42:34
0 跟贴 0

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

机器之心Pro 2025-10-15 16:05:02
0 跟贴 0

美团上线首个开源“重思考”模型

钛媒体APP 2026-01-16 15:46:13
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0

行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0

未来医生摘得全球第一，临床安全有效性评估新基准

量子位 2025-11-19 11:14:03
0 跟贴 0
爸爸从儿子那学了“功夫”，随后兴奋找妈妈实验，结果惨遭打脸

星沙时报 2026-01-16 10:46:21
94 跟贴 94

GPT-5编程成绩有猫腻！自删23道测试题，关键基准还是自己提的

量子位 2025-08-12 13:12:51
15 跟贴 15
新的殡葬制度将于2026年3月30号执行，大概意思就是：一切从简

下复新鲜事 2026-01-15 10:47:46
0 跟贴 0
小孩蹦迪撞吊扇脑袋被削飞？硬核实验揭穿谣言

青珂记录 2026-01-15 18:48:07
0 跟贴 0
哈佛跌下神坛，浙大超清北排全球第一，全球高等教育迎来新秩序

墨印斋 2026-01-17 12:47:20
20 跟贴 20
“全网最听劝妈妈”30天涨粉超62万，1分钟视频报价3万

大象新闻 2026-01-17 13:09:19
3022 跟贴 3022
中国排面！即使没穿军装也自带气场，队伍整齐划一帅出新高度

北青网-北京青年报 2026-01-17 03:15:56
1354 跟贴 1354
郭正亮：如果这样出招，你能怎么办，看你能撑到什么时候！

阿萌爱生活 2026-01-16 08:55:29
0 跟贴 0
2026年农村土葬新规正式实施，这些变化与你息息相关

携手游人间a 2026-01-17 00:43:30
1 跟贴 1
什么情况下最适合用 T 检验分析？

生物学霸 2025-09-05 10:22:29
0 跟贴 0
格式是否应为数字时代论文筛选标准

中国社会科学网 2026-01-17 13:05:20
1 跟贴 1
吃他汀别忘记定期复查！盯紧这5个指标，远离副作用

药师方健 2026-01-15 21:25:20
6 跟贴 6
嚣张女子私开两百万豪车拒付押金，硬核维权方案来了！

爱家爱车爱生活 2026-01-16 14:34:35
0 跟贴 0
室友新研究的打字方式，感觉比自己的论文更有创新

科教聚焦 2026-01-17 19:18:10
0 跟贴 0
锚定“人造太阳” 中国聚变产业有望2030年迈向商业化

财联社 2026-01-17 08:27:22
1 跟贴 1
美国逼伊朗签“城下之盟”：不答应4个条件，就启动“糟糕方案”

军卫防务 2026-01-16 18:47:17
0 跟贴 0
喜报！揭阳中院1篇论文荣获国家级奖项

揭阳市中级人民法院 2026-01-17 11:16:12
0 跟贴 0
一千多个模型都指向一个通用子空间

机器之心Pro 2025-12-16 18:23:47
0 跟贴 0
三大交易所上调融资保证金比例，A股政策顶出现了吗？

郭施亮 2026-01-15 12:31:52
0 跟贴 0
推荐一个假期好去处！

区老师不是qu老师 2026-01-15 16:11:20
0 跟贴 0
广东云浮一学生上午匿名投诉学校下午就被找到？校方通报

新京报 2026-01-17 12:13:05
2158 跟贴 2158
高血脂的误区你占了多少？化验单真正关注的是这几个指标

崔强医生 2026-01-17 02:45:13
0 跟贴 0
学霸思维训练：几个一半模型的综合应用

公考客栈店小二 2026-01-15 18:00:00
0 跟贴 0
传统论文概念被颠覆，全新视角重新来审视，论文定义彻底焕新颜

趣味加工厂 2026-01-17 00:00:00
0 跟贴 0
到账了别着急着取

彭彭师姐说情感 2026-01-15 18:15:00
0 跟贴 0
方案敲定？特朗普提出要求后，6架军机出动，以方专机动向不寻常

苏浩 2026-01-16 10:54:12
0 跟贴 0
科学家用实验告诉你如何实现灵魂出窍

barry看世界 2026-01-18 00:14:19
0 跟贴 0
教育产业日报(01.16) : 教育科研动态

亿欧 2026-01-17 11:58:06
0 跟贴 0
武汉胃在巴黎被安抚了！蔡林记欧洲首店在法国试营业，热干面10.5欧一碗，仅在晚上迎客，网友：“过早”变成了“过晚”

极目新闻 2026-01-17 18:43:13
269 跟贴 269
美国移民政策突变，国际人才争夺战愈演愈烈

半壁胭脂色 2026-01-16 04:45:09
0 跟贴 0
“公司春节放假35天”引热议！员工按时离岗放假、返岗上班，可获5000元奖励

扬子晚报 2026-01-17 09:45:52
53 跟贴 53
東埔寨副首相放话：美国让我们惊醒，要减少对华依赖

皖北军哥 2026-01-17 06:16:13
1 跟贴 1
重庆、四川、湖南多地“刨猪宴”临时取消

极目新闻 2026-01-17 11:17:02
684 跟贴 684

2000亿大单到手仅1天，特朗普下令，加拿大再次收到了美国的威胁

2000亿大单到手仅1天，特朗普下令，加拿大再次收到了美国的威胁

云上乌托邦

2026-01-17 17:02:28

73年我拎鸡相亲，见她家穷得叮当响，转身要走却被她一句话定终身

73年我拎鸡相亲，见她家穷得叮当响，转身要走却被她一句话定终身

晓艾故事汇

2026-01-14 16:04:07

于文文这身材太绝了！露背吊带裙杀疯了，饱满曲线谁顶得住？

于文文这身材太绝了！露背吊带裙杀疯了，饱满曲线谁顶得住？

娱乐领航家

2026-01-11 00:00:03

当你接触的人多了，你会明白：如果一个人还在穿5年前的衣服，只说明3个问题

当你接触的人多了，你会明白：如果一个人还在穿5年前的衣服，只说明3个问题

二胡的岁月如歌

2026-01-16 18:51:52

日本首相候选人出轨嫩模，情人身材火爆前凸后翘，年龄相差16岁

日本首相候选人出轨嫩模，情人身材火爆前凸后翘，年龄相差16岁

南宗历史

2026-01-17 01:05:55

央企掌门人年薪披露：国家电网董事长居首

央企掌门人年薪披露：国家电网董事长居首

21世纪经济报道

2026-01-17 11:05:00

特朗普为何最后一刻叫停打击伊朗？海湾多国向美施压，连以色列都劝“刹一脚”

特朗普为何最后一刻叫停打击伊朗？海湾多国向美施压，连以色列都劝“刹一脚”

红星新闻

2026-01-16 13:32:27

199：166！高市时代恐结束，公明党开始扛旗，中方跟日本划清界限

199：166！高市时代恐结束，公明党开始扛旗，中方跟日本划清界限

军机Talk

2026-01-17 14:39:48

离谱！南通某红盘“崩”了，车位降到2万/个？！

离谱！南通某红盘“崩”了，车位降到2万/个？！

南通楼市说说

2026-01-17 18:14:34

卡里克：老特拉福德有魔力球员们非常渴望胜利

卡里克：老特拉福德有魔力球员们非常渴望胜利

体坛周报

2026-01-18 00:26:11

梅派后人也没想到，李玉刚竟在贺娇龙去世后，因一个举动口碑逆转

梅派后人也没想到，李玉刚竟在贺娇龙去世后，因一个举动口碑逆转

阿纂看事

2026-01-16 18:26:33

临牌成了“免罚护身符”？北京正研究加强监管措施

临牌成了“免罚护身符”？北京正研究加强监管措施

笔墨V

2026-01-17 14:52:29

101岁余宝珠：相貌普通击败正房，独占百亿资产，抽烟喝酒霸气足

101岁余宝珠：相貌普通击败正房，独占百亿资产，抽烟喝酒霸气足

照见古今

2026-01-09 19:08:21

打破国外垄断！我国芯片制造核心装备取得重大突破

打破国外垄断！我国芯片制造核心装备取得重大突破

DeepAuto车探

2026-01-17 15:19:42

项立刚暗讽“罗永浩最强大的能力就是直播”，罗永浩铿锵回应

项立刚暗讽“罗永浩最强大的能力就是直播”，罗永浩铿锵回应

恪守原则和底线

2025-12-21 05:55:04

一张弹窗炸出医疗真相：原来厅级干部处方和我们根本不是一个世界

一张弹窗炸出医疗真相：原来厅级干部处方和我们根本不是一个世界

戗词夺理

2026-01-17 19:18:38

老道士揭秘：家中这三样东西消失，一定是被人借运了！千万要小心

老道士揭秘：家中这三样东西消失，一定是被人借运了！千万要小心

古怪奇谈录

2026-01-05 11:32:51

笑死,果然大多数中年人都意识不到自己有多老!8090后也跟着破防了

笑死,果然大多数中年人都意识不到自己有多老!8090后也跟着破防了

另子维爱读史

2026-01-07 20:53:19

姆伯莫：我们一起防守一起进攻，这是一场真正的团队胜利

姆伯莫：我们一起防守一起进攻，这是一场真正的团队胜利

懂球帝

2026-01-17 22:58:06

普京前顾问：如果俄罗斯“接近战败”，那俄将对欧洲使用核武器？

普京前顾问：如果俄罗斯“接近战败”，那俄将对欧洲使用核武器？

晓肂爱八卦

2026-01-16 20:07:01

CV NLP和数据挖掘知识

1893文章数 1443关注度

往期回顾全部

科技要闻

两枚火箭发射失利，具体原因正排查

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

体育要闻

三巨头走了俩，联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节！

财经要闻

保不准，人民币会闪击6.8！

汽车要闻

林肯贾鸣镝：稳中求进，将精细化运营进行到底

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

家居

旅游

艺术

公开课

教育要闻

高中没入团，今年不能报这5所大学！

家居要闻

岁月柔情现代品质轻奢

旅游要闻

日照五莲：九仙山出现冬日冰瀑景观

艺术要闻

你绝对想不到！央美华宜玉的水彩画竟然如此震撼！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版