网易首页 > 网易号 > 正文 申请入驻

LLM-as-a-judge有30%评测偏差?这篇论文给出修复方案

0
分享至

用LLM给LLM打分,这个看起来很聪明的做法正在让AI评估变得不可靠。KRAFTON AI的这个工作直指当前LLM评估体系的软肋:作为评判者的语言模型本身就带有系统性偏差,而这种偏差在Chatbot Arena等主流基准测试中可以达到30%左右。也就是说排行榜上那些令人兴奋的性能提升,有相当一部分可能是评估方法的偏差。

评判机制的运作方式

LLM-as-a-judge就是让一个语言模型去评价另一个模型的输出,典型的prompt类似于"这个回答正确吗"或者"两个回答哪个更好"。评判者返回分数或偏好,汇总后得到准确率、胜率之类的指标。

这套流程看着非常完美:人工标注既慢又贵,尤其对话、摘要、创意写作这类开放式任务更是如此,而LLM评判者成本低、速度快、输出稳定,还能给出看起来很有说服力的理由。

所以LLM-as-a-judge已经成了事实上的行业标准,Chatbot Arena用它、无数论文也用它。

偏差从何而来

语言模型做评估时会犯错,但问题不在于犯错本身而在于错误不是随机的它们有规律可循。

论文用两个经典统计指标来刻画这一点:敏感性(q₁)表示正确识别好输出的概率,特异性(q₀)表示正确识别差输出的概率,理想情况下两者都等于1而实际却从来不是。

多数评估直接把评判者标记的"正确"比例当作真实性能,但除非评判者是完美的否则这个观察值就是有偏估计。

我们举个例子:假设评判者对好答案和差答案各有20%的错误率,即便误差对称估计出的准确率也会是真实值的扭曲版本。这样差模型被高估而好模型被低估,而且不同论文用不同评判者,比较就彻底失去意义。

论文里面说在Chatbot Arena数据集上未经校正的偏差接近30%,这个量级足以把一个真正的进步变成看起来的退步或者反过来。

无标签数据也不是免费午餐

我们都会认为观点认为:只要评判者够强,无标签数据就能替代标注数据,这样测试集规模上去了就会消除这个误差。

而这篇论文对此给出了干脆的否定:如果没有标签来直接测准确率就必须有标签来校准评判者。真实值绕不开,只是换了个使用方式。

如果不做校准模型质量和评判者偏差就分不开,只有做了校准才能分离二者。于是就有了一个实际的资源分配问题:如果给定固定的标注预算,是全部用于直接评估模型还是拿一小部分校准评判者、然后在大规模无标签集上评估?

适用边界在哪里

这个问题可以清晰的通过统计学进行回答:

当系统真实准确率在50%附近时直接人工评估的方差最大,需要大量标签才能得到可靠估计。这时候校准过的LLM评判者配合海量无标签数据效率确实更高。

但当系统已经很强或很弱,比如准确率接近0或1那么直接评估反而更好,估计极端概率本身就容易,评判者校准只会引入额外不确定性。

所以说:LLM-as-a-judge是条件性工具,并且只在特定区间有效盲目套用则适得其反。

校正方法



论文借鉴了流行病学中的Rogan-Gladen估计器。原理如下:先在一小批有标签的样本上测出评判者与人类的一致率得到敏感性和特异性的估计值;然后用这两个参数对观察到的分数做数学校正剥离评判者的系统性误差。

结果得到了无偏估计,跨多个模型和基准的实验显示校正后大幅偏差基本消失,并且在某些在朴素评估下看起来稳定的排名校正后发生了逆转。

不确定性量化

校正偏差只是第一步,正确的评估还需要报告评估的不确定性。论文给出的置信区间构造方法考虑了两个方差来源:测试集评估的随机性,以及校准集估计误差率的随机性。

采用带稳定性调整的修正Wald方法后,模拟实验中实现了接近名义的覆盖率——报告95%区间时,真值落在其中的频率确实约为95%。

大量AI论文隐含地宣称确定性而实际上并不存在。两个百分点的改进,如果置信区间重叠哪就什么都不是。严格的区间能遏制过度宣称给炒作降温。

自适应校准策略

论文还有个微妙的发现:不同位置的校准标签价值不等。



错误率在0.5附近时方差最大需要更多样本才能估准。作者提出自适应方案是先跑小规模试点校准,定位不确定性最高的区域,再把剩余标注预算集中投向那里。

实测效果是置信区间缩短10%到20%,好的评估是数据量和数据质量的平衡。

分布偏移下的表现

现实中校准数据和测试数据往往存在差异,很多现有方法比如prediction-powered inference依赖严格的同分布假设,如果假设破了保证也就没了。



论文框架只要求评判者的混淆矩阵保持稳定,在模拟的分布偏移场景下,它维持了无偏性而对照方法失效。



这种泛化性对快速迭代的基准测试尤其有价值:分布漂移是常态不是例外。

总结

LLM-as-a-judge是个好想法但它的统计基础一直没跟上,而这项工作证明自动化评估可以既可扩展又可靠,但是前提是要承认局限、校正偏差。

评估方法应该和模型架构得到同等重视:缩放定律再漂亮、训练技巧再巧妙,测量本身出了问题就全白搭。校准不是可选项而是基础设施级别的需求,如果打算用自动评判者就得为正确使用它分配资源。

而且并非所有任务都适合LLM评判,比如创意性、模糊性强的任务可能从校准后的自动化中获益;数学推理、事实核查这类精确领域,黄金标准标签仍然是刚需。

论文:

https://avoid.overfit.cn/post/17bc4cc132b4453daed96e931c74b6b8

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2000亿大单到手仅1天,特朗普下令,加拿大再次收到了美国的威胁

2000亿大单到手仅1天,特朗普下令,加拿大再次收到了美国的威胁

云上乌托邦
2026-01-17 17:02:28
73年我拎鸡相亲,见她家穷得叮当响,转身要走却被她一句话定终身

73年我拎鸡相亲,见她家穷得叮当响,转身要走却被她一句话定终身

晓艾故事汇
2026-01-14 16:04:07
于文文这身材太绝了!露背吊带裙杀疯了,饱满曲线谁顶得住?

于文文这身材太绝了!露背吊带裙杀疯了,饱满曲线谁顶得住?

娱乐领航家
2026-01-11 00:00:03
当你接触的人多了,你会明白:如果一个人还在穿5年前的衣服,只说明3个问题

当你接触的人多了,你会明白:如果一个人还在穿5年前的衣服,只说明3个问题

二胡的岁月如歌
2026-01-16 18:51:52
日本首相候选人出轨嫩模,情人身材火爆前凸后翘,年龄相差16岁

日本首相候选人出轨嫩模,情人身材火爆前凸后翘,年龄相差16岁

南宗历史
2026-01-17 01:05:55
央企掌门人年薪披露:国家电网董事长居首

央企掌门人年薪披露:国家电网董事长居首

21世纪经济报道
2026-01-17 11:05:00
特朗普为何最后一刻叫停打击伊朗?海湾多国向美施压,连以色列都劝“刹一脚”

特朗普为何最后一刻叫停打击伊朗?海湾多国向美施压,连以色列都劝“刹一脚”

红星新闻
2026-01-16 13:32:27
199:166!高市时代恐结束,公明党开始扛旗,中方跟日本划清界限

199:166!高市时代恐结束,公明党开始扛旗,中方跟日本划清界限

军机Talk
2026-01-17 14:39:48
离谱!南通某红盘“崩”了,车位降到2万/个?!

离谱!南通某红盘“崩”了,车位降到2万/个?!

南通楼市说说
2026-01-17 18:14:34
卡里克:老特拉福德有魔力 球员们非常渴望胜利

卡里克:老特拉福德有魔力 球员们非常渴望胜利

体坛周报
2026-01-18 00:26:11
梅派后人也没想到,李玉刚竟在贺娇龙去世后,因一个举动口碑逆转

梅派后人也没想到,李玉刚竟在贺娇龙去世后,因一个举动口碑逆转

阿纂看事
2026-01-16 18:26:33
临牌成了“免罚护身符”?北京正研究加强监管措施

临牌成了“免罚护身符”?北京正研究加强监管措施

笔墨V
2026-01-17 14:52:29
101岁余宝珠:相貌普通击败正房,独占百亿资产,抽烟喝酒霸气足

101岁余宝珠:相貌普通击败正房,独占百亿资产,抽烟喝酒霸气足

照见古今
2026-01-09 19:08:21
打破国外垄断!我国芯片制造核心装备取得重大突破

打破国外垄断!我国芯片制造核心装备取得重大突破

DeepAuto车探
2026-01-17 15:19:42
项立刚暗讽“罗永浩最强大的能力就是直播”,罗永浩铿锵回应

项立刚暗讽“罗永浩最强大的能力就是直播”,罗永浩铿锵回应

恪守原则和底线
2025-12-21 05:55:04
一张弹窗炸出医疗真相:原来厅级干部处方和我们根本不是一个世界

一张弹窗炸出医疗真相:原来厅级干部处方和我们根本不是一个世界

戗词夺理
2026-01-17 19:18:38
老道士揭秘:家中这三样东西消失,一定是被人借运了!千万要小心

老道士揭秘:家中这三样东西消失,一定是被人借运了!千万要小心

古怪奇谈录
2026-01-05 11:32:51
笑死,果然大多数中年人都意识不到自己有多老!8090后也跟着破防了

笑死,果然大多数中年人都意识不到自己有多老!8090后也跟着破防了

另子维爱读史
2026-01-07 20:53:19
姆伯莫:我们一起防守一起进攻,这是一场真正的团队胜利

姆伯莫:我们一起防守一起进攻,这是一场真正的团队胜利

懂球帝
2026-01-17 22:58:06
普京前顾问:如果俄罗斯“接近战败”,那俄将对欧洲使用核武器?

普京前顾问:如果俄罗斯“接近战败”,那俄将对欧洲使用核武器?

晓肂爱八卦
2026-01-16 20:07:01
2026-01-18 01:24:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1893文章数 1443关注度
往期回顾 全部

科技要闻

两枚火箭发射失利,具体原因正排查

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

头条要闻

李昊发挥神勇 U23国足点球战胜乌兹别克斯坦晋级四强

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

教育
家居
旅游
艺术
公开课

教育要闻

高中没入团,今年不能报这5所大学!

家居要闻

岁月柔情 现代品质轻奢

旅游要闻

日照五莲:九仙山出现冬日冰瀑景观

艺术要闻

你绝对想不到!央美华宜玉的水彩画竟然如此震撼!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版