网易首页 > 网易号 > 正文 申请入驻

ICLR 2026 | 大模型当裁判也「翻车」?北大清华联合多校提出TrustJudge

0
分享至

来源:市场资讯


本文共同第一作者王一栋(北京大学)和宋昀泽(新加坡国立大学)主要从事大语言模型评估与对齐研究。通讯作者王存翔(清华大学)和叶蔚、张世琨(北京大学)分别在自然语言处理、软件工程和知识推理等方向有长期积累。团队成员来自北大、清华、南大、NUS、CMU、西湖大学、东南大学、东京科学大学等多所高校,长期关注 LLM 可信评估问题。

让 GPT-4 给两篇文章打分,A 拿了 4 分、B 拿了 3 分。按常理 A 应该比 B 好吧?但换成成对比较,同一个模型却说「B 更好」。更离谱的情况也有——A > B > C > A 的「石头剪刀布」循环,连传递性都守不住。这事还真不少见。

北京大学、清华大学等八所高校的研究团队在 ICLR 2026 上提出了 TrustJudge,一个基于概率的评估框架。核心想法不复杂:与其让模型吐一个离散分数了事,不如把它内部的完整概率分布也用上。不用额外训练,评估不一致性就降了一大截,准确率还跟着涨了。


  • 论文标题:TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

  • 作者:Yidong Wang*, Yunze Song*, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Cunxiang Wang†, Wei Ye†, Shikun Zhang†

  • 单位:北京大学、清华大学、新加坡国立大学、南京大学、卡内基梅隆大学、西湖大学、东南大学、东京科学大学

  • 论文链接:https://arxiv.org/abs/2509.21117

  • 开源代码:https://github.com/TrustJudge/TrustJudge

01|问题有多严重?

用大模型给其他模型当裁判,已经是评估界的标配——MT-Bench 用单项评分,AlpacaEval 用成对比较,RLHF/GRPO 做偏好标注。但这个裁判的两种考法给出的结论,经常打架。

TrustJudge 的作者做了系统测量,把问题量化成了两类:

评分-比较不一致(Score-Comparison Inconsistency)

打分时 A 比 B 高,拉到一起比较时又说 B 好。用 Llama-3.1-70B 测试,不一致率 23.32%——差不多每四次评估就矛盾一次。

成对传递性不一致(Pairwise Transitivity Inconsistency)

成对比较出现循环偏好(A > B > C > A)或者等价矛盾(A = B = C 但 A ≠ C)。Llama-3.1-70B 上的不一致率是 15.22%。



02|问题出在哪?

数据摆出来了,接下来的问题是:这两类不一致的根源是什么?作者从信息论的角度做了归因。

离散评分丢信息

5 分制打分,本质上是把模型心里的连续判断硬塞进几个整数格子里。比方说两条回复质量分别是 3.8 和 4.2,5 分制下都成了 4 分,打分看不出差别。但拉到一起做比较,模型是感知得到这 0.4 差距的——矛盾就这么来了。

作者还在理论上证了一条:存在两个不同的概率分布,离散评分下完全相同,但信息熵不同。换句话说,离散化在结构上就一定会丢东西。

模糊平局带来传递性问题

做成对比较时,模型对质量相近的回复经常给「平局」。但平局和平局不一样——有的是模型真觉得半斤八两,有的纯粹是拿不准。这些「含糊的平局」在不同组合里不一致地冒出来,A = B、B = C、但 A ≠ C 的情况就出现了。

03|TrustJudge 怎么做的?

思路说白了就一句话:别只取模型吐出的那个离散答案,把背后的概率分布也用起来。框架分两块:

分布敏感评分(Distribution-Sensitive Scoring)

传统做法是让模型输出一个分数然后直接采纳。TrustJudge 不这样干:

  • 把评分尺度从 5 分拉到 100 分,先把粒度给够。

  • 对所有候选分数的 logits 做 softmax,得到一个完整的概率分布。

  • 算加权期望作为最终分数:


效果就是:原来 5 分制下都是 4 分的两条回复,现在一个 3.82、一个 4.17,差异保住了。

跟 G-Eval 的区别在于,TrustJudge 用 softmax 归一化确保概率和严格为 1,不会被非评分 token 干扰。

似然感知聚合(Likelihood-Aware Aggregation)

成对比较这边,TrustJudge 给了两种策略来打破平局:

策略一:基于困惑度(PPL-Based)

遇到平局时,分别算 A 在前和 B 在前两种排列的困惑度,选困惑度低的那个方向的结果——模型读起来更通顺的排列,判断往往更靠谱:


策略二:双向概率聚合

把两个方向的偏好概率加起来,取置信度最高的:


由于是两个方向聚合,位置偏差(position bias)也在这个过程中被抵消了。

04|理论上也站得住

上面的方法直觉上说得通,但有没有更严格的保证?作者给出了形式化的理论证明:

定理 1(信息保持):存在两个不同的概率分布


,离散评分无法区分


),但分布敏感评分可以(


)。

命题 1(不确定性降低):当裁判模型高度模糊时,基于困惑度得到的置信分布 的熵严格低于原始判断的最大熵:


一句话概括:信息保留得更多了,判断的不确定性降下去了。

05|实验结果

实验数据来自 MT-Bench(80 题)和 ArenaHard(500 题),裁判模型覆盖 Llama-3 系列(3B / 8B / 70B)和 GPT-4o。

主实验


表 1:所有模型上两类不一致性都明显下降,精确匹配率同步上升。其中 Llama-3.2-3B 的传递性不一致从 54.69% 直接降到 17.76%,落差接近 37 个点。



消融实验

为了搞清楚每个组件的贡献,作者做了逐项消融(这里额外加入了 GPT-3.5-Turbo 作为参考):


表 2:逐个拆开看,softmax 归一化和 100 分制对评分不一致各有贡献;似然聚合和 PPL 方法对传递性不一致效果都很明显,似然聚合整体略优。

06|换个模型还管用吗?

上面的主实验只用了 Llama-3 和 GPT-4o。一个自然的问题是:换成别的架构还有效吗?

管用。作者把实验扩展到 Qwen-2.5(7B / 14B / 32B)、Gemma-2(2B / 9B / 27B)、Llama-3(3B / 8B / 70B)、GPT 四个家族、共 12 个变体。



图 3:四个模型家族上的不一致性对比。左图为评分-比较不一致,右图为传递性不一致,TrustJudge 在所有架构上都有改善。

几个值得注意的点:

  • 分布敏感评分的效果跟模型架构无关,都能降不一致性。

  • 加上似然感知聚合后,8B 模型的传递性甚至比未使用 TrustJudge 的 70B 模型更好。

  • 9B 的 Gemma 比 27B 的 Gemma 不一致性更低——不是越大越好。

07|推理模型反而更不靠谱

一个意外发现:专门练过推理能力的模型,做评估时反而更容易自相矛盾。


DeepSeek-R1 蒸馏版的评分-比较不一致率 58.75%,是同参数量 Llama 的将近两倍。看起来在数学数据上做强化训练这件事,是以评估能力为代价的。

不过 TrustJudge 在这么高的不一致基线上依然有效:CR 降了将近 10 个点,传递性不一致从 63.98% 压到了 18.50%。

08|拿来做 Reward 也好使

除了评估,TrustJudge 还有一个实际用途:给强化学习提供奖励信号。

作者把它接到 GRPO(Group Relative Policy Optimization)上训练 Qwen2.5-7B-Instruct,训练数据覆盖摘要、数学推理、指令遵循等,一共 8,600 条。


表 3:用 Baseline 奖励训练的模型在两种协议下都没超过原始模型(反而略降);用 TrustJudge 奖励训练的模型两边都涨了。



道理也好理解:评估越一致,奖励信号噪声越小,模型学得越准。

09|光提高打分精度够不够?

看完前面的实验,可能会有人问:TrustJudge 里面既提高了评分粒度(5 分 → 100 分),又加了概率归一化。那要是我只做前者,不做后者,行不行?


图 6:5 分、10 分、100 分三档粒度下的不一致性变化。粒度越高不一致越低,但在同一粒度下 TrustJudge(虚线)始终低于 Baseline(实线)。

结论是:提高粒度有帮助,但光靠粒度不够。TrustJudge 赢在粒度提升 + 概率归一化两件事叠加到一起。

10|小结

TrustJudge 做的事情可以用两句话讲清楚:

  • 离散评分丢信息 → 改用分布敏感评分,把概率分布的信息保住。

  • 模糊平局坏传递性 → 改用似然感知聚合,让模糊判定变得清晰。

实际效果上,它不用训练,开箱即用;跨 Llama、GPT、Qwen、Gemma 四个架构都有效;除了做评估,接上 GRPO 当奖励信号也能用;而且有理论证明兜底。说到底,如果我们要让大模型来当裁判,总得先确认这个裁判自己别前后矛盾才行。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:大家坐稳扶好了,从下周一起,大牛市或将再次重演历史了!

A股:大家坐稳扶好了,从下周一起,大牛市或将再次重演历史了!

夜深爱杂谈
2026-04-12 11:24:26
根据潘石屹预测的未来房价:150万房子,到了2030年还能值多少钱

根据潘石屹预测的未来房价:150万房子,到了2030年还能值多少钱

爱看剧的阿峰
2026-04-11 21:30:58
定了!公积金提取限制全面取消,2026年4月1日起执行

定了!公积金提取限制全面取消,2026年4月1日起执行

甜到你心坎
2026-04-10 06:36:20
欧尔班若落选,是匈牙利整个国家悲剧的开始

欧尔班若落选,是匈牙利整个国家悲剧的开始

清滨酒客
2026-04-12 11:14:36
花都一市民收到“取件码失效”短信,损失20000元

花都一市民收到“取件码失效”短信,损失20000元

广州花都发布
2026-04-12 18:29:53
全新外资汽车品牌,正式进军中国

全新外资汽车品牌,正式进军中国

新浪财经
2026-04-11 14:56:56
筱梅回到北京,穿纱裙状态超好!兰姐尊重儿子儿媳不提孙子!

筱梅回到北京,穿纱裙状态超好!兰姐尊重儿子儿媳不提孙子!

潮鹿逐梦
2026-04-12 19:27:13
巴基斯坦被激怒了

巴基斯坦被激怒了

牛弹琴
2026-04-10 08:01:34
委内瑞拉彻底炸锅:97天的沉默,终于变成怒吼

委内瑞拉彻底炸锅:97天的沉默,终于变成怒吼

策略述
2026-04-12 16:55:28
阴雨何时休?下周天气趋势来了!

阴雨何时休?下周天气趋势来了!

上海静安
2026-04-12 18:35:00
网民反映路灯不亮、自来水发黄等问题被威胁恐吓?湖南桂东县通报

网民反映路灯不亮、自来水发黄等问题被威胁恐吓?湖南桂东县通报

环球网资讯
2026-04-12 12:11:09
预计到了2030年,我们将全面进入租房时代,房子会越来越难卖

预计到了2030年,我们将全面进入租房时代,房子会越来越难卖

猫叔东山再起
2026-04-12 12:00:08
最差局面出现,伊朗最想要的中国给了?不到24小时,美国喊话中国

最差局面出现,伊朗最想要的中国给了?不到24小时,美国喊话中国

云舟史策
2026-04-12 07:46:53
租电42万起!蔚来ES9掀桌子,最大纯电SUV,车里能做足底按摩,硬刚M9/L9…

租电42万起!蔚来ES9掀桌子,最大纯电SUV,车里能做足底按摩,硬刚M9/L9…

极果酷玩
2026-04-10 17:06:39
为这场和谈,巴基斯坦押上国运!万人封城不给以色列任何可乘之机

为这场和谈,巴基斯坦押上国运!万人封城不给以色列任何可乘之机

青青子衿
2026-04-11 02:19:32
不打伊朗了?特朗普通告全球,战争费由22国买单,中方亮明态度

不打伊朗了?特朗普通告全球,战争费由22国买单,中方亮明态度

百科密码
2026-04-08 17:03:31
恐怖一幕!王祉怡赛后累到近乎虚脱+说不出话 安洗莹却像个没事人

恐怖一幕!王祉怡赛后累到近乎虚脱+说不出话 安洗莹却像个没事人

风过乡
2026-04-12 18:05:06
浙江一对老夫妻收废品,在河边捡到奇特“铁疙瘩”,果断上交!民警一查:竟是千年宝贝

浙江一对老夫妻收废品,在河边捡到奇特“铁疙瘩”,果断上交!民警一查:竟是千年宝贝

台州交通广播
2026-04-11 15:00:56
新型卖淫方式五花八门,让人大开眼界。

新型卖淫方式五花八门,让人大开眼界。

蔚蓝的珊瑚海
2026-04-10 17:02:21
以色列谁都敢打,为何唯独不敢动巴基斯坦?核武只是冰山一角

以色列谁都敢打,为何唯独不敢动巴基斯坦?核武只是冰山一角

泠泠说史
2026-04-11 23:48:34
2026-04-12 21:15:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2836079文章数 6594关注度
往期回顾 全部

教育要闻

专题|地理效应

头条要闻

上海阿婆被"干儿子"分80次转走95万气瘫 毕生积蓄没了

头条要闻

上海阿婆被"干儿子"分80次转走95万气瘫 毕生积蓄没了

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

艺术
房产
游戏
数码
亲子

艺术要闻

殡葬新规落地,小区里的“骨灰房”真能绝迹吗?

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

诚意不足!《星空》新DLC褒贬不一:性价比太差

数码要闻

破壁机哪个牌子好?安全无毒材质是重点,揭秘TOP10家用哪种好

亲子要闻

有些孩子就爱打着和你玩的名义占你便宜

无障碍浏览 进入关怀版