网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

大模型当裁判，评分越细越靠谱？

2026-04-17 00:11:02　来源: 硅屿手记

北京举报

0

分享至

「LLM-as-a-Verifier」这篇技术解读值得细读。作者的核心发现是：给大模型裁判的评分粒度加细，验证效果会明显提升。

从"及格/不及格"到百分制

原文提到，当验证器（verifier）的评分从粗粒度转向细粒度时，判断准确率显著改善。这暗示一个反直觉现象——大模型当评委时，"差不多还行"的模糊评价反而不如"87分"这种具体数字可靠。

为什么细粒度评分更有效？

技术社区推测，这可能与模型的概率分布特性有关。细粒度评分迫使模型在输出前进行更精细的内部计算，减少了"和稀泥"式的中间地带判断。但目前原文未给出具体实验数据支撑这一机制解释。

对AI产品设计的启发

如果你正在搭建基于大模型的自动评审系统，这个发现很实在：别让用户选"通过/不通过"，改成1-10分或百分制。评分维度越细，模型越认真。

当然，这也带来新问题——当AI评委比人类评委还"苛刻"时，申请者会不会开始专门优化"讨好评分算法"的技巧？这场猫鼠游戏，可能才刚刚开始。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

两名外籍乘客在网约车上对着部队大门连续拍照，接下来又要去训练场方向，司机觉得可疑，直接开车把他们交给了部队

极目新闻 2026-04-16 08:59:25
6233 跟贴 6233
美民主党对防长赫格塞思发起弹劾

界面新闻 2026-04-16 07:08:40
5824 跟贴 5824

大批五一航班突然取消！广东市民出行受到这些影响

南方都市报 2026-04-15 20:44:18
447 跟贴 447

男子因噪音过敏住5年隔音舱：自己设计，已接上百个订单，帮噪音受困者找回睡眠

半岛官网 2026-04-16 11:20:50
1628 跟贴 1628
揭秘年销10亿的爆款宋柚汁：“宋柚”是商标，柚含量不到3%，主配料为糖水，品牌号称全国销量第一

蓝鲸新闻 2026-04-15 09:44:24
2963 跟贴 2963

确认了！两人系间谍

浙江之声 2026-04-16 22:16:31
1527 跟贴 1527

河南万岁山武侠城演出中“大象”露出人脚，景区：没饲养过大象，是4名工作人员扮的

环球网资讯 2026-04-16 11:29:34
2165 跟贴 2165
广东“莫氏鸡煲大公主”爆火前后反差大，晚上干到凌晨2点才收工，发文吐槽：这个鸡你们是非吃不可吗

大象新闻 2026-04-15 12:57:04
1773 跟贴 1773

杭州女子买5份海鲜3份仅退款商家气愤跨省赶来质问

钱江晚报 2026-04-16 14:34:09
95 跟贴 95
格力怒斥海信，称其没资格用“真铜实料”四字进行宣传，海信高管回怼：又当又立

大风新闻 2026-04-15 15:07:03
902 跟贴 902
媒体：法国要"将不义之财归还中国" 没你想得那么容易

新民周刊 2026-04-16 15:02:54
2234 跟贴 2234
400毫升无偿献血证被中介卖至2000元献血者仅拿400元

大风新闻 2026-04-16 19:53:03
968 跟贴 968
阳台遭飞鸟"精准投粪" 住户:每天来十多次或为挑衅猫

星视频 2026-04-16 18:45:58
406 跟贴 406
最新：同济大学已成立调查组

南方都市报 2026-04-16 16:57:13
0 跟贴 0
上海业主傻眼安保、保洁突然全离岗小区垃圾堆积成山

新闻坊 2026-04-16 21:23:28
3 跟贴 3
男子湖边遛弯徒手捉住1条10斤大肥鱼兴奋抱上岸

星视频 2026-04-16 21:04:47
78 跟贴 78
多地出台中考新方案：“不考不学”怎么破解，是否会造成初高中脱节？

澎湃新闻 2026-04-16 08:27:07
209 跟贴 209
切记，半夜醒来千万不要看时间！

环球网资讯 2026-04-16 07:56:25
164 跟贴 164
阿姨在竹林拔笋，衣服被竹子穿走了

学申论的谈妹 2026-04-16 21:25:16
42 跟贴 42
文章新开面馆口味评分3.6分，网友：30多元一碗面有点贵

红星新闻 2026-04-13 17:22:41
1234 跟贴 1234
美战争成本或达1万亿影响供乌武器

红星新闻 2026-04-16 11:14:37
1240 跟贴 1240
实现良好开局一季度国内生产总值同比增长5.0%

央视新闻客户端 2026-04-16 10:05:43
156 跟贴 156
景区的鹦鹉套圈是怎么把人送进ICU的？警惕这种正逐年攀升的“鹦鹉热”！

万物杂志 2026-04-17 06:06:29
0 跟贴 0

打了45天，伊朗终于发现最大敌人不是美国，不是以色列，而是他们

打了45天，伊朗终于发现最大敌人不是美国，不是以色列，而是他们

楠楠自语

2026-04-15 13:07:39

将完整生产线转让中国？只为报答“旧恩”，连美俄两国都羡慕不已

将完整生产线转让中国？只为报答“旧恩”，连美俄两国都羡慕不已

揽星辰入梦

2026-04-15 18:22:07

从282群的录屏看，就是陈某汐！网友：全红婵说活着就好，我悟了

从282群的录屏看，就是陈某汐！网友：全红婵说活着就好，我悟了

开成运动会

2026-04-14 18:32:59

这就是公开辱华的后果！取消冠军头衔只是开始，职业生涯也全毁了

这就是公开辱华的后果！取消冠军头衔只是开始，职业生涯也全毁了

阿凫爱吐槽

2025-12-17 17:24:39

那晚我住女朋友家，她妈说你俩今晚敢睡一个被窝，我就掀你们被子

那晚我住女朋友家，她妈说你俩今晚敢睡一个被窝，我就掀你们被子

千秋文化

2026-04-16 20:08:23

广西靖西一地多名男子持手电筒拦车，当地镇政府：他们想当路霸，警方已到场处理

广西靖西一地多名男子持手电筒拦车，当地镇政府：他们想当路霸，警方已到场处理

潇湘晨报

2026-04-16 15:55:11

爱泼斯坦文件曝光！证人实锤了：爱泼斯坦把梅拉尼娅介绍给特朗普

爱泼斯坦文件曝光！证人实锤了：爱泼斯坦把梅拉尼娅介绍给特朗普

阅识

2026-04-17 03:01:28

直播马上变天！钱小佳爆出重磅消息！已收到通知，本月22号村里人将全部消失！禁止虚假繁荣！

直播马上变天！钱小佳爆出重磅消息！已收到通知，本月22号村里人将全部消失！禁止虚假繁荣！

新浪财经

2026-04-16 21:44:25

R.I.P. ！48岁前阿森纳、尤文门将因火车撞击身亡

R.I.P. ！48岁前阿森纳、尤文门将因火车撞击身亡

体坛周报

2026-04-16 22:08:23

美国海军对伊朗封锁进入第四天，霍尔木兹海峡油轮通行最新情况

美国海军对伊朗封锁进入第四天，霍尔木兹海峡油轮通行最新情况

新浪财经

2026-04-17 01:03:12

TOP14位身高170以上的女神，有颜有灯有演技

TOP14位身高170以上的女神，有颜有灯有演技

素然追光

2026-01-02 02:45:02

超百万兵力集结，美伊总决战在即？中国态度已明确，和美奉陪到底

超百万兵力集结，美伊总决战在即？中国态度已明确，和美奉陪到底

小蔑谈事

2026-04-17 05:10:41

王珞丹现状：搬进深山生活，母亲不再催婚，41岁和两只狗相依为命

王珞丹现状：搬进深山生活，母亲不再催婚，41岁和两只狗相依为命

胡一舸南游y

2026-04-14 22:06:07

46号文落地：1995—2025国企下岗，被克扣的钱能要回来了

46号文落地：1995—2025国企下岗，被克扣的钱能要回来了

吃货的分享

2026-04-16 20:14:36

贝森特通告全球，将对中方二级制裁，话音刚落，中方减持美债

贝森特通告全球，将对中方二级制裁，话音刚落，中方减持美债

傲傲讲历史

2026-04-17 00:58:08

上海江苏跨省“血贩链条”曝光：400毫升无偿献血证被中介层层倒卖至2000元，献血者仅拿到400元营养费，中介称带病服药也能献血

上海江苏跨省“血贩链条”曝光：400毫升无偿献血证被中介层层倒卖至2000元，献血者仅拿到400元营养费，中介称带病服药也能献血

大风新闻

2026-04-16 18:35:07

朝鲜男人烟不离手，金正恩抽什么牌子的香烟？一包烟的价格是多少

朝鲜男人烟不离手，金正恩抽什么牌子的香烟？一包烟的价格是多少

番外行

2026-04-16 08:25:40

哇这大体格，目测身高175，身形如此的匀称，男人心中的完美伴侣

哇这大体格，目测身高175，身形如此的匀称，男人心中的完美伴侣

动物奇奇怪怪

2026-04-12 03:42:39

完胜伊劳拉！曼联新帅锁定“小穆里尼奥”，红魔捡到宝

完胜伊劳拉！曼联新帅锁定“小穆里尼奥”，红魔捡到宝

澜归序

2026-04-17 06:09:51

最大规模！英国宣布：提供12万架

最大规模！英国宣布：提供12万架

环球时报国际

2026-04-16 23:12:26

有态度网友ytd

2720文章数 11关注度

往期回顾全部

科技要闻

赵明：智驾之战，看谁在大模型上更高效

头条要闻

特朗普：伊朗已同意几乎所有要求

头条要闻

特朗普：伊朗已同意几乎所有要求

体育要闻

皇马拜仁踢出名局，但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世，享年63岁

财经要闻

海尔与医美女王互撕换血抗衰谁的生意？

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

旅游

家居

数码

健康

艺术要闻

这 4 个红底黑字，藏着毛主席给一位普通母亲的最高赞誉，看完泪目

旅游要闻

社评：读懂“China Travel”持续圈粉的逻辑

家居要闻

智能舒适简约风尚

数码要闻

荣耀史上最短发布会，发布荣耀史上最强MagicBook数字系列

干细胞抗衰4大误区,90%的人都中招

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版