![]()
Hi,我是洛小山,你学习 AI 的搭子。
明天就开工了,今天这篇文章,我想分享大模型评测的方法论。
希望能帮到你。
前两天发了 XSCT Bench 平台,很多朋友问我:你这个评测是怎么跑的?凭什么说你的分数比别的榜单更有用?
好问题!
01|「分数」和「选型」之间隔着一道鸿沟
先分享一个我自己的痛点吧。
我发现,目前大模型榜单和用户真正需要的决策信息之间,存在着一定的 Gap,而且这是大模型评测领域结构性的问题。
先问一个小问题:用户使用这些榜单的目的是什么?
其实是做选型决策。用户需要结合具体的产品或工作场景,选出最合适最优性价比的模型。
但一些模型厂商发布会上给的榜单:「我们 MMLU 97 分」「我们 HumanEval 30 分」…
![]()
大模型跑的分这只能证明你的模型是这个分,但这个 95 分对我的业务意味着什么?我不知道。
但现有榜单给出的,是他们在标准测试集上的综合分数。
这些综合分数,不一定那么契合你的使用场景。
模型 A 综合分 92,模型 B 综合分 88。
但你要做的是营销文案生成,到底该选哪个?
模型 A 数学能力更强,但你的场景根本不需要数学。
模型 B 便宜一半,创意写作能力其实更好,但榜单上不完全能看出来。
这就是「从分数到选型」的Gap。
榜单可以告诉你分数,但你真正想看的或许是:
- 给同样的 prompt,不同模型输出了什么?
- 差距具体体现在哪里?
- 哪个更符合我的产品调性?
同样效果的,哪些更便宜?
这才是榜单要解决的问题:让你能基于真实场景做出「对症下药」的选择,而不是盲目追求「最强」。
在 XSCT Bench 上,你能非常直观地发现各种模型好和不好在哪,找到最贴合你业务场景的模型。
比如在大家都大差不差的情况下,追求的是模型的性价比。
![]()
而在生图领域,需要有一个地方能横向快速评估所有模型效果。
比如下面两个场景,哪些模型中文好,哪些模型数学好,一目了然。
![]()
![]()
这也是我做这个场景化大模型评价平台的出发点。
我想帮助 AI 开发者们节省更多的时间,以及找到更多的更有性价比的模型。
![]()
02|三个设计理念
XSCT Bench 并不只是搞一个新的跑分榜单。
我的设计的理念是:
理念一:按应用场景组织,而不是按模型的抽象能力。
你可以直接搜索「营销文案」「客服对话」「代码生成」等场景,看到该场景下各模型的真实表现。
由于模型能力各有不同,同一个排行榜,切换「综合」和「基础」维度,排名会变化。
比如:Claude 综合第一,但 Qwen3.5-plus 在基础场景反超,而成本只有 Claude 的 1/20。
![]()
还有你可能不怎么听说的 小米 mimo。
![]()
理念二:展示真实案例,而非只给分数。
每个测试用例,你都能看到原始 prompt 是什么、各个模型分别输出了什么、评分差异体现在哪里。
理念三:帮你找「合适的」,而非「最强的」。
便宜的模型在特定场景可能表现更好。我们帮你发现这些「性价比优选」,而不是一味推荐最贵的。
图像生成赛道同样如此:doubao-seedream 成本只有 Gemini 3 Pro 的 1/50,但综合评分几乎持平。
![]()
03|评分机制的六大策略
模型测评是很头疼的事情,我使用大模型作为评审员(LLM-as-a-Judge)是当前学界和行业的主流方向。
伯克利大学的团队有篇 paper 提到:强大的 LLM 评审(如 GPT-4)与人类偏好的一致率可达 80% 以上,与人类评审员之间的一致率接近。
但原始的 LLM-as-a-Judge 存在一些问题,比如大模型偏好(Gemini 的手就非常松)。
所以,我就通过六项系统性策略解决这些问题。
策略一:多 Judge 大模型联合评分
单一评审模型存在固有偏见,可能对某些输出风格或特定模型产生系统性偏好。
比如,如果评审的模型和被测模型来自同一家公司,可能会存在隐性的偏好,又或者有一些大模型的手真的是非常松…
![]()
动不动就 90,谁能受得了…
研究表明,多个评审模型的加权平均可以有效抵消单一模型的偏见,提升评分的稳定性和可信度。:
所以,XSCT Bench 采用三个不同的多模态大佬级模型作为评审员(Judge),进行联合评分。
Claude:(anthropic/claude-sonnet-4.6):基准权重 50%
Gemini:(google/gemini-3-Pro-preview):基准权重 30%
Kimi:(moonshot-kimi-K2.5):基准权重 20%
![]()
动态权重计算
但有可能因为各种各样的原因,如果某个 Judge 评分失败,系统就会自动重新归一化剩余 Judge 的权重。
![]()
图像标注能力
对于图像生成评测,三个 Judge 都会独立进行图像标注(框出问题区域),前端可以自由切换查看不同 Judge 的标注结果。
![]()
![]()
![]()
策略二:多维度独立评分
问题:让 AI 直接判断「整体好不好」是一个模糊问题,结果不可解释。同样是 75 分,一个是「样样都及格」,另一个是「某维度满分但另一维度极差」,单一总分完全无法区分。
LLM-Rubric 研究提到,将评估分解为多个独立维度并分别评分,可以将预测误差降低 2 倍以上。
于是我的做法是:
AI 评审员只负责对每个维度独立打分(0-100 分),不给总分;
总分由系统根据测试用例预设的权重自动加权计算,保证数学一致性;
用户可以看到每个维度的得分明细,判断扣分点是否在自己关心的方向上;
比如这个场景,我会约束打分的 AI 在三个维度上进行评分,以及每个维度各个分段的标准是什么。
![]()
经过几个大模型针对不同的维度综合进行评分加权之后。
![]()
得出了该模型在这条测试用例下的评分。
![]()
策略三:证据锚定评分
LLM 评审可能产生给出的分数和理由与实际输出不符的「幻觉评分」。
举个例子,模型可能在没有仔细阅读生成内容的情况下,给出看似合理但实际上非常空洞的评价理由,完全不可解释。
研究发现,没有约束的评审 LLM 在超过半数的情况下不能正确识别质量下降。
所以,证据锚定原则会要求每个评分必须引用被评内容中的具体文本作为依据,这样能显著提高评分可靠性。
所以我的系统里:
评分提示词明确要求「引用模型输出中的具体文本作为评分依据」
每个维度的扣分必须指出具体的缺陷位置,而不是泛泛说「不够好」
评分结果包含可追溯的证据链,用户能够对照模型输出自行验证
![]()
测试用例数据集已开源:
https://github.com/itshen/XSCT_Bench_Dataset
这个数据集是 Claude 4.6 Opus 做的,花了大概 400 刀。
欢迎点一个小红心支持一下 QUQ
对于图像类评测,会要求 AI 会直接在图上框出有问题的区域,并标注维度分数和具体原因。
![]()
策略四:难度分层设计
单一难度的评测存在两种失效模式。
1、题目太简单,几乎所有模型都能完成,分数堆在顶部,榜单失去区分价值;
2、题目太难,几乎所有模型都失败,分数堆在底部,同样失去区分价值。
Arena-Hard 的研究表明,精心设计的高难度测试集可以提供 3 倍于传统基准的模型区分度。
我的实现:
Basic(基础):模型舒适区内的任务,宽松的约束条件。
核心目的是建立基线,验证基础能力是否可靠。
Medium(进阶):摸一摸能力边界,增加约束复杂度或任务长度。
核心目的是拉开差距,发现不同模型的优势与短板。
Hard(困难):专门针对已知的模型弱点进行设计,极限约束。
核心目的是暴露天花板,测试压力下的真实表现。
这个方法,我在之前混元模型的测评上也做过,这一次直接把这个方法论平台化了![]()
的失效模式:
- 1.长链推理衰减:多步骤推理的时候,后期步骤的准确率会随着推理链条的延长显著下降
- 2.自我纠错失败:模型在被告知答案有误之后后,难以正确识别并修正自身的错误
- 3.复杂约束处理:当多个相互作用的约束条件同时存在时,模型往往顾此失彼
- 4.一致性崩溃:在长文本生成或多轮对话中,早期承诺的设定与后期输出产生矛盾
举个例子,同一个「写诗」的场景,三个难度下模型分数区分度完全不同。
![]()
![]()
![]()
基础档大家都在 90 分上下,几乎无法区分;
进阶档 Qwen 3.5 跳到了第二;
困难档只有御三家模型能维持高分,尾部开始明显掉分。
因为…
困难难度要求 AI 每行正好十个汉字,用回文的方式写作…
还要求最后倒序输出…
![]()
一测测多个问题。
Case 链接:xsct.ai/search?tc=l_write_004&diff=hard
策略五:评分与被测分离
如果被测模型在生成阶段就知道评分维度和权重,它可能会专门针对这些维度优化输出。
比如刻意在输出中堆砌某些关键词,或按照评分维度的描述格式来组织回答,这种「应试行为」会导致分数虚高。
我的实现:
- 被测模型只接收任务提示词(system_prompt + user_prompt),不含任何评分信息
- 评分标准只传递给 AI 评审模型
- 被测模型看到的是:任务是什么(仅此而已)
策略六:xsct-w 视觉截图双轨评分
网页生成的评测有一个独特困难:如果 AI 评审员只能读取 HTML 代码文本,其实没办法感知页面的实际渲染效果。
一段结构完整的 HTML 代码,可能渲染出来的是一个纯白底黑字、毫无设计感的页面。
如果只靠代码逻辑评分,这段代码可以通过及格线;但从真实用户体验来看,这样的页面可能是完全不合格的。
我的解法:代码评分 × 视觉截图评分双轨并行,各占 50%。
![]()
![]()
流程是这样的:
1、模型生成 HTML
2、一边 AI 读取代码评估功能完整性和代码逻辑,一边用无头浏览器渲染成 960×600 截图,压缩为 JPEG 传给 AI 做多模态视觉评分
3、两边各占 50%,加权得出最终综合得分。
![]()
视觉评分的 4 个维度:
- visual_aesthetics(视觉美观度):权重 35%,评估配色方案、排版层次、整体设计感
- content_completeness(内容完整性):权重 30%,评估所有要求元素是否完整渲染
- readability(内容易读性):权重 25%,评估文字大小、对比度、信息层级
- visual_polish(视觉精致度):权重 10%,评估圆角、阴影、对齐、间距等细节
硬性惩罚规则:纯白底黑字无任何设计的页面,visual_aesthetics 不得超过 25 分。
不过,因为现在成本受限(光测 30 多个文字的 300 多条用例 + 7 个图片 164 条用例,已经快 1.5 万了),网页排行榜先关闭了,你可以在用例页先看看已有数据。
04|场景推荐指数:同一数据,不同排名
这是 XSCT Bench 最核心的设计之一。
三个难度的简单平均无法回答「这个模型适合哪类用户」。
一个模型可能 Basic 强但 Hard 差,均分会抹平这个差异。
场景推荐指数通过不同的权重方案,让差异显现出来:
日常场景:Basic 权重 60%,Medium 权重 30%,Hard 权重 10%。适用于普通用户、轻度使用。
专业场景:Basic 权重 20%,Medium 权重 50%,Hard 权重 30%。适用于专业用户、常规业务。
极限场景:Basic 权重 10%,Medium 权重 30%,Hard 权重 60%。适用于极客用户、边界挑战。
![]()
这意味着同一批评测数据,不同场景下的排名可能不同。
设计的核心,就是帮你找到「对你的场景最合适的那个」,而不是一个对所有人都一样的「全球最强」。
这样你可能会被绕晕了,我举个例子,假设有个模型 X。
Step 1:单个测试用例评分
creativity(创意性)85 分,权重 40%;coherence(连贯性)78 分,权重 30%;language_style(语言风格)82 分,权重 30%。
用例分数 = (85×40 + 78×30 + 82×30) / 100 = 82.0
Step 2:计算难度平均分
Basic 两个用例分别 82.0 和 78.0,平均 80.0;Medium 两个用例分别 71.0 和 69.0,平均 70.0;Hard 两个用例分别 52.0 和 48.0,平均 50.0。
Step 3:计算场景推荐指数
- 日常场景分 = 80×0.6 + 70×0.3 + 50×0.1 = 74.0
- 专业场景分 = 80×0.2 + 70×0.5 + 50×0.3 = 66.0
- 极限场景分 = 80×0.1 + 70×0.3 + 50×0.6 = 59.0
Step 4:能力天花板判定
通过阈值:某难度均分 ≥ 60 视为「通过」该难度。
- Basic ✓(80 ≥ 60)
- Medium ✓(70 ≥ 60)
- Hard ✗(50 < 60)
能力天花板就是:Medium
结论:如果你的产品主要是日常场景,Model-X 的 74 分表现不错;
但如果需要极限场景(Hard 难度),它Medium天花板意味着这个模型在完成复杂任务的时候,质量可能不够稳定。
![]()
05|区分「模型问题」和「Prompt 问题」
很多时候你试了半天发现模型效果不好,你可能会怀疑。
是不是自己 Prompt 没写好,还是模型本来就不行。
所以我专门设计了一批「能力边界」用例,专门测这条线在哪。
比如定向数数:让图像模型生成精确数量的物品,我设计了一批用例,从 2 个物体一直数到十。
![]()
基础场景:4 个红苹果、3 个三明治(用保鲜膜包装)、2 瓶矿泉水。
结果?只有 Nano Banana 做到了,其他模型要么 5 个苹果、要么 6 个苹果…
![]()
进阶场景:5 种水果各 2 个、4 个三明治要重叠、3 种不同饮料、6 套餐具…
![]()
地狱场景:7 种水果共 15 个、5 个三明治(部分打开)、8 个饮料容器、9 套餐具…还有堆叠和遮挡。
属于光看提示词就能感受到我的恶意的那种…
![]()
你通过横向对比,就能直观感受到…
这可能不是你 Prompt 没写好,而是这个模型的能力天花板就在这里。
你就能先确认模型有没有这个能力,再去优化 Prompt。
06|评测结果的三种深读视角
不只是分数,平台提供了三种深度阅读视角。
视角一:雷达图展示各模型的维度短板
![]()
5 个模型 20+ 维度(自选)同框:可以看到不同模型在这些用例集里的具体表现。
视角二:详细表格可按场景看通过情况
你可以细致地看某一些用例的具体的得分,
![]()
也可以从维度的视角查看
![]()
视角三:柱状图视角
如果你想更直观看到不同模型在某个用例维度上的表现,也可以切到柱状图视角,我提供了比较丰富的着色和图例定制工具。
如果你正好要汇报…
嗯…
看起来就很专业,不是吗~
![]()
对了,这个系统是团队协作友好的。
你在任何界面,都可以直接把 URL 复制给你的朋友们,他们通过 URL 就能还原你的筛选条件,比如这张图,你可以点击「查看原文」直接跳转。
07|图片快速对比
当所有模型都在同一个极限任务(多语言混合海报)上翻车,你需要矮子里面挑大个的时候,你仍然能看清楚翻车的程度和方式…
![]()
7 个模型全部未通过,但最高分 58.5 和最低分 39.0 差距悬殊,失败方式各不相同。
08|局限性
不过,这个评测体系还是有很多的问题。
一、缺乏 Ground Truth 校验
评分完全依赖 LLM-as-a-Judge,没有人工标注的 Ground Truth 作为校准基准。
我准备和大家一起,选取各维度的代表性用例建立人工标注集,定期校验 AI 评分与人工判断的一致率。
二、测试用例覆盖存在盲区
测试用例由 AI 生成,不可避免地带上了我经验上的局限。
如果你有需要的用例,可以点击右上角提需求。
提交你的需求,我们一起持续补充测试集,如果你提供了提示词,我会送你一些小小的福利~
三、更多小问题
群里的朋友 @Suda 建议大模型只针对维度回复 Yes or No,这个我后面也会一并处理~
![]()
终|不选最强的,选最合适的
回到开头的问题:这个小山出题评测凭什么更有用?
看到这里,你可能已经发现了。
我做的不是「谁最强」的纯排行榜,这个平台只是在帮你更好地思考和发现「你的场景该选谁」。
因为「最贵的不一定最合适,场景匹配才是关键」。
这个平台我会一直更新下去,因为…
我真的很需要它…
如果以后新出了一个模型,也欢迎你到这里看看,也欢迎你催跟。
这篇方法论比较硬核,如果你对某个策略有疑问,或者想了解更多技术细节,欢迎评论区聊聊。
我是洛小山,我们下次见。
关于我
我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。
我不追热点,只分享那些能真正改变我们工作模式的观察和工具。
如果你也在做 AI 产品,欢迎关注我,我们一起进化。
本文知识产权归洛小山所有。
未经授权,禁止抓取本文内容,用于模型训练以及二次创作等用途。
参考文献
1. Zheng, L., et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. NeurIPS 2023.
- arxiv.org/abs/2306.05685
- 2. Doddapaneni, S., et al. (2024). Finding Blind Spots in Evaluator LLMs with Interpretable Checklists.
- arxiv.org/abs/2406.13439
- 3. Li, J., et al. (2023). Generative Judge for Evaluating Alignment (Auto-J).
- arxiv.org/abs/2310.05470
- 4. Gu, J., et al. (2024). A Survey on LLM-as-a-Judge.
- arxiv.org/abs/2411.15594
- 5. Li, T., et al. (2024). From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline.
- arxiv.org/abs/2406.11939
- 6. Hashemi, H., et al. (2024). LLM-Rubric: A Multidimensional, Calibrated Approach to Automated Evaluation of Natural Language Texts.
- arxiv.org/abs/2501.00274
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.