网易首页 > 网易号 > 正文 申请入驻

大模型榜单可信吗?

0
分享至

2025年4月,Meta的一则发布让整个AI圈沸腾了。Llama 4 Maverick在大模型竞技场LMArena上以1417分的ELO冲到第二名,仅次于Gemini 2.5 Pro。消息一出,媒体争相报道,开源社区一片叫好。但几个月后,一篇题为The Leaderboard Illusion的学术论文揭开了内幕——Meta在发布前私下测试了至少27个模型变体,只公布了成绩最好的那一个。真正交到开发者手里的开源版本,排名从第2一路跌到了第32。

这不是个例。

几乎每隔几周,就会有一家厂商的模型"登顶""屠榜"。2026年5月,阿里通义千问Qwen 3.7-Max冲上全球编程盲测榜单Code Arena第二,国产模型中排名最靠前。6月,阶跃星辰Step 3.7 Flash模型登上Artificial Analysis榜单输出速度第一,达到409 tokens/s。模型发布必配榜单战报,已经成了行业的固定动作。

问题来了:这些排名,到底有多少含金量?

你的模型"登顶"了,到你手里就不行

大模型榜单,本应是用户挑选模型最直接的参考。但越来越多的人发现,榜单上的"优等生"到了真实环境里常常水土不服。各家模型的分数越来越高,"谁更好用"这个问题反而越来越模糊。

要理解榜单为什么会失真,先得知道榜单是怎么来的。

大模型的能力排名,本质上来自一场场"考试"。业内把这种评估模型性能的测试称为基准测试——一套标准化的考题,由学术机构、厂商甚至个人设计,用固定的题目和评分标准来检验模型在特定任务上的表现。模型做完测试拿到分数,再按分数高低排定位次,这就是榜单。

目前的基准测试大致分两种。第一种是离线测试,有固定公开题库和标准答案,模型作答,系统打分。MMLU、GSM8K、HumanEval走的是这条路。优势是可量化、能横向比较,但题库公开,意味着厂商可以提前"背题"。第二种是在线竞技场,没有固定题目也没有标准答案。用户提交一个问题,系统把它同时发给两个匿名模型,用户对比后投票选出更好的那个,平台再将投票结果转化为动态排名。LMArena是这条赛道上的主流玩家,由LMSYS组织创建,多个厂商直接引用其排名作为模型能力的背书。它的优势是贴近真实使用感受,但局限也很明显——用户评判带有主观偏好,研究显示用户会倾向于选择篇幅更长、"看上去更专业"的回答。

两类测试各有利弊,但它们的共同问题是:随着时间推移,失真的可能性都在增大。

分数通胀:试卷跟不上考生了

主流基准测试的"试卷"难度已经跟不上模型进化速度。典型的数学应用题基准GSM8K,两三年前还是衡量模型推理能力的重要标尺,现在几乎所有主流模型都能拿到高分,失去了筛选作用。另一个典型是MMLU,顶级模型的准确率早已突破90%,趋于饱和。头部模型集体趋近满分,分数之间的差距已经不具有统计意义。

刷榜:一场心照不宣的"作弊"

目前主流榜单的测试题目与标准答案大多公开可获取,厂商可以进行针对性训练。做法分两种——一种是直接对标测试原题或简单修改数据参数,模型相当于"背题考试";另一种是不使用原题,而是拆解试题核心知识点,合成同类数据进行训练,类似"刷模拟卷"。前者是赤裸裸的作弊,后者虽然技术上看更"体面",但本质上都是在围绕已知考题优化,而非提升模型真实能力。

Meta的Llama 4 Maverick事件就是一个教科书级的反面案例。Meta提交给LMArena的版本是专门为对话风格优化的实验版,回答冗长、堆砌表情符号。当LMArena开启"风格控制"过滤后,它的排名从第2跌到了第5。而更令人玩味的是,真正开源的版本排名直接跌到第32。

考的和用的,压根不是一回事

当前榜单多为标准化试题,侧重知识记忆与标准答案匹配,但用户的真实需求远比考题复杂。模型训练时都会以榜单高分为目标,但高分不意味着会做事。在实际业务中,问题不一定有唯一的标准答案,场景也更多元,一个模型是否好用很难单纯通过"考试成绩"评判。

有从业者打了个比方:榜单相当于温度计,刷榜相当于在温度计旁边摆了一个火炉,测到的是火炉的温度,但用户感受到的是整个房间的体感温度,当然不会高。榜单测的是一个点,用户感受的是整个场景,落差自然产生。

什么样的榜单才值得看

那是不是说榜单完全没用?也不是。关键在于——你得知道哪些榜单值得看,怎么看。

判断一张榜单是否可信,先看两点。

第一看出身。测试套件是否公开透明?出题方是否独立?市面上存在不少"野榜",有些评测机构本身带有商业化属性,靠出榜单、写软文变现,评测方法不透明,样本和流程也不公开。声称某些模型表现更好,却拿不出令人信服的依据。

第二看题库新鲜度。如果主流模型分数普遍趋近满分,说明这份试卷已经饱和,区分度有限。好在学术界也在不断推出更高难度的测评集,榜单自身的迭代也在倒逼模型突破能力瓶颈。

四步找到你的"真命天模"

从业者筛选模型的真实做法,可以归纳为四步。

第一步,明确需求。不同场景对模型的评价标准完全不同。写营销文案、做代码生成、处理长文档、做数学推理——每个方向都有对应的细分榜单。不要盯着一张综合排行看总分,先想清楚自己到底需要模型干什么。

第二步,用榜单做初筛。这不矛盾。榜单的价值在于快速缩小候选范围。挑几个不同出处、不同题库的榜单交叉验证,如果多个独立来源的结论一致,这个结果就比单一榜单更可信。但要注意,分数相近的模型排名先后几乎没有参考价值。

第三步,定制测试集。这是筛选的黄金标准。专业从业者可以针对自身业务设计一套测试题目,把候选模型放在真实的业务环境中并行跑一段时间,看实际效果差异。排名差的不一定不好用,排名高的也不一定适合你的场景。

第四步,普通用户也有自己的"测试方法"。不需要搞复杂的评估体系。挑几个自己日常反复出现的任务——写周报、做PPT、整理资料——让不同模型分别跑一遍,把结果横向对比,哪个更顺手就用哪个。这是最朴素的测试,也是最有用的。

大模型赛道还在急速演化,榜单作为参考工具不会消失,但它的权重应该被重新定义。一个模型好不好用,数据说了不算,榜单说了不算,你的实际体验才算。如果你也在为选模型发愁,不妨试试这四步。踩过坑的朋友,欢迎评论区和大家分享你的真实体验。如果这篇文章对你有帮助,不妨点赞和分享给身边同样在选模型的朋友。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
心理学:人是没有家的,家的概念是假的,人生只有你一个人,只有你越来越好,才有其他,你本身就是家,你是你一生的终点

心理学:人是没有家的,家的概念是假的,人生只有你一个人,只有你越来越好,才有其他,你本身就是家,你是你一生的终点

心理观察局
2026-07-01 07:37:31
日本大模型要超过中美?“河豚AI”干翻GPT-5.5比肩Fable5,到底隐藏着什么秘密?

日本大模型要超过中美?“河豚AI”干翻GPT-5.5比肩Fable5,到底隐藏着什么秘密?

PM熊叔
2026-07-01 07:09:37
东北王张作霖墓地:杂草丛生没人管,遗憾张学良到死都没来祭拜!

东北王张作霖墓地:杂草丛生没人管,遗憾张学良到死都没来祭拜!

史之铭
2026-06-29 00:53:51
办世界杯竟成烫手山芋,2030年仅两个申办国,为啥没人抢?

办世界杯竟成烫手山芋,2030年仅两个申办国,为啥没人抢?

叹为观止易
2026-06-08 14:22:53
基恩-埃利斯两年1800万美元加盟篮网评级:A-

基恩-埃利斯两年1800万美元加盟篮网评级:A-

北青网-北京青年报
2026-07-01 19:54:01
1935年刘文辉故意不炸泸定桥,临终含泪说出真相:那十三根铁索是川康百姓的命根子!

1935年刘文辉故意不炸泸定桥,临终含泪说出真相:那十三根铁索是川康百姓的命根子!

白驹谈人机
2026-06-29 11:19:27
医生:希望你的血脂报告里,永远不要出现这3项异常

医生:希望你的血脂报告里,永远不要出现这3项异常

华庭讲美食
2026-06-23 16:28:06
詹姆斯致谢湖人:能身披紫金战袍是我的荣幸,希望没辜负期待

詹姆斯致谢湖人:能身披紫金战袍是我的荣幸,希望没辜负期待

懂球帝
2026-07-01 06:13:03
许敏杜新枝双双发文,真的假不了,假的也真不了,就这么简单。

许敏杜新枝双双发文,真的假不了,假的也真不了,就这么简单。

娱乐圈见解说
2026-07-01 17:04:37
崔麒加盟玉昆,大连英博甩掉高薪包袱 李昂回避 战三镇拒3连败

崔麒加盟玉昆,大连英博甩掉高薪包袱 李昂回避 战三镇拒3连败

替补席看球
2026-07-01 18:48:23
死亡半区不死亡了!法国队预定决赛名额? 媒体人:提防美国队胡搞

死亡半区不死亡了!法国队预定决赛名额? 媒体人:提防美国队胡搞

风过乡
2026-07-01 08:09:33
亚马尔:法国队无敌?都2年没赢我们了 他们小组赛全胜?看看德国

亚马尔:法国队无敌?都2年没赢我们了 他们小组赛全胜?看看德国

风过乡
2026-07-01 10:27:59
固态电池神话彻底破灭,中科院曾连发"王炸",电池行业迎来变局

固态电池神话彻底破灭,中科院曾连发"王炸",电池行业迎来变局

黑翼天使
2026-06-24 13:56:28
高市早苗支持率68%,创下20多年纪录,对中日关系有4点思考

高市早苗支持率68%,创下20多年纪录,对中日关系有4点思考

共工之锚
2026-07-01 00:38:09
工龄25年5个月的兔子,个账13万,在26年7月退休能领到多少养老金

工龄25年5个月的兔子,个账13万,在26年7月退休能领到多少养老金

智慧生活笔记
2026-07-01 17:50:31
全球拒接奥运,奥委会关注中国,中方回应2036台北见

全球拒接奥运,奥委会关注中国,中方回应2036台北见

烟雨洛神生
2026-06-23 22:54:59
警告普京有兵变的俄军卢宁被捕!想做普里戈金第二?

警告普京有兵变的俄军卢宁被捕!想做普里戈金第二?

项鹏飞
2026-06-28 21:41:22
我与外室厮混19年,60岁想回家让妻子养老,推门见7口人傻眼

我与外室厮混19年,60岁想回家让妻子养老,推门见7口人傻眼

晓艾故事汇
2026-06-28 10:50:04
卢卡申科访华求援一反常态:不提武器,只想要中方帮三个特殊大忙

卢卡申科访华求援一反常态:不提武器,只想要中方帮三个特殊大忙

最美的巧合
2026-07-01 11:52:00
泽连斯基称再次远程打击俄航天通信中心,俄外交部:北约为乌研发武器丧失理性

泽连斯基称再次远程打击俄航天通信中心,俄外交部:北约为乌研发武器丧失理性

文汇报
2026-07-01 03:50:23
2026-07-01 21:08:49
程序员高手之路
程序员高手之路
探索AI前沿科技,关注IT技术与职场,一起开阔眼界,提升认知,突破圈层
107文章数 167关注度
往期回顾 全部

科技要闻

Claude Code被曝“植入木马”识别中国用户

头条要闻

小区起火双胞胎男童遇难:消防栓疑无水 物业经理辞职

头条要闻

小区起火双胞胎男童遇难:消防栓疑无水 物业经理辞职

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

张凌赫:我连心疼你都隔着时差

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

上半年累计销量突破142万辆 吉利6月销量出炉

态度原创

时尚
旅游
亲子
教育
艺术

Meiinpsn的穿衣风格,清新又叛逆

旅游要闻

曲靖老城南门不简单,得名田间禾苗清风,千年前歌谣写尽温柔!

亲子要闻

月嫂每天带宝宝唱歌,突然有一天宝宝也跟着唱了,宝宝不会拍手于是用脚鼓掌

教育要闻

当孩子颓废摆烂在家时,他最希望妈妈做些什么?

艺术要闻

看看董其昌写的10厘米大字!已完胜赵孟頫

无障碍浏览 进入关怀版