网易首页 > 网易号 > 正文 申请入驻

大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩

0
分享至

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

大模型竞技场的可信度,再次被锤。

最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术圈引发关注。

它指出,如今被视为LLM领域首选排行榜的Chatbot Arena,存在诸多系统问题。比如:

  • 少数大厂可以私下测试多个模型版本,Llama4在发布前甚至测了27个版本,然后只公开最佳表现。
  • 数据访问不平等,专有模型获得的用户反馈数据显著多于开源模型。
  • 使用Arena数据训练,可提升模型性能高达112%
  • 205个模型被悄悄静默弃用,远超过官方列出的47个。

大神卡帕西也站出来表示,他个人也察觉出了一些异样。

有一段时间,Claude-3.5是我觉得最好用的模型,但是在竞技场中排名很低。当时我在网上也看到了类似的反馈。

对于最新质疑,大模型竞技场官方Lmrena.ai已经给出回应:

  • 确实帮助厂商进行测试,最后发布最受欢迎的版本;
  • 但这不代表竞技场有偏见,排行榜反映数百万人类的个人真实偏好。

快速刷榜不符合模型进步实际情况

具体来看这项研究,它收集了243个模型的200+万场竞技场battle,并结合私人真实测试,通过模拟实验确定了不同情况下对模型排名的影响。

主要挖掘出了4方面问题。

第一,私人测试和有选择性的结果报告。

少数大模型厂商(如Meta、Google、Amazon)被允许私下测试多个模型变体,并只公开最佳表现的版本。

比如,Meta在Llama 4发布前曾私下测试27个变体,加上多模态、代码等榜单,Meta可能一共测试过43个变体。

这种“最佳N选1”策略导致排名膨胀。

例如,当测试5个变体时,期望分数增加了约20分;当测试20个变体时,增加了约40分;当测试50个变体时,增加了约50分。

研究团队认为,当多个大模型厂商采用这种策略时,他们实际上是在相互竞争各自变体分布的最大值,而非真实的模型能力

我们观察到,像Google、OpenAI和xAI在短时间内轮番霸榜,表明他们都在采用类似的策略。
例如,2024年11月期间,Google的Gemini (Exp 1114)、OpenAI的ChatGPT-4o (20241120)和Google的Gemini (Exp 1121)在一周内先后占据榜首。类似地,2025年3月4日,OpenAI的GPT-4.5和xAI的Grok-3同一天争夺榜首位置。

这种排行榜的快速变化不太可能反映真实的技术进步,因为开发和完善一个全新的基础模型通常需要数月时间。

相反,这很可能是多个大模型厂商同时使用“最佳N选1”策略的结果,每个提供商都试图优化自己变体池中的最大值。

此外,团队还发现大模型厂商可以撤回表现不好的模型。

第二,数据访问不平等。专有模型获得的用户反馈数据显著多于开源模型。

Google和OpenAI分别获得了约19.2%和20.4%的所有测试数据,而全部83个开放权重模型仅获得约29.7%的数据。

第三,大模型厂商使用竞技场数据进行训练,排名可以显著提升。

我们观察到,将竞技场训练数据比例从0%增加到70%,在ArenaHard上的胜率从23.5%提高到了49.9%,实现了一倍多的增长。
这还是一个保守估计,因为部分提供商拥有数据访问优势。

第四,研究发现,许多模型被”静默弃用”(减少采样率至接近0%)。

在243个公开模型中,有205个被静默弃用,远超过官方列出的47个。这种做法特别影响开源和开放权重模型,会导致排名不可靠。

在提出问题后,研究团队还给出了5点改进建议:

  • 禁止提交后撤回分数
  • 限制每个提供商的非正式模型数量
  • 公平应用模型弃用政策,所有模型一视同仁
  • 实施公平采样方法
  • 提高模型弃用透明度,即时通知被淘汰模型

这项研究由Cohere团队、普林斯顿大学、斯坦福大学等机构研究人员共同提出。

其中Cohere也是一家大模型厂商,由Transformer作者Aidan Gomez等人创办,推出了Command R+系列模型。

“竞技场不应该是唯一基准参考”

大模型竞技场诞生2年来,因为机制的特殊性,其参考价值越来越高,大厂发模型也必来这里打榜,甚至是将未发布模型提前在此预热造势。

它最大的优势在于基于人类偏好评估,用户可以在同一平台上同时运行多个聊天机器人模型,如GPT-4、ChatGPT-3.5等,并针对相同的问题或任务进行比较分析,可以更直观感受不同模型的差异。

最近一段时间,由于Llama4刷榜风波,给竞技场的可信度也造成了一定影响。

对于这篇质疑论文,官方现在已做出回应。反驳了一些问题:

  • LMArena模拟的缺陷:图7/8中的模拟存在问题。这就像说:NBA球员的平均三分命中率是35%。斯蒂芬·库里拥有NBA球员最高的三分命中率42%。这不公平,因为他来自NBA球员的分布,而所有球员都有相同的潜在平均水平。
  • 数据不实:文章中的许多数据并不反映现实:请参阅几天前发布的博客了解来自不同提供商测试模型数量的实际统计数据。例如,开放模型占比为40%,而非文章声称的8.8%!
  • 112%性能提升的误导性说法:这一说法基于LLM评判基准而非竞技场中的实际人类评估。
  • 政策并非“不透明”:我们设计并公开分享了政策,且这一政策已存在一年多。
  • 模型提供商并非只选择“最佳分数披露”:任何列在公共排行榜上的模型都必须是向所有人开放且有长期支持计划的生产模型。我们会继续使用新数据对模型进行至少一个月的测试。这些要点一直在我们的政策中明确说明。
  • 展示非公开发布模型的分数毫无意义:对于通过API或开放权重不公开可用的预发布模型显示分数没有意义,因为社区无法使用这些模型或自行测试。这会违反我们一年多前就制定的政策。我们制定该政策正是为了明确这一规则:如果模型在排行榜上,它应该可供使用。
  • 模型移除不平等或不透明的说法不实:排行榜旨在反映社区兴趣,对最佳AI模型进行排名。我们也会淘汰不再向公众开放的模型,这些标准在我们与社区进行私人测试的整个期间都已在政策中公开说明。

至于情况到底如何,可能还要等子弹飞一会儿。

不过这倒是也给AI社区提了个醒,或许不能只参考一个榜单了。

卡帕西就给出了一个备选项:OpenRouter。

OpenRouter可以提供一个统一API接口来访问使用不同模型,而且更加关注实际使用案例。

尽管在多样性和使用量上还不够优秀,但我认为它有很大潜力。


[1]https://arxiv.org/abs/2504.20879
[2]https://x.com/karpathy/status/1917546757929722115
[3]https://x.com/lmarena_ai/status/1917492084359192890

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

喜欢历史的阿繁
2026-03-26 09:20:58
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
汽车出海闯进新周期,广汽首个服务品牌GAC CARE捉住“决胜点”

汽车出海闯进新周期,广汽首个服务品牌GAC CARE捉住“决胜点”

功夫AUTO
2026-03-26 11:51:12
袁家军会见王兴兴

袁家军会见王兴兴

新京报政事儿
2026-03-26 16:45:34
张雪峰助理万霞:十年相伴,生死相隔最痛的人!

张雪峰助理万霞:十年相伴,生死相隔最痛的人!

天光破云来
2026-03-26 11:55:41
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

桂系007
2026-03-26 16:19:32
张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

笔墨V
2026-03-26 14:53:51
伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

每日经济新闻
2026-03-26 17:27:09
上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

环球网资讯
2026-03-26 08:13:14
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
美团:2025年营收3,648.5亿元人民币 同比增长8.1%

美团:2025年营收3,648.5亿元人民币 同比增长8.1%

财联社
2026-03-26 17:40:04
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
2026-03-26 18:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
游戏
家居
房产
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

又一经典最终幻想游戏将停运!开服至今已六年有余

家居要闻

傍海而居 静观蝴蝶海

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版