网易首页 > 网易号 > 正文 申请入驻

AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥

0
分享至

新智元报道

编辑:编辑部 ZJH

【新智元导读】刚刚,LMArena陷入了巨大争议,斯坦福MIT和Ai2等的研究者联手发论文痛斥,这个排行榜已经被Meta等公司利用暗中操作排名!Karpathy也下场帮忙锤了一把。而LMArena官方立马回应:论文存在多处错误,指控不实。

已经有越来越多的人发现:大模型排行榜LMArena,可能已经被大厂们玩坏了!

就在最近,来自Cohere、普林斯顿、斯坦福、滑铁卢、MIT和Ai2等机构的研究者,联手祭出一篇新论文,列出详尽论据,痛斥AI公司利用LMArena作弊刷分,踩着其他竞争对手上位。

论文地址:https://arxiv.org/abs/2504.20879

与此同时,AI大佬、OpenAI创始成员Andrej Karpathy也直接下场,分享了一段自己的亲身经历。

前一段时间,Gemini模型一度在LMArena排名第一,远超第二名。

但Karpathy切换使用后,感觉还不如他之前用的模型。

相反,大约在同一时间,他的个人体验是Claude 3.5是最好的,但在LMArena上的排名却很低。

他还发现一些其他相对随机的模型,通常小得可疑,据他所知几乎没有现实世界的知识,但排名也很高。

他开始怀疑,谷歌等AI巨头在暗中操纵LMArena的排名。

要知道,就在本月初,就有报道称LMArena可能正在成立新公司,筹集资金。

在这个时候曝出丑闻,不知对此是否会有影响。

业内联名痛斥巨头

巧钻漏洞,暗箱操作

这篇报告,研究者花费了5个月时间分析了竞技场上的280万场战斗,涵盖了43家提供商的238个模型。

结果表明,少数提供商实施的优惠政策,导致过度拟合竞技场特定指标,而不是真正的AI进步。

因为存在未公开的私下测试机制,少数公司能在模型公开发布前测试多个变体,甚至选择性地撤回低分模型的结果。

如此一来,公司便可以「挑三捡四」,只公布表现最好的模型得分,从而让LMArena的排行榜的结果出现严重「偏见」。

而这种优势,会随着变体数量的增加,而持续叠加。

私下测试模型变体数量对最佳预期得分的影响

「best-of-N」提交策略对排名的模拟影响

允许撤回评分会导致提供商有意抬高竞技场分数

比如说,Meta在发布Llama 4之前,曾私下在LMArena上测试了27个LLM变体。

而最终只公布了其中一个分数。

巧的是,这个模型恰恰就在LMArena上名列前茅。

Cohere的AI研究副总裁、论文合著者Sara Hooker在接受外媒采访时抱怨说:「只有少数公司会被告知可以私下测试,而且部分公司获得的私下测试机会,远超其他公司。」

「这就是赤裸裸的儿戏。」

从「行业标准」到「人人喊打」?

与此同时,研究者还发现:

  • 闭源商业模型(如Google、OpenAI的模型)在LMArena中参与次数更多

  • 与之对比,开源模型(开放权重)不仅对战次数较少,而且更容易在Arena中被移除

  • 这导致了一个长期的数据访问不平等现象

不同模型提供者的最大观测采样率

采样率反映了模型在LMArena中被普通用户看到的频率,也直接决定了该模型开发者能获取多少用户交互数据。

LMArena是一个开放的社区资源,提供免费反馈,但61.3%的所有数据都流向了特定的模型提供商。

具体来说,他们估算:

  • Google和OpenAI的模型分别获得了Arena上约19.2%和20.4%的全部用户对战数据

  • 83个开源模型的总数据占比仅为29.7%

模型开发者的数据可用性情况

而保守估计哪怕是有限的额外数据,也可能带来高达112%的相对性能提升

这进一步说明模型在Arena上的表现很容易被「过拟合」——即优化的是排行榜表现,而不是真正的通用模型质量。

值得注意的是,LMArena的构建和维护依赖于组织者和开源社区的大量努力。

组织者可以通过修订他们的政策来继续恢复信任。

论文还非常清楚地提出了五个必要的改变:

  • 公开全部测试

  • 限制变体数量

  • 确保移除模型的公平性

  • 公平抽样

  • 提高透明性


官方回应

论文有大量错误和诋毁

铺天盖地的质疑袭来,LMArena火速出来回应了!

它的官号第一时间发推回应称,这项研究存在诸多事实错误和误导性陈述,充满了「不确定和可疑的分析」。

而他们的说法,得到了谷歌DeepMind首席研究员Armand Joulin的声援。

他表示,论文中的一些数据是不准确的,比如谷歌只向LMArena发过一个Gemma 3的模型,进行预发布测试。

具体来说,关于某些模型提供商未得到公平对待的说法:

  • 这不符合事实。LMArena表示他们一直尽力满足所有收到的评估请求。如果一个模型提供商选择提交比另一个模型提供商更多的测试,这并不意味着后者受到了不公平对待。每个模型提供商对如何使用和重视人类偏好都有不同的选择。

事实错误:

  • LMArena的模拟(如图7/8所示)存在缺陷。这就像说:「NBA的平均三分球命中率是35%。库里的三分球命中率是NBA中最高的,为42%。这不公平,因为他来自NBA球员的分布,而他们都有相同的潜在均值。」

  • 论文中的许多数字与实际情况不符。LMArena在几天前发布了博客,公布了不同提供商的测试模型的实际统计数据。例如,开源模型占40%,而不是8.8%!

  • 所谓112%性能提升的说法具有误导性,论文的结果基于LLM-judge基准,而不是Arena中的实际人工评估。

  • LMArena的政策并非「秘而不宣」。早在一年多前,LMArena就设计并公开分享了他们的政策。

  • 模型提供商不仅仅选择「要披露的最佳分数」。公共排行榜上列出的任何模型都必须是所有人都可以使用的正式版本,并且计划提供长期支持。LMArena会使用新的数据对模型进行至少一个月的持续测试。LMArena的政策中一直明确说明了这些要点。

  • 显示无法通过API或开源权重公开获取的预发布模型的分数毫无意义,因为社区无法使用这些模型或自行进行测试。这将违反LMArena一年多以前制定的政策。LMArena制定这项规则正是为了明确这一点:如果模型在排行榜上,则必须保证可用性。

  • 模型下架并非不公正或缺乏透明度,这与事实不符。排行榜旨在反映社区对最佳AI模型进行排名的兴趣。LMArena还会下架不再向公众提供的模型。这些标准已在我们的政策中公开声明,并且在社区进行私下测试期间始终有效。

LMArena的政策(上下滑动查看)

要不,换个平台试试?

正如贝佐斯所说:「当数据与个人经验不一致时,个人经验通常是正确的。」

Karpathy也有同感。

他认为这些大团队在LMArena分数上投入了太多的内部关注和决策精力。

不幸的是,他们得到的不是更好的整体模型,而是更擅长在LMArena上获得高分的模型,而不管模型是否更好。

对此Karpathy表示,既然LMArena已经被操控了,那就给大家推荐一个有望成为「顶级评测」的新排行榜吧!

它就是——OpenRouterAI。

OpenRouter允许个人/公司在不同LLM提供商之间快速切换API。

他们都有真实的用例(并非玩具问题或谜题),有自己的私有评测,并且有动力做出正确的选择,因此选择某个LLM就是在为该模型的性能和成本的组合投票。

Karpathy表示,自己非常看好OpenRouter成为一个难以被操控的评测平台。

创始成员离开

初心或已不在

如今的爆火,或许让人早已忘记,LMArena最初只是UC Berkeley、斯坦福、UCSD和CMU等高校的几位学生自己做出来的项目。

和传统评测不同,LMArena采用的则是一套完全不同的方式——

用户提出问题,两个匿名AI模型给出答案,然后评判哪个回答更好,并最终将这些评分被汇总到一个排行榜上。

凭借着这套创新性的方法,它一举成为了当时几乎唯一一个能较为客观地反映LLM性能的榜单。

在输入框中输入问题,两个不同的模型A和B同时回答。之后,用户可选A或B的不同评价:A更好,B更好,平局,都不好

随着科技公司投入数百亿美元押注AI将成为未来几十年的决定性技术,LMArena也迅速走红。

在吸引客户和人才方面,任何领先竞争对手的优势都可能带来重大影响,这就是为什么众多科技高管和工程师像华尔街交易员盯盘一样密切关注LMArena。

之后的故事,大家就都知道了。

问题在于,作为课余项目的LMArena本身并不完善。之所以能在持续的爆炸性增长下不失客观性,靠的是创始人们坚定的初心。

随着创始成员陆续毕业,新成员的加入,LMArena似乎也离它最初的路线,越来越远。

一方面,由于投票不公开、以及哪些模型应该进入竞技场是由某几位成员独断决定的,导致LMArena自身机制就缺乏透明性。

另一方面,新团队在某个时间点突然决定,把LMArena开放给头部大公司做匿名模型测试。

这帮摸爬滚打了多年的老油条们,显然不会错失这一良机。基于对大量实测数据的分析,这些技术大佬们很快就「掌握」了LMArena的调性,纷纷刷起了高分。

从此,质疑声便开始此起彼伏。

参考资料:

https://x.com/karpathy/status/1917546757929722115https://x.com/arankomatsuzaki/status/1917400711882797144

https://techcrunch.com/2025/04/30/study-accuses-lm-arena-of-helping-top-ai-labs-game-its-benchmark/

https://x.com/lmarena_ai/status/1917668731481907527

https://arxiv.org/abs/2504.20879

https://openrouter.ai/rankings

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

世界圈
2026-02-26 19:15:06
过去30年,中国三次忍辱负重“装孙子”躲过美国阻击,终迎大发展

过去30年,中国三次忍辱负重“装孙子”躲过美国阻击,终迎大发展

阿胡
2024-06-13 14:25:16
地主王学文救起晕倒的女红军,她拉开衣襟的那刻,王学文吓一跳

地主王学文救起晕倒的女红军,她拉开衣襟的那刻,王学文吓一跳

磊子讲史
2026-01-06 10:38:15
特朗普寻求伊朗政权更迭?伊朗外长:不可能完成的任务

特朗普寻求伊朗政权更迭?伊朗外长:不可能完成的任务

齐鲁壹点
2026-03-01 06:45:16
热搜爆了!王一博綦美合聊天截图被疯传!网扒细节范丞丞也回应了

热搜爆了!王一博綦美合聊天截图被疯传!网扒细节范丞丞也回应了

落雪听梅a
2026-02-28 22:51:41
慈禧太后最有名的一首诗,也是流传千古的经典

慈禧太后最有名的一首诗,也是流传千古的经典

格命草
2026-02-05 15:53:38
4-0!中国队杀疯了,狂胜澳大利亚球队!4场轰20球,冲亚洲杯冠军

4-0!中国队杀疯了,狂胜澳大利亚球队!4场轰20球,冲亚洲杯冠军

篮球看比赛
2026-02-28 17:00:11
男子爬到何仙姑雕像头顶拍照,山东蓬莱阁景区回应:“八仙过海”石雕属于公共区域无人值守,后续会加强巡逻

男子爬到何仙姑雕像头顶拍照,山东蓬莱阁景区回应:“八仙过海”石雕属于公共区域无人值守,后续会加强巡逻

三湘都市报
2026-02-28 13:37:39
涨价了!000636,包揽AI算力+CPO+商业航天+机器人+储能概念

涨价了!000636,包揽AI算力+CPO+商业航天+机器人+储能概念

数据宝
2026-03-01 07:57:43
河村勇辉本场首发出战34分钟 得到11分19助4篮板1抢断

河村勇辉本场首发出战34分钟 得到11分19助4篮板1抢断

环球体坛啄木鸟
2026-02-28 17:16:45
悲催!网传黑龙江一29岁男子去世,大学毕业后不上班,酗酒致死…

悲催!网传黑龙江一29岁男子去世,大学毕业后不上班,酗酒致死…

火山詩话
2026-03-01 09:32:21
53岁李冰冰在巴黎杀疯了!白到发光隐现腹肌,这状态真不是人类?

53岁李冰冰在巴黎杀疯了!白到发光隐现腹肌,这状态真不是人类?

草莓解说体育
2026-02-06 05:59:56
伊朗外交部最新声明:伊朗武装部队将对侵略者作出果断回应

伊朗外交部最新声明:伊朗武装部队将对侵略者作出果断回应

环球网资讯
2026-02-28 19:04:06
渐行渐远!一个疯狂的时代,彻底结束了。

渐行渐远!一个疯狂的时代,彻底结束了。

沙舟狼客
2026-01-29 21:27:13
马筱梅被质疑代孕,资深博主爆料怀孕诸多疑点,本人曾多次去美国

马筱梅被质疑代孕,资深博主爆料怀孕诸多疑点,本人曾多次去美国

古希腊掌管月桂的神
2026-02-28 15:00:19
凯恩双响队史第一人,基米希绝杀,拜仁3-2逆转多特11分领跑德甲

凯恩双响队史第一人,基米希绝杀,拜仁3-2逆转多特11分领跑德甲

钉钉陌上花开
2026-03-01 03:30:10
坚守底线!迟迟不开放瓦罕走廊,就是早就看透了本质,果然应验了

坚守底线!迟迟不开放瓦罕走廊,就是早就看透了本质,果然应验了

瑛派儿老黄
2026-02-28 12:48:46
WTT新加坡大满贯:1日赛程有变动,孙颖莎,王曼昱,王曼昱责任

WTT新加坡大满贯:1日赛程有变动,孙颖莎,王曼昱,王曼昱责任

郝小小看体育
2026-03-01 04:49:24
中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

瓦伦西亚月亮
2026-02-20 17:37:18
女婿当众搂腰挽留丈母娘,10天后评论区还在吵:这算亲?还是越界

女婿当众搂腰挽留丈母娘,10天后评论区还在吵:这算亲?还是越界

大熊欢乐坊
2026-02-28 01:40:08
2026-03-01 11:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14616文章数 66648关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

哈梅内伊遇袭身亡 特朗普:被击毙的领导人都无计可施

头条要闻

哈梅内伊遇袭身亡 特朗普:被击毙的领导人都无计可施

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

极石汽车2月交付1298台 销量涨至上年200%

态度原创

亲子
房产
艺术
旅游
公开课

亲子要闻

深圳光明以“生态育人”赋能高质量发展 这所幼儿园提供样本

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

艺术要闻

2025第四届“精神·图式”——中国写意油画双年展 | 入选油画选刊

旅游要闻

跟着“滇超”去旅行 | 大理⇌保山:风花雪月遇上边地烟火

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版