网易首页 > 网易号 > 正文 申请入驻

AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥

0
分享至

新智元报道

编辑:编辑部 ZJH

【新智元导读】刚刚,LMArena陷入了巨大争议,斯坦福MIT和Ai2等的研究者联手发论文痛斥,这个排行榜已经被Meta等公司利用暗中操作排名!Karpathy也下场帮忙锤了一把。而LMArena官方立马回应:论文存在多处错误,指控不实。

已经有越来越多的人发现:大模型排行榜LMArena,可能已经被大厂们玩坏了!

就在最近,来自Cohere、普林斯顿、斯坦福、滑铁卢、MIT和Ai2等机构的研究者,联手祭出一篇新论文,列出详尽论据,痛斥AI公司利用LMArena作弊刷分,踩着其他竞争对手上位。

论文地址:https://arxiv.org/abs/2504.20879

与此同时,AI大佬、OpenAI创始成员Andrej Karpathy也直接下场,分享了一段自己的亲身经历。

前一段时间,Gemini模型一度在LMArena排名第一,远超第二名。

但Karpathy切换使用后,感觉还不如他之前用的模型。

相反,大约在同一时间,他的个人体验是Claude 3.5是最好的,但在LMArena上的排名却很低。

他还发现一些其他相对随机的模型,通常小得可疑,据他所知几乎没有现实世界的知识,但排名也很高。

他开始怀疑,谷歌等AI巨头在暗中操纵LMArena的排名。

要知道,就在本月初,就有报道称LMArena可能正在成立新公司,筹集资金。

在这个时候曝出丑闻,不知对此是否会有影响。

业内联名痛斥巨头

巧钻漏洞,暗箱操作

这篇报告,研究者花费了5个月时间分析了竞技场上的280万场战斗,涵盖了43家提供商的238个模型。

结果表明,少数提供商实施的优惠政策,导致过度拟合竞技场特定指标,而不是真正的AI进步。

因为存在未公开的私下测试机制,少数公司能在模型公开发布前测试多个变体,甚至选择性地撤回低分模型的结果。

如此一来,公司便可以「挑三捡四」,只公布表现最好的模型得分,从而让LMArena的排行榜的结果出现严重「偏见」。

而这种优势,会随着变体数量的增加,而持续叠加。

私下测试模型变体数量对最佳预期得分的影响

「best-of-N」提交策略对排名的模拟影响

允许撤回评分会导致提供商有意抬高竞技场分数

比如说,Meta在发布Llama 4之前,曾私下在LMArena上测试了27个LLM变体。

而最终只公布了其中一个分数。

巧的是,这个模型恰恰就在LMArena上名列前茅。

Cohere的AI研究副总裁、论文合著者Sara Hooker在接受外媒采访时抱怨说:「只有少数公司会被告知可以私下测试,而且部分公司获得的私下测试机会,远超其他公司。」

「这就是赤裸裸的儿戏。」

从「行业标准」到「人人喊打」?

与此同时,研究者还发现:

  • 闭源商业模型(如Google、OpenAI的模型)在LMArena中参与次数更多

  • 与之对比,开源模型(开放权重)不仅对战次数较少,而且更容易在Arena中被移除

  • 这导致了一个长期的数据访问不平等现象

不同模型提供者的最大观测采样率

采样率反映了模型在LMArena中被普通用户看到的频率,也直接决定了该模型开发者能获取多少用户交互数据。

LMArena是一个开放的社区资源,提供免费反馈,但61.3%的所有数据都流向了特定的模型提供商。

具体来说,他们估算:

  • Google和OpenAI的模型分别获得了Arena上约19.2%和20.4%的全部用户对战数据

  • 83个开源模型的总数据占比仅为29.7%

模型开发者的数据可用性情况

而保守估计哪怕是有限的额外数据,也可能带来高达112%的相对性能提升

这进一步说明模型在Arena上的表现很容易被「过拟合」——即优化的是排行榜表现,而不是真正的通用模型质量。

值得注意的是,LMArena的构建和维护依赖于组织者和开源社区的大量努力。

组织者可以通过修订他们的政策来继续恢复信任。

论文还非常清楚地提出了五个必要的改变:

  • 公开全部测试

  • 限制变体数量

  • 确保移除模型的公平性

  • 公平抽样

  • 提高透明性


官方回应

论文有大量错误和诋毁

铺天盖地的质疑袭来,LMArena火速出来回应了!

它的官号第一时间发推回应称,这项研究存在诸多事实错误和误导性陈述,充满了「不确定和可疑的分析」。

而他们的说法,得到了谷歌DeepMind首席研究员Armand Joulin的声援。

他表示,论文中的一些数据是不准确的,比如谷歌只向LMArena发过一个Gemma 3的模型,进行预发布测试。

具体来说,关于某些模型提供商未得到公平对待的说法:

  • 这不符合事实。LMArena表示他们一直尽力满足所有收到的评估请求。如果一个模型提供商选择提交比另一个模型提供商更多的测试,这并不意味着后者受到了不公平对待。每个模型提供商对如何使用和重视人类偏好都有不同的选择。

事实错误:

  • LMArena的模拟(如图7/8所示)存在缺陷。这就像说:「NBA的平均三分球命中率是35%。库里的三分球命中率是NBA中最高的,为42%。这不公平,因为他来自NBA球员的分布,而他们都有相同的潜在均值。」

  • 论文中的许多数字与实际情况不符。LMArena在几天前发布了博客,公布了不同提供商的测试模型的实际统计数据。例如,开源模型占40%,而不是8.8%!

  • 所谓112%性能提升的说法具有误导性,论文的结果基于LLM-judge基准,而不是Arena中的实际人工评估。

  • LMArena的政策并非「秘而不宣」。早在一年多前,LMArena就设计并公开分享了他们的政策。

  • 模型提供商不仅仅选择「要披露的最佳分数」。公共排行榜上列出的任何模型都必须是所有人都可以使用的正式版本,并且计划提供长期支持。LMArena会使用新的数据对模型进行至少一个月的持续测试。LMArena的政策中一直明确说明了这些要点。

  • 显示无法通过API或开源权重公开获取的预发布模型的分数毫无意义,因为社区无法使用这些模型或自行进行测试。这将违反LMArena一年多以前制定的政策。LMArena制定这项规则正是为了明确这一点:如果模型在排行榜上,则必须保证可用性。

  • 模型下架并非不公正或缺乏透明度,这与事实不符。排行榜旨在反映社区对最佳AI模型进行排名的兴趣。LMArena还会下架不再向公众提供的模型。这些标准已在我们的政策中公开声明,并且在社区进行私下测试期间始终有效。

LMArena的政策(上下滑动查看)

要不,换个平台试试?

正如贝佐斯所说:「当数据与个人经验不一致时,个人经验通常是正确的。」

Karpathy也有同感。

他认为这些大团队在LMArena分数上投入了太多的内部关注和决策精力。

不幸的是,他们得到的不是更好的整体模型,而是更擅长在LMArena上获得高分的模型,而不管模型是否更好。

对此Karpathy表示,既然LMArena已经被操控了,那就给大家推荐一个有望成为「顶级评测」的新排行榜吧!

它就是——OpenRouterAI。

OpenRouter允许个人/公司在不同LLM提供商之间快速切换API。

他们都有真实的用例(并非玩具问题或谜题),有自己的私有评测,并且有动力做出正确的选择,因此选择某个LLM就是在为该模型的性能和成本的组合投票。

Karpathy表示,自己非常看好OpenRouter成为一个难以被操控的评测平台。

创始成员离开

初心或已不在

如今的爆火,或许让人早已忘记,LMArena最初只是UC Berkeley、斯坦福、UCSD和CMU等高校的几位学生自己做出来的项目。

和传统评测不同,LMArena采用的则是一套完全不同的方式——

用户提出问题,两个匿名AI模型给出答案,然后评判哪个回答更好,并最终将这些评分被汇总到一个排行榜上。

凭借着这套创新性的方法,它一举成为了当时几乎唯一一个能较为客观地反映LLM性能的榜单。

在输入框中输入问题,两个不同的模型A和B同时回答。之后,用户可选A或B的不同评价:A更好,B更好,平局,都不好

随着科技公司投入数百亿美元押注AI将成为未来几十年的决定性技术,LMArena也迅速走红。

在吸引客户和人才方面,任何领先竞争对手的优势都可能带来重大影响,这就是为什么众多科技高管和工程师像华尔街交易员盯盘一样密切关注LMArena。

之后的故事,大家就都知道了。

问题在于,作为课余项目的LMArena本身并不完善。之所以能在持续的爆炸性增长下不失客观性,靠的是创始人们坚定的初心。

随着创始成员陆续毕业,新成员的加入,LMArena似乎也离它最初的路线,越来越远。

一方面,由于投票不公开、以及哪些模型应该进入竞技场是由某几位成员独断决定的,导致LMArena自身机制就缺乏透明性。

另一方面,新团队在某个时间点突然决定,把LMArena开放给头部大公司做匿名模型测试。

这帮摸爬滚打了多年的老油条们,显然不会错失这一良机。基于对大量实测数据的分析,这些技术大佬们很快就「掌握」了LMArena的调性,纷纷刷起了高分。

从此,质疑声便开始此起彼伏。

参考资料:

https://x.com/karpathy/status/1917546757929722115https://x.com/arankomatsuzaki/status/1917400711882797144

https://techcrunch.com/2025/04/30/study-accuses-lm-arena-of-helping-top-ai-labs-game-its-benchmark/

https://x.com/lmarena_ai/status/1917668731481907527

https://arxiv.org/abs/2504.20879

https://openrouter.ai/rankings

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
柬埔寨铁笼拉人当地辟谣翻车,骗不了寻子妈妈的眼泪和公众的眼睛

柬埔寨铁笼拉人当地辟谣翻车,骗不了寻子妈妈的眼泪和公众的眼睛

你食不食油饼
2026-01-12 15:32:08
美国组织发布Labubu工厂调查报告:工人每月只休1天,还雇有未成年人

美国组织发布Labubu工厂调查报告:工人每月只休1天,还雇有未成年人

小萝卜丝
2026-01-14 13:58:23
青瓦台魔咒再次显现!韩国前总统被死刑!

青瓦台魔咒再次显现!韩国前总统被死刑!

奋斗在韩国
2026-01-14 08:47:29
泰国在建铁路事故已致22死

泰国在建铁路事故已致22死

环球网资讯
2026-01-14 13:02:35
Lisa和LV三公子疑似被抓,两人在晚宴发生不雅行为,现场视频流出

Lisa和LV三公子疑似被抓,两人在晚宴发生不雅行为,现场视频流出

花哥扒娱乐
2026-01-13 19:00:07
携程跌超9%!市场监管总局依法对携程集团有限公司立案调查

携程跌超9%!市场监管总局依法对携程集团有限公司立案调查

21世纪经济报道
2026-01-14 16:14:49
人要坏成什么样子,才能做出这等丧尽天良的事!

人要坏成什么样子,才能做出这等丧尽天良的事!

胖胖说他不胖
2026-01-14 13:31:12
日经225指数首次升破54000点,创下盘中新高

日经225指数首次升破54000点,创下盘中新高

每日经济新闻
2026-01-14 08:12:52
出差前,我在妻子睡衣上撒了荧光粉,回来打开紫光灯妻子脸色惨白

出差前,我在妻子睡衣上撒了荧光粉,回来打开紫光灯妻子脸色惨白

清茶浅谈
2026-01-13 21:21:11
蒋超良四弟、五弟全涉案,被免湖北省委书记后,“边上一下安静了,没有人了”

蒋超良四弟、五弟全涉案,被免湖北省委书记后,“边上一下安静了,没有人了”

新京报政事儿
2026-01-13 20:42:52
高市安排妥了,李在明在日本吃晚宴,饭还没下肚,中方先回了14字

高市安排妥了,李在明在日本吃晚宴,饭还没下肚,中方先回了14字

军机Talk
2026-01-14 14:10:03
随着日本2-0,阿联酋1-1,亚洲杯八强仅剩最后2席,中国队还未晋级

随着日本2-0,阿联酋1-1,亚洲杯八强仅剩最后2席,中国队还未晋级

侧身凌空斩
2026-01-14 02:59:47
14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

丰谭笔录
2026-01-13 07:20:11
相识超30年,马云前助理陈伟去世,马云夫妇送花圈挽联:活得洒脱,爱得真诚;享有趣的灵魂,获一世的情谊

相识超30年,马云前助理陈伟去世,马云夫妇送花圈挽联:活得洒脱,爱得真诚;享有趣的灵魂,获一世的情谊

都市快报橙柿互动
2026-01-14 15:57:21
贺娇龙工作时意外坠马,仍在救治中!曾身披红衣策马雪原火爆全网,网友:希望只是虚惊一场

贺娇龙工作时意外坠马,仍在救治中!曾身披红衣策马雪原火爆全网,网友:希望只是虚惊一场

新民晚报
2026-01-14 12:36:39
贵妃半裸出浴雕像被指“不雅观”

贵妃半裸出浴雕像被指“不雅观”

深圳晚报
2026-01-13 23:26:00
“对女儿实施性侵348次”!台北警察局一主管在开庭前身亡

“对女儿实施性侵348次”!台北警察局一主管在开庭前身亡

南方都市报
2026-01-14 14:42:13
浙大美女张燕飞去德国学汉学,回中国当博导……

浙大美女张燕飞去德国学汉学,回中国当博导……

吃瓜体
2026-01-13 17:05:24
网传“骨科神医”家藏3.2亿现金,全被冻结!

网传“骨科神医”家藏3.2亿现金,全被冻结!

达文西看世界
2026-01-10 14:18:58
阿维塔电车失控在市区道路时速超100km/h连撞15车,肇事司机称系驾驶辅助系统失控,阿维塔否定车辆问题,认定为人工驾驶,责任认定引争议

阿维塔电车失控在市区道路时速超100km/h连撞15车,肇事司机称系驾驶辅助系统失控,阿维塔否定车辆问题,认定为人工驾驶,责任认定引争议

极目新闻
2026-01-14 12:08:00
2026-01-14 16:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14331文章数 66456关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

宝能集团董事长姚振华实名举报 事关观致汽车破产重整

头条要闻

宝能集团董事长姚振华实名举报 事关观致汽车破产重整

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

姚振华举报:观致汽车资产被低价拍卖

汽车要闻

曝Model Y或降到20万以内!

态度原创

房产
健康
教育
时尚
手机

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

血常规3项异常,是身体警报!

教育要闻

小升初压轴题,求圆的面积?

比变老更可怕的是不会穿!中年女人掌握4个技巧,优雅不费力

手机要闻

三星CRN计划扩展至欧洲,在法、德、英提供官翻S25系列手机

无障碍浏览 进入关怀版