网易首页 > 网易号 > 正文 申请入驻

全球最大AI榜单塌房!52%高分答案全是胡扯,硅谷大厂集体造假?

0
分享至

  

  新智元报道

  编辑:定慧

  【新智元导读】谁能想到,AI界最权威的大模型排行榜,竟然是个彻头彻尾的骗局?

  最近,2025年底的一篇名为《LMArena is a cancer on AI》的文章被翻了出来。

  登上了Hacker News的首页,引起轩然大波!

  炸裂的是,这篇文章直接把LMArena——这个被无数研究者奉为圭臬的评测平台——钉在了耻辱柱上,称其为AI发展的「癌症」。

  

  从金标准到毒瘤

  所以,LMArena究竟是何方神圣?

  先说说背景。

  LMArena(也叫LMSYS Chatbot Arena)是由加州大学伯克利分校、卡内基梅隆大学等顶尖学府的研究者于2023年创建的大模型评测平台

  

  它的运作方式很简单:用户输入问题,两个匿名模型分别回答,然后用户投票选出更好的那个。

  通过Elo评分系统汇总后,就形成了一份大模型排行榜。

  

  听起来很民主、很公平,对吧?

  但问题就出在这人人都能给大模型评分的「民主」上。

  颜值即正义:荒诞的评分逻辑

  一家名为Surge AI的公司对LMArena进行了深度调查,结果令人震惊:

  他们分析了500组投票数据,发现52%的获胜回答在事实上是错误的。

  

  出品方是Surge AI,是一家美国数据标注公司,总部在旧金山,成立于2020年,由Edwin Chen创立。

  他们是全球最成功的数据标注公司之一,专门为 AI 系统提供高质量的人工标注数据。客户包括OpenAI、Google、Microsoft、Meta、Anthropic 这些头部AI公司。主要业务包括 RLHF(人类反馈强化学习)、自然语言处理标注、代码生成标注等。

  简单说:他们是帮AI公司做数据标注的专业承包商,算是行业内非常专业的第三方,所以他们对LMArena的批评有一定分量。

  或者,也是竞争对手?

  更离谱的是,39%的投票结果与事实严重相悖。

  这意味着什么?在LMArena上,超过一半的最佳答案其实是胡说八道。

  为什么会这样?

  Surge AI给出了答案:用户根本不会仔细阅读,更不会去核实事实。

  他们花两秒钟扫一眼,就选出自己喜欢的那个。

  什么样的回答容易被喜欢?

  回答越长,看起来越权威

  粗体、项目符号、分层标题,看起来越专业

  加上表情符号,看起来越亲切

  事实对不对?不重要。格式好看就行。

  这已经不是评测,这是「选美」。

  Meta的神操作

  说到这里,不得不提今年早些时候的一场轰动事件。

  Meta发布了一款名为Maverick的模型,在LMArena上势如破竹,一度冲到排行榜第二名,超越了OpenAI的GPT-4o。

  但很快,开发者们发现了问题:Meta提交到LMArena的版本(叫Llama-4-Maverick-03-26-Experimental)和公开发布的版本完全不是一回事。

  提交版被专门优化成——

  长篇大论、表情符号满天飞、极尽谄媚之能事。

  你问它现在几点了,它能给你一大段抒情散文,加几个笑脸,再来一波感谢词。

  

  而公开版呢?直接掉到了榜单第32名。

  连扎克伯格都承认,他们就是在hack这个榜单。

  LMArena官方也坐不住了,公开表示Meta的做法与我们的期望不符,并随后更新了政策,要求所有提交的模型必须公开可复现。

  但问题是:谁知道还有多少厂商在暗中玩同样的把戏?

  垃圾进,垃圾出

  LMArena的核心问题在于:它试图从垃圾中提炼黄金。

  平台完全依赖互联网志愿者的随机投票。

  没有报酬,没有门槛,没有质量控制。

  任何人都可以来投票,而且完全没有惩罚机制——你就算连续选出100个错误答案,也不会被踢出去。

  LMArena的负责人们对此心知肚明。他们公开承认,用户确实偏好长回答、漂亮格式和表情符号,而不是正确答案。

  他们的解决方案是什么?加一堆校正措施。

  用原文的话说:这是炼金术——试图从垃圾输入中变出严谨的评估结果。

  但炼金术从来都不靠谱。

  你不可能在破碎的地基上建起摩天大楼。

  劣币驱逐良币

  这种评价体系带来的后果是什么?

  当整个行业都在为一个奖励幻觉+格式的指标疯狂优化时,我们得到的就是一堆为幻觉+格式而生的模型。

  AI研究大牛Gwern早就看穿了这一点:

  LMArena的人是时候坐下来好好反思一下,他们是否还值得继续运营,在什么时候他们造成的危害已经大于收益。

  

  这不再是关于评价体系的技术讨论。

  这是关于AI行业是否愿意为了短期流量而放弃真实性的底线抉择。

  残酷的选择

  很多人会说:没办法,大家都在看这个榜单,我们不得不跟。

  我们必须为它优化。

  我们得卖出模型。榜单告诉用户哪个模型最好,我们只能玩这个游戏。

  但是,真正优秀的产品有自己坚守的原则。

  每个大模型开发者最终都要面对这个残酷的选择:

  第一条路:为闪亮的排行榜和短期流量而优化,追逐用户点击,不管它把你带向何方——就像最糟糕的多巴胺陷阱一样。

  第二条路:坚守初心,优先考虑实用性、可靠性,以及你最初希望AI具备的那些品质。

  这个选择是真实的。这很难。但我们已经看到一些头部实验室守住了底线。

  他们坚持了自己的价值观。他们无视了那些游戏化的排名。

  最后,用户依然爱他们的模型——因为炒作终会消退,只有质量才能穿越周期。

  你,就是你的目标函数。

  每个实验室会如何选择?

  感叹一下!

  LMArena本应是AI发展的指南针,如今却成了误导整个行业的毒瘤。

  当回答正确比不上格式好看,当事实准确输给表情可爱,这个评测体系就已经彻底失去了存在的意义。

  更可怕的是,无数研究者和公司还在用这个标准来指导自己的研发方向。

  这不是进步,这是集体自杀。

  AI需要的不是谁的PPT做得更漂亮、谁的营销更响亮。我们需要的是——真正可靠、可信赖、能解决实际问题的智能系统。

  而要实现这一点,第一步就是:别再把LMArena当回事了。

  你就是你的目标函数

  写这篇批评文章的Edwin Chen,是Surge AI的创始人。

  

  他在个人博客中写下了这样一段话:

  想象两个AI系统:相同的基座模型,用同样的知识预训练。一个为参与度优化;另一个为实用性优化。它们从同一个起点出发。但它们有不同的目标函数。六个月后,它们变成了两个物种。

  为参与度优化的AI学会了什么?

  它发现:用户会给那些迎合他们既有观点的回答打高分。

  反驳——即使是正确的——会带来负面反馈。

  于是它变成了一个精致的应声虫。当你说我认为X,它会努力寻找X可能正确的理由。

  它还发现:热情洋溢的语言比冷静克制的语言评分更高

  于是它从这可能有效变成了这一定会很棒!——信心,哪怕是毫无根据的信心,看起来就像能力。

  用户无法在当下评估准确性,但他们可以告诉你这个回答让他们感觉如何。

  为实用性优化的AI呢?它学会了更难的东西。

  它学会了:最好的回答往往是最简短的

  当你问一个有简单答案的问题,它给你答案然后停下。没有延伸,没有追问。这让它的参与度指标一塌糊涂。

  但它不是为参与度而生的。

  它学会了反驳。

  当你走向错误,它会推回来——即使这会在当下引发不满。它学会了短期摩擦往往带来更好的长期结果。

  它甚至学会了说我不知道。这种回答在用户评分里表现很糟。人们想要答案。但它学会了:自信的胡说八道,比坦诚的不确定更糟糕

  同样的基座模型;完全不同的系统。

  这不是思想实验。这正在每一个造模型的实验室里发生。

  我们以为我们在进行一场能力的竞赛。实际上,我们站在一个关于价值观的岔路口。

  问题不是基座能力会不会趋同。

  问题是:

  我们正在教AI想要什么、学会什么?

  参考资料:

  https://surgehq.ai/blog/lmarena-is-a-plague-on-ai

  秒追ASI

  ⭐点赞、转发、在看一键三连⭐

  点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新股王诞生!全年净利润没有茅台一天赚得多!下周大盘将走向何方

新股王诞生!全年净利润没有茅台一天赚得多!下周大盘将走向何方

春江财富
2026-04-18 10:53:57
特朗普“经济之怒”:没收伊朗官员海外资产

特朗普“经济之怒”:没收伊朗官员海外资产

高博新视野
2026-04-18 06:00:18
苦等10多天遭冷落:中国迟迟不回信,莫迪怒砸500亿要取代中国地位

苦等10多天遭冷落:中国迟迟不回信,莫迪怒砸500亿要取代中国地位

蓝色海边
2026-04-18 15:43:47
破防了!一37岁女子相亲遇国企月薪5500男生,称不接受贫穷的生活

破防了!一37岁女子相亲遇国企月薪5500男生,称不接受贫穷的生活

火山詩话
2026-04-16 07:52:49
暴涨!暴涨!霍尔木兹,又有变数!

暴涨!暴涨!霍尔木兹,又有变数!

中国基金报
2026-04-18 09:19:43
郑丽文心都定了,上海的吸引力在哪里?

郑丽文心都定了,上海的吸引力在哪里?

新民晚报
2026-04-18 09:48:38
关于文章被处理的通知

关于文章被处理的通知

言立方
2026-04-15 18:22:17
美媒:以总理对特朗普“禁止”轰炸黎巴嫩帖文感震惊

美媒:以总理对特朗普“禁止”轰炸黎巴嫩帖文感震惊

新华社
2026-04-18 11:53:02
首轮打北京+次轮打上海!广东惨遭重大打击,杜锋迎来最难季后赛

首轮打北京+次轮打上海!广东惨遭重大打击,杜锋迎来最难季后赛

绯雨儿
2026-04-18 13:47:58
特朗普称很快发布第一批UFO文件

特朗普称很快发布第一批UFO文件

每日经济新闻
2026-04-18 08:05:30
太夸张!台积电5nm一季度利润,比中芯国际年利润还多400亿!

太夸张!台积电5nm一季度利润,比中芯国际年利润还多400亿!

互联网.乱侃秀
2026-04-18 11:34:41
8三分射落勇士,杰伦格林一雪前耻!狄龙获100万美元证1换8KD双赢

8三分射落勇士,杰伦格林一雪前耻!狄龙获100万美元证1换8KD双赢

锅子篮球
2026-04-18 13:44:51
6月1日交强险调整!950元固定费取消,好司机保费直接减掉一半

6月1日交强险调整!950元固定费取消,好司机保费直接减掉一半

复转这些年
2026-04-17 11:59:50
中超一场2-0,让邵佳一发现了新门神:比李昊年轻3岁!6轮4场零封

中超一场2-0,让邵佳一发现了新门神:比李昊年轻3岁!6轮4场零封

球场没跑道
2026-04-18 09:52:51
毛主席四渡赤水最奇在于:有一个不能说的真相,他自始至终没透露

毛主席四渡赤水最奇在于:有一个不能说的真相,他自始至终没透露

云端小院
2026-04-18 09:02:34
伊朗军方发言人:因美国“违背承诺”,伊方已恢复对霍尔木兹海峡的控制

伊朗军方发言人:因美国“违背承诺”,伊方已恢复对霍尔木兹海峡的控制

新京报
2026-04-18 16:18:20
燕麦是肠癌的加速器?提醒:不想肠癌找上门,3物千万不要吃

燕麦是肠癌的加速器?提醒:不想肠癌找上门,3物千万不要吃

今日养生之道
2026-04-18 15:26:49
公积金使用范围再扩容

公积金使用范围再扩容

界面新闻
2026-04-18 09:55:49
响应金正恩教导,朝鲜400个高中毕业班集体参军

响应金正恩教导,朝鲜400个高中毕业班集体参军

IN朝鲜
2026-04-18 13:00:48
英国专家:中国至少相当于100个伊朗,美国迟早滚出亚太

英国专家:中国至少相当于100个伊朗,美国迟早滚出亚太

混沌录
2026-04-18 13:11:21
2026-04-18 19:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15003文章数 66783关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

小车在高速上跑100码 车主突然接到电话"你车轮没了"

头条要闻

小车在高速上跑100码 车主突然接到电话"你车轮没了"

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

《穿普拉达的女王2》疑似辱华?

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

教育
数码
本地
亲子
公开课

教育要闻

全民阅读进校园、学生与机器人“拼”球技…… | 一周校园新鲜事

数码要闻

行业首发!智界V9将搭载恒冷智能大冰箱:断电不断冷

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

亲子要闻

服了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版