网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

全球最大AI榜单塌房！52%高分答案全是胡扯，硅谷大厂集体造假？

2026-01-08 17:46:02　来源: 新智元

北京举报

0

分享至

　　新智元报道

　　编辑：定慧

　　【新智元导读】谁能想到，AI界最权威的大模型排行榜，竟然是个彻头彻尾的骗局？

　　最近，2025年底的一篇名为《LMArena is a cancer on AI》的文章被翻了出来。

　　登上了Hacker News的首页，引起轩然大波！

　　炸裂的是，这篇文章直接把LMArena——这个被无数研究者奉为圭臬的评测平台——钉在了耻辱柱上，称其为AI发展的「癌症」。

　　从金标准到毒瘤

　　所以，LMArena究竟是何方神圣？

　　先说说背景。

　　LMArena（也叫LMSYS Chatbot Arena）是由加州大学伯克利分校、卡内基梅隆大学等顶尖学府的研究者于2023年创建的大模型评测平台。

　　它的运作方式很简单：用户输入问题，两个匿名模型分别回答，然后用户投票选出更好的那个。

　　通过Elo评分系统汇总后，就形成了一份大模型排行榜。

　　听起来很民主、很公平，对吧？

　　但问题就出在这人人都能给大模型评分的「民主」上。

　　颜值即正义：荒诞的评分逻辑

　　一家名为Surge AI的公司对LMArena进行了深度调查，结果令人震惊：

　　他们分析了500组投票数据，发现52%的获胜回答在事实上是错误的。

　　出品方是Surge AI，是一家美国数据标注公司，总部在旧金山，成立于2020年，由Edwin Chen创立。

　　他们是全球最成功的数据标注公司之一，专门为 AI 系统提供高质量的人工标注数据。客户包括OpenAI、Google、Microsoft、Meta、Anthropic 这些头部AI公司。主要业务包括 RLHF（人类反馈强化学习）、自然语言处理标注、代码生成标注等。

　　简单说：他们是帮AI公司做数据标注的专业承包商，算是行业内非常专业的第三方，所以他们对LMArena的批评有一定分量。

　　或者，也是竞争对手？

　　更离谱的是，39%的投票结果与事实严重相悖。

　　这意味着什么？在LMArena上，超过一半的最佳答案其实是胡说八道。

　　为什么会这样？

　　Surge AI给出了答案：用户根本不会仔细阅读，更不会去核实事实。

　　他们花两秒钟扫一眼，就选出自己喜欢的那个。

　　什么样的回答容易被喜欢？

　　回答越长，看起来越权威

　　粗体、项目符号、分层标题，看起来越专业

　　加上表情符号，看起来越亲切

　　事实对不对？不重要。格式好看就行。

　　这已经不是评测，这是「选美」。

　　Meta的神操作

　　说到这里，不得不提今年早些时候的一场轰动事件。

　　Meta发布了一款名为Maverick的模型，在LMArena上势如破竹，一度冲到排行榜第二名，超越了OpenAI的GPT-4o。

　　但很快，开发者们发现了问题：Meta提交到LMArena的版本（叫Llama-4-Maverick-03-26-Experimental）和公开发布的版本完全不是一回事。

　　提交版被专门优化成——

　　长篇大论、表情符号满天飞、极尽谄媚之能事。

　　你问它现在几点了，它能给你一大段抒情散文，加几个笑脸，再来一波感谢词。

　　而公开版呢？直接掉到了榜单第32名。

　　连扎克伯格都承认，他们就是在hack这个榜单。

　　LMArena官方也坐不住了，公开表示Meta的做法与我们的期望不符，并随后更新了政策，要求所有提交的模型必须公开可复现。

　　但问题是：谁知道还有多少厂商在暗中玩同样的把戏？

　　垃圾进，垃圾出

　　LMArena的核心问题在于：它试图从垃圾中提炼黄金。

　　平台完全依赖互联网志愿者的随机投票。

　　没有报酬，没有门槛，没有质量控制。

　　任何人都可以来投票，而且完全没有惩罚机制——你就算连续选出100个错误答案，也不会被踢出去。

　　LMArena的负责人们对此心知肚明。他们公开承认，用户确实偏好长回答、漂亮格式和表情符号，而不是正确答案。

　　他们的解决方案是什么？加一堆校正措施。

　　用原文的话说：这是炼金术——试图从垃圾输入中变出严谨的评估结果。

　　但炼金术从来都不靠谱。

　　你不可能在破碎的地基上建起摩天大楼。

　　劣币驱逐良币

　　这种评价体系带来的后果是什么？

　　当整个行业都在为一个奖励幻觉+格式的指标疯狂优化时，我们得到的就是一堆为幻觉+格式而生的模型。

　　AI研究大牛Gwern早就看穿了这一点：

　　LMArena的人是时候坐下来好好反思一下，他们是否还值得继续运营，在什么时候他们造成的危害已经大于收益。

　　这不再是关于评价体系的技术讨论。

　　这是关于AI行业是否愿意为了短期流量而放弃真实性的底线抉择。

　　残酷的选择

　　很多人会说：没办法，大家都在看这个榜单，我们不得不跟。

　　我们必须为它优化。

　　我们得卖出模型。榜单告诉用户哪个模型最好，我们只能玩这个游戏。

　　但是，真正优秀的产品有自己坚守的原则。

　　每个大模型开发者最终都要面对这个残酷的选择：

　　第一条路：为闪亮的排行榜和短期流量而优化，追逐用户点击，不管它把你带向何方——就像最糟糕的多巴胺陷阱一样。

　　第二条路：坚守初心，优先考虑实用性、可靠性，以及你最初希望AI具备的那些品质。

　　这个选择是真实的。这很难。但我们已经看到一些头部实验室守住了底线。

　　他们坚持了自己的价值观。他们无视了那些游戏化的排名。

　　最后，用户依然爱他们的模型——因为炒作终会消退，只有质量才能穿越周期。

　　你，就是你的目标函数。

　　每个实验室会如何选择？

　　感叹一下！

　　LMArena本应是AI发展的指南针，如今却成了误导整个行业的毒瘤。

　　当回答正确比不上格式好看，当事实准确输给表情可爱，这个评测体系就已经彻底失去了存在的意义。

　　更可怕的是，无数研究者和公司还在用这个标准来指导自己的研发方向。

　　这不是进步，这是集体自杀。

　　AI需要的不是谁的PPT做得更漂亮、谁的营销更响亮。我们需要的是——真正可靠、可信赖、能解决实际问题的智能系统。

　　而要实现这一点，第一步就是：别再把LMArena当回事了。

　　你就是你的目标函数

　　写这篇批评文章的Edwin Chen，是Surge AI的创始人。

　　他在个人博客中写下了这样一段话：

　　想象两个AI系统：相同的基座模型，用同样的知识预训练。一个为参与度优化；另一个为实用性优化。它们从同一个起点出发。但它们有不同的目标函数。六个月后，它们变成了两个物种。

　　为参与度优化的AI学会了什么？

　　它发现：用户会给那些迎合他们既有观点的回答打高分。

　　反驳——即使是正确的——会带来负面反馈。

　　于是它变成了一个精致的应声虫。当你说我认为X，它会努力寻找X可能正确的理由。

　　它还发现：热情洋溢的语言比冷静克制的语言评分更高。

　　于是它从这可能有效变成了这一定会很棒！——信心，哪怕是毫无根据的信心，看起来就像能力。

　　用户无法在当下评估准确性，但他们可以告诉你这个回答让他们感觉如何。

　　为实用性优化的AI呢？它学会了更难的东西。

　　它学会了：最好的回答往往是最简短的。

　　当你问一个有简单答案的问题，它给你答案然后停下。没有延伸，没有追问。这让它的参与度指标一塌糊涂。

　　但它不是为参与度而生的。

　　它学会了反驳。

　　当你走向错误，它会推回来——即使这会在当下引发不满。它学会了短期摩擦往往带来更好的长期结果。

　　它甚至学会了说我不知道。这种回答在用户评分里表现很糟。人们想要答案。但它学会了：自信的胡说八道，比坦诚的不确定更糟糕。

　　同样的基座模型；完全不同的系统。

　　这不是思想实验。这正在每一个造模型的实验室里发生。

　　我们以为我们在进行一场能力的竞赛。实际上，我们站在一个关于价值观的岔路口。

　　问题不是基座能力会不会趋同。

　　问题是：

　　我们正在教AI想要什么、学会什么？

　　参考资料：

　　https://surgehq.ai/blog/lmarena-is-a-plague-on-ai

　　秒追ASI

　　⭐点赞、转发、在看一键三连⭐

　　点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

小学生画了撇胡子骗过AI年龄验证，硅谷工程师沉默了

机器之心Pro 2026-05-31 14:27:31
22 跟贴 22
你最该认识的「硅谷CEO」：害怕演讲，管出最赚钱的AI广告

量子位 2026-06-09 17:10:14
0 跟贴 0

距离预产期仅两天时，收到裁员通知

中国新闻周刊 2026-07-18 19:26:06
1879 跟贴 1879

“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
觅蜂WAIC首秀：不造机器人，只做「机器人老师」

雷科技 2026-07-19 11:56:01
0 跟贴 0

近十项发布密集登场，蚂蚁在WAIC甩出一串“AI全家桶”

智东西 2026-07-19 12:10:47
0 跟贴 0

海外投资人集体转向！AI最关注这个指标

财联社 2026-04-30 10:25:38
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0

家长给孩子打印暑假作业，一晚上全写完了，真是让人省心的好孩子

大红爱搞笑 2026-07-17 13:56:44
1 跟贴 1
专锤学术造假的耿同学：希望我的墓志铭上，能写一句好话

新周刊 2026-05-23 16:09:12
906 跟贴 906
啤酒两元1瓶，10元能喝几瓶

公考客栈店小二 2026-07-17 18:00:00
0 跟贴 0
一招破解小学数学鸡兔同笼难题

食暖食光 2026-07-17 02:12:42
5 跟贴 5
初中数学绝技：x^5+x+1=0 解x³-x²，倒挂金钩法大揭秘！

远梦归晓r 2026-07-15 06:01:45
3 跟贴 3
三年级的小朋友说太难了，不会做

公考客栈店小二 2026-07-18 08:00:00
0 跟贴 0
半天都没算出来，这是一个大学生家长说的

公考客栈店小二 2026-07-18 14:00:00
4 跟贴 4
揭秘大数读法：跟随老师一起学习

隐龙天下o 2026-07-15 03:08:45
3 跟贴 3
老剧频频“塌房”背后，藏着怎样的“不舒服”？

星星没有你亮 2026-07-18 15:50:05
12 跟贴 12
数学启蒙：填数字解算式大挑战

繁花散尽m 2026-07-18 23:44:30
4 跟贴 4
六年级数学 -98÷99×101简便计算

姬海棠羽笠果 2026-07-16 03:07:52
0 跟贴 0
不了解几何模型的同学看到无从下手

公考客栈店小二 2026-07-18 12:00:00
0 跟贴 0
对于学霸来说是不是太简单了，直接瞪眼法就可以解题

公考客栈店小二 2026-07-17 16:00:00
0 跟贴 0
两位著名硅谷投资人从科技和经济角度，判断大陆对台湾将不战而胜

简简单单的说 2026-07-18 19:41:41
0 跟贴 0
河南一烤鸭店每天第一波客人竟是汪汪队，5只小狗街头自觉排队等投喂，陪伴到深夜12点闭店，老板已投喂流浪狗多年，网友：老顾客到齐了

极目新闻 2026-07-18 21:30:00
8094 跟贴 8094
这题不会考试难上90分，数学思维，家长收藏孩子受益知识点

小陳同學 2026-07-19 01:58:19
0 跟贴 0
打折后售价为3600元，则该电脑原价为多少元

公考客栈店小二 2026-07-17 17:00:00
0 跟贴 0
老师拿张凌赫走秀当奖励，数学考第一学生有福了，网友调侃老师想

嘻哈搞笑局 2026-07-19 10:14:50
3 跟贴 3
这才是九亿少女的梦啊王虹菲尔兹奖数学女性力量

娱小白ou 2026-07-16 23:39:03
0 跟贴 0
横版快速理解凑十法

Newbee小蜜蜂 2026-07-18 19:42:15
6 跟贴 6
心梗、脑梗不能只怪"坏胆固醇"，还有项指标也隐藏风险

心内科陈医生 2026-07-19 10:05:09
2 跟贴 2
王坚：人工智能像数学一样基础，对科研起重要作用

究竟视频 2026-07-18 00:41:37
1 跟贴 1
硅谷传奇投资人柯斯拉：96亿美元买NFL球队，他会是哪种老板？

固件更新中 2026-07-19 00:21:57
0 跟贴 0
大学生家长看了，说没那么简单

公考客栈店小二 2026-07-19 13:00:00
0 跟贴 0
30年数学悬案，Claude一小时破解，88岁图灵奖得主震惊

量子位 2026-03-07 20:19:13
0 跟贴 0
都是苹果惹的祸[笑哭]

壹姐娱乐呢 2026-07-19 04:15:16
0 跟贴 0
日防相不装了鼓吹：必须毫无禁忌地讨论和推进核政策

澎湃新闻 2026-07-18 20:08:29
5126 跟贴 5126
太激烈！全球首场人形机器人格斗赛，头都被打飞，甄子丹看呆：幸好我不用上台打

每日经济新闻 2026-07-18 17:59:53
181 跟贴 181
被批“离谱至极”！法国队0比4落后，姆巴佩在中场休息时与对方球员互换球衣，与对方主帅谈笑风生

红星新闻 2026-07-19 08:47:16
2437 跟贴 2437
锁定2027！享道出行启动上汽Robotaxi量产定制车项目

上观新闻 2026-07-19 12:19:29
0 跟贴 0
耿同学讲故事再度重拳出击，举报中国工程院院士多篇论文涉嫌造假

蝴蝶花雨话教育 2026-07-19 01:25:03
107 跟贴 107
97岁父亲病榻上安慰76岁自责女儿

北青网-北京青年报 2026-07-18 17:48:03
92 跟贴 92

张子枫演技没崩，脸却崩了：娱乐圈最残酷的真相，不是“胖才丑”

张子枫演技没崩，脸却崩了：娱乐圈最残酷的真相，不是“胖才丑”

白宸侃片

2026-07-19 04:41:41

奥斯卡：在中国我和家人靠比赛奖金生活，工资都存起来没动过

奥斯卡：在中国我和家人靠比赛奖金生活，工资都存起来没动过

懂球帝

2026-07-18 17:45:04

长飞光纤总裁庄丹：未来一两年保偏光纤需求增长在10倍甚至20倍级

长飞光纤总裁庄丹：未来一两年保偏光纤需求增长在10倍甚至20倍级

澎湃新闻

2026-07-18 17:42:27

花677拍写真，112斤被拍成200斤“雷霆大脸”！女子怒讨说法要求退钱，店家：照片你自己选的，不退！网友看完本人出镜却说：真不怪摄影师

花677拍写真，112斤被拍成200斤“雷霆大脸”！女子怒讨说法要求退钱，店家：照片你自己选的，不退！网友看完本人出镜却说：真不怪摄影师

一丝不苟的法律人

2026-07-18 17:34:49

泽连斯基当着全球媒体的面，承认搞砸了，乌克兰全国爆发抗议游行

泽连斯基当着全球媒体的面，承认搞砸了，乌克兰全国爆发抗议游行

人世间的事与人

2026-07-19 11:34:58

超8万家面包店关停，烘焙第一股预亏，9.9元商超面包被抢空

超8万家面包店关停，烘焙第一股预亏，9.9元商超面包被抢空

21世纪经济报道

2026-07-19 10:13:21

不选俄罗斯了，图瓦共和国主动找上中国，愿意献“稀土”做笔生意

不选俄罗斯了，图瓦共和国主动找上中国，愿意献“稀土”做笔生意

知法而形

2026-07-13 10:32:26

巴萨晒参加世界杯决赛的拉玛西亚球员海报：梦开始的地方

巴萨晒参加世界杯决赛的拉玛西亚球员海报：梦开始的地方

懂球帝

2026-07-19 02:25:10

破案了！阿根廷与西班牙的决赛票价，为何成美国体育史上最贵赛事

破案了！阿根廷与西班牙的决赛票价，为何成美国体育史上最贵赛事

体育大学僧

2026-07-18 10:08:00

英国认为至关重要，却只赔1亿英镑，将中企国有化完全是弃约精神

英国认为至关重要，却只赔1亿英镑，将中企国有化完全是弃约精神

王二哥老搞笑

2026-07-19 12:09:02

悲催！彭水最早发现险情的村民侯云开，他的亲弟弟、弟媳、侄女及弟媳的弟弟4人，因为看热闹，葬送自己的生命

悲催！彭水最早发现险情的村民侯云开，他的亲弟弟、弟媳、侄女及弟媳的弟弟4人，因为看热闹，葬送自己的生命

火山詩话

2026-07-19 08:20:21

丈夫发现妻子出轨同事，郑州职场婚外情事件后续：涉事男女被开除

丈夫发现妻子出轨同事，郑州职场婚外情事件后续：涉事男女被开除

江山挥笔

2026-07-19 07:20:31

看完法国4-6英格兰！不得不承认5个事实，姆巴佩妥妥数据刷子！

看完法国4-6英格兰！不得不承认5个事实，姆巴佩妥妥数据刷子！

田先生篮球

2026-07-19 11:05:42

月经血是什么

博禾医生

2026-07-17 15:28:43

卡皮巴拉收到1吨豆角，吃到满嘴绿沫子！网友：“没有勾心，只有豆角”

卡皮巴拉收到1吨豆角，吃到满嘴绿沫子！网友：“没有勾心，只有豆角”

LOGO研究所

2026-07-18 19:57:22

欧盟危局彻底引爆！俄军重磅军事行动曝光，放言尽数清缴绝不留情

欧盟危局彻底引爆！俄军重磅军事行动曝光，放言尽数清缴绝不留情

深析古今

2026-07-19 11:39:32

莫迪政府摊牌了？前驻华大使：宁从中国购买技术，也不能信任美国

莫迪政府摊牌了？前驻华大使：宁从中国购买技术，也不能信任美国

阿晪美食

2026-07-19 03:36:19

五花八门的约炮软件全是坑，掰开里面层层套路，千万别上当

五花八门的约炮软件全是坑，掰开里面层层套路，千万别上当

侃故事的阿庆

2026-07-19 12:17:33

北京未来重点发展区域！五年后这些地方可能让你“身价暴涨”！

北京未来重点发展区域！五年后这些地方可能让你“身价暴涨”！

辉哥说动漫

2026-07-19 05:50:25

国家开发银行原党委副书记、行长欧阳卫民被查

国家开发银行原党委副书记、行长欧阳卫民被查

封面新闻

2026-07-19 12:39:10

AI产业主平台领航智能+时代

15726文章数 66961关注度

往期回顾全部

科技要闻

Kimi K3单项登顶整体落后前沿模型2-3个月

头条要闻

法国名将炮轰队友消极怠工：我们上半场踢得非常丢人

头条要闻

法国名将炮轰队友消极怠工：我们上半场踢得非常丢人

体育要闻

世界杯决赛，从“澡盆德比”500年前讲起

娱乐要闻

全网都心疼邹市明，再逼他支棱了

财经要闻

任泽平VIP会员自称爆仓巨亏千万

汽车要闻

把中国超跑卖到英国，比亚迪正在被世界看见

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

教育

房产

公开课

军事航空

本地新闻

十年了，为什么鬼怪CP还能让人美美嗑上？

教育要闻

2026年齐鲁最美教师选树宣传活动：烟台市推荐人选

房产要闻

突然出手！千亩城更+一线江景，世嘉亮出超级四代宅！

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

美军连续七晚空袭伊朗

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版