网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

大模型谁更强？LMArena成新赛场！争议却没停过

2025-11-05 01:54:55　来源: 许穋很机智

四川举报

0

分享至

现在OpenAI的GPT、谷歌的Gemini、咱们中国的DeepSeek，这些大模型天天被拿来比，到底谁更强？以前还能靠个固定题库打分，现在冒出个叫LMArena的平台，成了新裁判。

这事儿把大模型评测的老规矩都给改了。

早几年给大模型判高下，套路特别固定。

就跟咱们上学考期末试似的，有MMLU、BIG-Bench这些“官方题库”。

MMLU涵盖57个知识领域，从高中到博士级别都有，既能问神经网络的技术题，也能考美国宪法的内容；BIG-Bench更有意思，要模型解释冷笑话、续写诗歌；HellaSwag则是测日常理解，比如“打开冰箱后最可能干啥”。

这些题库在AI圈火了二十年，优点确实明显，标准统一，结果能重复。

学术论文里只要说“我刷新了MMLU分数”，就代表模型更强。

我上学时最烦死记硬背，没想到模型也栽在这上面，好多题库里的题，早就被放进模型的训练材料里了。

模型考高分，可能不是真懂了，只是把答案记住了。

更关键的是，这玩意儿像闭卷考试，根本测不出模型的真实交互能力。

你想啊，咱们用AI都是聊天、问问题，哪会按固定题库来？华盛顿大学有个叫朱邦华的教授也说，就是因为老题库有这些问题，才催生出新的评测方式。

聊完以前的老办法，就该说说LMArena是咋冒出来的。

2023年的时候，有个叫LMSYS的组织，刚发布了开源模型Vicuna，想跟斯坦福的Alpaca比一比。

可当时没合适的评测方法，他们先试了让GPT-3.5打分，后来又试了让人类选“谁答得好”，结果发现后者更靠谱。

就这么着，LMArena的前身ChatbotArena就诞生了。

LMArena的玩法特别像打擂台。

用户输入一个问题，系统会随机挑两个模型来回答。

你不知道屏幕后面是GPT还是Claude，只能凭答案选“左边好”或“右边好”，选完才揭晓模型身份。

打分用的是国际象棋那套Elo机制，模型一开始有固定分数，赢了涨分，输了扣分，慢慢就排出名次了。

我觉得这招挺聪明，至少不像以前那样靠死记硬背。

而且它还有个“人机协同”的框架，会平衡模型的出场次数，防止某个模型因为露脸多就被高估。

数据和算法还全开源，谁都能查，看着挺透明。

后来前特斯拉AI总监Karpathy都在推特上推荐，说只信它的评测结果。

谷歌更是把这儿当成新模型“试金石”，之前火的NanoBanana、传闻中的Gemini3.0，都先在这亮过相。

本来想，LMArena这匿名对战挺公平吧，后来发现不是这么回事儿。

用户投票特别主观，有人就喜欢说话自然、写得长的模型，哪怕逻辑没那么严谨。

之前有研究机构分析，它的结果跟老题库分数没强关联，还存在“话题偏差”，比如聊科技题和聊生活题，模型排名能差一大截。

更离谱的是“刷榜”问题。

去年Meta的Llama4Maverick在这儿排到第二，比GPT-4o还高。

可等开源版一出来，开发者们发现根本没那么强，怀疑Meta专门优化了模型应付投票，搞了个“专供版”。

这事儿闹大后，LMArena才改了规则，要求厂商必须披露模型版本。

后面更让人担心的是商业化。

今年5月，LMArena团队成立了公司，还融了1亿美金。

资本一进来，平台就得考虑赚钱，比如搞数据分析、定制评测报告。

到时候它还能像以前那样中立吗？会不会偏向付费的大客户？这真不好说。

有人说LMArena不行，那是不是又得回到以前的Benchmark？其实也不是，现在的老题库也在升级。

比如MMLU出了Pro版，难度更高；还有专门测编程的SWE-Bench、测多智能体的AgentBench，不再是简单考知识，而是模拟真实工作场景。

另外还有个叫AlphaArena的新平台，挺有意思。

它让模型去炒加密货币，给每个模型一样的钱和指令，最后比谁赚得多。

之前DeepSeek还赢了，毕竟它背后是量化基金公司。

不过这玩法更像噱头，大模型预测股市本来就不靠谱，结果也没法重复。

但它确实提供了新思路，让模型在真实场景里“实战”。

我觉得未来肯定不是二选一，而是把老题库的量化标准和LMArena的真实交互结合起来。

就像咱们找工作，既要看学历成绩，也得看面试时的沟通能力。

而且现在评模型越来越需要“硬通货”，高难度数据。

朱邦华教授说，现在得找数学博士、计算机博士来出题，一条题就要几千美元，成本特别高。

说到底，大模型评测早就不是简单打个分了。

AI上半场比的是“谁训练得好”，下半场比的是“谁能说清啥叫智能”。

LMArena也好，新题库也罢，都是在摸黑找这个答案。

你觉得LMArena到底靠不靠谱？欢迎留言聊聊。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

大风315 | 游客称飞3000公里在西双版纳一景区游玩，因明星录制综艺节目被清场；景区：具体情况需由游客回应

大风新闻 2026-03-09 17:06:09
6941 跟贴 6941
新疆小伙跨越千里抱馕返校，分享家乡味道

新华社 2026-03-12 07:24:52
137 跟贴 137

武汉一男子头部被固定困核磁共振室6小时

上游新闻 2026-03-12 17:01:52
374 跟贴 374

天塌了，山姆的三文鱼原来不能生吃！很多人被包装误导

新民周刊 2026-03-11 19:48:20
0 跟贴 0
“终结700年传统”，外媒：英国议会投票决定废除上议院世袭贵族席位

环球网资讯 2026-03-12 10:42:56
443 跟贴 443

于东来回应胖东来“40亿元资产分配”：真的

每日经济新闻 2026-03-12 14:14:16
968 跟贴 968

烤串烤得好，也能拿大学文凭！全国首家烧烤学院招生了

大风新闻 2026-03-12 11:16:12
3625 跟贴 3625
苹果回应有人购买iPhone后换屏退货赚差价

中国能源网 2026-03-12 09:56:08
1352 跟贴 1352

大连46岁男子咽部“藏”12厘米金属筷子，时间长达8年：偶感不适，以为饮酒后正常反应

大风新闻 2026-03-12 13:02:39
189 跟贴 189
9个集装箱滞留阿曼湾，浙江纺织老板：原本旺季现在订单归零，原材料和运费疯涨，将暂时停产

极目新闻 2026-03-12 10:33:45
1 跟贴 1
四川一初中全校自带锅碗瓢盆春游，校长：学生自己搭灶炒菜，烧烤火锅都有，家长可以来指导但不能动手

极目新闻 2026-03-12 19:14:44
247 跟贴 247
日租金77万美元，油轮危机爆发

中国新闻周刊 2026-03-12 08:32:07
226 跟贴 226
紫牛头条｜52岁配送员送单途中晕倒昏迷，无法确认劳动关系，保险又拒赔

扬子晚报 2026-03-12 07:15:24
382 跟贴 382
两个“无印良品”共存，消费者为何频频误购？

大象新闻 2026-03-12 16:05:02
72 跟贴 72
还没焐热就腰斩，MacBook Neo4599元发布2429元到手，比买iPad还划算？

齐鲁壹点 2026-03-10 10:38:15
1055 跟贴 1055
茂名党员干部吃年例算不算违规？

茂名油城圈 2026-03-13 00:07:17
0 跟贴 0
300690直线20%涨停！午后，风电爆发！

证券时报 2026-03-12 18:35:08
41 跟贴 41
健康 | 冷知识：真的不建议大家买超大蓝莓！

学申论的谈妹 2026-03-12 22:12:19
21 跟贴 21
印度调整对华投资限制，中国商会：只是“局部优化”，实际情况有待进一步观察

环球网资讯 2026-03-12 07:09:04
286 跟贴 286
詹姆斯缺阵，湖人仍连胜，里夫斯：我们不再只是双手一摊

文汇报 2026-03-12 16:19:06
98 跟贴 98
微信又出新功能，网友：太实用了！

学申论的谈妹 2026-03-12 20:53:32
63 跟贴 63
司法部：今年将在全国统一推行行政检查“扫码入企”

新华社 2026-03-12 16:18:52
39 跟贴 39
梅州突发交通事故，大货车车头撞变形

梅州同城网 2026-03-13 00:04:23
0 跟贴 0

车主开蔚来ES6五年行驶里程一百万公里！李斌回应：平均每天500公里太牛了

车主开蔚来ES6五年行驶里程一百万公里！李斌回应：平均每天500公里太牛了

快科技

2026-03-12 09:27:24

张凌赫9年前素人期的采访火了，190cm身高鹤立鸡群，像胖版李敏镐

张凌赫9年前素人期的采访火了，190cm身高鹤立鸡群，像胖版李敏镐

大铁猫娱乐

2026-03-12 14:55:04

伊朗伊斯兰革命卫队称袭击美国油轮

伊朗伊斯兰革命卫队称袭击美国油轮

界面新闻

2026-03-12 17:32:42

伊朗破获超级间谍，比川岛芳子狠十倍，睡高官套情报

伊朗破获超级间谍，比川岛芳子狠十倍，睡高官套情报

点燃好奇心

2026-03-12 15:16:00

外媒最新爆料：伊朗最高领袖穆杰塔巴足部骨折、左眼周围淤青，面部被划伤?

外媒最新爆料：伊朗最高领袖穆杰塔巴足部骨折、左眼周围淤青，面部被划伤?

王爷说图表

2026-03-12 18:09:48

美媒高度警惕：中国六代机或将挂载霹雳-17作战

美媒高度警惕：中国六代机或将挂载霹雳-17作战

杨风

2026-03-11 20:42:13

30分惨败！2大新援难挽3连败，CBA关键1战：青岛摧枯拉朽升第5！

30分惨败！2大新援难挽3连败，CBA关键1战：青岛摧枯拉朽升第5！

话体坛

2026-03-12 22:05:51

意难平！得分赛季新高+超邓肯，无人问津啊，北境之王真的落寞了

意难平！得分赛季新高+超邓肯，无人问津啊，北境之王真的落寞了

球童无忌

2026-03-12 22:45:05

快扔掉！戴一天，辐射量相当于拍117次胸片

快扔掉！戴一天，辐射量相当于拍117次胸片

FM93浙江交通之声

2025-10-28 00:01:43

扬州一女子车祸被打，样貌曝光，细节被扒，众人直呼打得好

扬州一女子车祸被打，样貌曝光，细节被扒，众人直呼打得好

天天热点见闻

2026-03-11 20:52:30

七轮增资仍“缺血”，广州银行为何陷入资本恶性循环？

七轮增资仍“缺血”，广州银行为何陷入资本恶性循环？

九州商业观察

2026-03-12 11:21:36

手机顶部出现这 3 个图标，请立刻警惕！你的隐私正在被偷偷泄露

手机顶部出现这 3 个图标，请立刻警惕！你的隐私正在被偷偷泄露

小柱解说游戏

2026-03-11 08:34:44

3-0！没姆巴佩，皇马更像皇马！哈兰德向皇马交“投名状”

3-0！没姆巴佩，皇马更像皇马！哈兰德向皇马交“投名状”

体育世界

2026-03-12 12:58:59

演都不演了，刚复出就开演唱会，票价卖到1280，到底谁给的自信？

演都不演了，刚复出就开演唱会，票价卖到1280，到底谁给的自信？

一娱三分地

2026-03-03 13:51:03

伊朗有言在先，日本8万吨货轮爆炸，发往中国的原油一天都没中断

伊朗有言在先，日本8万吨货轮爆炸，发往中国的原油一天都没中断

原来仙女不讲理

2026-03-12 12:21:21

新战衣：居家蕾丝睡裙的诱惑

疾跑的小蜗牛

2026-03-12 22:03:29

外媒：中国六代机歼-36第二架改进型原型机再试飞，首飞指日可待

外媒：中国六代机歼-36第二架改进型原型机再试飞，首飞指日可待

止戈军是我

2026-03-12 21:26:44

狂卖2000万！年轻人把“国产鸟”买成“新工服”

狂卖2000万！年轻人把“国产鸟”买成“新工服”

表外表里

2026-03-11 22:50:07

俄军被迫从红军村调出增援部队！乌克兰突破第聂伯罗南部防线

俄军被迫从红军村调出增援部队！乌克兰突破第聂伯罗南部防线

项鹏飞

2026-03-12 18:12:52

15岁诺一近照曝光，没爸爸刘烨那么“忧郁”，依然是个美男子；说法语时声音浑厚，网友评“肯定比刘烨法语好”

15岁诺一近照曝光，没爸爸刘烨那么“忧郁”，依然是个美男子；说法语时声音浑厚，网友评“肯定比刘烨法语好”

极目新闻

2026-03-12 14:17:12

许穋很机智

每天创作搞笑幽默视频，谢谢关注

1239文章数 43关注度

往期回顾全部

科技要闻

当养虾人开始卸载，大厂的战争才真正开始

头条要闻

男子做核磁被遗忘在机器上6小时涉事医生：交接失误

头条要闻

男子做核磁被遗忘在机器上6小时涉事医生：交接失误

体育要闻

建议将“出球型门将”纳入反诈app

娱乐要闻

贝克汉姆全家给27岁大布送生日祝福

财经要闻

卢锋：从特朗普团队群演看时代变局

汽车要闻

大众2025财报：转型虽有阵痛 "大象"已然起跑

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

亲子

艺术

家居

公开课

本地新闻

坐标北京，过敏季反向迁徒

亲子要闻

100亿大单品蝶变：星飞帆经典版升维“A2奶源化”

艺术要闻

深圳能源大厦，“看得我强迫症都要犯了”

家居要闻

触感本真家的迹象

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版