网易首页 > 网易号 > 正文 申请入驻

大模型谁更强?LMArena成新赛场!争议却没停过

0
分享至

现在OpenAI的GPT、谷歌的Gemini、咱们中国的DeepSeek,这些大模型天天被拿来比,到底谁更强?以前还能靠个固定题库打分,现在冒出个叫LMArena的平台,成了新裁判。



这事儿把大模型评测的老规矩都给改了。

早几年给大模型判高下,套路特别固定。

就跟咱们上学考期末试似的,有MMLU、BIG-Bench这些“官方题库”。

MMLU涵盖57个知识领域,从高中到博士级别都有,既能问神经网络的技术题,也能考美国宪法的内容;BIG-Bench更有意思,要模型解释冷笑话、续写诗歌;HellaSwag则是测日常理解,比如“打开冰箱后最可能干啥”。



这些题库在AI圈火了二十年,优点确实明显,标准统一,结果能重复。

学术论文里只要说“我刷新了MMLU分数”,就代表模型更强。

我上学时最烦死记硬背,没想到模型也栽在这上面,好多题库里的题,早就被放进模型的训练材料里了。

模型考高分,可能不是真懂了,只是把答案记住了。

更关键的是,这玩意儿像闭卷考试,根本测不出模型的真实交互能力。



你想啊,咱们用AI都是聊天、问问题,哪会按固定题库来?华盛顿大学有个叫朱邦华的教授也说,就是因为老题库有这些问题,才催生出新的评测方式。

聊完以前的老办法,就该说说LMArena是咋冒出来的。

2023年的时候,有个叫LMSYS的组织,刚发布了开源模型Vicuna,想跟斯坦福的Alpaca比一比。

可当时没合适的评测方法,他们先试了让GPT-3.5打分,后来又试了让人类选“谁答得好”,结果发现后者更靠谱。

就这么着,LMArena的前身ChatbotArena就诞生了。



LMArena的玩法特别像打擂台。

用户输入一个问题,系统会随机挑两个模型来回答。

你不知道屏幕后面是GPT还是Claude,只能凭答案选“左边好”或“右边好”,选完才揭晓模型身份。

打分用的是国际象棋那套Elo机制,模型一开始有固定分数,赢了涨分,输了扣分,慢慢就排出名次了。

我觉得这招挺聪明,至少不像以前那样靠死记硬背。



而且它还有个“人机协同”的框架,会平衡模型的出场次数,防止某个模型因为露脸多就被高估。

数据和算法还全开源,谁都能查,看着挺透明。

后来前特斯拉AI总监Karpathy都在推特上推荐,说只信它的评测结果。

谷歌更是把这儿当成新模型“试金石”,之前火的NanoBanana、传闻中的Gemini3.0,都先在这亮过相。

本来想,LMArena这匿名对战挺公平吧,后来发现不是这么回事儿。



用户投票特别主观,有人就喜欢说话自然、写得长的模型,哪怕逻辑没那么严谨。

之前有研究机构分析,它的结果跟老题库分数没强关联,还存在“话题偏差”,比如聊科技题和聊生活题,模型排名能差一大截。

更离谱的是“刷榜”问题。

去年Meta的Llama4Maverick在这儿排到第二,比GPT-4o还高。

可等开源版一出来,开发者们发现根本没那么强,怀疑Meta专门优化了模型应付投票,搞了个“专供版”。



这事儿闹大后,LMArena才改了规则,要求厂商必须披露模型版本。

后面更让人担心的是商业化。

今年5月,LMArena团队成立了公司,还融了1亿美金。

资本一进来,平台就得考虑赚钱,比如搞数据分析、定制评测报告。

到时候它还能像以前那样中立吗?会不会偏向付费的大客户?这真不好说。



有人说LMArena不行,那是不是又得回到以前的Benchmark?其实也不是,现在的老题库也在升级。

比如MMLU出了Pro版,难度更高;还有专门测编程的SWE-Bench、测多智能体的AgentBench,不再是简单考知识,而是模拟真实工作场景。

另外还有个叫AlphaArena的新平台,挺有意思。

它让模型去炒加密货币,给每个模型一样的钱和指令,最后比谁赚得多。

之前DeepSeek还赢了,毕竟它背后是量化基金公司。



不过这玩法更像噱头,大模型预测股市本来就不靠谱,结果也没法重复。

但它确实提供了新思路,让模型在真实场景里“实战”。

我觉得未来肯定不是二选一,而是把老题库的量化标准和LMArena的真实交互结合起来。

就像咱们找工作,既要看学历成绩,也得看面试时的沟通能力。

而且现在评模型越来越需要“硬通货”,高难度数据。

朱邦华教授说,现在得找数学博士、计算机博士来出题,一条题就要几千美元,成本特别高。



说到底,大模型评测早就不是简单打个分了。

AI上半场比的是“谁训练得好”,下半场比的是“谁能说清啥叫智能”。

LMArena也好,新题库也罢,都是在摸黑找这个答案。

你觉得LMArena到底靠不靠谱?欢迎留言聊聊。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
车主开蔚来ES6五年行驶里程一百万公里!李斌回应:平均每天500公里 太牛了

车主开蔚来ES6五年行驶里程一百万公里!李斌回应:平均每天500公里 太牛了

快科技
2026-03-12 09:27:24
张凌赫9年前素人期的采访火了,190cm身高鹤立鸡群,像胖版李敏镐

张凌赫9年前素人期的采访火了,190cm身高鹤立鸡群,像胖版李敏镐

大铁猫娱乐
2026-03-12 14:55:04
伊朗伊斯兰革命卫队称袭击美国油轮

伊朗伊斯兰革命卫队称袭击美国油轮

界面新闻
2026-03-12 17:32:42
伊朗破获超级间谍,比川岛芳子狠十倍,睡高官套情报

伊朗破获超级间谍,比川岛芳子狠十倍,睡高官套情报

点燃好奇心
2026-03-12 15:16:00
外媒最新爆料:伊朗最高领袖穆杰塔巴足部骨折、左眼周围淤青,面部被划伤?

外媒最新爆料:伊朗最高领袖穆杰塔巴足部骨折、左眼周围淤青,面部被划伤?

王爷说图表
2026-03-12 18:09:48
美媒高度警惕:中国六代机或将挂载霹雳-17作战

美媒高度警惕:中国六代机或将挂载霹雳-17作战

杨风
2026-03-11 20:42:13
30分惨败!2大新援难挽3连败,CBA关键1战:青岛摧枯拉朽升第5!

30分惨败!2大新援难挽3连败,CBA关键1战:青岛摧枯拉朽升第5!

话体坛
2026-03-12 22:05:51
意难平!得分赛季新高+超邓肯,无人问津啊,北境之王真的落寞了

意难平!得分赛季新高+超邓肯,无人问津啊,北境之王真的落寞了

球童无忌
2026-03-12 22:45:05
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
扬州一女子车祸被打,样貌曝光,细节被扒,众人直呼打得好

扬州一女子车祸被打,样貌曝光,细节被扒,众人直呼打得好

天天热点见闻
2026-03-11 20:52:30
七轮增资仍“缺血”,广州银行为何陷入资本恶性循环?

七轮增资仍“缺血”,广州银行为何陷入资本恶性循环?

九州商业观察
2026-03-12 11:21:36
手机顶部出现这 3 个图标,请立刻警惕!你的隐私正在被偷偷泄露

手机顶部出现这 3 个图标,请立刻警惕!你的隐私正在被偷偷泄露

小柱解说游戏
2026-03-11 08:34:44
3-0!没姆巴佩,皇马更像皇马!哈兰德向皇马交“投名状”

3-0!没姆巴佩,皇马更像皇马!哈兰德向皇马交“投名状”

体育世界
2026-03-12 12:58:59
演都不演了,刚复出就开演唱会,票价卖到1280,到底谁给的自信?

演都不演了,刚复出就开演唱会,票价卖到1280,到底谁给的自信?

一娱三分地
2026-03-03 13:51:03
伊朗有言在先,日本8万吨货轮爆炸,发往中国的原油一天都没中断

伊朗有言在先,日本8万吨货轮爆炸,发往中国的原油一天都没中断

原来仙女不讲理
2026-03-12 12:21:21
新战衣:居家蕾丝睡裙的诱惑

新战衣:居家蕾丝睡裙的诱惑

疾跑的小蜗牛
2026-03-12 22:03:29
外媒:中国六代机歼-36第二架改进型原型机再试飞,首飞指日可待

外媒:中国六代机歼-36第二架改进型原型机再试飞,首飞指日可待

止戈军是我
2026-03-12 21:26:44
狂卖2000万!年轻人把“国产鸟”买成“新工服”

狂卖2000万!年轻人把“国产鸟”买成“新工服”

表外表里
2026-03-11 22:50:07
俄军被迫从红军村调出增援部队!乌克兰突破第聂伯罗南部防线

俄军被迫从红军村调出增援部队!乌克兰突破第聂伯罗南部防线

项鹏飞
2026-03-12 18:12:52
15岁诺一近照曝光,没爸爸刘烨那么“忧郁”,依然是个美男子;说法语时声音浑厚,网友评“肯定比刘烨法语好”

15岁诺一近照曝光,没爸爸刘烨那么“忧郁”,依然是个美男子;说法语时声音浑厚,网友评“肯定比刘烨法语好”

极目新闻
2026-03-12 14:17:12
2026-03-13 00:56:49
许穋很机智
许穋很机智
每天创作搞笑幽默视频,谢谢关注
1239文章数 43关注度
往期回顾 全部

科技要闻

当养虾人开始卸载,大厂的战争才真正开始

头条要闻

男子做核磁被遗忘在机器上6小时 涉事医生:交接失误

头条要闻

男子做核磁被遗忘在机器上6小时 涉事医生:交接失误

体育要闻

建议将“出球型门将”纳入反诈app

娱乐要闻

贝克汉姆全家给27岁大布送生日祝福

财经要闻

卢锋:从特朗普团队群演看时代变局

汽车要闻

大众2025财报:转型虽有阵痛 "大象"已然起跑

态度原创

本地
亲子
艺术
家居
公开课

本地新闻

坐标北京,过敏季反向迁徒

亲子要闻

100亿大单品蝶变:星飞帆经典版升维“A2奶源化”

艺术要闻

深圳能源大厦,“看得我强迫症都要犯了”

家居要闻

触感本真 家的迹象

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版