网易首页 > 网易号 > 正文 申请入驻

大模型谁更强?LMArena成新赛场!争议却没停过

0
分享至

现在OpenAI的GPT、谷歌的Gemini、咱们中国的DeepSeek,这些大模型天天被拿来比,到底谁更强?以前还能靠个固定题库打分,现在冒出个叫LMArena的平台,成了新裁判。



这事儿把大模型评测的老规矩都给改了。

早几年给大模型判高下,套路特别固定。

就跟咱们上学考期末试似的,有MMLU、BIG-Bench这些“官方题库”。

MMLU涵盖57个知识领域,从高中到博士级别都有,既能问神经网络的技术题,也能考美国宪法的内容;BIG-Bench更有意思,要模型解释冷笑话、续写诗歌;HellaSwag则是测日常理解,比如“打开冰箱后最可能干啥”。



这些题库在AI圈火了二十年,优点确实明显,标准统一,结果能重复。

学术论文里只要说“我刷新了MMLU分数”,就代表模型更强。

我上学时最烦死记硬背,没想到模型也栽在这上面,好多题库里的题,早就被放进模型的训练材料里了。

模型考高分,可能不是真懂了,只是把答案记住了。

更关键的是,这玩意儿像闭卷考试,根本测不出模型的真实交互能力。



你想啊,咱们用AI都是聊天、问问题,哪会按固定题库来?华盛顿大学有个叫朱邦华的教授也说,就是因为老题库有这些问题,才催生出新的评测方式。

聊完以前的老办法,就该说说LMArena是咋冒出来的。

2023年的时候,有个叫LMSYS的组织,刚发布了开源模型Vicuna,想跟斯坦福的Alpaca比一比。

可当时没合适的评测方法,他们先试了让GPT-3.5打分,后来又试了让人类选“谁答得好”,结果发现后者更靠谱。

就这么着,LMArena的前身ChatbotArena就诞生了。



LMArena的玩法特别像打擂台。

用户输入一个问题,系统会随机挑两个模型来回答。

你不知道屏幕后面是GPT还是Claude,只能凭答案选“左边好”或“右边好”,选完才揭晓模型身份。

打分用的是国际象棋那套Elo机制,模型一开始有固定分数,赢了涨分,输了扣分,慢慢就排出名次了。

我觉得这招挺聪明,至少不像以前那样靠死记硬背。



而且它还有个“人机协同”的框架,会平衡模型的出场次数,防止某个模型因为露脸多就被高估。

数据和算法还全开源,谁都能查,看着挺透明。

后来前特斯拉AI总监Karpathy都在推特上推荐,说只信它的评测结果。

谷歌更是把这儿当成新模型“试金石”,之前火的NanoBanana、传闻中的Gemini3.0,都先在这亮过相。

本来想,LMArena这匿名对战挺公平吧,后来发现不是这么回事儿。



用户投票特别主观,有人就喜欢说话自然、写得长的模型,哪怕逻辑没那么严谨。

之前有研究机构分析,它的结果跟老题库分数没强关联,还存在“话题偏差”,比如聊科技题和聊生活题,模型排名能差一大截。

更离谱的是“刷榜”问题。

去年Meta的Llama4Maverick在这儿排到第二,比GPT-4o还高。

可等开源版一出来,开发者们发现根本没那么强,怀疑Meta专门优化了模型应付投票,搞了个“专供版”。



这事儿闹大后,LMArena才改了规则,要求厂商必须披露模型版本。

后面更让人担心的是商业化。

今年5月,LMArena团队成立了公司,还融了1亿美金。

资本一进来,平台就得考虑赚钱,比如搞数据分析、定制评测报告。

到时候它还能像以前那样中立吗?会不会偏向付费的大客户?这真不好说。



有人说LMArena不行,那是不是又得回到以前的Benchmark?其实也不是,现在的老题库也在升级。

比如MMLU出了Pro版,难度更高;还有专门测编程的SWE-Bench、测多智能体的AgentBench,不再是简单考知识,而是模拟真实工作场景。

另外还有个叫AlphaArena的新平台,挺有意思。

它让模型去炒加密货币,给每个模型一样的钱和指令,最后比谁赚得多。

之前DeepSeek还赢了,毕竟它背后是量化基金公司。



不过这玩法更像噱头,大模型预测股市本来就不靠谱,结果也没法重复。

但它确实提供了新思路,让模型在真实场景里“实战”。

我觉得未来肯定不是二选一,而是把老题库的量化标准和LMArena的真实交互结合起来。

就像咱们找工作,既要看学历成绩,也得看面试时的沟通能力。

而且现在评模型越来越需要“硬通货”,高难度数据。

朱邦华教授说,现在得找数学博士、计算机博士来出题,一条题就要几千美元,成本特别高。



说到底,大模型评测早就不是简单打个分了。

AI上半场比的是“谁训练得好”,下半场比的是“谁能说清啥叫智能”。

LMArena也好,新题库也罢,都是在摸黑找这个答案。

你觉得LMArena到底靠不靠谱?欢迎留言聊聊。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中甲联赛落幕!诞生4个赢家,3个输家!铜梁龙、广州豹位列其中

中甲联赛落幕!诞生4个赢家,3个输家!铜梁龙、广州豹位列其中

小火箭爱体育
2025-11-08 16:56:15
小米“双11”战报夺冠被打脸:自家统计的数据,纯属自娱自乐

小米“双11”战报夺冠被打脸:自家统计的数据,纯属自娱自乐

吃瓜局
2025-11-07 14:15:39
我滴个娘耶李宇春呀李宇春你这是又穿的啥衣服呢

我滴个娘耶李宇春呀李宇春你这是又穿的啥衣服呢

科学发掘
2025-11-08 15:16:36
马斯克霸气回应特朗普:搞政治我不行,搞商业和科技你不行

马斯克霸气回应特朗普:搞政治我不行,搞商业和科技你不行

新浪财经
2025-11-08 14:33:35
神舟22可能要提前发射?神舟20号受撞击推迟返回,是什么情况?

神舟22可能要提前发射?神舟20号受撞击推迟返回,是什么情况?

北纬的咖啡豆
2025-11-08 07:33:40
6499元,华为新机官宣:11月28日,正式开售

6499元,华为新机官宣:11月28日,正式开售

科技堡垒
2025-11-08 11:41:23
世界上最安全的两个国家,一个谁也打不过,一个谁也不敢打。

世界上最安全的两个国家,一个谁也打不过,一个谁也不敢打。

百态人间
2025-10-29 15:27:08
别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

喜欢历史的阿繁
2025-11-08 15:09:21
特朗普对委内瑞拉下了最后通牒,中方表态,若开战,美国结局只有一个

特朗普对委内瑞拉下了最后通牒,中方表态,若开战,美国结局只有一个

笔尖视界
2025-11-08 12:15:14
许家印干的最虎的一件事就是填海造陆,花费上千亿搞个海南海花岛

许家印干的最虎的一件事就是填海造陆,花费上千亿搞个海南海花岛

探史
2025-11-04 18:54:50
这种丰满的腿,穿紧身瑜伽裤真的好看吗?

这种丰满的腿,穿紧身瑜伽裤真的好看吗?

小乔古装汉服
2025-10-15 17:16:17
小米汽车99.4%保值率遭打脸:二手市场无人问津,谁都不敢接

小米汽车99.4%保值率遭打脸:二手市场无人问津,谁都不敢接

麦小柒
2025-11-06 20:40:23
东风就位!神舟二十号3人乘组整装回家,神二十二1人将驻留超1年

东风就位!神舟二十号3人乘组整装回家,神二十二1人将驻留超1年

粤语音乐喷泉
2025-11-08 02:56:22
水洗貂皮退货后续:买家宝妈被堵小区,商家起诉,女老板口碑暴涨

水洗貂皮退货后续:买家宝妈被堵小区,商家起诉,女老板口碑暴涨

子芫伴你成长
2025-11-06 18:49:11
眼科主任面带桃花:前一秒甜美养眼,后一秒大尺度画面太辣眼

眼科主任面带桃花:前一秒甜美养眼,后一秒大尺度画面太辣眼

公子麦少
2025-11-08 16:20:48
外交部:中方欢迎艾德外交大臣来访

外交部:中方欢迎艾德外交大臣来访

北青网-北京青年报
2025-11-07 15:51:04
湖南省人医17分钟视频风波,女主火辣、男主儒雅,官方发最新通报

湖南省人医17分钟视频风波,女主火辣、男主儒雅,官方发最新通报

鋭娱之乐
2025-11-06 17:08:50
北京卫戍区从兵团级降格为正军级后,从未配备副大军区级

北京卫戍区从兵团级降格为正军级后,从未配备副大军区级

起喜电影
2025-11-08 11:30:31
陪睡陪玩只是表象,王晶怒揭霍家秘辛,震惊娱乐圈

陪睡陪玩只是表象,王晶怒揭霍家秘辛,震惊娱乐圈

冷紫葉
2025-11-07 14:57:29
郭台铭彻底翻盘!大陆市场竟迎来颠覆性转折!

郭台铭彻底翻盘!大陆市场竟迎来颠覆性转折!

舞指飞扬
2025-11-08 09:11:02
2025-11-08 20:00:49
许穋很机智
许穋很机智
每天创作搞笑幽默视频,谢谢关注
572文章数 22关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

"全网最像夫妻"被喊话测DNA 妻子:做过婚检 越长越像

头条要闻

"全网最像夫妻"被喊话测DNA 妻子:做过婚检 越长越像

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

家居
游戏
亲子
时尚
军事航空

家居要闻

现代自由 功能美学居所

玩家破译出《质量效应5》隐藏截图:暗示游戏剧情?

亲子要闻

爸爸妈妈的出差vlog

推广 || 断舍离N次也不会断了它,买过最值的冬日单品之一

军事要闻

福建舰更多细节公布 一组动图全方位看清楚

无障碍浏览 进入关怀版