现在OpenAI的GPT、谷歌的Gemini、咱们中国的DeepSeek,这些大模型天天被拿来比,到底谁更强?以前还能靠个固定题库打分,现在冒出个叫LMArena的平台,成了新裁判。
![]()
这事儿把大模型评测的老规矩都给改了。
早几年给大模型判高下,套路特别固定。
就跟咱们上学考期末试似的,有MMLU、BIG-Bench这些“官方题库”。
MMLU涵盖57个知识领域,从高中到博士级别都有,既能问神经网络的技术题,也能考美国宪法的内容;BIG-Bench更有意思,要模型解释冷笑话、续写诗歌;HellaSwag则是测日常理解,比如“打开冰箱后最可能干啥”。
![]()
这些题库在AI圈火了二十年,优点确实明显,标准统一,结果能重复。
学术论文里只要说“我刷新了MMLU分数”,就代表模型更强。
我上学时最烦死记硬背,没想到模型也栽在这上面,好多题库里的题,早就被放进模型的训练材料里了。
模型考高分,可能不是真懂了,只是把答案记住了。
更关键的是,这玩意儿像闭卷考试,根本测不出模型的真实交互能力。
![]()
你想啊,咱们用AI都是聊天、问问题,哪会按固定题库来?华盛顿大学有个叫朱邦华的教授也说,就是因为老题库有这些问题,才催生出新的评测方式。
聊完以前的老办法,就该说说LMArena是咋冒出来的。
2023年的时候,有个叫LMSYS的组织,刚发布了开源模型Vicuna,想跟斯坦福的Alpaca比一比。
可当时没合适的评测方法,他们先试了让GPT-3.5打分,后来又试了让人类选“谁答得好”,结果发现后者更靠谱。
就这么着,LMArena的前身ChatbotArena就诞生了。
![]()
LMArena的玩法特别像打擂台。
用户输入一个问题,系统会随机挑两个模型来回答。
你不知道屏幕后面是GPT还是Claude,只能凭答案选“左边好”或“右边好”,选完才揭晓模型身份。
打分用的是国际象棋那套Elo机制,模型一开始有固定分数,赢了涨分,输了扣分,慢慢就排出名次了。
我觉得这招挺聪明,至少不像以前那样靠死记硬背。
![]()
而且它还有个“人机协同”的框架,会平衡模型的出场次数,防止某个模型因为露脸多就被高估。
数据和算法还全开源,谁都能查,看着挺透明。
后来前特斯拉AI总监Karpathy都在推特上推荐,说只信它的评测结果。
谷歌更是把这儿当成新模型“试金石”,之前火的NanoBanana、传闻中的Gemini3.0,都先在这亮过相。
本来想,LMArena这匿名对战挺公平吧,后来发现不是这么回事儿。
![]()
用户投票特别主观,有人就喜欢说话自然、写得长的模型,哪怕逻辑没那么严谨。
之前有研究机构分析,它的结果跟老题库分数没强关联,还存在“话题偏差”,比如聊科技题和聊生活题,模型排名能差一大截。
更离谱的是“刷榜”问题。
去年Meta的Llama4Maverick在这儿排到第二,比GPT-4o还高。
可等开源版一出来,开发者们发现根本没那么强,怀疑Meta专门优化了模型应付投票,搞了个“专供版”。
![]()
这事儿闹大后,LMArena才改了规则,要求厂商必须披露模型版本。
后面更让人担心的是商业化。
今年5月,LMArena团队成立了公司,还融了1亿美金。
资本一进来,平台就得考虑赚钱,比如搞数据分析、定制评测报告。
到时候它还能像以前那样中立吗?会不会偏向付费的大客户?这真不好说。
![]()
有人说LMArena不行,那是不是又得回到以前的Benchmark?其实也不是,现在的老题库也在升级。
比如MMLU出了Pro版,难度更高;还有专门测编程的SWE-Bench、测多智能体的AgentBench,不再是简单考知识,而是模拟真实工作场景。
另外还有个叫AlphaArena的新平台,挺有意思。
它让模型去炒加密货币,给每个模型一样的钱和指令,最后比谁赚得多。
之前DeepSeek还赢了,毕竟它背后是量化基金公司。
![]()
不过这玩法更像噱头,大模型预测股市本来就不靠谱,结果也没法重复。
但它确实提供了新思路,让模型在真实场景里“实战”。
我觉得未来肯定不是二选一,而是把老题库的量化标准和LMArena的真实交互结合起来。
就像咱们找工作,既要看学历成绩,也得看面试时的沟通能力。
而且现在评模型越来越需要“硬通货”,高难度数据。
朱邦华教授说,现在得找数学博士、计算机博士来出题,一条题就要几千美元,成本特别高。
![]()
说到底,大模型评测早就不是简单打个分了。
AI上半场比的是“谁训练得好”,下半场比的是“谁能说清啥叫智能”。
LMArena也好,新题库也罢,都是在摸黑找这个答案。
你觉得LMArena到底靠不靠谱?欢迎留言聊聊。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.