网易首页 > 网易号 > 正文 申请入驻

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌

0
分享至

IT之家 4 月 14 日消息,LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名,其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑。

4 月 6 日,Meta 发布了最新的大模型 Llama 4,包含 Scout、Maverick 和 Behemoth 三个版本。其中,Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二,仅次于 Gemini 2.5 Pro。然而,随着开发者实际使用 Llama 4 大模型开源版的效果陆续曝光,Llama 4 的口碑急转直下。有开发者发现 Meta 提供给 LMArena 的 Llama 4 版本与提交给社区的开源版本不同,因而质疑 Meta 刷榜作弊。

4 月 8 日,Chatbot Arena 官方发文确认了用户的上述质疑,公开表示 Meta 提供给他们的是“特供版”,并考虑更新排行榜。根据 Chatbot Arena 官方消息,Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 专家的指令微调模型。

IT之家注意到,目前开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 为何表现不佳?该公司在上周六发布的一张图表中解释称,该模型是“针对对话性进行优化”的。这些优化显然在 LM Arena 上取得了不错的效果,因为 LM Arena 的人类评分者会比较不同模型的输出,并选择他们更偏好的结果。

由于各种原因,LM Arena 从未被视为衡量 AI 模型性能的最可靠指标。尽管如此,针对基准测试调整模型不仅具有误导性,还使得开发者难以准确预测该模型在不同场景下的表现。

Meta 的一位发言人向 TechCrunch 表示,Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本,它在 LM Arena 上也表现不错,”该发言人说,“我们现在已发布了开源版本,将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容,并期待他们持续的反馈。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
开往伦敦列车大规模砍人案:2持刀男火车上“见人就刺”,9人重伤

开往伦敦列车大规模砍人案:2持刀男火车上“见人就刺”,9人重伤

吃瓜体
2025-11-02 11:19:17
筹码集中!最新股东户数环比减少30%以上的公司一览

筹码集中!最新股东户数环比减少30%以上的公司一览

A股数据表
2025-11-02 17:00:25
俄罗斯12月开始发行RMB主权债券,但地点不在我国

俄罗斯12月开始发行RMB主权债券,但地点不在我国

史政先锋
2025-11-01 20:08:57
活久见!苏州一男子征婚曝光,把体制内家庭的优越感写得明明白白

活久见!苏州一男子征婚曝光,把体制内家庭的优越感写得明明白白

火山诗话
2025-10-31 13:29:31
黄光裕:入狱了11年,银行账户躺着225亿,出狱后的他过得咋样?

黄光裕:入狱了11年,银行账户躺着225亿,出狱后的他过得咋样?

乐天闲聊
2025-10-25 15:26:24
刘铭庭同志逝世

刘铭庭同志逝世

政知新媒体
2025-11-01 19:41:02
多人在水库岸边一边放《大悲咒》一边放生猫,目击者称多只猫入水后溺亡

多人在水库岸边一边放《大悲咒》一边放生猫,目击者称多只猫入水后溺亡

观威海
2025-11-02 17:35:05
官方通报:区长冯强,酒驾、工作时间沉迷打高尔夫球

官方通报:区长冯强,酒驾、工作时间沉迷打高尔夫球

新京报政事儿
2025-11-02 15:54:27
美军不宣而战!特朗普下令在东太平洋发动致命空袭

美军不宣而战!特朗普下令在东太平洋发动致命空袭

不吃草de兔子
2025-11-02 19:16:09
无滤镜后,章子怡发福臃肿,柯淳又矮又挫,冰冰和蔡明傻傻分不清

无滤镜后,章子怡发福臃肿,柯淳又矮又挫,冰冰和蔡明傻傻分不清

卷史
2025-11-01 16:30:36
章泽天被曝和刘强东冷战后续:被扒消费降级,太像离婚后的大S!

章泽天被曝和刘强东冷战后续:被扒消费降级,太像离婚后的大S!

柠檬有娱乐
2025-11-01 14:25:10
荷兰没料到已完全失控!欧美收割中国的壁垒: 成为框死自己牢笼

荷兰没料到已完全失控!欧美收割中国的壁垒: 成为框死自己牢笼

南宫一二
2025-11-01 10:52:26
詹姆斯祝贺!道奇4-3蓝鸟夺世界大赛第9冠 日本山本由伸MVP

詹姆斯祝贺!道奇4-3蓝鸟夺世界大赛第9冠 日本山本由伸MVP

醉卧浮生
2025-11-02 13:17:10
马来西亚拒不归还林梦,文莱找中国建设大桥连接飞地,这操作我服

马来西亚拒不归还林梦,文莱找中国建设大桥连接飞地,这操作我服

凡人侃史
2025-10-28 18:11:21
埃尔多安当面质问默茨:德国难道看不到以色列在加沙实施种族灭绝行为?

埃尔多安当面质问默茨:德国难道看不到以色列在加沙实施种族灭绝行为?

环球网资讯
2025-10-31 09:09:42
玉石“骗局”:为什么全世界只有中国把它当宝贝?

玉石“骗局”:为什么全世界只有中国把它当宝贝?

白夜若梦
2025-10-29 16:59:27
蔚来董事长李斌:老被问蔚来什么时候倒闭也挺烦!你买了蔚来,如果蔚来混得不好,时间长了用户也没面子

蔚来董事长李斌:老被问蔚来什么时候倒闭也挺烦!你买了蔚来,如果蔚来混得不好,时间长了用户也没面子

和讯网
2025-10-31 09:28:25
48岁曾黎回老家种地!满脸褶头发花白断崖衰老,徒手摘黄瓜像农妇

48岁曾黎回老家种地!满脸褶头发花白断崖衰老,徒手摘黄瓜像农妇

金风说
2025-11-01 15:41:57
广西金融投资集团有限公司原党委书记蒙坤伟接受审查调查

广西金融投资集团有限公司原党委书记蒙坤伟接受审查调查

界面新闻
2025-11-02 18:55:46
木村拓哉现身东京电影节,老得惨不忍睹,擦粉底抹口红,像个女生

木村拓哉现身东京电影节,老得惨不忍睹,擦粉底抹口红,像个女生

心静物娱
2025-11-01 15:21:26
2025-11-02 20:51:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
313143文章数 606699关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

原价百万1针的CAR-T有望纳入创新药目录

头条要闻

原价百万1针的CAR-T有望纳入创新药目录

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

房产
手机
旅游
游戏
公开课

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

手机要闻

同样开售三天,小米、vivo、荣耀、OPPO新旗舰销量对比

旅游要闻

村超余温未减!榕江万亩硫华菊绽放,侗寨花海奏响深秋文旅狂想曲

LPL战队再减少?知情人爆料:RNG和FPX可能退出,U队和L队也想撤

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版