网易首页 > 网易号 > 正文 申请入驻

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌

0
分享至

IT之家 4 月 14 日消息,LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名,其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑。

4 月 6 日,Meta 发布了最新的大模型 Llama 4,包含 Scout、Maverick 和 Behemoth 三个版本。其中,Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二,仅次于 Gemini 2.5 Pro。然而,随着开发者实际使用 Llama 4 大模型开源版的效果陆续曝光,Llama 4 的口碑急转直下。有开发者发现 Meta 提供给 LMArena 的 Llama 4 版本与提交给社区的开源版本不同,因而质疑 Meta 刷榜作弊。

4 月 8 日,Chatbot Arena 官方发文确认了用户的上述质疑,公开表示 Meta 提供给他们的是“特供版”,并考虑更新排行榜。根据 Chatbot Arena 官方消息,Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 专家的指令微调模型。

IT之家注意到,目前开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 为何表现不佳?该公司在上周六发布的一张图表中解释称,该模型是“针对对话性进行优化”的。这些优化显然在 LM Arena 上取得了不错的效果,因为 LM Arena 的人类评分者会比较不同模型的输出,并选择他们更偏好的结果。

由于各种原因,LM Arena 从未被视为衡量 AI 模型性能的最可靠指标。尽管如此,针对基准测试调整模型不仅具有误导性,还使得开发者难以准确预测该模型在不同场景下的表现。

Meta 的一位发言人向 TechCrunch 表示,Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本,它在 LM Arena 上也表现不错,”该发言人说,“我们现在已发布了开源版本,将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容,并期待他们持续的反馈。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美防长称将对伊朗发起“最高强度”打击 以实现三项军事目标

美防长称将对伊朗发起“最高强度”打击 以实现三项军事目标

财联社
2026-03-10 23:17:13
县级媒体为何越难干?

县级媒体为何越难干?

吴女士
2026-02-28 14:16:14
既然有人认为克里米亚算是回归俄罗斯,为何不提图瓦回归华夏的事

既然有人认为克里米亚算是回归俄罗斯,为何不提图瓦回归华夏的事

历史摆渡
2026-02-08 10:50:03
西方观察家认为:这次的美伊以冲突会导致永久改写台海战争的规则

西方观察家认为:这次的美伊以冲突会导致永久改写台海战争的规则

阿七说史
2026-03-09 16:03:48
中印加勒万河谷肉搏战:680人,8小时混战,双方到底伤亡多少人?

中印加勒万河谷肉搏战:680人,8小时混战,双方到底伤亡多少人?

文史达观
2025-03-12 12:40:01
The Race:F1最早或在月底调整新规,中国站后车队将进行讨论

The Race:F1最早或在月底调整新规,中国站后车队将进行讨论

懂球帝
2026-03-10 21:28:31
月薪1万在广州属于什么水平?

月薪1万在广州属于什么水平?

侃故事的阿庆
2026-03-10 10:53:55
“谁给王菲画的眉毛”登上热搜,女儿窦靖童发文“挖嘞个亲娘”

“谁给王菲画的眉毛”登上热搜,女儿窦靖童发文“挖嘞个亲娘”

仙味少女心
2026-02-17 12:13:27
宁愿少拿点退休金也要提前退?行内人透露5个原因,句句戳心太现实

宁愿少拿点退休金也要提前退?行内人透露5个原因,句句戳心太现实

慧眼看世界哈哈
2026-03-10 15:36:04
到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

另子维爱读史
2026-01-09 22:18:04
广东91岁女儿回娘家向113岁妈妈撒娇:认识快100年了,母女二人总有聊不完的话

广东91岁女儿回娘家向113岁妈妈撒娇:认识快100年了,母女二人总有聊不完的话

极目新闻
2026-03-10 11:19:59
王曼昱爆冷输球!对手怒吼庆祝,没想到曼昱却是这种反应让人心疼

王曼昱爆冷输球!对手怒吼庆祝,没想到曼昱却是这种反应让人心疼

寒士之言本尊
2026-03-10 19:09:36
你有什么无心插柳的经历?网友:卖兽药的,一个半月,赚了190万

你有什么无心插柳的经历?网友:卖兽药的,一个半月,赚了190万

夜深爱杂谈
2026-02-24 20:10:07
一枚火箭一天内发射两次,送54颗卫星上天,猎鹰九号越来越牛了

一枚火箭一天内发射两次,送54颗卫星上天,猎鹰九号越来越牛了

科普大世界
2026-03-10 09:44:55
墙倒众人推!无缘冠军的孙颖莎到底输在哪?邓亚萍的话一针见血

墙倒众人推!无缘冠军的孙颖莎到底输在哪?邓亚萍的话一针见血

丁丁鲤史纪
2025-11-17 15:58:28
全网好奇!撒贝宁身上的高端冲锋衣是啥牌子

全网好奇!撒贝宁身上的高端冲锋衣是啥牌子

白宸侃片
2026-03-08 19:21:20
伊朗导弹攻击归零,无人机导弹被埋在山底,乌克兰王牌来了

伊朗导弹攻击归零,无人机导弹被埋在山底,乌克兰王牌来了

移光幻影
2026-03-06 16:06:55
乌克兰为什么要组建一支八万人的军队挺进乌拉尔山脉?

乌克兰为什么要组建一支八万人的军队挺进乌拉尔山脉?

维美丽心甜
2026-02-14 19:30:04
华为新机突然官宣:4月15日,完全发售!

华为新机突然官宣:4月15日,完全发售!

科技堡垒
2026-03-08 12:30:18
不用猜,女人真正的软肋,就这7个地方

不用猜,女人真正的软肋,就这7个地方

青苹果sht
2026-02-19 07:48:00
2026-03-11 02:28:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
333376文章数 607056关注度
往期回顾 全部

科技要闻

全民"养虾"背后:大厂集体下场疯狂卖Token

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

体育要闻

加兰没那么差,但鲈鱼会用吗?

娱乐要闻

《逐玉》注水风波升级!315评论区沦陷

财经要闻

“龙虾补贴”密集出炉 最高1000万!

汽车要闻

MG4有SUV衍生 上汽乘用车多款新车规划曝光

态度原创

时尚
本地
亲子
艺术
数码

看来看去这些才是适合普通人的穿搭!不花哨、不繁琐,提气质

本地新闻

云游中国|候鸟高颜值亮相!沉浸式打卡青海湿地

亲子要闻

家长和同学们都应该知道的20英里法则

艺术要闻

震撼!美国油画家约书亚·拉洛克的作品让人惊叹不已!

数码要闻

3月31日!RTX 50系玩家可体验英伟达DLSS 4.5新特性

无障碍浏览 进入关怀版