网易首页 > 网易号 > 正文 申请入驻

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌

0
分享至

IT之家 4 月 14 日消息,LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名,其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑。

4 月 6 日,Meta 发布了最新的大模型 Llama 4,包含 Scout、Maverick 和 Behemoth 三个版本。其中,Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二,仅次于 Gemini 2.5 Pro。然而,随着开发者实际使用 Llama 4 大模型开源版的效果陆续曝光,Llama 4 的口碑急转直下。有开发者发现 Meta 提供给 LMArena 的 Llama 4 版本与提交给社区的开源版本不同,因而质疑 Meta 刷榜作弊。

4 月 8 日,Chatbot Arena 官方发文确认了用户的上述质疑,公开表示 Meta 提供给他们的是“特供版”,并考虑更新排行榜。根据 Chatbot Arena 官方消息,Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 专家的指令微调模型。

IT之家注意到,目前开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 为何表现不佳?该公司在上周六发布的一张图表中解释称,该模型是“针对对话性进行优化”的。这些优化显然在 LM Arena 上取得了不错的效果,因为 LM Arena 的人类评分者会比较不同模型的输出,并选择他们更偏好的结果。

由于各种原因,LM Arena 从未被视为衡量 AI 模型性能的最可靠指标。尽管如此,针对基准测试调整模型不仅具有误导性,还使得开发者难以准确预测该模型在不同场景下的表现。

Meta 的一位发言人向 TechCrunch 表示,Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本,它在 LM Arena 上也表现不错,”该发言人说,“我们现在已发布了开源版本,将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容,并期待他们持续的反馈。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
姚明恩师离世!名帅阿德尔曼去世享年79岁:曾率火箭打出22连胜

姚明恩师离世!名帅阿德尔曼去世享年79岁:曾率火箭打出22连胜

罗说NBA
2026-06-02 06:54:26
英国教授来中国考察,被这件事彻底震撼

英国教授来中国考察,被这件事彻底震撼

环球时报国际
2026-06-02 09:58:03
杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

奇思妙想草叶君
2026-06-01 19:40:34
珠峰一半在中国,一半在尼泊尔,为何全世界都默认是中国领地?

珠峰一半在中国,一半在尼泊尔,为何全世界都默认是中国领地?

抽象派大师
2026-06-01 02:00:38
德甲U19国青球员火了!法媒赞谢初筠:中国队的引擎

德甲U19国青球员火了!法媒赞谢初筠:中国队的引擎

新英体育
2026-06-02 11:40:57
师父来了!文班亚马的靠山,真TM硬啊!

师父来了!文班亚马的靠山,真TM硬啊!

左右为篮
2026-06-02 09:06:29
战争目标一个都没达成!满盘皆输?俄罗斯已经到崩溃边缘了

战争目标一个都没达成!满盘皆输?俄罗斯已经到崩溃边缘了

阿芒娱乐说
2026-06-02 00:09:29
直落两盘胜出!萨巴伦卡赛季三杀大坂直美,连续4年进法网八强

直落两盘胜出!萨巴伦卡赛季三杀大坂直美,连续4年进法网八强

全景体育V
2026-06-02 05:08:09
重启首日崩了,崩就对了:为什么挤着回天涯?

重启首日崩了,崩就对了:为什么挤着回天涯?

鲁八两
2026-06-01 15:45:07
快停下!5 种运动最容易长血栓,很多人天天在练

快停下!5 种运动最容易长血栓,很多人天天在练

猫大夫医学科普
2026-06-02 06:57:44
稻城亚丁“省道”,车票收入超1亿元

稻城亚丁“省道”,车票收入超1亿元

中国新闻周刊
2026-06-01 20:10:11
亏光1亿后67亿“卖掉”公司,小杨哥这次能成功翻身吗?

亏光1亿后67亿“卖掉”公司,小杨哥这次能成功翻身吗?

青眼财经
2026-06-01 10:37:30
知情人士:特朗普在和内塔尼亚胡通话中,称对方“疯了”,还说“如果不是我,你早就进监狱了,我一直在帮你”

知情人士:特朗普在和内塔尼亚胡通话中,称对方“疯了”,还说“如果不是我,你早就进监狱了,我一直在帮你”

鲁中晨报
2026-06-02 07:15:05
“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

大象新闻
2026-06-01 16:54:53
克罗地亚队世界杯26人名单:40岁魔笛第5次参赛 保留14位季军成员

克罗地亚队世界杯26人名单:40岁魔笛第5次参赛 保留14位季军成员

我爱英超
2026-06-02 06:53:02
深存在硬盘里的十大暗黑女神(颜值篇)

深存在硬盘里的十大暗黑女神(颜值篇)

吃瓜党二号头目
2026-06-02 08:51:40
2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

红色少女主播
2026-05-31 15:18:01
GOAT归来!44岁小威退役4年后官宣复出+下周首秀,大满贯曾夺23冠

GOAT归来!44岁小威退役4年后官宣复出+下周首秀,大满贯曾夺23冠

我爱英超
2026-06-02 06:24:35
主角大结局:胡三元花彩香结婚,刘红兵没死,封潇潇成武戏演员

主角大结局:胡三元花彩香结婚,刘红兵没死,封潇潇成武戏演员

八卦南风
2026-06-02 10:48:18
以军发动“规模最大”进攻,伊朗重申“所有战线”停火,黎以冲突“逼停”美伊和谈

以军发动“规模最大”进攻,伊朗重申“所有战线”停火,黎以冲突“逼停”美伊和谈

环球网资讯
2026-06-02 07:03:18
2026-06-02 12:44:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
347408文章数 607266关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

特朗普被指怒骂内塔尼亚胡"疯了":没我你早就进监狱了

头条要闻

特朗普被指怒骂内塔尼亚胡"疯了":没我你早就进监狱了

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

家居
游戏
房产
健康
教育

家居要闻

流线型轮廓 包容多元身形

靠大尺度MOD火了!游戏官方:成人内容越多越好

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

干细胞临床研究向患者收费?别踩坑

教育要闻

51 名师专访 — 暴一凡【执绘笔筑热爱 以美育伴同行】

无障碍浏览 进入关怀版