网易首页 > 网易号 > 正文 申请入驻

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

0
分享至

  • 克雷西 西风 发自 凹非寺
  • 量子位 | 公众号 QbitAI

Llama 4真要被锤爆了,这次是大模型竞技场(Chatbot Arena)官方亲自下场开怼:

竞技场上,Meta提供给他们的是特供版!

以下是竞技场背后lmarena.ai团队的原话:

我们注意到社区对Llama-4最新版本在Arena平台的发布存在疑问。为确保完全透明,现公开2000余组模型对战数据供公众审阅,包含用户提示词、模型回复及用户偏好数据(链接详见下一条推文)。

初步分析表明,模型回复风格与语气是重要影响因素(详见风格控制排名),我们正在进行更深入的分析!(比如表情符号控制?)

此外,我们即将在Arena平台上线Llama-4-Maverick的HuggingFace版本,排行榜结果将稍后公布。

Meta对我们平台政策的理解与我们对模型提供商的期待存在偏差——Meta本应明确标注"Llama-4-Maverick-03-26-Experimental"是经过人类偏好优化的定制模型。

为此,我们正在更新排行榜政策,以强化对公平性、可复现性评估的承诺,避免未来再出现此类混淆。

总结一下就是:

公开对战数据,正分析排名受影响因素

谴责Meta未明确标注模型版本导致评测混淆

后续:上线Llama-4-Maverick的HuggingFace版、更新排行榜政策

官方下场表态后,Llama 4和Meta的路人缘进一步下降。

2000+轮对战记录完整公开

来看看lmarena.ai公开的模型对战记录详情。

首先来看网友实测时对Llama 4抱怨较大的代码生成任务。

竞技场中Llama-4-Maverick-03-26-Experimental版本生成代码的表现的确是OK的。

prompt:

create me fun web based game that i can just run the code and works(帮我创建一个有趣的网页游戏,我只需运行代码就能玩)

Llama-4-Maverick-03-26-Experimental对战加拿大AI初创公司Cohere的command-a-03-2025。

上文lmarena.ai调查表示“模型回复风格与语气是重要影响因素”,从对战数据中的确可以看出Llama-4-Maverick-03-26-Experimental的回复中会增加如"A very nice and very direct request!" "That’s it! ""Happy gaming!"等展示友好的语句以及表情包。

运行两个模型生成的代码。

command-a-03-2025生成的小游戏是移动鼠标控制绿色篮子接住橙色小球,看效果显然有bug,小球直接穿过篮子,分数也没有变动:

Llama-4-Maverick-03-26-Experimental生成的小游戏玩法是移动鼠标控制红色方块,点击四处移动的蓝色圆点+10分,点击黑色炸弹-10分,每局游戏30秒。

可以正常运行,计分也比较准确:

这局command-a-03-2025输的不冤。

另外,之所以展示Llama-4-Maverick-03-26-Experimental和command-a-03-2025的对比,是因为有网友发现Llama 4声称的关键创新“interleaved no-RoPE attention”和command-a的如出一辙:

再看一个起标题的任务,prompt:

I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我将在一个学术会议上作关于“痣”的演讲——痣是黑素细胞良性病变,可作为黑色素瘤的标志物,有时甚至是其前驱病变。您能否为我的演讲推荐一个简洁有力的标题?)

Llama-4-Maverick-03-26-Experimental对战的是claude-3-5-sonnet-20241022。

对比来看,claude-3-5-sonnet-20241022的回复言简意赅,直接给出5个标题:

Llama-4-Maverick-03-26-Experimental的回复更为详细。

不仅会提供情绪价值,如A very timely and relevant topic! Congrats on getting the slot at congress, by the way!(选题非常应景且切合实际!恭喜拿下大会报告机会),而且从不同角度分别提供了几个标题:

这还没完,Llama-4-Maverick-03-26-Experimental还会贴心地指出选择标题时需要考虑的因素以及它自己选择的top 3标题。

最后再来随机看一道中文题目:

prompt:

解析一下这部微小说 题目 自驾游 当年我自驾游 不小心压死了一头羊 羊的主人好热情 宰了羊给我们吃 还送我们到火车站 在回来的路上 看着火车外的风景 真的好感人

对战o3-mini,Llama-4-Maverick-03-26-Experimental再次展现出超长输出的特点,故事分析完了还拆解了作者为啥要这样设计,作者本人可能都没想这么多(doge):

对战数据看下来,Llama-4-Maverick-03-26-Experimental的排名会这么高,也不奇怪。

此前网友质疑Llama-4-Maverick-03-26-Experimental刷票的可能性降低。

Llama 4深陷“造假”丑闻

如开头所述,Llama 4被lmarena.ai站出来抨击的原因,是因为测试排名和实际表现不符。

在大模型竞技场中,Llama 4得分1417,不仅大大超越了此前Meta自家的Llama-3-405B(提升了149分),还成为史上第4个突破1400分的模型。

而且跑分超越了DeepSeek-V3,直接成为榜单上排名第一的开源模型。

但没过多久,人们就发现Llama 4的实际表现相当拉胯,一时间差评如潮,甚至还被做成了表情包。

比如经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉了下去。

其它跑分方面,到了各种第三方基准测试中,情况也大多直接逆转,排名掉到了末尾。

并且从Meta GenAI负责人Ahmad Al-Dahle的推文当中也能看懂,竞技场中的Llama 4,确实是一个特殊版本。

而在最新的推文中,Ahmad表示Llama 4绝对没有使用测试集进行训练,表现存在差异的原因是还需要稳定的部署。

对于这一解释,有人并不买账,直言这种现象在其他模型当中从未见过。

Meta的支持者则表示,希望表现不佳真的是供应商的问题所致。

大模型竞技场,还能信吗?

被卷入这次旋涡的不仅是Llama 4和背后的Meta,涉及到的大模型竞技场也引起了人们的广泛讨论。

毕竟Llama 4的“造假”风波就是发生在竞技场上,所以也自然有人质疑起了榜单的权威性。

有人指出,竞技场的偏差不只体现在Llama 4被高估上,还有Claude 3.7的表现被低估了。

当然,官方快速回应并公开了测试中的细节,这个做法获得了网友的肯定,说明至少在态度和透明度上是说得过去的。

但也有人认为,无论官方态度端不端正,Llama 4事件说明这种“人类评价AI”的方法,本身已经不适用了。

人们日常生活中的问题,几乎所有领先模型都能完美解答,谁还会去认真投票,这个基准已经过时了。

有人补充说,“人类偏好”不是评价高级大模型能力的可靠标准,产生较大偏差是正常的。

还有人表示,从官方发布的消息来看,lmarena.ai自己都不清楚自己的基准。

这名网友解释,特调版Llama 4获得用户投票的原因并非lmarena.ai所说的“表情符号”,而是因为更具亲和力。

当然也有人提了些建设性的意见,比如更改ELO评分的算法,或者启用强制风格转换。

但总之,无论是迭代改进还是另辟蹊径,都是时候更新对大模型的评价方式了。

参考链接:[1]https://x.com/lmarena_ai/status/1909397817434816562[2]https://x.com/Ahmad_Al_Dahle/status/1909302532306092107[3]https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真要走了?5首轮豪赌!火箭再梭哈,杜兰特+字母哥?

真要走了?5首轮豪赌!火箭再梭哈,杜兰特+字母哥?

篮球盛世
2026-03-25 22:25:51
大伯突然给我发消息,让我赶紧卖掉房子,钱全部给堂弟,我问为啥

大伯突然给我发消息,让我赶紧卖掉房子,钱全部给堂弟,我问为啥

小秋情感说
2026-03-26 09:21:52
好消息!麒麟芯片已不受制裁了,华为手机真正全面归来

好消息!麒麟芯片已不受制裁了,华为手机真正全面归来

互联网.乱侃秀
2026-03-26 10:55:17
西方集体撤退!中国死磕,为什么全世界,就中国在拼命搞核聚变?

西方集体撤退!中国死磕,为什么全世界,就中国在拼命搞核聚变?

混沌录
2026-03-25 16:53:19
21岁云南美女安安去世!生前劝父母再生一个,最后几天靠冰棍吊命

21岁云南美女安安去世!生前劝父母再生一个,最后几天靠冰棍吊命

裕丰娱间说
2026-03-26 13:02:16
2026QS世界大学学科排名,发布!

2026QS世界大学学科排名,发布!

EOL教育在线
2026-03-26 10:21:35
韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

体坛风之子
2026-03-26 07:00:06
张雪峰去世,突然跑步跟张绍刚有关,女儿送他的生日礼物,很戳泪

张雪峰去世,突然跑步跟张绍刚有关,女儿送他的生日礼物,很戳泪

离离言几许
2026-03-26 13:10:54
政坛滔天巨祸,文坛一炮而红

政坛滔天巨祸,文坛一炮而红

我是历史其实挺有趣
2026-03-18 19:49:36
延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

医诺维
2026-03-24 17:02:18
乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

项鹏飞
2026-03-23 20:18:18
猝死三件套:熬夜、咖啡、跑步——人生最后一课

猝死三件套:熬夜、咖啡、跑步——人生最后一课

水滴的声音
2026-03-25 08:36:43
匈牙利外长:即日起逐步停止向乌克兰输送天然气

匈牙利外长:即日起逐步停止向乌克兰输送天然气

财联社
2026-03-26 00:09:09
“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

潇湘晨报
2026-03-26 11:49:57
1元硬币别随便用!这个年份的,一枚曾卖9347元,很多人不知扔了

1元硬币别随便用!这个年份的,一枚曾卖9347元,很多人不知扔了

小陆搞笑日常
2026-03-25 15:12:14
河南一男子享受“皇帝”待遇,养几十个女人,还说有钱就要这样干

河南一男子享受“皇帝”待遇,养几十个女人,还说有钱就要这样干

江山挥笔
2026-03-15 18:13:59
西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

鉴史录
2026-03-25 18:20:08
央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

丁丁鲤史纪
2026-03-25 18:03:42
0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

深析古今
2026-03-25 01:10:47
5 年走完 10 年路!韩国 KF21 量产下线!

5 年走完 10 年路!韩国 KF21 量产下线!

Ck的蜜糖
2026-03-26 10:12:44
2026-03-26 13:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
家居
游戏
公开课
军事航空

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

家居要闻

傍海而居 静观蝴蝶海

IGN认为Xbox机会来了!新主机要转守为攻 重塑自我

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版