网易首页 > 网易号 > 正文 申请入驻

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

0
分享至

  • 克雷西 西风 发自 凹非寺
  • 量子位 | 公众号 QbitAI

Llama 4真要被锤爆了,这次是大模型竞技场(Chatbot Arena)官方亲自下场开怼:

竞技场上,Meta提供给他们的是特供版!

以下是竞技场背后lmarena.ai团队的原话:

我们注意到社区对Llama-4最新版本在Arena平台的发布存在疑问。为确保完全透明,现公开2000余组模型对战数据供公众审阅,包含用户提示词、模型回复及用户偏好数据(链接详见下一条推文)。

初步分析表明,模型回复风格与语气是重要影响因素(详见风格控制排名),我们正在进行更深入的分析!(比如表情符号控制?)

此外,我们即将在Arena平台上线Llama-4-Maverick的HuggingFace版本,排行榜结果将稍后公布。

Meta对我们平台政策的理解与我们对模型提供商的期待存在偏差——Meta本应明确标注"Llama-4-Maverick-03-26-Experimental"是经过人类偏好优化的定制模型。

为此,我们正在更新排行榜政策,以强化对公平性、可复现性评估的承诺,避免未来再出现此类混淆。

总结一下就是:

公开对战数据,正分析排名受影响因素

谴责Meta未明确标注模型版本导致评测混淆

后续:上线Llama-4-Maverick的HuggingFace版、更新排行榜政策

官方下场表态后,Llama 4和Meta的路人缘进一步下降。

2000+轮对战记录完整公开

来看看lmarena.ai公开的模型对战记录详情。

首先来看网友实测时对Llama 4抱怨较大的代码生成任务。

竞技场中Llama-4-Maverick-03-26-Experimental版本生成代码的表现的确是OK的。

prompt:

create me fun web based game that i can just run the code and works(帮我创建一个有趣的网页游戏,我只需运行代码就能玩)

Llama-4-Maverick-03-26-Experimental对战加拿大AI初创公司Cohere的command-a-03-2025。

上文lmarena.ai调查表示“模型回复风格与语气是重要影响因素”,从对战数据中的确可以看出Llama-4-Maverick-03-26-Experimental的回复中会增加如"A very nice and very direct request!" "That’s it! ""Happy gaming!"等展示友好的语句以及表情包。

运行两个模型生成的代码。

command-a-03-2025生成的小游戏是移动鼠标控制绿色篮子接住橙色小球,看效果显然有bug,小球直接穿过篮子,分数也没有变动:

Llama-4-Maverick-03-26-Experimental生成的小游戏玩法是移动鼠标控制红色方块,点击四处移动的蓝色圆点+10分,点击黑色炸弹-10分,每局游戏30秒。

可以正常运行,计分也比较准确:

这局command-a-03-2025输的不冤。

另外,之所以展示Llama-4-Maverick-03-26-Experimental和command-a-03-2025的对比,是因为有网友发现Llama 4声称的关键创新“interleaved no-RoPE attention”和command-a的如出一辙:

再看一个起标题的任务,prompt:

I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我将在一个学术会议上作关于“痣”的演讲——痣是黑素细胞良性病变,可作为黑色素瘤的标志物,有时甚至是其前驱病变。您能否为我的演讲推荐一个简洁有力的标题?)

Llama-4-Maverick-03-26-Experimental对战的是claude-3-5-sonnet-20241022。

对比来看,claude-3-5-sonnet-20241022的回复言简意赅,直接给出5个标题:

Llama-4-Maverick-03-26-Experimental的回复更为详细。

不仅会提供情绪价值,如A very timely and relevant topic! Congrats on getting the slot at congress, by the way!(选题非常应景且切合实际!恭喜拿下大会报告机会),而且从不同角度分别提供了几个标题:

这还没完,Llama-4-Maverick-03-26-Experimental还会贴心地指出选择标题时需要考虑的因素以及它自己选择的top 3标题。

最后再来随机看一道中文题目:

prompt:

解析一下这部微小说 题目 自驾游 当年我自驾游 不小心压死了一头羊 羊的主人好热情 宰了羊给我们吃 还送我们到火车站 在回来的路上 看着火车外的风景 真的好感人

对战o3-mini,Llama-4-Maverick-03-26-Experimental再次展现出超长输出的特点,故事分析完了还拆解了作者为啥要这样设计,作者本人可能都没想这么多(doge):

对战数据看下来,Llama-4-Maverick-03-26-Experimental的排名会这么高,也不奇怪。

此前网友质疑Llama-4-Maverick-03-26-Experimental刷票的可能性降低。

Llama 4深陷“造假”丑闻

如开头所述,Llama 4被lmarena.ai站出来抨击的原因,是因为测试排名和实际表现不符。

在大模型竞技场中,Llama 4得分1417,不仅大大超越了此前Meta自家的Llama-3-405B(提升了149分),还成为史上第4个突破1400分的模型。

而且跑分超越了DeepSeek-V3,直接成为榜单上排名第一的开源模型。

但没过多久,人们就发现Llama 4的实际表现相当拉胯,一时间差评如潮,甚至还被做成了表情包。

比如经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉了下去。

其它跑分方面,到了各种第三方基准测试中,情况也大多直接逆转,排名掉到了末尾。

并且从Meta GenAI负责人Ahmad Al-Dahle的推文当中也能看懂,竞技场中的Llama 4,确实是一个特殊版本。

而在最新的推文中,Ahmad表示Llama 4绝对没有使用测试集进行训练,表现存在差异的原因是还需要稳定的部署。

对于这一解释,有人并不买账,直言这种现象在其他模型当中从未见过。

Meta的支持者则表示,希望表现不佳真的是供应商的问题所致。

大模型竞技场,还能信吗?

被卷入这次旋涡的不仅是Llama 4和背后的Meta,涉及到的大模型竞技场也引起了人们的广泛讨论。

毕竟Llama 4的“造假”风波就是发生在竞技场上,所以也自然有人质疑起了榜单的权威性。

有人指出,竞技场的偏差不只体现在Llama 4被高估上,还有Claude 3.7的表现被低估了。

当然,官方快速回应并公开了测试中的细节,这个做法获得了网友的肯定,说明至少在态度和透明度上是说得过去的。

但也有人认为,无论官方态度端不端正,Llama 4事件说明这种“人类评价AI”的方法,本身已经不适用了。

人们日常生活中的问题,几乎所有领先模型都能完美解答,谁还会去认真投票,这个基准已经过时了。

有人补充说,“人类偏好”不是评价高级大模型能力的可靠标准,产生较大偏差是正常的。

还有人表示,从官方发布的消息来看,lmarena.ai自己都不清楚自己的基准。

这名网友解释,特调版Llama 4获得用户投票的原因并非lmarena.ai所说的“表情符号”,而是因为更具亲和力。

当然也有人提了些建设性的意见,比如更改ELO评分的算法,或者启用强制风格转换。

但总之,无论是迭代改进还是另辟蹊径,都是时候更新对大模型的评价方式了。

参考链接:[1]https://x.com/lmarena_ai/status/1909397817434816562[2]https://x.com/Ahmad_Al_Dahle/status/1909302532306092107[3]https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宝马新X5设计大变!实用的分体尾门没了

宝马新X5设计大变!实用的分体尾门没了

赛场速报局
2026-06-03 00:55:34
星铉:德云社“四大金刚”一撸到底!直呼本名,17年师徒情分归零

星铉:德云社“四大金刚”一撸到底!直呼本名,17年师徒情分归零

星铉
2026-06-01 13:22:50
以色列癫狂搅局致中东局势失控

以色列癫狂搅局致中东局势失控

风铃草语
2026-06-02 06:56:48
19岁少女陷柬埔寨:父亲交11万未果,绑匪叫嚣要对其“轮流侵犯”

19岁少女陷柬埔寨:父亲交11万未果,绑匪叫嚣要对其“轮流侵犯”

烈史
2026-04-01 07:22:27
5种杂粮被列脑梗黑名单,再爱吃也要控制,很多人天天吃却不知道

5种杂粮被列脑梗黑名单,再爱吃也要控制,很多人天天吃却不知道

岐黄传人孙大夫
2026-04-05 17:30:03
广西:出台县域普通高中振兴行动计划

广西:出台县域普通高中振兴行动计划

中国教育新闻网
2026-06-02 19:51:11
铭记这一刻,巴黎球迷将加布里埃尔踢飞点球的瞬间纹在小腿上

铭记这一刻,巴黎球迷将加布里埃尔踢飞点球的瞬间纹在小腿上

懂球帝
2026-06-02 11:14:56
从广东神射到煤矿球队!离队后找到“新工作”,身披84号战袍亮相山西

从广东神射到煤矿球队!离队后找到“新工作”,身披84号战袍亮相山西

行舟问茶
2026-06-02 12:08:06
CCTV5直播!中国男篮对阵欧洲劲旅,徐昕首发,郭士强剑指开门红

CCTV5直播!中国男篮对阵欧洲劲旅,徐昕首发,郭士强剑指开门红

中国篮坛快讯
2026-06-02 13:49:23
他是赢球功臣!7中5+打中三分,楼明为他鼓掌,球迷:早该用他了

他是赢球功臣!7中5+打中三分,楼明为他鼓掌,球迷:早该用他了

南海浪花
2026-06-02 22:26:52
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

另子维爱读史
2026-06-02 20:53:03
尽量不要让这3个人进你的家门,这不是瞎讲究,是智慧

尽量不要让这3个人进你的家门,这不是瞎讲究,是智慧

三农老历
2026-05-30 19:57:03
Arm没比x86便宜:RTX Spark笔记本价格曝光!顶配约3.2万元

Arm没比x86便宜:RTX Spark笔记本价格曝光!顶配约3.2万元

快科技
2026-06-02 18:47:07
黄仁勋从口袋掏出RTX Spark,PC行业的“iPhone时刻”来了

黄仁勋从口袋掏出RTX Spark,PC行业的“iPhone时刻”来了

新京报
2026-06-02 12:16:41
BOSS直聘公告:有人发“学生兼职”实为诱导大学生违规代抢茅台,已处置超6000个违规账号

BOSS直聘公告:有人发“学生兼职”实为诱导大学生违规代抢茅台,已处置超6000个违规账号

每日经济新闻
2026-06-02 23:11:04
夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

夫妻性生活别急着进入!学会这招“延迟满足”,爽感增倍

精彩分享快乐
2026-05-13 12:05:07
日本人百思不得其解:打遍中国各大城市,为何始终就是打不散中国

日本人百思不得其解:打遍中国各大城市,为何始终就是打不散中国

磊子讲史
2026-05-25 18:57:52
蒙古国的“阳谋”:全面恢复蒙文和内蒙接轨!对中国意味着什么?

蒙古国的“阳谋”:全面恢复蒙文和内蒙接轨!对中国意味着什么?

小豫讲故事
2026-05-27 06:00:08
16岁成为体操女神,20岁“献身”七旬老人,何天儿如今过得怎样

16岁成为体操女神,20岁“献身”七旬老人,何天儿如今过得怎样

妙知
2026-06-03 01:20:49
华为尚界续航测试遭嘲讽:号称千里续航,600公里不到就下高速

华为尚界续航测试遭嘲讽:号称千里续航,600公里不到就下高速

可达鸭面面观
2026-06-02 10:44:11
2026-06-03 04:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12731文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

游戏
本地
数码
公开课
军事航空

离发售不远了!《寂静岭》系列新作已公开游戏评级

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

苹果watchOS 27前瞻:改进心率追踪、引入新表盘、升级Siri

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版