网易首页 > 网易号 > 正文 申请入驻

Llama 4被质疑“作弊”!在竞技场刷高分,实战频频“翻车”,Meta AI副总裁紧急辟谣,图灵奖大佬“站台”

0
分享至

每经记者:宋欣悦 每经编辑:兰素英

当地时间4月5日,美国科技巨头Meta宣布推出其新一代开源大模型Llama 4。Llama 4目前有两个混合专家(MoE)架构的版本,分别为Scout和Maverick。更为强大的Llama 4 Behemoth仍在训练中。

Meta官方称,Llama 4在一系列广泛接受的基准测试中均实现了领先同行的水平,尤其是Llama 4 Behemoth,在多个基准测试中的表现要优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等一众行业顶尖封闭模型。

然而,就在模型发布后不久,铺天盖地的质疑声涌来。开发者实测Llama 4后发现,其真实效果并不如宣传中那么惊艳,甚至问题百出。

与此同时,有开发者质疑Meta作弊“刷榜”,根据相关评测基准对模型进行“量身定制”训练。

知名科技媒体TechCrunch也发文,直指Meta新AI模型的性能测试“具有一定误导性”。

Meta深陷舆论漩涡之中。对于外界的质疑,当地时间4月7日,Meta生成式AI副总裁艾哈迈德·阿尔·达赫勒(Ahmad Al-Dahle)在社交平台X上公开回应,明确指出相关说法毫无事实依据。

图片来源:Meta官网


Meta“刷榜”?开发者实测Llama 4:编程等任务表现不佳,“远排不上第一或第二”

据Meta介绍,Llama 4模型家族使用了混合专家(MoE)架构,原生支持多模态,实力超强,堪称“全能选手”。

其中,Llama 4 Scout拥有170亿活跃参数以及16个专家模块,提供长达1000万tokens上下文窗口。在多项基准测试中,Scout的表现优于Gemma 3和Gemini 2.0 Flash-Lite等模型。

Llama 4 Maverick同样拥有170亿活跃参数,专家模块数量提升至128个。在多项主流基准测试中,其成绩超越了GPT-4o和Gemini 2.0 Flash。Meta还特意点名DeepSeek,强调在推理和编码方面,Llama 4 Maverick可以比肩DeepSeek新开源的V3模型,而其活跃参数还不到DeepSeek新版V3的一半

被Meta称为“世界上最聪明的模型之一”的Llama 4 Behemoth则拥有2880亿活跃参数和16个专家模块。在多项主流基准测试中,其性能表优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等行业顶尖模型。

图片来源:Meta官网

而在大模型竞技场上,Llama 4 Maverick表现夺目,总排名位居第二,成为第四个突破1400分的大模型。在开源模型中,Llama 4 Maverick排名第一,超越了DeepSeek

在困难提示词、编程、数学、创意写作等任务的比拼中,Llama 4 Maverick均斩获第一名。相较于自家前代产品Llama 3(405B)获得的1268分,Llama 4 Maverick的得分实现大幅跃升,达到了1417分。

图片来源:大模型竞技场

这本应是开源社区的又一狂欢。但开发者们实测发现,Llama 4的效果并不像官方宣称的那样惊艳,甚至可以说是问题百出

Menlo Ventures风险投资人迪迪·达斯(Deedy Das)直言,“Llama 4实际上是一个糟糕的编程模型。”

达斯指出,在专注于编程任务(如代码生成和代码补全)的KCORES基准测试中,Llama 4 Scout和Llama 4 Maverick表现欠佳,落后于GPT-4o、Grok 3、DeepSeek-V3等模型。

图片来源:KCORES LLM Arena

这与此前Llama 4在大模型竞技场的表现形成鲜明反差。

有网友直接曝出,Llama 4在大模型竞技场上存在过拟合现象,有极大的作弊“刷榜”嫌疑

在一些实测中,Llama 4在上下文任务的实际表现远低于预期。Llama 4 Maverick在aider多语言编码基准测试中的实测得分仅为16%。

Abacus.AI首席执行官宾杜・雷迪(Bindu Reddy)评论道:“人类的评估已经毫无意义了……根据现实世界的表现,Llama 4 Maverick应该远远排不上第一或第二。”

大模型竞技场官方也下场“补刀”,指出Meta在大模型竞技场使用的并非HuggingFace上供开发者使用的Llama 4版本,而是“针对人类偏好进行优化的定制模型Llama-4-Maverick-03-26-Experimental”。

大模型竞技场官方要求Meta对此事作出澄清,并强调其排行榜结果准确可靠,后续将对Llama 4重新进行评测。

图片来源:X

知名科技媒体TechCrunch也发文,标题直言Meta新AI模型的性能测试“具有一定误导性”

文章指出,针对基准测试优化特定版本去打榜,却给开发者提供“基础版”的做法,让开发者难以依据榜单排名准确预估模型在实际应用场景中的真实表现。

《每日经济新闻》记者发现,在Llama官网提供的性能对比测试图的最下面,写着其在大模型竞技场上使用的是专门针对对话场景优化的Llama 4 Maverick版本。不过,这一信息的字体极小,很难被注意到

图片来源:X


Llama 4训练作弊?Meta紧急辟谣,大佬杨立昆也“站台”

就在Llama 4被集体质疑之时,内部员工的一则爆料帖子,让Meta陷入了更深的舆论漩涡之中。

4月7日,在海外留学求职交流论坛“一亩三分地”上,一位自称参与了Llama 4训练的内部员工爆料称,Llama 4模型训练测试集作弊,并表示自己已因此辞职。

图片来源:一亩三分地

该员工透露,尽管团队反复努力训练,Llama 4的内部模型性能始终无法达到开源SOTA(State-of-the-Art,顶尖水平)基准,且差距明显。为达成目标,公司领导层提出在训练后期将各种基准测试的测试集数据混入训练或微调数据中,以此在各项指标上达成目标,交出一份“好看”的成绩单。

这位内部员工表示,自己无法接受公司这种做法,甚至辞职信中明确要求不要在Llama 4技术报告中挂名。

就在Llama 4发布前几天,Meta AI研究主管乔尔·皮诺(Joelle Pineau)在工作8年之后突然宣布离职。

不过,由于发帖人并未实名,该帖子的真实性暂无法核实。在帖子下方评论区,已有数名Meta员工实名进行辟谣。

Meta研究科学家主管Licheng Yu称,团队绝不存在针对测试集过拟合训练的情况。

图片来源:一亩三分地

另一位Meta高级AI研究科学家Di Jin也反驳道:“我参与了微调和强化学习的数据混合工作,并没有这种(将基准测试的测试集数据混入训练或微调数据)情况。”

并且,Di Jin还指出,近期离职的AI研究主管乔尔・皮诺,实则并非Meta GenAI团队成员,没有参与GenAI的任何模型训练工作。

图片来源:一亩三分地

根据Meta的组织架构体系,乔尔・皮诺是FAIR的副总裁,而FAIR实际上是Meta内部与GenAI完全独立的组织,GenAI才是负责Llama项目的组织。

针对外界对Llama 4模型的诸多质疑,当地时间4月7日,Meta生成式AI副总裁艾哈迈德·阿尔·达赫勒(Ahmad Al-Dahle)在社交平台X上公开回应,明确指出相关说法毫无事实依据。

同时,达赫勒指出,部分用户通过不同云服务商使用Llama 4模型时,遭遇了质量不稳定问题。他对此解释道:“由于我们在模型准备好后就迅速发布,因此预计需要几天的时间来调整所有公开版本。后续,Meta将持续进行错误修复工作,并与合作伙伴保持沟通。”

图片来源:X

此外,Meta首席AI科学家、图灵奖得主Yann LeCun也转发了该帖子,为Llama 4声援“站台”。

图片来源:X

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本人气球星高桥蓝因与女优河北彩伽爆绯闻,远走波超卢布林

日本人气球星高桥蓝因与女优河北彩伽爆绯闻,远走波超卢布林

排球大视界
2026-01-17 20:22:57
解放军原副总参谋长、原成都军区司令员隗福临上将逝世

解放军原副总参谋长、原成都军区司令员隗福临上将逝世

澎湃新闻
2026-01-17 15:12:26
面对亚洲球队23场仅输2场!安东尼奥:我们能抗衡任何对手

面对亚洲球队23场仅输2场!安东尼奥:我们能抗衡任何对手

篮球看比赛
2026-01-17 11:38:21
张本智和出局!挽救8个赛点仍被淘汰,国乒直拍名将3连胜日本劲敌

张本智和出局!挽救8个赛点仍被淘汰,国乒直拍名将3连胜日本劲敌

全言作品
2026-01-17 18:40:30
川普可能在航母没到前动伊朗,但更可能抓稳南美、开搞格陵兰再动

川普可能在航母没到前动伊朗,但更可能抓稳南美、开搞格陵兰再动

邵旭峰域
2026-01-16 15:11:13
尴尬到抠脚!加外长在北京被反复追问:当年骂中国的话还算数吗?

尴尬到抠脚!加外长在北京被反复追问:当年骂中国的话还算数吗?

我心纵横天地间
2026-01-17 19:10:31
贾国龙发怒后西贝员工仍被网友调侃:微波炉加热师是挺难找工作

贾国龙发怒后西贝员工仍被网友调侃:微波炉加热师是挺难找工作

映射生活的身影
2026-01-17 23:09:13
世界名画:U23国足18人激情相拥+仰天长叹 乌兹门将跪地埋头痛哭

世界名画:U23国足18人激情相拥+仰天长叹 乌兹门将跪地埋头痛哭

风过乡
2026-01-17 23:03:02
2600亿!四川超大规模拆迁启动,这134个片区价值要涨!

2600亿!四川超大规模拆迁启动,这134个片区价值要涨!

科学发掘
2026-01-17 15:57:17
广东今日早报!陈老板深夜约谈杜锋,萨林杰或被裁,小崔提前复出

广东今日早报!陈老板深夜约谈杜锋,萨林杰或被裁,小崔提前复出

多特体育说
2026-01-17 07:40:03
突发!又一家公司财务造假被ST,9万股东踩雷,这个周末过不好了

突发!又一家公司财务造假被ST,9万股东踩雷,这个周末过不好了

财经智多星
2026-01-17 12:08:59
中加签2000亿大单,加拿大取消对华关税,特朗普表态

中加签2000亿大单,加拿大取消对华关税,特朗普表态

寄星夜幕星河
2026-01-17 19:26:28
马杜罗之子最新发声:委应和美国建交并设立大使馆

马杜罗之子最新发声:委应和美国建交并设立大使馆

大风新闻
2026-01-17 11:10:04
多哈赛男单四强全出,周启豪迎战世界冠军,温瑞博挑战雨果有压力

多哈赛男单四强全出,周启豪迎战世界冠军,温瑞博挑战雨果有压力

郝小小看体育
2026-01-18 01:07:40
大量14T低价硬盘涌入闲鱼!1T折合44元,到底有啥猫腻?

大量14T低价硬盘涌入闲鱼!1T折合44元,到底有啥猫腻?

闲搞机
2026-01-16 11:14:40
杨瀚森谈与亚当斯对位:我哥实在太有劲,一只手推我就动不了了

杨瀚森谈与亚当斯对位:我哥实在太有劲,一只手推我就动不了了

懂球帝
2026-01-17 15:09:34
情感纠纷长达20余年?编剧汪海林爆黄慧颐曾在剧组捅伤保剑锋

情感纠纷长达20余年?编剧汪海林爆黄慧颐曾在剧组捅伤保剑锋

扬子晚报
2026-01-17 21:22:43
票房86.8亿亏损4亿,詹姆斯卡梅隆跌落神坛,《阿凡达4》不会再有

票房86.8亿亏损4亿,詹姆斯卡梅隆跌落神坛,《阿凡达4》不会再有

影视高原说
2026-01-17 08:57:31
多地“刨猪宴”临时取消!年味狂欢要热情更要理性

多地“刨猪宴”临时取消!年味狂欢要热情更要理性

极目新闻
2026-01-17 11:17:02
对手都被打服了!乌兹别克斯坦主帅盛赞李昊:他拥有光明的未来!

对手都被打服了!乌兹别克斯坦主帅盛赞李昊:他拥有光明的未来!

绿茵舞着
2026-01-18 00:18:10
2026-01-18 01:44:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1460140文章数 2721856关注度
往期回顾 全部

科技要闻

两枚火箭发射失利,具体原因正排查

头条要闻

U23国足门将扑点前和对手交流 镜头捕捉其致胜秘诀

头条要闻

U23国足门将扑点前和对手交流 镜头捕捉其致胜秘诀

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

艺术
教育
房产
数码
健康

艺术要闻

你绝对想不到!央美华宜玉的水彩画竟然如此震撼!

教育要闻

高中没入团,今年不能报这5所大学!

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

数码要闻

ATK RS7 Air磁轴键盘开启预约,435元起配置亮眼

血常规3项异常,是身体警报!

无障碍浏览 进入关怀版