网易首页 > 网易号 > 正文 申请入驻

Llama 4被质疑“作弊”!在竞技场刷高分,实战频频“翻车”,Meta AI副总裁紧急辟谣,图灵奖大佬“站台”

0
分享至

每经记者:宋欣悦 每经编辑:兰素英

当地时间4月5日,美国科技巨头Meta宣布推出其新一代开源大模型Llama 4。Llama 4目前有两个混合专家(MoE)架构的版本,分别为Scout和Maverick。更为强大的Llama 4 Behemoth仍在训练中。

Meta官方称,Llama 4在一系列广泛接受的基准测试中均实现了领先同行的水平,尤其是Llama 4 Behemoth,在多个基准测试中的表现要优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等一众行业顶尖封闭模型。

然而,就在模型发布后不久,铺天盖地的质疑声涌来。开发者实测Llama 4后发现,其真实效果并不如宣传中那么惊艳,甚至问题百出。

与此同时,有开发者质疑Meta作弊“刷榜”,根据相关评测基准对模型进行“量身定制”训练。

知名科技媒体TechCrunch也发文,直指Meta新AI模型的性能测试“具有一定误导性”。

Meta深陷舆论漩涡之中。对于外界的质疑,当地时间4月7日,Meta生成式AI副总裁艾哈迈德·阿尔·达赫勒(Ahmad Al-Dahle)在社交平台X上公开回应,明确指出相关说法毫无事实依据。

图片来源:Meta官网


Meta“刷榜”?开发者实测Llama 4:编程等任务表现不佳,“远排不上第一或第二”

据Meta介绍,Llama 4模型家族使用了混合专家(MoE)架构,原生支持多模态,实力超强,堪称“全能选手”。

其中,Llama 4 Scout拥有170亿活跃参数以及16个专家模块,提供长达1000万tokens上下文窗口。在多项基准测试中,Scout的表现优于Gemma 3和Gemini 2.0 Flash-Lite等模型。

Llama 4 Maverick同样拥有170亿活跃参数,专家模块数量提升至128个。在多项主流基准测试中,其成绩超越了GPT-4o和Gemini 2.0 Flash。Meta还特意点名DeepSeek,强调在推理和编码方面,Llama 4 Maverick可以比肩DeepSeek新开源的V3模型,而其活跃参数还不到DeepSeek新版V3的一半

被Meta称为“世界上最聪明的模型之一”的Llama 4 Behemoth则拥有2880亿活跃参数和16个专家模块。在多项主流基准测试中,其性能表优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等行业顶尖模型。

图片来源:Meta官网

而在大模型竞技场上,Llama 4 Maverick表现夺目,总排名位居第二,成为第四个突破1400分的大模型。在开源模型中,Llama 4 Maverick排名第一,超越了DeepSeek

在困难提示词、编程、数学、创意写作等任务的比拼中,Llama 4 Maverick均斩获第一名。相较于自家前代产品Llama 3(405B)获得的1268分,Llama 4 Maverick的得分实现大幅跃升,达到了1417分。

图片来源:大模型竞技场

这本应是开源社区的又一狂欢。但开发者们实测发现,Llama 4的效果并不像官方宣称的那样惊艳,甚至可以说是问题百出

Menlo Ventures风险投资人迪迪·达斯(Deedy Das)直言,“Llama 4实际上是一个糟糕的编程模型。”

达斯指出,在专注于编程任务(如代码生成和代码补全)的KCORES基准测试中,Llama 4 Scout和Llama 4 Maverick表现欠佳,落后于GPT-4o、Grok 3、DeepSeek-V3等模型。

图片来源:KCORES LLM Arena

这与此前Llama 4在大模型竞技场的表现形成鲜明反差。

有网友直接曝出,Llama 4在大模型竞技场上存在过拟合现象,有极大的作弊“刷榜”嫌疑

在一些实测中,Llama 4在上下文任务的实际表现远低于预期。Llama 4 Maverick在aider多语言编码基准测试中的实测得分仅为16%。

Abacus.AI首席执行官宾杜・雷迪(Bindu Reddy)评论道:“人类的评估已经毫无意义了……根据现实世界的表现,Llama 4 Maverick应该远远排不上第一或第二。”

大模型竞技场官方也下场“补刀”,指出Meta在大模型竞技场使用的并非HuggingFace上供开发者使用的Llama 4版本,而是“针对人类偏好进行优化的定制模型Llama-4-Maverick-03-26-Experimental”。

大模型竞技场官方要求Meta对此事作出澄清,并强调其排行榜结果准确可靠,后续将对Llama 4重新进行评测。

图片来源:X

知名科技媒体TechCrunch也发文,标题直言Meta新AI模型的性能测试“具有一定误导性”

文章指出,针对基准测试优化特定版本去打榜,却给开发者提供“基础版”的做法,让开发者难以依据榜单排名准确预估模型在实际应用场景中的真实表现。

《每日经济新闻》记者发现,在Llama官网提供的性能对比测试图的最下面,写着其在大模型竞技场上使用的是专门针对对话场景优化的Llama 4 Maverick版本。不过,这一信息的字体极小,很难被注意到

图片来源:X


Llama 4训练作弊?Meta紧急辟谣,大佬杨立昆也“站台”

就在Llama 4被集体质疑之时,内部员工的一则爆料帖子,让Meta陷入了更深的舆论漩涡之中。

4月7日,在海外留学求职交流论坛“一亩三分地”上,一位自称参与了Llama 4训练的内部员工爆料称,Llama 4模型训练测试集作弊,并表示自己已因此辞职。

图片来源:一亩三分地

该员工透露,尽管团队反复努力训练,Llama 4的内部模型性能始终无法达到开源SOTA(State-of-the-Art,顶尖水平)基准,且差距明显。为达成目标,公司领导层提出在训练后期将各种基准测试的测试集数据混入训练或微调数据中,以此在各项指标上达成目标,交出一份“好看”的成绩单。

这位内部员工表示,自己无法接受公司这种做法,甚至辞职信中明确要求不要在Llama 4技术报告中挂名。

就在Llama 4发布前几天,Meta AI研究主管乔尔·皮诺(Joelle Pineau)在工作8年之后突然宣布离职。

不过,由于发帖人并未实名,该帖子的真实性暂无法核实。在帖子下方评论区,已有数名Meta员工实名进行辟谣。

Meta研究科学家主管Licheng Yu称,团队绝不存在针对测试集过拟合训练的情况。

图片来源:一亩三分地

另一位Meta高级AI研究科学家Di Jin也反驳道:“我参与了微调和强化学习的数据混合工作,并没有这种(将基准测试的测试集数据混入训练或微调数据)情况。”

并且,Di Jin还指出,近期离职的AI研究主管乔尔・皮诺,实则并非Meta GenAI团队成员,没有参与GenAI的任何模型训练工作。

图片来源:一亩三分地

根据Meta的组织架构体系,乔尔・皮诺是FAIR的副总裁,而FAIR实际上是Meta内部与GenAI完全独立的组织,GenAI才是负责Llama项目的组织。

针对外界对Llama 4模型的诸多质疑,当地时间4月7日,Meta生成式AI副总裁艾哈迈德·阿尔·达赫勒(Ahmad Al-Dahle)在社交平台X上公开回应,明确指出相关说法毫无事实依据。

同时,达赫勒指出,部分用户通过不同云服务商使用Llama 4模型时,遭遇了质量不稳定问题。他对此解释道:“由于我们在模型准备好后就迅速发布,因此预计需要几天的时间来调整所有公开版本。后续,Meta将持续进行错误修复工作,并与合作伙伴保持沟通。”

图片来源:X

此外,Meta首席AI科学家、图灵奖得主Yann LeCun也转发了该帖子,为Llama 4声援“站台”。

图片来源:X

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日元击穿四十年底线,今年数万亿日元干预成果尽数回吐,东京深陷政策死结

日元击穿四十年底线,今年数万亿日元干预成果尽数回吐,东京深陷政策死结

华尔街见闻官方
2026-06-30 01:06:02
2026年三伏天要来了!2个坏消息,1个好消息,3个要注意,别大意

2026年三伏天要来了!2个坏消息,1个好消息,3个要注意,别大意

阿龙美食记
2026-06-28 16:52:24
魏敏芝现状:在美国当导演,全家定居夏威夷,如今40岁胖到不敢认

魏敏芝现状:在美国当导演,全家定居夏威夷,如今40岁胖到不敢认

白面书誏
2026-06-29 21:16:24
12岁男生放学回家后坠亡,此前曾因涉早恋问题被老师公开批评,家长起诉学校索赔92万

12岁男生放学回家后坠亡,此前曾因涉早恋问题被老师公开批评,家长起诉学校索赔92万

大风新闻
2026-06-29 21:07:07
巴西补时“绝杀”,日本出局,森保一:是我水平不足

巴西补时“绝杀”,日本出局,森保一:是我水平不足

扬子晚报
2026-06-30 07:27:59
40岁超模晒透视装露点照遭围攻,她怒怼:胸部切过3次还给俩娃喂过奶,这算什么性感

40岁超模晒透视装露点照遭围攻,她怒怼:胸部切过3次还给俩娃喂过奶,这算什么性感

赴一场山海啊
2026-06-30 00:55:22
上半场封神 下半场崩盘!安帅1招击溃日本铁桶阵,巴西赢在教练!

上半场封神 下半场崩盘!安帅1招击溃日本铁桶阵,巴西赢在教练!

看透足球专栏
2026-06-30 03:57:30
震惊!经济学家宋清辉在美国发文,称自己“怕得要死,夜不能寐”

震惊!经济学家宋清辉在美国发文,称自己“怕得要死,夜不能寐”

火山詩话
2026-06-29 12:29:07
全网封禁!网红博主李雨婵被行拘,曾5年持续围猎头部网红相宜

全网封禁!网红博主李雨婵被行拘,曾5年持续围猎头部网红相宜

火山詩话
2026-06-30 05:15:31
男子在家“一丝不挂”,被女邻居拍照发到业主群“公开处刑”,男子报警并怒斥:你犯法了知道吗!

男子在家“一丝不挂”,被女邻居拍照发到业主群“公开处刑”,男子报警并怒斥:你犯法了知道吗!

天涯社区
2026-06-29 17:50:51
官方否认宜宾地震与页岩气开采有关,称会进行监测!专家分析

官方否认宜宾地震与页岩气开采有关,称会进行监测!专家分析

南方都市报
2026-06-29 21:13:05
这个案子再次暴露了河北的落后

这个案子再次暴露了河北的落后

吴女士
2026-06-29 14:24:22
韩红朋友圈曝光:诚恳道歉,将退出公益行业……

韩红朋友圈曝光:诚恳道歉,将退出公益行业……

麦杰逊
2026-06-29 17:03:35
德国队4-5出局让主帅现形!6次换人没1个有用,诺伊尔也救不了他

德国队4-5出局让主帅现形!6次换人没1个有用,诺伊尔也救不了他

体育知多少
2026-06-30 08:32:16
赛后遭巴西球员挑衅,盐贝健人:既然造成误解,我也无话可说

赛后遭巴西球员挑衅,盐贝健人:既然造成误解,我也无话可说

懂球帝
2026-06-30 06:11:08
日本出局不可怕,可怕的是赛后森保一的宣言!黄健翔直接点破事实

日本出局不可怕,可怕的是赛后森保一的宣言!黄健翔直接点破事实

十点街球体育
2026-06-30 07:08:13
当地华人讲述法国高温:中国空调一机难求,有人为抢购空调打起来,安装已排到9月

当地华人讲述法国高温:中国空调一机难求,有人为抢购空调打起来,安装已排到9月

潇湘晨报
2026-06-29 21:36:19
谎话连篇、假慈善贪污上亿、高调炫富,韩红身上标签哪些才是真的

谎话连篇、假慈善贪污上亿、高调炫富,韩红身上标签哪些才是真的

不似少年游
2026-06-29 16:44:05
勇士奇才谈判巴特勒换浓眉!开启组建四巨头:老詹最多2300万年薪

勇士奇才谈判巴特勒换浓眉!开启组建四巨头:老詹最多2300万年薪

罗说NBA
2026-06-30 07:04:20
遭绝杀出局!日本众将崩溃倒地+掩面痛哭,连续3届先破门却被逆转

遭绝杀出局!日本众将崩溃倒地+掩面痛哭,连续3届先破门却被逆转

我爱英超
2026-06-30 03:48:04
2026-06-30 09:16:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1601737文章数 2726828关注度
往期回顾 全部

科技要闻

DeepSeek V4正式版要来 高峰期API价格翻倍

头条要闻

牛弹琴:韩国对男足耻辱出局激烈反应 全世界震惊不已

头条要闻

牛弹琴:韩国对男足耻辱出局激烈反应 全世界震惊不已

体育要闻

日本众将掩面痛哭 连续3届先破门却被逆转

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

中欧贸易投资磋商机制联合声明

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

艺术
房产
家居
手机
军事航空

艺术要闻

16幅 冉茂芹小幅风景油画写生

房产要闻

你敢想?海口房地产投资,暴跌5成!

家居要闻

传奇筑 日常诗

手机要闻

苹果印度供应商塔塔电子被黑,iPhone 18 Pro机密文件现身暗网

军事要闻

普京最新发声:俄罗斯正处于命运攸关之际

无障碍浏览 进入关怀版