网易首页 > 网易号 > 正文 申请入驻

Llama 4被质疑“作弊”!在竞技场刷高分,实战频频“翻车”,Meta AI副总裁紧急辟谣,图灵奖大佬“站台”

0
分享至

每经记者:宋欣悦 每经编辑:兰素英

当地时间4月5日,美国科技巨头Meta宣布推出其新一代开源大模型Llama 4。Llama 4目前有两个混合专家(MoE)架构的版本,分别为Scout和Maverick。更为强大的Llama 4 Behemoth仍在训练中。

Meta官方称,Llama 4在一系列广泛接受的基准测试中均实现了领先同行的水平,尤其是Llama 4 Behemoth,在多个基准测试中的表现要优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等一众行业顶尖封闭模型。

然而,就在模型发布后不久,铺天盖地的质疑声涌来。开发者实测Llama 4后发现,其真实效果并不如宣传中那么惊艳,甚至问题百出。

与此同时,有开发者质疑Meta作弊“刷榜”,根据相关评测基准对模型进行“量身定制”训练。

知名科技媒体TechCrunch也发文,直指Meta新AI模型的性能测试“具有一定误导性”。

Meta深陷舆论漩涡之中。对于外界的质疑,当地时间4月7日,Meta生成式AI副总裁艾哈迈德·阿尔·达赫勒(Ahmad Al-Dahle)在社交平台X上公开回应,明确指出相关说法毫无事实依据。

图片来源:Meta官网


Meta“刷榜”?开发者实测Llama 4:编程等任务表现不佳,“远排不上第一或第二”

据Meta介绍,Llama 4模型家族使用了混合专家(MoE)架构,原生支持多模态,实力超强,堪称“全能选手”。

其中,Llama 4 Scout拥有170亿活跃参数以及16个专家模块,提供长达1000万tokens上下文窗口。在多项基准测试中,Scout的表现优于Gemma 3和Gemini 2.0 Flash-Lite等模型。

Llama 4 Maverick同样拥有170亿活跃参数,专家模块数量提升至128个。在多项主流基准测试中,其成绩超越了GPT-4o和Gemini 2.0 Flash。Meta还特意点名DeepSeek,强调在推理和编码方面,Llama 4 Maverick可以比肩DeepSeek新开源的V3模型,而其活跃参数还不到DeepSeek新版V3的一半

被Meta称为“世界上最聪明的模型之一”的Llama 4 Behemoth则拥有2880亿活跃参数和16个专家模块。在多项主流基准测试中,其性能表优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等行业顶尖模型。

图片来源:Meta官网

而在大模型竞技场上,Llama 4 Maverick表现夺目,总排名位居第二,成为第四个突破1400分的大模型。在开源模型中,Llama 4 Maverick排名第一,超越了DeepSeek

在困难提示词、编程、数学、创意写作等任务的比拼中,Llama 4 Maverick均斩获第一名。相较于自家前代产品Llama 3(405B)获得的1268分,Llama 4 Maverick的得分实现大幅跃升,达到了1417分。

图片来源:大模型竞技场

这本应是开源社区的又一狂欢。但开发者们实测发现,Llama 4的效果并不像官方宣称的那样惊艳,甚至可以说是问题百出

Menlo Ventures风险投资人迪迪·达斯(Deedy Das)直言,“Llama 4实际上是一个糟糕的编程模型。”

达斯指出,在专注于编程任务(如代码生成和代码补全)的KCORES基准测试中,Llama 4 Scout和Llama 4 Maverick表现欠佳,落后于GPT-4o、Grok 3、DeepSeek-V3等模型。

图片来源:KCORES LLM Arena

这与此前Llama 4在大模型竞技场的表现形成鲜明反差。

有网友直接曝出,Llama 4在大模型竞技场上存在过拟合现象,有极大的作弊“刷榜”嫌疑

在一些实测中,Llama 4在上下文任务的实际表现远低于预期。Llama 4 Maverick在aider多语言编码基准测试中的实测得分仅为16%。

Abacus.AI首席执行官宾杜・雷迪(Bindu Reddy)评论道:“人类的评估已经毫无意义了……根据现实世界的表现,Llama 4 Maverick应该远远排不上第一或第二。”

大模型竞技场官方也下场“补刀”,指出Meta在大模型竞技场使用的并非HuggingFace上供开发者使用的Llama 4版本,而是“针对人类偏好进行优化的定制模型Llama-4-Maverick-03-26-Experimental”。

大模型竞技场官方要求Meta对此事作出澄清,并强调其排行榜结果准确可靠,后续将对Llama 4重新进行评测。

图片来源:X

知名科技媒体TechCrunch也发文,标题直言Meta新AI模型的性能测试“具有一定误导性”

文章指出,针对基准测试优化特定版本去打榜,却给开发者提供“基础版”的做法,让开发者难以依据榜单排名准确预估模型在实际应用场景中的真实表现。

《每日经济新闻》记者发现,在Llama官网提供的性能对比测试图的最下面,写着其在大模型竞技场上使用的是专门针对对话场景优化的Llama 4 Maverick版本。不过,这一信息的字体极小,很难被注意到

图片来源:X


Llama 4训练作弊?Meta紧急辟谣,大佬杨立昆也“站台”

就在Llama 4被集体质疑之时,内部员工的一则爆料帖子,让Meta陷入了更深的舆论漩涡之中。

4月7日,在海外留学求职交流论坛“一亩三分地”上,一位自称参与了Llama 4训练的内部员工爆料称,Llama 4模型训练测试集作弊,并表示自己已因此辞职。

图片来源:一亩三分地

该员工透露,尽管团队反复努力训练,Llama 4的内部模型性能始终无法达到开源SOTA(State-of-the-Art,顶尖水平)基准,且差距明显。为达成目标,公司领导层提出在训练后期将各种基准测试的测试集数据混入训练或微调数据中,以此在各项指标上达成目标,交出一份“好看”的成绩单。

这位内部员工表示,自己无法接受公司这种做法,甚至辞职信中明确要求不要在Llama 4技术报告中挂名。

就在Llama 4发布前几天,Meta AI研究主管乔尔·皮诺(Joelle Pineau)在工作8年之后突然宣布离职。

不过,由于发帖人并未实名,该帖子的真实性暂无法核实。在帖子下方评论区,已有数名Meta员工实名进行辟谣。

Meta研究科学家主管Licheng Yu称,团队绝不存在针对测试集过拟合训练的情况。

图片来源:一亩三分地

另一位Meta高级AI研究科学家Di Jin也反驳道:“我参与了微调和强化学习的数据混合工作,并没有这种(将基准测试的测试集数据混入训练或微调数据)情况。”

并且,Di Jin还指出,近期离职的AI研究主管乔尔・皮诺,实则并非Meta GenAI团队成员,没有参与GenAI的任何模型训练工作。

图片来源:一亩三分地

根据Meta的组织架构体系,乔尔・皮诺是FAIR的副总裁,而FAIR实际上是Meta内部与GenAI完全独立的组织,GenAI才是负责Llama项目的组织。

针对外界对Llama 4模型的诸多质疑,当地时间4月7日,Meta生成式AI副总裁艾哈迈德·阿尔·达赫勒(Ahmad Al-Dahle)在社交平台X上公开回应,明确指出相关说法毫无事实依据。

同时,达赫勒指出,部分用户通过不同云服务商使用Llama 4模型时,遭遇了质量不稳定问题。他对此解释道:“由于我们在模型准备好后就迅速发布,因此预计需要几天的时间来调整所有公开版本。后续,Meta将持续进行错误修复工作,并与合作伙伴保持沟通。”

图片来源:X

此外,Meta首席AI科学家、图灵奖得主Yann LeCun也转发了该帖子,为Llama 4声援“站台”。

图片来源:X

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
京东方同意支付三星49亿专利费

京东方同意支付三星49亿专利费

WitDisplay
2025-12-29 15:37:54
解放军军演:距离台岛不到9公里,第一次以美军核潜艇为假想敌

解放军军演:距离台岛不到9公里,第一次以美军核潜艇为假想敌

头条爆料007
2025-12-29 11:24:47
中国田协回应最快护士张水华除名:没有处罚,她本就不在排名系统

中国田协回应最快护士张水华除名:没有处罚,她本就不在排名系统

杨华评论
2025-12-29 15:24:25
不被允许的欲望:老年人性需求正在演变为重大公共卫生风险

不被允许的欲望:老年人性需求正在演变为重大公共卫生风险

黑噪音
2025-12-27 20:51:40
高市核试探迎结局,没料到锁喉日本的不是中俄,美没忘欠下的血债

高市核试探迎结局,没料到锁喉日本的不是中俄,美没忘欠下的血债

单手搓核弹
2025-12-30 16:18:16
出大事了,乌克兰发起斩首行动:91架战机炸普京官邸,特朗普大怒

出大事了,乌克兰发起斩首行动:91架战机炸普京官邸,特朗普大怒

音乐时光的娱乐
2025-12-30 12:18:55
茅台官宣!明年起取消分销,暴利时代要终结了?

茅台官宣!明年起取消分销,暴利时代要终结了?

观察者网
2025-12-29 18:33:09
唐嫣无刘海生图出圈!额头细纹太真实,网友却狂夸好看

唐嫣无刘海生图出圈!额头细纹太真实,网友却狂夸好看

章眽八卦
2025-12-30 12:26:28
今天,A股涨到3979,做好准备,明天,12月31号,很有可能这样走

今天,A股涨到3979,做好准备,明天,12月31号,很有可能这样走

有范又有料
2025-12-30 14:58:56
美记:独行侠愿意将浓眉送到老鹰,但前提是特雷杨不能成为筹码

美记:独行侠愿意将浓眉送到老鹰,但前提是特雷杨不能成为筹码

移动挡拆
2025-12-30 04:48:56
饭后吃药,等于白吃?医生多次提醒:一天中这些时间吃药才最好

饭后吃药,等于白吃?医生多次提醒:一天中这些时间吃药才最好

路医生健康科普
2025-12-16 12:45:03
上升8位!曼联进步冠绝英超,三人晋级难归,阿莫林担心B费抢饭碗

上升8位!曼联进步冠绝英超,三人晋级难归,阿莫林担心B费抢饭碗

嗨皮看球
2025-12-30 15:51:56
大跌前的最后出逃机会?主力开始摊牌了!A股,明天历史或会重演!

大跌前的最后出逃机会?主力开始摊牌了!A股,明天历史或会重演!

股市皆大事
2025-12-30 12:25:51
上海地铁一男子被打10个耳光不还手!还手算互殴成历史,新规不再和稀泥!

上海地铁一男子被打10个耳光不还手!还手算互殴成历史,新规不再和稀泥!

上观新闻
2025-12-29 20:52:09
卡莉达·齐亚去世

卡莉达·齐亚去世

新京报政事儿
2025-12-30 10:15:03
“牡丹花下死,做鬼也风流”,这一次,74岁的张纪中彻底成了笑话

“牡丹花下死,做鬼也风流”,这一次,74岁的张纪中彻底成了笑话

洲洲影视娱评
2025-12-08 19:52:00
解放军东部战区围岛实弹演习,首先着急的不是“台独”分子、日美

解放军东部战区围岛实弹演习,首先着急的不是“台独”分子、日美

百态人间
2025-12-30 16:03:10
俄方称乌克兰袭击普京官邸,中方表态

俄方称乌克兰袭击普京官邸,中方表态

澎湃新闻
2025-12-30 16:52:04
朱元璋逃难到寡妇家,临走前寡妇害怕怀孕,朱元璋的做法令人敬佩

朱元璋逃难到寡妇家,临走前寡妇害怕怀孕,朱元璋的做法令人敬佩

铭记历史呀
2025-12-29 02:30:03
笑晕,父母能把动植物养的多离谱!网友:养的兔子都成精了!

笑晕,父母能把动植物养的多离谱!网友:养的兔子都成精了!

夜深爱杂谈
2025-12-13 22:34:27
2025-12-30 17:31:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1443527文章数 2721218关注度
往期回顾 全部

科技要闻

估值150亿的智元,开始批量"制造"小独角兽

头条要闻

"退货羽绒服口袋里现机票"引发争议 买家遭网暴后喊冤

头条要闻

"退货羽绒服口袋里现机票"引发争议 买家遭网暴后喊冤

体育要闻

这个59岁的胖子,还在表演“蝎子摆尾”

娱乐要闻

林俊杰官宣文案争议!女方名字都不提

财经要闻

朱光耀:美关税政策正使WTO名存实亡

汽车要闻

标配华为乾崑ADS 4 Pro 华境S明年上半年上市

态度原创

时尚
艺术
数码
公开课
军事航空

她们冬天这样穿,真的很美!

艺术要闻

谢稚柳雪景山水20图

数码要闻

看完就能省钱,历届游戏之王X3D当下哪个最有性价比?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

福建海警舰艇与台海巡船对峙航行

无障碍浏览 进入关怀版