网易首页 > 网易号 > 正文 申请入驻

Llama 4被质疑“作弊”!在竞技场刷高分,实战频频“翻车”,Meta AI副总裁紧急辟谣,图灵奖大佬“站台”

0
分享至

每经记者:宋欣悦 每经编辑:兰素英

当地时间4月5日,美国科技巨头Meta宣布推出其新一代开源大模型Llama 4。Llama 4目前有两个混合专家(MoE)架构的版本,分别为Scout和Maverick。更为强大的Llama 4 Behemoth仍在训练中。

Meta官方称,Llama 4在一系列广泛接受的基准测试中均实现了领先同行的水平,尤其是Llama 4 Behemoth,在多个基准测试中的表现要优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等一众行业顶尖封闭模型。

然而,就在模型发布后不久,铺天盖地的质疑声涌来。开发者实测Llama 4后发现,其真实效果并不如宣传中那么惊艳,甚至问题百出。

与此同时,有开发者质疑Meta作弊“刷榜”,根据相关评测基准对模型进行“量身定制”训练。

知名科技媒体TechCrunch也发文,直指Meta新AI模型的性能测试“具有一定误导性”。

Meta深陷舆论漩涡之中。对于外界的质疑,当地时间4月7日,Meta生成式AI副总裁艾哈迈德·阿尔·达赫勒(Ahmad Al-Dahle)在社交平台X上公开回应,明确指出相关说法毫无事实依据。

图片来源:Meta官网


Meta“刷榜”?开发者实测Llama 4:编程等任务表现不佳,“远排不上第一或第二”

据Meta介绍,Llama 4模型家族使用了混合专家(MoE)架构,原生支持多模态,实力超强,堪称“全能选手”。

其中,Llama 4 Scout拥有170亿活跃参数以及16个专家模块,提供长达1000万tokens上下文窗口。在多项基准测试中,Scout的表现优于Gemma 3和Gemini 2.0 Flash-Lite等模型。

Llama 4 Maverick同样拥有170亿活跃参数,专家模块数量提升至128个。在多项主流基准测试中,其成绩超越了GPT-4o和Gemini 2.0 Flash。Meta还特意点名DeepSeek,强调在推理和编码方面,Llama 4 Maverick可以比肩DeepSeek新开源的V3模型,而其活跃参数还不到DeepSeek新版V3的一半

被Meta称为“世界上最聪明的模型之一”的Llama 4 Behemoth则拥有2880亿活跃参数和16个专家模块。在多项主流基准测试中,其性能表优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等行业顶尖模型。

图片来源:Meta官网

而在大模型竞技场上,Llama 4 Maverick表现夺目,总排名位居第二,成为第四个突破1400分的大模型。在开源模型中,Llama 4 Maverick排名第一,超越了DeepSeek

在困难提示词、编程、数学、创意写作等任务的比拼中,Llama 4 Maverick均斩获第一名。相较于自家前代产品Llama 3(405B)获得的1268分,Llama 4 Maverick的得分实现大幅跃升,达到了1417分。

图片来源:大模型竞技场

这本应是开源社区的又一狂欢。但开发者们实测发现,Llama 4的效果并不像官方宣称的那样惊艳,甚至可以说是问题百出

Menlo Ventures风险投资人迪迪·达斯(Deedy Das)直言,“Llama 4实际上是一个糟糕的编程模型。”

达斯指出,在专注于编程任务(如代码生成和代码补全)的KCORES基准测试中,Llama 4 Scout和Llama 4 Maverick表现欠佳,落后于GPT-4o、Grok 3、DeepSeek-V3等模型。

图片来源:KCORES LLM Arena

这与此前Llama 4在大模型竞技场的表现形成鲜明反差。

有网友直接曝出,Llama 4在大模型竞技场上存在过拟合现象,有极大的作弊“刷榜”嫌疑

在一些实测中,Llama 4在上下文任务的实际表现远低于预期。Llama 4 Maverick在aider多语言编码基准测试中的实测得分仅为16%。

Abacus.AI首席执行官宾杜・雷迪(Bindu Reddy)评论道:“人类的评估已经毫无意义了……根据现实世界的表现,Llama 4 Maverick应该远远排不上第一或第二。”

大模型竞技场官方也下场“补刀”,指出Meta在大模型竞技场使用的并非HuggingFace上供开发者使用的Llama 4版本,而是“针对人类偏好进行优化的定制模型Llama-4-Maverick-03-26-Experimental”。

大模型竞技场官方要求Meta对此事作出澄清,并强调其排行榜结果准确可靠,后续将对Llama 4重新进行评测。

图片来源:X

知名科技媒体TechCrunch也发文,标题直言Meta新AI模型的性能测试“具有一定误导性”

文章指出,针对基准测试优化特定版本去打榜,却给开发者提供“基础版”的做法,让开发者难以依据榜单排名准确预估模型在实际应用场景中的真实表现。

《每日经济新闻》记者发现,在Llama官网提供的性能对比测试图的最下面,写着其在大模型竞技场上使用的是专门针对对话场景优化的Llama 4 Maverick版本。不过,这一信息的字体极小,很难被注意到

图片来源:X


Llama 4训练作弊?Meta紧急辟谣,大佬杨立昆也“站台”

就在Llama 4被集体质疑之时,内部员工的一则爆料帖子,让Meta陷入了更深的舆论漩涡之中。

4月7日,在海外留学求职交流论坛“一亩三分地”上,一位自称参与了Llama 4训练的内部员工爆料称,Llama 4模型训练测试集作弊,并表示自己已因此辞职。

图片来源:一亩三分地

该员工透露,尽管团队反复努力训练,Llama 4的内部模型性能始终无法达到开源SOTA(State-of-the-Art,顶尖水平)基准,且差距明显。为达成目标,公司领导层提出在训练后期将各种基准测试的测试集数据混入训练或微调数据中,以此在各项指标上达成目标,交出一份“好看”的成绩单。

这位内部员工表示,自己无法接受公司这种做法,甚至辞职信中明确要求不要在Llama 4技术报告中挂名。

就在Llama 4发布前几天,Meta AI研究主管乔尔·皮诺(Joelle Pineau)在工作8年之后突然宣布离职。

不过,由于发帖人并未实名,该帖子的真实性暂无法核实。在帖子下方评论区,已有数名Meta员工实名进行辟谣。

Meta研究科学家主管Licheng Yu称,团队绝不存在针对测试集过拟合训练的情况。

图片来源:一亩三分地

另一位Meta高级AI研究科学家Di Jin也反驳道:“我参与了微调和强化学习的数据混合工作,并没有这种(将基准测试的测试集数据混入训练或微调数据)情况。”

并且,Di Jin还指出,近期离职的AI研究主管乔尔・皮诺,实则并非Meta GenAI团队成员,没有参与GenAI的任何模型训练工作。

图片来源:一亩三分地

根据Meta的组织架构体系,乔尔・皮诺是FAIR的副总裁,而FAIR实际上是Meta内部与GenAI完全独立的组织,GenAI才是负责Llama项目的组织。

针对外界对Llama 4模型的诸多质疑,当地时间4月7日,Meta生成式AI副总裁艾哈迈德·阿尔·达赫勒(Ahmad Al-Dahle)在社交平台X上公开回应,明确指出相关说法毫无事实依据。

同时,达赫勒指出,部分用户通过不同云服务商使用Llama 4模型时,遭遇了质量不稳定问题。他对此解释道:“由于我们在模型准备好后就迅速发布,因此预计需要几天的时间来调整所有公开版本。后续,Meta将持续进行错误修复工作,并与合作伙伴保持沟通。”

图片来源:X

此外,Meta首席AI科学家、图灵奖得主Yann LeCun也转发了该帖子,为Llama 4声援“站台”。

图片来源:X

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
体坛名将放弃中国国籍,转为美国国籍,14岁时在亚运会创造历史

体坛名将放弃中国国籍,转为美国国籍,14岁时在亚运会创造历史

米修体育
2026-01-24 12:47:31
中东赛场全败,又丢赞助,森梅兹陷入低谷

中东赛场全败,又丢赞助,森梅兹陷入低谷

网球之家
2026-02-21 00:01:22
美国启动中国行动计划,驱赶华裔科学家用印度人替代后,后果初显

美国启动中国行动计划,驱赶华裔科学家用印度人替代后,后果初显

鸢飞九天
2026-02-13 21:48:00
贵州遵义兰海高速一隧道发生多车连环追尾, 目击者:一辆车进入隧道时未及时减速,撞上前方已刹停的车辆,进而引发后续车辆连续追尾

贵州遵义兰海高速一隧道发生多车连环追尾, 目击者:一辆车进入隧道时未及时减速,撞上前方已刹停的车辆,进而引发后续车辆连续追尾

大象新闻
2026-02-21 22:48:06
糖尿病治愈疗法来了,最快今年上市

糖尿病治愈疗法来了,最快今年上市

医学界
2026-02-21 18:39:50
一针见血!瓜帅谈皇马巨星遭歧视:只强调肤色才是真正种族主义

一针见血!瓜帅谈皇马巨星遭歧视:只强调肤色才是真正种族主义

雪狼侃体育
2026-02-21 09:45:42
就在刚刚,13家公司出现重大利好消息,有没有与你相关的个股?

就在刚刚,13家公司出现重大利好消息,有没有与你相关的个股?

股市皆大事
2026-02-21 21:12:11
亚伯拉罕:英超争冠?我们距离榜首并不远,谁知道会发生什么

亚伯拉罕:英超争冠?我们距离榜首并不远,谁知道会发生什么

懂球帝
2026-02-22 01:54:13
突发黑天鹅,全线闪崩!

突发黑天鹅,全线闪崩!

中国基金报
2026-02-21 18:51:52
7连胜到手!赵心童迎生死战,或追平3名中国球员纪录,连夺2冠?

7连胜到手!赵心童迎生死战,或追平3名中国球员纪录,连夺2冠?

刘姚尧的文字城堡
2026-02-21 10:12:45
李亚鹏大理孤单过年,和大冰坐马路边聊天烟不离手,自称也想流浪

李亚鹏大理孤单过年,和大冰坐马路边聊天烟不离手,自称也想流浪

老缰科普
2026-02-21 16:22:33
亲批处决张子善刘青山后,毛主席数次发问李银桥:你有没有贪污?

亲批处决张子善刘青山后,毛主席数次发问李银桥:你有没有贪污?

大运河时空
2026-02-19 07:25:03
高市早苗紧急表态,2个中俄的友国上了她的当?普京政府火冒三丈

高市早苗紧急表态,2个中俄的友国上了她的当?普京政府火冒三丈

东极妙严
2026-02-21 14:14:19
突发特讯!美媒通告全球:哈梅内伊及其子成为美国考虑的打击目标

突发特讯!美媒通告全球:哈梅内伊及其子成为美国考虑的打击目标

科技虎虎
2026-02-21 16:22:33
河北男子出差去厦门前关掉了家里地暖,当晚楼下阿姨在业主群里开骂,谁料,6天后整栋楼的人都懵了!

河北男子出差去厦门前关掉了家里地暖,当晚楼下阿姨在业主群里开骂,谁料,6天后整栋楼的人都懵了!

二胡的岁月如歌
2026-02-21 18:01:35
不演了!一个月报销3人,为了状元签,国王彻底疯魔了

不演了!一个月报销3人,为了状元签,国王彻底疯魔了

球童无忌
2026-02-21 21:52:41
一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

百态人间
2026-02-05 15:39:14
44岁梅根“真面目”曝光!非裔遗传特征明显,莉莉贝特基因突变了

44岁梅根“真面目”曝光!非裔遗传特征明显,莉莉贝特基因突变了

夜深爱杂谈
2026-02-19 21:39:46
正式交易!1.25亿先生打G联赛,右膝撕裂+股四头肌手术,可惜了

正式交易!1.25亿先生打G联赛,右膝撕裂+股四头肌手术,可惜了

球童无忌
2026-02-21 20:51:40
反常识?技术门槛很低的增程技术,为什么越卖越贵?

反常识?技术门槛很低的增程技术,为什么越卖越贵?

少数派报告Report
2026-02-21 07:58:37
2026-02-22 03:44:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1488772文章数 2723223关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

黄晓明澳门赌博输十几亿 本人亲自回应

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

健康
艺术
手机
教育
房产

转头就晕的耳石症,能开车上班吗?

艺术要闻

他的肖像画和人体画,竟让人赞叹不已!

手机要闻

三星Galaxy S26系列颜色曝光:将推6种配色,两款为线上专属

教育要闻

就业数据:未落实毕业去向5032人!太吓人!

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

无障碍浏览 进入关怀版