网易首页 > 网易号 > 正文 申请入驻

AI 圈今年最大丑闻曝光!Llama 4 被揭训练作弊,实测惨遭滑铁卢,核心骨干愤然离职

0
分享至

昨天,Meta Llama 4 就这么突然地发布了。

纸面参数很高大上,号称原生多模态 MOE 模型,击败 DeepSeek V3,还有 2 万亿参数巨兽,连 Meta CEO 扎克伯格也发视频,摇旗高呼迎接「Llama 4 日」。

欢呼是短暂的,当网友开始实测后,却几乎是一边倒的负面评价,堪称今年 AI 界最大的「翻车」事件。

在专门讨论本地部署大语言模型的社区 r/LocalLLaMA(可理解为 Llama「贴吧」)中,一篇标题为「我对 Llama 4 感到 incredibly disappointed(极度失望)」的帖子迅速获得了大量关注和共鸣。

更有 Llama 忠实粉丝原地破防,直言是时候该将「LocalLLaMA」改名为「LocalGemma」了,调侃 Llama 4 的发布更像是迟到的愚人节玩笑。

实测表现货不对板,曝 Llama 4 发布前疯狂「灌题」

在 Reddit 的这篇原帖中,网友 karminski 强烈建议不要使用 Llama 4 进行编码。

他表示 Llama-4-Maverick——总参数达 402B 的型号——在编码能力上仅能与 Qwen-QwQ-32B 勉强匹敌。而 Llama-4-Scout(总参数 109B 的型号)表现则大致与 Grok-2 或 Ernie 4.5 相仿。

事实上,根据最新的 aider polyglot 编码基准测试结果,Llama 4 Maverick 的得分仅为 16%。

这一基准测试旨在评估大型语言模型(LLM)在多语言编程任务中的表现,覆盖了 C++、Go、Java、JavaScript、Python 和 Rust 六种主流编程语言。

而这个分数,在众多模型中也是属于妥妥的垫底水平。

博主 @deedydas 同样表达了对 Llama 4 的失望,直呼其为「一个糟糕透顶的编程模型」。

他指出,Scout (109B) 和 Maverick (402B) 在针对编程任务的 Kscores 基准测试中,表现远不及 4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7。

另一位网友 Flavio Adamo 分别让 Llama 4 Maverick 和 GPT-4o 生成一个小球在旋转多边形弹跳的动画,并且,小球跳动的过程中要遵循重力和摩擦力的影响。

结果显示,Llama 4 Maverick 生成的多边形形状缺乏开口,小球的运动也违背物理规律,相比之下,新版 GPT-4o 的表现明显更胜一筹,而 Gemini 2.5 Pro 的表现则堪称王者。

回望今年 1 月,扎克伯格还宣称,AI 将达中级软件工程师编程水平,就目前 Llama 4 糟糕的表现,属实是打脸来的有些快。

另外,Llama 4 Scout 的上下文长度达到了 1000 万 tokens。这一超长上下文长度使得 Llama 4 Scout 能够处理和分析极长的文本内容,例如整本书籍、大型代码库或多媒体档案。

Meta 官方甚至还展示了「大海捞针」的测试结果以证明其能力。

然而,根据 Fiction.LiveBench 最新给出的结果,Llama 4 模型的效果也是中看不中用,整体效果不及 Gemini 2.0 Flash,而 Gemini 2.5 Pro 依旧是当之无愧的长文本王者。

Google 上大分+1。

网友 karminski 进一步指出,Llama 4 在 1K 上下文召回率(近似理解为问题回答的正确率)时就已跌至 60% 以下,甚至 Llama-4-Scout 在超过 16K 时仅剩 22%。

他还给出了一个形象的例子「《哈利·波特与魔法石》的文本长度恰好约为 16K。

这意味着,如果你把整本书输入模型,然后问「哈利小时候是住在卧室还是楼梯下的储物间」,Llama-4-Scout 只有 22% 的概率能答对(近似理解,实际召回机制更复杂)。而这个成绩自然也就远低于头部模型的平均水平。

不仅模型本身稍显拉胯,Llama 4 作为「开源扛把子」的光环也在逐渐褪色。

Meta 开放了 Llama 4 的权重,但即使使用量化(quant),也无法在消费级 GPU 上运行。号称单卡运行,但实际指的却是 H100。门槛之高,对开发者可谓是相当不友好。

更何况,Llama 4 的新许可证还有几个限制条款,其中备受诟病的则是拥有超过 7 亿月活跃用户的公司必须向 Meta 申请特别许可证,Meta 可以自行决定是否批准或拒绝。

等等,昨天 Meta 公布的纸面参数可不是这么说的,怎么过了一天,风向就全变了。

在大模型竞技场(Arena)排名中,Llama 4 Maverick 名列总榜第二,成为第四个突破 1400 分的模型,在开源模型中更是高居榜首,更是超越了 DeepSeek V3。

面对实测性能的「货不对板」,细心的网友很快嗅到一丝蹊跷。在 LM Arena 上取得高分的 Maverick 其实用到了一个「实验性聊天版本」。

这还没完,今天一亩三分地社区的爆料贴也似乎揭开了一些内幕。爆料称,经过反复训练后,Llama 4 未能取得开源 SOTA,甚至与之相差甚远。

而 Meta 公司内部设置发布的 deadline(截止日期)则是 4 月底。

于是,公司领导层建议将各个 benchmark 的测试集混合在 post-training 过程中,目的是希望能够在各项指标上交差。拿出一个「看起来可以」的结果。

这里说的将各个 benchmark 的测试集混合在 post-training 过程中,是指在模型的后训练(post-training)阶段,通过混合不同基准测试的数据集,模型可以在多种任务和场景中学习,从而提升其泛化能力。

打个简单的比方,这就像考试时作弊。试题本该从保密题库(benchmark 测试集)中随机抽取,考前无人知晓。可如果有人提前偷看了题目并反复练习(相当于将测试集混入训练),那考试的时候肯定能考得很好。

帖主进一步解释说,Llama 4 发布之后,实测结果遭到 X 和 Reddit 网友的吐槽。作为一名目前也在学术界的人他宣称实在无法接受 Meta 的做法,已提交离职申请,并明确要求在 Llama 4 的 Technical Report 中剔除自己的名字。

他还表示,Meta 的 VP of AI 也是因为这个原因辞职的。而早在几天前,就有报道称 Meta AI 研究负责人乔尔·皮诺(Joelle Pineau)宣布将于 5 月 30 日离职。

不过,对于这桩疑似「刷榜作弊」的指控,真相究竟如何,或许还需更多证据。一位名为 LichengYu 的 Meta 员工也疑似在评论区实名回应称:

「这两天虚心聆听各方 feedback(比如 coding,creativewriting 等缺陷必须改进),希望能在下一版有提升。但为了刷点而 overfit 测试集,我们从来没有做过,实名 Licheng Yu,两个 oss model 的 post training 有经手我这边。请告知哪条 prompt 是测试集选出来放进训练集的,我给你磕一个+道歉!」

公开资料显示,Licheng Yu(虞立成)曾本科毕业于上海交通大学,2014 年获佐治亚理工学院和上海交通大学双硕士学位,在 2019 年 5 月获北卡罗来纳大学教堂山分校计算机科学博士学位,。

他的研究领域专注于计算机视觉和自然语言处理,多篇论文被 CVPR、ICLR、ECCV、KDD 等顶级会议接收。

Licheng Yu 曾在微软、Adobe 等大厂有过工作经历,目前(2023.06 至今)担任 Meta 的研究科学家经理,曾参与 Llama3.2 多模态模型(11B+90B)的发布,以及领导 Llama 4 项目中 17Bx128 和 17Bx16 的 文本+图像强化学习阶段。

真假难辨,或许还可以让子弹再飞一会。

开源大模型的「王座」,不能靠蛮力夺取

在去年这个时候,Meta 还被誉为 AI 行业的天选之子。

当然,脱下简单的灰色T恤、牛仔裤和连帽衫,扎克伯格也开始频繁地穿着大 LOGO 的名牌服装,颈间挂上粗犷的大金链子,甚至在公开场合自信展示自己的健身成果。

醉翁之意不在酒的扎克伯格试图通过展现更「真实」、更「接地气」的一面,拉近与公众的距离。这不仅让 Meta 显得更加亲民,也使其顺势成为对抗 OpenAI 闭源模型的开源旗手,声势一时无两。

与此同时,Meta 的雄厚实力为转型提供了坚实后盾。据悉,Meta 计划在 2025 年投入高达 650 亿美元用于扩展其 AI 基础设施,这一数字在业内堪称大手笔,到 2025 年底,Meta 计划拥有超过 130 万块 GPU。

其次,Meta 坐拥丰富的社交平台数据,这为其 AI 研发提供了得天独厚的优势。

作为 Facebook、Instagram 和 WhatsApp 等全球知名社交平台的母公司,Meta 掌握着数十亿用户的日常交互数据。据统计,其平台的全球日活跃用户数(DAU)在 2024 年已超过 30 亿,这一庞大的数据体量为 AI 模型的训练提供了海量的原材料。

再者,Meta 在人才储备上同样不遑多让。其 AI 部门的领军人物是业界享有盛誉的图灵奖得主 Yann LeCun。在他的带领下,Meta 坚持开源策略,推出了 Llama 系列模型。

因此,Meta 也野心十足——它不仅要巩固自身在社交领域的地位,更希望在 AI 领域实现弯道超车,目标是在 2025 年底前超越 OpenAI 等强劲对手。

但眼见他起朱楼,眼见他宴宾客,眼见他楼塌了。

若一亩三分地的爆料属实,Llama 4 的研发过程中可能存在为追求基准测试分数而「作弊」的行为——通过将测试集混入训练数据,也更像是「AI 流量焦虑」下的操作变形。

年初就曾有消息称 DeepSeek 让 Meta AI 团队陷入恐慌:

「当生成式 AI 组织中的每个高管薪资都比训练整个 DeepSeek-V3 的成本还要高,而我们有好几十个这样的高管,他们要如何面对高层?」

2023 年,Meta 凭借 Llama 系列在开源大模型领域几乎建立了垄断地位,成为开源 AI 的代名词和标杆。

然而,AI 一日,人间一年,在 Llama 4 遭遇「滑铁卢」的评论区中,其他开源模型的好评随处可见。其中,Google Gemma 以轻量高效和多模态能力赢得广泛认可,阿里的 Qwen 系列基座模型崭露头角,而 DeepSeek 更以低成本高性能的黑马姿态震撼了整个行业。

Meta 能否调整策略重回开源 AI 的模型领跑位置尚未可知,但无论如何,开源 AI 的百花齐放已经不可逆转地到来了。

秉持着哪个 AI 好用,用哪个的原则,Meta 也不能全然怪用户「墙头草」。更何况,在开源透明度方面,相较于上述几家公司的开源模型,Llama 4 的自缚手脚,也颇有些自断一臂的意味。

而 Meta 目前的挣扎或许也表明,即便手握全球所有的 GPU 算力和海量数据,资源优势已不再是决定性因素,开源大模型的「王座」,不能靠蛮力夺取。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
考研导师张雪峰因跑步心脏聚停离世?网传特殊治疗知情同意书也被流传出。

考研导师张雪峰因跑步心脏聚停离世?网传特殊治疗知情同意书也被流传出。

贴小君
2026-03-24 20:41:23
越南5年免签新政策4.1开始实施

越南5年免签新政策4.1开始实施

创作者_cLg1
2026-03-26 09:42:32
大伯突然给我发消息,让我赶紧卖掉房子,钱全部给堂弟,我问为啥

大伯突然给我发消息,让我赶紧卖掉房子,钱全部给堂弟,我问为啥

小秋情感说
2026-03-26 09:21:52
志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

老范谈史
2026-03-23 17:49:13
去了一趟伊朗才发现:原来在伊朗人眼里,中国人是这样的

去了一趟伊朗才发现:原来在伊朗人眼里,中国人是这样的

千秋文化
2026-03-24 21:40:40
宅基地确权最后冲刺:今年不把名字改成儿子的,以后可能就改不了

宅基地确权最后冲刺:今年不把名字改成儿子的,以后可能就改不了

混沌录
2026-03-19 21:59:03
钱再多有什么用?58岁伊能静身价过亿,如今9岁女儿却成她的心病

钱再多有什么用?58岁伊能静身价过亿,如今9岁女儿却成她的心病

梨花黛娱
2026-03-25 15:00:06
伊朗外长:美国谈论“谈判”无异于承认“失败”

伊朗外长:美国谈论“谈判”无异于承认“失败”

新华社
2026-03-26 08:07:01
美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

霁寒飘雪
2026-03-26 09:54:09
特朗普承认一件事:美国最大的敌人,不是中俄和伊朗,而是他们

特朗普承认一件事:美国最大的敌人,不是中俄和伊朗,而是他们

鱼语昱雨轩
2026-03-26 13:31:35
913唯一幸存者临终首次开口:我曾举枪瞄准林彪,扣动扳机那一刻他回头看了我一眼

913唯一幸存者临终首次开口:我曾举枪瞄准林彪,扣动扳机那一刻他回头看了我一眼

寄史言志
2026-03-18 17:25:06
电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

小柱解说游戏
2026-03-25 17:56:15
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
要断俄财路?俄忍不下去了,普京下令海军护航,不怕与美欧硬碰硬

要断俄财路?俄忍不下去了,普京下令海军护航,不怕与美欧硬碰硬

风信子的花
2026-03-26 13:45:27
日本内阁官房长官就“强闯使馆”事件表态

日本内阁官房长官就“强闯使馆”事件表态

新浪财经
2026-03-25 18:48:42
女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

游民星空
2026-03-25 20:08:13
小毛打酱油 浙江双煞快废了!于金永该让位姚浩洋 依木兰眼神太狠

小毛打酱油 浙江双煞快废了!于金永该让位姚浩洋 依木兰眼神太狠

刀锋体育
2026-03-26 10:43:52
15-0,火箭又又又出来搞笑了!

15-0,火箭又又又出来搞笑了!

风子说个球
2026-03-26 14:12:56
张柏芝机场接大儿子,Lucas主动帮妈妈拎包,母子相拥热聊关系好

张柏芝机场接大儿子,Lucas主动帮妈妈拎包,母子相拥热聊关系好

白面书誏
2026-03-26 13:38:29
伊朗“大礼”空空如也,特朗普的话还能信几分 | 京酿馆

伊朗“大礼”空空如也,特朗普的话还能信几分 | 京酿馆

新京报评论
2026-03-26 13:28:04
2026-03-26 14:40:49
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38610文章数 2601332关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
本地
时尚
教育
公开课

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

2026年了,最好看的还是“这件针织”!

教育要闻

高考地理中的花海经济

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版