Llama 4 详细评测：开源模型的全面倒退？|编程|推理|数学|云计算费用

分享至

“Llama 4 是开源模型的全面倒退。” ——在Meta发布新一代大模型不到24小时内，这样的质疑声音已经出现在多个技术社区。

Llama 4 真的不如前代？还是它只是“看起来拉胯、实则有料”？

昨天，Meta正式推出新一代开源大模型 Llama 4，带来了两个混合专家（MoE）架构的版本：Scout（109B总参数，17B活跃参数）和 Maverick（400B总参数，17B活跃参数）。这一代模型不仅原生支持图文输入，还将上下文窗口拓展至惊人的 1000万 token，在规格参数上堪称“顶配开源”。

然而，随着初步评测和对比结果浮出水面，人们发现——它的实际表现，可能没有我们想象中那么强。

本文将基于 Artificial Analysis 的独立评估数据和社交媒体舆情，深入剖析 Llama 4 的技术亮点、实际表现与竞品差距，并探讨这款“争议中亮相”的新模型究竟是开源未来，还是开源瓶颈的缩影。

Artificial Analysis是一家专注于AI技术创新的公司，致力于提供高效的数据分析和智能解决方案，旨在加速人类解决问题。其前瞻性技术备受关注。吴恩达评论：“这是一个很棒的网站，测试LLM API速度，帮开发者选模型，补充了其他质量评估，对智能代理至关重要！”

Founder Park 正在搭建开发者社群，邀请积极尝试、测试新模型、新技术的开发者、创业者们加入，请扫码详细填写你的产品/项目信息，通过审核后工作人员会拉你入群～

进群之后，你有机会得到：

高浓度的主流模型（如 DeepSeek 等）开发交流；
资源对接，与 API、云厂商、模型厂商直接交流反馈的机会；
好用、有趣的产品/案例，Founder Park 会主动做宣传。

01性能对比：差距不是一点，是一整条街

Artificial Analysis通过其Intelligence Index（涵盖MMLU-Pro、GPQA Diamond、HumanEval等非推理模型评估）对Llama 4进行了独立测试，具体结果如下：

1.总体性能（Intelligence Index）

从最新的 Artificial Analysis Intelligence Index 综合榜单来看，Llama 4 的表现让人大跌眼镜。

在这份集通用推理、科学推理、编码、数学等七项任务为一体的硬核评测中，Google 的 Gemini 2.5 Pro、xAI 的 Grok 3、以及 DeepSeek R1 牢牢占据前三，综合得分分别为 68、66 和 66，实力堪称天花板级别，属于开局即封神的选手。

而反观刚刚发布的 Llama 4 系列：

-Maverick 得分 49，不仅被前述三强甩出十几分的距离，连 OpenAI 的 GPT-4o和阿里的 QwQ-32B都没打过，未能进入第一梯队，只能勉强跻身中游。

-Scout 得分仅为 36，直接与 GPT-4o mini 打成平手，甚至被 Google 的 Gemma 3 27B按在地上摩擦，表现惨不忍睹。

这意味着，无论是旗舰定位的 Maverick 还是轻量版的 Scout，都未能在关键指标上与主流竞品拉开差距。特别是 Scout，不仅没展现出“小而强”的性价比，还在多项任务中落后于前代产品与同量级模型。

一句话总结：“看起来很强，打起来很虚”，是当前市场对 Llama 4 初版表现最真实的反馈。

在非推理任务的对比中，Llama 4 的表现可谓喜忧参半。Maverick在开源模型中算得上发挥稳定，成功超越部分闭源竞品，展示出一定的专业处理能力。然而与顶级模型如 DeepSeek V3 和 GPT-4o相比，依然存在明显差距，说明其综合实力尚未达到第一梯队的水平。

Scout则更为克制，没有惊喜也没有翻车，整体表现与GPT-4o mini相当，虽不具备突破性优势，但在资源受限场景下仍具备一定实用价值。

总体来看，Llama 4系列虽在非推理能力上具备一定基础，但距离“强通用、强专业”的开源标杆，还有一段路要走。它们更像是一次架构和方向的试水，而不是一举超车的终局之作。

2.具体任务表现

Artificial Analysis的评估数据（详见附图）涵盖了通用推理、科学推理、编码和数学等多个领域，我将相关任务合并分析，聚焦Llama 4（Scout和Maverick）的表现趋势，并与主要竞品DeepSeek V3、Claude 3.7 Sonnet、和GPT-4o mini对比，揭示其优势与不足。以下简要补充各指标的含义和重要性，帮助理解评估维度。

1）通用推理：稳中有位，但缺乏突破

通用推理评估模型在广泛知识和综合推理能力上的表现，MMLU-Pro覆盖57个学科的知识广度，Humanity’s Last Exam则测试复杂推理能力。这类指标对衡量模型在教育、问答等通用场景的适用性至关重要。

Maverick在通用推理任务中表现稳健，在MMLU-Pro中排名靠前，与GPT-4o、Claude 3.7 Sonnet等模型同等，但略逊于DeepSeek V3 V3（Mar 25）。Scout的表现则比较落后，低于Mistral Small 3和GPT-4o mini。

在Humanity’s Last Exam中，Maverick同样位列前茅，接近DeepSeek V3（Mar 25），优于GPT-4o 和Claude 3.7 Sonnet，Scout则排名中游，略高于Mistral Small 和GPT-4o mini。

结论：在通用推理相关任务中，Maverick 的表现整体可圈可点，尤其在知识广度和复杂推理方面接近一线闭源模型，虽然略逊于 DeepSeek V3，但基本站稳中上游位置。Scout 则明显吃力，整体排名不高，甚至落后于部分轻量模型，反映出其在处理广义知识类任务时的适应能力仍待加强。

2）科学推理：开源难题，Llama 4未解

科学推理通过GPQA Diamond测试模型在生物、物理、化学等领域的专业推理能力，强调多步推理和深度理解，对评估模型在学术研究、技术文档处理等专业场景的表现尤为重要。

Maverick在科学推理任务中的表现显著低于DeepSeek V3和Claude 3.7 Sonnet的水平，排名靠后，未能展现出与顶级模型竞争的能力。Scout的表现则稍显逊色，不仅远低于GPT-4o mini，甚至低于Meta自己的Llama 3.3 70B，显示其在专业领域推理上的明显不足。

结论：面对生物、物理、化学等专业领域的深度推理任务，Llama 4 表现疲软，尤其是 Maverick，虽为高配模型，却未能在多步逻辑和专业理解上展现出预期能力，明显落后于 Claude 和 DeepSeek。Scout 的表现则更加堪忧，不仅输给 GPT-4o mini，甚至被 Llama 3.3 70B 反超，显示其在学术和技术类场景中的适用性非常有限。

3）编码能力：基础乏力，高难勉强及格

Maverick在编码任务中的表现未达预期。在基础编码能力（HumanEval）上，Maverick远低于GPT-4o、Claude 3.7 Sonnet以及DeepSeek V3，仅达到GPT-4o mini的水平，显示其在基础代码生成上的竞争力不足。

在更具挑战性的竞赛级编码（LiveCodeBench）和科学编码（SciCode）任务中，Maverick的表现进一步回落，与DeepSeek V3和Claude 3.7 Sonnet的差距不太明显。

Scout在基础编码和科学编程任务中表现垫底，排名靠后，远低于大多数竞品。然而，在高难度编码任务（LiveCodeBench）中，Scout的表现意外接近中位值，与Claude 3.5 Haiku水平相当，展现了一定的潜力。

结论：Maverick 在代码生成任务中并未脱颖而出，基础编程任务的完成度不高，与领先模型存在明显差距。面对竞赛级和科学编程挑战时，其表现更为拉胯，难以支撑复杂开发需求。Scout 则在大部分编码任务中垫底，虽在高难度挑战中偶有亮点，但整体竞争力仍偏弱，不具备“开发者友好”的实用价值。

4）数学：基础尚可，高阶失守

数学任务评估模型的定量推理能力，MATH-500测试常规数学问题解决能力，AIME 2024则聚焦高难度竞赛级数学推理。这类指标对教育、科学研究和金融建模等需要强大数学能力的场景尤为关键。

Maverick在定量推理任务（MATH-500）中表现较为稳健，排名靠前，超越Claude 3.7 Sonnet，但与DeepSeek V3仍存在一定差距，显示其在常规数学问题解决上的竞争力。Scout的表现同样可圈可点，优于GPT-4o mini，并接近Claude 3.7 Sonnet的水平，展现了不错的基础数学能力。

然而，在高难度的竞赛级数学推理任务（AIME 2024）中，Maverick表现不佳，远落后于DeepSeek V3，仅略高于GPT-4o。

结论：在数学推理方面，Llama 4 两个版本表现出较为明显的分化。Maverick 在基础数学任务中稳健发挥，部分场景甚至可与主流闭源模型媲美，Scout 也展现出一定的定量推理能力，优于部分轻量模型。然而，进入竞赛级高难度数学任务后，两者均显得力不从心，与 DeepSeek V3 等强模型的差距明显拉大，暴露出复杂推理能力上的短板。

总结：差距不是一点，是一整条街

综合来看，Llama 4（Maverick 和 Scout）在非语言生成的关键能力维度上，与 DeepSeek V3 之间存在系统性差距。Maverick虽有部分亮点，但始终处于“差一点”的状态，在科学推理、编码和高阶数学上几乎全面落后。Scout的表现则更为惨烈，不仅被 DeepSeek V3 和 Claude 系列全面碾压，甚至在多个维度不敌小模型选手，令人质疑其在专业场景中的实际价值。

Llama 4 所展示的更多是架构层面的潜力，而非实打实的能力跃迁。除非在未来版本中针对专业推理、复杂任务场景进行重点优化，否则很难在真正需要“硬实力”的场合，成为开源替代品的第一选择。

02模型效率

与DeepSeek V3相比，Llama 4 Maverick的活跃参数大约只有其一半（17B对37B），总参数也仅为其60%左右（402B对671B），这表明Maverick以更高的效率实现了其性能表现。此外，Maverick还支持图像输入，而DeepSeek V3则不具备这一功能。

03价格

Artificial Analysis追踪6家服务提供商，并对比评估了Maverick的中位价格为每百万输入/输出token 0.24美元/0.77美元，而Scout的定价为每百万输入/输出token 0.15美元/0.4美元，其价格不仅低于DeepSeek v3，相比OpenAI领先的GPT-4o接口更是便宜超过10倍。

04最后

那么，Llama 4到底是不是“开源模型的全面倒退”？从目前的测试结果来看，这种说法虽显极端，却并非毫无根据。

在多个关键任务中，Maverick 勉强追平主流闭源模型的尾巴，而 Scout 则在小模型领域表现平平，甚至被自家的 Llama 3.3 70B 反超。相比之下，DeepSeek V3 的统治力更像是给所有开源模型泼了一盆冷水。

但退一步看，开源的价值不止于性能指标，更在于长期可控性、社区生态与开放创新的累积潜力。Llama 4 的多模态架构、超长上下文和低廉定价，依然在为未来铺路——也许不是现在碾压闭源的“终极答案”，但可能是通往答案的那一步。

最终，它是倒退还是转折，要看 Meta 和整个开源社区，能否在质疑声中继续优化、快速迭代，把短板变成支点。真正的竞争，还远远没有结束。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.