网易首页 > 网易号 > 正文 申请入驻

Llama 4全网首测来袭,3台Mac狂飙2万亿!多模态惊艳代码却翻车

0
分享至

新智元报道

编辑:定慧 桃子

【新智元导读】Llama 4家族周末突袭,实属意外。这场AI领域的「闪电战」不仅带来了两款全新架构的开源模型,更揭示了一个惊人事实:苹果Mac设备或将成为部署大型AI模型的「性价比之王」。

谁也没料到,

一共三款模型,首次采用MoE架构,开启了原生多模态的Llama时代!

  • Llama 4 Scout,激活17B,16个专家,109B参数;

  • Llama 4 Maverick,激活17B,128个专家,402B参数;

  • Llama 4 Behemoth,激活288B,16个专家,2T参数。

Llama 4发布后排名瞬间跃升,甚至超过了DeepSeek-V3,Meta再一次回到牌桌。

业界首个1000万上下文,RAG已死?

Meta宣称Llama-4-Scout-17B-16E测试中好于Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1。甚至,小扎剧透了推理模型也不远了。

但也有网友调侃Llama 4这次是「赶鸭子上架」,所以Llama 4性能到底如何,请看下面网友的实测。

稀疏MoE模型,和苹果芯堪称天作之合

当前,第一批测试结果已经出来了!

苹果ML工程师Awni Hannun实测,Llama 4 Maverick在单台M3 Ultra-512GB上使用MLX推理框架时速度极快,达到了50 token/秒!

与DeepSeek V3/R1类似,Llama 4系都是巨大的稀疏MoE模型。

这些模型拥有极其庞大的参数量,但每次只有少量参数(专家)被激活。由于事先无法预测哪些参数会被激活,因此必须把所有参数同时存放在高速的GPU显存中。

为何对于开源模型,社区大佬都倾向于使用苹果芯片去测试?

一方面,是因为买不到英伟达H100啊。

Awni Hannun表示,更重要的是Apple芯片适合稀疏模型。

GPU显存速度快,但成本昂贵。然而Apple Silicon通过统一内存(Unified Memory)和UltraFusion 技术融合多个芯片,使其能够以更低的成本提供更大容量、中等速度的内存。

一个月前发布的M3 Ultra Mac Studio的统一内存容量高达512GB!

然而,当内存容量增大到这个程度时,内存带宽就不足了。对于512GB版本来说,内存刷新率(每秒GPU可完整遍历所有内存的次数,即内存带宽与容量之比)只有1.56次/秒。与其他硬件对比如下:

  • NVIDIA H100(80GB):37.5次/秒

  • AMD MI300X(192GB):27.6次/秒

  • Apple M2 Ultra(192GB):4.16次/秒(比H100慢9倍)

  • Apple M3 Ultra(512GB):1.56次/秒(比H100慢24倍)

理想情况下,工作负载特性应与硬件特性相匹配。否则,硬件会存在浪费(性能过剩)或瓶颈(性能不足)。对工作负载(此处为批大小=1的推理任务)而言,关键特性是模型稀疏度。

模型的稀疏度定义为 1-(激活参数数/总参数数)。

稠密模型稀疏度为0%(因为激活参数 = 总参数)。各模型稀疏度如下:

  • Llama 3.3 405B:总参数=405B,激活参数=405B,稀疏度=0%

  • DeepSeek V3/R1:总参数=671B,激活参数=37B,稀疏度=94.4%

  • Llama 4 Scout:总参数=109B,激活参数=17B,稀疏度=84.4%

  • Llama 4 Maverick:总参数=400B,激活参数=17B,稀疏度=95.75%(非常高!)

  • Llama 4 Behemoth:总参数=2T,激活参数=288B,稀疏度=85.6%

一般来说,稀疏度越高,越适合内存刷新率较低的Apple Silicon。因此,Llama 4 Maverick显然是最适合 Apple Silicon的模型。

另外更重要的原因就是Apple Silicon是运行大模型最具成本效益的方案,因为统一内存每GB的成本远低于GPU显存:

  • NVIDIA H100:80GB,3TB/s,售价$25,000,每GB成本$312.50

  • AMD MI300X:192GB,5.3TB/s,售价$20,000,每GB成本$104.17

  • Apple M3 Ultra:512GB,800GB/s,售价$9,500,每GB成本$18.55

以2万亿参数巨兽Llama 4 Behemoth为例。

  • 考虑到若用H100来完整容纳Behemoth模型(fp16精度),则需要50块H100,总成本为125万美元;

  • MI300X的总成本则为42万美元;

  • 但若使用M3 Ultra,总成本仅为7.6万美元!

以下是网友@alexocheema对不同版本Mac运行新Llama 4版本的情况进行了全面分析。

Llama 4这次发布的模型最大一个优点之一就是稀疏模型,这给了本地部署很多想象力,也是开源模型的使命。

以精度4-bit为例,使用MLX推理框架可以在具有足够RAM的Mac上部署这些模型。

网友@awnihannun总结了部署Llama 4最新三个模型所需要的最小配置,几乎都可以完成本地部署:

  • Llama 4 Scout 109B参数:64GB的M4 Max;

  • Llama 4 Maverick 400B参数:256GB的M3 Ultra;

  • Llama 4 Behemoth 2T参数:3台512GB的M3 Ultra;

Llama 4很强,就是写代码有点菜

说完了硬件,再来看看Llama 4的实测效果。 网友@gnukeith测试了Llama 4的多模态能力,让模型识别图片中的人物来自于哪个动漫,Llama成功识别!

网友@attentionmech制作了一个模型视觉化网页(简单说就是看模型有多少层,有多深),Llama 4视觉上看起来确实令人惊叹。

网友@philip_kiely使用Llama 4(Maverick)轻松击败了Brick Breaker氛围测试。

当然,也有翻车的,比如网友@fighto测试了「喜闻乐见」的让模型数r的问题,Llama 4 Maverick回答错误。

网友@tariquesha1测试了Llama 4的图像生成能力。

再来看看Llama 4写代码的实战案例。

网友AlexBefest宣布Llama 4 Maverick——Python六边形测试失败。Python六边形测试可以说是每个新发布大模型的「试金石」了。

下面展示了其他模型在Python六边形测试弹跳小球上的结果,来自Github的KCORES团队。

KCORES团队成员karminski-牙医发布了Llama 4 Scout和Llama 4 Maverick的测试结果。

用他的话说,Llama 4 Scout小参数模型开心就好;足足有402B参数的Maverick模型的表现并不是很满意:

  • Scout小参数模型大概接近Grok2的水平(咋还倒退了);

  • 而Mavericks还不如使用DeepSeek-V3-0324;

  • 总之不建议Llama 4写代码

按照KCORES LLM Arena的评测结果,目前最好的模型GPT-4.5-Preview。

当然,目前的测试只针对写代码,其他长文本和多模态领域还需要更多的测试案例。

Llama 4的另一个突破就是支持10M的上下文窗口长度,相当于20个小时的视频。

全网部署Llama 4

不管怎么说Llama 4的发布依然是开源模型的又一剂强心针。 各家巨头和平台同时宣布支持最新的Llama 4。 微软CEO Satya Nadella宣布马上将Scout和Maverick发布在Azure AI Foundry平台。

Cerebras宣布将在下周完成Llama 4最新模型的部署。

Together AI上也同步推出Llama 4模型,作为Meta的发布合作伙伴,还支持Together API的方式来访问Llama 4 Maverick 和Llama 4 Scout。

T3 Chat也宣布Llama 4 Scout和Maverick均已启动,Scout由Groq托管,而Maverick由OpenRouter托管,并且声明了小参数模型Scout非常便宜,决定免费发布。

Databricks数据智能平台宣布使用Llama模型来为AI应用程序、智能体和工作流程提供支持。

接下来还会有更多的平台跟进Llama 4最新模型,就像几个月前各家平台也是「疯狂」上线DeepSeek一样。

还有一个问题,为啥小扎选在他们的休息日发布Llama 4,马上就周一了啊?

Defined和Liftoff的联合创始人Nathan Lambert说顶尖Lab的领导们都会知道其他Labs的发布计划。

难道说小扎知道下周会有什么「疯狂」的模型发布可能会盖过Llama 4的风头,所以「赶鸭子上架」吗。

首先在Llama 4的Github Model_Card的更新日志中,发现一个改动:

模型发布的日期从美国时间的4月7号改到了4月5号(也就是我们4月6号的凌晨)!

所以,周一Meta还会发布什么新模型吗?

在llama.com的官网上,我们看到了llama4-resoning-is-coming的后缀,似乎预示着llama-4推理模型也要马上发布了!

而奥特曼继续放出他的烟雾弹,在社交媒体不停的预热:OpenAI接下来也要放大招了!

而不论是此前奥特曼宣布GPT5、o3和o4-mini的消息,还是Llama 4的发布,还是DeepSeek和清华共同发布的论文,似乎预示着一件事:

所有人都在等待并期待着DeepSeek-R2!

请大家做好准备,也许下周即将是「疯狂」的一周。

参考资料:

https://x.com/karminski3/status/1908673924596195838

https://x.com/awnihannun/status/1908676110717771994

https://x.com/alexocheema/status/1908651942777397737

https://docs.google.com/spreadsheets/d/1mcRayUPtVJG_hOMruWWEf6T8TKbfTQIvH3WUkj_kx6E/edit?gid=0#gid=0

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贝加尔湖深达千米,水量是长江的25倍,里面最大的鱼有多大?

贝加尔湖深达千米,水量是长江的25倍,里面最大的鱼有多大?

史智文道
2026-06-21 16:45:44
为什么马、驴、骆驼都可以骑乘,唯独鹿从未被大规模驯化骑乘?

为什么马、驴、骆驼都可以骑乘,唯独鹿从未被大规模驯化骑乘?

磊子讲史
2026-06-18 17:58:35
香港人气主持施可莹离世!社交网公布噩耗:在亲友陪伴下安详离世

香港人气主持施可莹离世!社交网公布噩耗:在亲友陪伴下安详离世

TVB剧评社
2026-06-21 21:20:45
虎扑热帖标题引热议:珠圆玉润丰乳肥臀

虎扑热帖标题引热议:珠圆玉润丰乳肥臀

浅遇时光
2026-06-21 00:54:28
“摸奶子”再惹争议,OPPO的流量反噬开始了

“摸奶子”再惹争议,OPPO的流量反噬开始了

品牌头版
2026-05-13 10:18:15
西班牙战沙特赛前,亚马尔佩戴40万欧元吊坠亮相

西班牙战沙特赛前,亚马尔佩戴40万欧元吊坠亮相

懂球帝
2026-06-22 01:40:06
世界杯疯狂之夜:日本队爆冷晋级,第三球队诞生

世界杯疯狂之夜:日本队爆冷晋级,第三球队诞生

雅儿电影解说
2026-06-21 14:05:24
俯卧撑不掌握这三个技巧 练三年肌肉也难增长

俯卧撑不掌握这三个技巧 练三年肌肉也难增长

解说阿洎
2026-06-22 08:57:39
墙倒众人扶!被人民日报点名的李维刚,再次证明真诚才是必杀技

墙倒众人扶!被人民日报点名的李维刚,再次证明真诚才是必杀技

舊事別提
2026-06-12 07:09:01
笑喷!瓜农种70亩西瓜,豆包忽悠他少用尿素多用氨基酸,瓜小不甜

笑喷!瓜农种70亩西瓜,豆包忽悠他少用尿素多用氨基酸,瓜小不甜

汉史趣闻
2026-06-21 14:40:17
本田圭佑:铃木彩艳身体素质像怪物;他脚下力量太神了

本田圭佑:铃木彩艳身体素质像怪物;他脚下力量太神了

懂球帝
2026-06-21 14:36:05
又给C罗压力了!34岁老将1传1射,3-1逆转拿下第1胜,变阵收奇效

又给C罗压力了!34岁老将1传1射,3-1逆转拿下第1胜,变阵收奇效

萌兰聊个球
2026-06-22 11:26:44
公司团建唯独漏我,我关机爬4天黄山回来得知公司因我损失4500万

公司团建唯独漏我,我关机爬4天黄山回来得知公司因我损失4500万

麦子情感故事
2026-06-21 17:19:13
每天吃一个鸡蛋错了?再三提醒:上了年纪的人,鸡蛋应这样吃

每天吃一个鸡蛋错了?再三提醒:上了年纪的人,鸡蛋应这样吃

芹姐说生活
2026-06-21 22:27:13
陌生号码一律不接!中国社会正在支付一笔隐形信任税

陌生号码一律不接!中国社会正在支付一笔隐形信任税

时光在作祟
2026-06-22 00:32:39
人均200多块的上海自助餐,怎么成了最新北京排队王?

人均200多块的上海自助餐,怎么成了最新北京排队王?

每日人物
2026-06-22 10:03:32
52岁退休母亲给女儿带娃,5个月后小腹变大,女儿得知真相懵了

52岁退休母亲给女儿带娃,5个月后小腹变大,女儿得知真相懵了

秋风专栏
2025-03-05 12:39:26
世界杯耻辱记录,2 场比赛换 2 位教练,丢了 9 球后回家

世界杯耻辱记录,2 场比赛换 2 位教练,丢了 9 球后回家

十点体坛
2026-06-21 18:38:40
阿尔特塔卸磨杀驴!阿森纳刚夺冠就甩功臣,8000 万抢世界杯神锋

阿尔特塔卸磨杀驴!阿森纳刚夺冠就甩功臣,8000 万抢世界杯神锋

澜归序
2026-06-22 06:21:27
王立群:一个人穿了超过十年的衣服,说明了两个问题

王立群:一个人穿了超过十年的衣服,说明了两个问题

心理观察局
2026-06-22 07:17:19
2026-06-22 12:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15500文章数 66928关注度
往期回顾 全部

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

头条要闻

伊朗挥一挥衣袖愤然离席 看直播的记者皱眉神情紧张

头条要闻

伊朗挥一挥衣袖愤然离席 看直播的记者皱眉神情紧张

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

韩红帮冯小刚宣传,结果翻车了…

财经要闻

“床垫界的特斯拉”破产了

汽车要闻

全面提升 全新理想L8 livis将家用舒适再进化

态度原创

旅游
房产
亲子
家居
军事航空

旅游要闻

端午假期,超120万人次打卡“爽爽贵阳·新十景”

房产要闻

商业清零式退潮,大量住宅登场!三亚又要大规模调规!

亲子要闻

“孩子体内的甲酰胺从何而来”,Babycare恳请有关部门进行全面调查

家居要闻

绿意盎然 自然之境

军事要闻

东风-17发射状态首次公开 多车齐射场面硬核

无障碍浏览 进入关怀版