网易首页 > 网易号 > 正文 申请入驻

炸裂!Meta深夜推出Llama 4系列 :单卡H100能跑,千万上下文,还有2万亿“巨兽”

0
分享至

  小扎终于想起发布 Llama 4 了,本来早就应该发布的的节奏全被DeepSeek R1打乱了,哈哈!

  Meta 刚刚放出了 Llama 4 系列的首批模型,按照官推的说法这次发布是对 Llama 系列的一次彻底重新设计

  先划重点:

  核心变化:Llama 4 全系采用混合专家(MoE)架构,并且是原生多模态训练,不再是 Llama 3 那样的纯文本模型了。这次发布了Llama 4 ScoutLlama 4 Maverick,同时还有最强大的Llama 4 Behemoth预览

  下面给大家第一时间做个梳理,

  Llama 4 Scout:

  定位:性能最强的小尺寸模型

  参数:17B 激活参数,16 个专家,总参数量 109B

  亮点:速度极快,原生支持多模态,拥有业界领先的 1000 万+ Token 多模态上下文窗口(相当于处理 20 多个小时的视频!),并且能在单张 H100 GPU 上运行(Int4 量化后)

  Llama 4 Maverick:

  定位:同级别中最佳的多模态模型

  性能:在多个主流基准测试中击败了 GPT-4o 和 Gemini 2.0 Flash,推理和编码能力与新发布的 DeepSeek v3 相当,但激活参数量不到后者一半

  参数:17B 激活参数,128 个专家,总参数量 400B,上下文窗口 100 万+

  性价比:提供了同类最佳的性能成本比。其实验性聊天版本在 LMArena 上 ELO 评分达到 1417,排名第二

  部署:可以在单个主机上运行

  Llama 4 Behemoth (预览,训练中):

  定位:Meta 迄今最强模型,全球顶级 LLM 之一

  性能:在多个 STEM 基准上优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro

  参数:288B 激活参数,16 个专家,总参数量高达2万亿 (2T

  训练细节:使用 FP8 精度,在32000 块 GPU上训练了30 万亿多模态 Token

  角色:作为 Maverick 模型进行代码蒸馏时的教师模型

  技术亮点解读

  原生多模态:所有模型都采用早期融合(early fusion)策略,将文本、图像、视频 Token 无缝整合到统一的模型骨干中

  训练流程优化:采用了 轻量级 SFT → 在线 RL → 轻量级 DPO 的后训练流程。开发者强调,过度使用 SFT/DPO 会过度约束模型,限制在线 RL 阶段的探索能力,所以要保持“轻量”

  超长上下文的秘密 (10M+):实现这一突破的关键是iRoPE 架构("i" 代表 interleaved layers, infinite)

  核心思想:通过追求无限上下文的目标来指导架构设计,特别是利用长度外推能力——在短序列上训练,泛化到极长序列。最大训练长度是 256K

  具体做法

  • 本地注意力层(Local Attention)使用 RoPE 处理短上下文(如 8K),可并行化

  • 全局注意力层(Global Attention)才负责处理长上下文(>8K),且不使用位置编码(NoPE 思想),这有助于提升外推能力

  • 为了解决上下文变长时注意力权重趋于平坦、影响推理的问题,在推理时对全局层应用温度缩放,增强长距离推理,同时保持短上下文性能。公式大致为:xq *= 1 + log(floor(i / α) + 1) * β(i 是位置索引)

  大佬评价:

  一个遗憾 (前kaggle总裁,fast AI 创始人Jeremy Howard):虽然感谢开源,但 Jeremy Howard 也表达了失望。Llama 4 Scout 和 Maverick 都是大型 MoE 模型,即使量化后也无法在消费级 GPU 上运行,这对开源社区的可及性来说是个不小的损失

  Jim Fan(英伟达高级研究经理)

  部署便利性优先:Jim Fan 认为,对于开源模型,特别是 MoE 架构,易于部署正变得比单纯追求模型尺寸更重要。Meta 强调 Llama 4 Scout 能在单张 H100 上运行,这与 Llama-3 401B(虽然强大但采用率较低)形成对比,说明 MoE 是一个更符合当前开源策略的方向

  智能调参 MetaP:MetaP这个用于智能调整训练超参数的新技术。虽然细节不多,但他猜测这可能类似于 Meta 开源的Ax 框架中的贝叶斯优化,能在有限的试验预算内进行自适应实验(如 A/B 测试)

  后训练策略:重 RL 轻 SFT/DPO: Llama 4 的后训练策略是降低 SFT/DPO 的权重,提升在线 RL 的权重。原因是过多的 SFT/DPO 会过度约束模型,限制其在 RL 阶段的探索能力

  自我批判式数据筛选:一个有趣的技术点是,训练过程中模型较早的检查点(checkpoint)可以作为“批评家”来评估后续模型,帮助过滤掉过于简单的训练样本/提示,让模型在不断筛选和学习中变得更强

  Behemoth 的训练细节与数据挑战: Llama 4 Behemoth 的庞大规模(FP8 精度、32K GPU、30T tokens 训练)。由于模型能力太强,普通的 SFT 数据对它来说太“简单”了,因此需要裁剪掉高达 95% 的 SFT 数据,而小模型只需要裁剪约 50%

  实现千万级上下文窗口的技术手段看起来“相当简单”:

  1.去除部分位置编码:在某些注意力层(特别是全局层)不使用位置编码,借鉴了NoPE (No Positional Embedding)论文的思想

  2.调整 Softmax 注意力:根据上下文的长度来调整 Softmax 注意力计算

  这次Llama 4的推理模型还不见踪影,这多少有点说不过去,大家觉得呢?毕竟Meta也是妥妥的大厂啊!不过Meta 表示这只是开始,后续还有更多模型,团队正在全力开发中,特别提到了Llama 4 Reasoning模型

  另外相比于DeepSeekMIT开源方式,Llama 4 的新许可证有几个限制:

  - 每月活跃用户超过 7 亿的公司必须向 Meta 申请特殊许可,Meta 可自行决定授予或拒绝该许可。

  - 必须在网站、界面、文档等处突出显示“使用 Llama 构建”。

  - 使用 Llama Materials 创建的任何 AI 模型的名称开头都必须包含“Llama”

  - 必须在任何分发的“通知”文本文件中包含具体的归属通知 - 使用必须遵守 Meta 单独的可接受使用政策(参考 http://llama.com/llama4/use-policy...) - 仅出于符合品牌要求的有限许可使用“Llama”名称

  参考:

  https://ai.meta.com/blog/llama-4-multimodal-intelligence/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗高级将领:美军被迫撤离伊朗边境邻近地区

伊朗高级将领:美军被迫撤离伊朗边境邻近地区

财联社
2026-03-30 00:50:06
李荣浩喊话单依纯侵权演唱《李白》,律师解读:最高可处罚款25万元

李荣浩喊话单依纯侵权演唱《李白》,律师解读:最高可处罚款25万元

红星新闻
2026-03-29 18:00:23
比亚迪终于豪华起来!全新腾势D9来了,这才叫顶级颜值!

比亚迪终于豪华起来!全新腾势D9来了,这才叫顶级颜值!

米粒说车唯一呀
2026-03-29 15:37:15
心脏决定寿命!建议:别太节俭,多吃这3种食物,让心脏变年轻

心脏决定寿命!建议:别太节俭,多吃这3种食物,让心脏变年轻

阿龙美食记
2026-03-23 20:16:13
一段夫妻离婚对话刷屏!丈夫坦诚变心、净身出户,妻子竟平静应允

一段夫妻离婚对话刷屏!丈夫坦诚变心、净身出户,妻子竟平静应允

火山詩话
2026-03-28 15:09:53
落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太辛酸

落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太辛酸

阿伧说事
2026-03-29 19:45:09
武汉女足4球惨败!媒体人热议:输得无话可说,引援换帅全失败

武汉女足4球惨败!媒体人热议:输得无话可说,引援换帅全失败

奥拜尔
2026-03-29 21:12:29
张雪峰三大遗憾!50万没留住父亲、对不起妻子,还有误女儿前程

张雪峰三大遗憾!50万没留住父亲、对不起妻子,还有误女儿前程

八斗小先生
2026-03-27 16:18:15
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
英国出手!陈志亲信、“崩牙驹”、8号园区等全被制裁

英国出手!陈志亲信、“崩牙驹”、8号园区等全被制裁

华人星光
2026-03-29 12:15:43
陈思诚野心真大,开启刑侦八虎篇章,张译扛大旗,票房剑指40亿

陈思诚野心真大,开启刑侦八虎篇章,张译扛大旗,票房剑指40亿

娱乐圈笔娱君
2026-03-28 09:30:13
台中市长卢秀燕发布声明

台中市长卢秀燕发布声明

果妈聊娱乐
2026-03-29 10:00:45
张雪峰离世当日仍直播,吃油腻外卖,曾希望猝死,巨额遗产超10亿

张雪峰离世当日仍直播,吃油腻外卖,曾希望猝死,巨额遗产超10亿

电影烂番茄
2026-03-29 20:52:07
唯独缺少杨瀚森!混音队季后赛庆海报引争议,球迷怒斥区别对待!

唯独缺少杨瀚森!混音队季后赛庆海报引争议,球迷怒斥区别对待!

田先生篮球
2026-03-29 16:41:11
鲁比奥与泽连斯基互相指责对方说谎,这说明什么?

鲁比奥与泽连斯基互相指责对方说谎,这说明什么?

山河路口
2026-03-29 23:49:25
辛芷蕾没遮副乳,全网吵翻天,到底在吵什么?

辛芷蕾没遮副乳,全网吵翻天,到底在吵什么?

动物奇奇怪怪
2026-03-27 01:23:39
他们两个不会偷偷的在一起了吧,确实他们挺合适的男才女貌

他们两个不会偷偷的在一起了吧,确实他们挺合适的男才女貌

可乐谈情感
2026-03-27 16:53:38
男子3岁时家门口被拐,33年后认亲:自幼知晓身世,爱吃折耳根推测家乡在云贵川丨红星寻人

男子3岁时家门口被拐,33年后认亲:自幼知晓身世,爱吃折耳根推测家乡在云贵川丨红星寻人

红星新闻
2026-03-28 15:07:46
乌军团队在中东被一锅端!泽连斯基没想到:伊朗军队比俄军猛得多

乌军团队在中东被一锅端!泽连斯基没想到:伊朗军队比俄军猛得多

寄星夜幕星河
2026-03-29 22:45:15
96岁外婆每天桃酥配糖水,子女急得网上求助,结果全“翻车”了!

96岁外婆每天桃酥配糖水,子女急得网上求助,结果全“翻车”了!

叮当当科技
2026-03-29 15:04:51
2026-03-30 01:27:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1035文章数 396关注度
往期回顾 全部

数码要闻

传 iOS 27 将引入全新 Siri 独立应用与“扩展”功能

头条要闻

中国警告美国:勿将"冲突战乱"引入亚太地区

头条要闻

中国警告美国:勿将"冲突战乱"引入亚太地区

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

汪峰定律再现!李荣浩喊话单依纯侵权

财经要闻

Kimi、Minimax 们的算力荒

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

艺术
亲子
家居
手机
公开课

艺术要闻

不守墨矩的扬州八怪

亲子要闻

夏天来了,如何给小宝宝洗澡?具体步骤如下

家居要闻

曲线华尔兹 现代简约

手机要闻

骁龙8 Elite Gen6系列规格大揭秘:LPDDR6、Adreno 850,都来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版