网易首页 > 网易号 > 正文 申请入驻

炸裂!Meta深夜推出Llama 4系列 :单卡H100能跑,千万上下文,还有2万亿“巨兽”

0
分享至

  小扎终于想起发布 Llama 4 了,本来早就应该发布的的节奏全被DeepSeek R1打乱了,哈哈!

  Meta 刚刚放出了 Llama 4 系列的首批模型,按照官推的说法这次发布是对 Llama 系列的一次彻底重新设计

  先划重点:

  核心变化:Llama 4 全系采用混合专家(MoE)架构,并且是原生多模态训练,不再是 Llama 3 那样的纯文本模型了。这次发布了Llama 4 ScoutLlama 4 Maverick,同时还有最强大的Llama 4 Behemoth预览

  下面给大家第一时间做个梳理,

  Llama 4 Scout:

  定位:性能最强的小尺寸模型

  参数:17B 激活参数,16 个专家,总参数量 109B

  亮点:速度极快,原生支持多模态,拥有业界领先的 1000 万+ Token 多模态上下文窗口(相当于处理 20 多个小时的视频!),并且能在单张 H100 GPU 上运行(Int4 量化后)

  Llama 4 Maverick:

  定位:同级别中最佳的多模态模型

  性能:在多个主流基准测试中击败了 GPT-4o 和 Gemini 2.0 Flash,推理和编码能力与新发布的 DeepSeek v3 相当,但激活参数量不到后者一半

  参数:17B 激活参数,128 个专家,总参数量 400B,上下文窗口 100 万+

  性价比:提供了同类最佳的性能成本比。其实验性聊天版本在 LMArena 上 ELO 评分达到 1417,排名第二

  部署:可以在单个主机上运行

  Llama 4 Behemoth (预览,训练中):

  定位:Meta 迄今最强模型,全球顶级 LLM 之一

  性能:在多个 STEM 基准上优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro

  参数:288B 激活参数,16 个专家,总参数量高达2万亿 (2T

  训练细节:使用 FP8 精度,在32000 块 GPU上训练了30 万亿多模态 Token

  角色:作为 Maverick 模型进行代码蒸馏时的教师模型

  技术亮点解读

  原生多模态:所有模型都采用早期融合(early fusion)策略,将文本、图像、视频 Token 无缝整合到统一的模型骨干中

  训练流程优化:采用了 轻量级 SFT → 在线 RL → 轻量级 DPO 的后训练流程。开发者强调,过度使用 SFT/DPO 会过度约束模型,限制在线 RL 阶段的探索能力,所以要保持“轻量”

  超长上下文的秘密 (10M+):实现这一突破的关键是iRoPE 架构("i" 代表 interleaved layers, infinite)

  核心思想:通过追求无限上下文的目标来指导架构设计,特别是利用长度外推能力——在短序列上训练,泛化到极长序列。最大训练长度是 256K

  具体做法

  • 本地注意力层(Local Attention)使用 RoPE 处理短上下文(如 8K),可并行化

  • 全局注意力层(Global Attention)才负责处理长上下文(>8K),且不使用位置编码(NoPE 思想),这有助于提升外推能力

  • 为了解决上下文变长时注意力权重趋于平坦、影响推理的问题,在推理时对全局层应用温度缩放,增强长距离推理,同时保持短上下文性能。公式大致为:xq *= 1 + log(floor(i / α) + 1) * β(i 是位置索引)

  大佬评价:

  一个遗憾 (前kaggle总裁,fast AI 创始人Jeremy Howard):虽然感谢开源,但 Jeremy Howard 也表达了失望。Llama 4 Scout 和 Maverick 都是大型 MoE 模型,即使量化后也无法在消费级 GPU 上运行,这对开源社区的可及性来说是个不小的损失

  Jim Fan(英伟达高级研究经理)

  部署便利性优先:Jim Fan 认为,对于开源模型,特别是 MoE 架构,易于部署正变得比单纯追求模型尺寸更重要。Meta 强调 Llama 4 Scout 能在单张 H100 上运行,这与 Llama-3 401B(虽然强大但采用率较低)形成对比,说明 MoE 是一个更符合当前开源策略的方向

  智能调参 MetaP:MetaP这个用于智能调整训练超参数的新技术。虽然细节不多,但他猜测这可能类似于 Meta 开源的Ax 框架中的贝叶斯优化,能在有限的试验预算内进行自适应实验(如 A/B 测试)

  后训练策略:重 RL 轻 SFT/DPO: Llama 4 的后训练策略是降低 SFT/DPO 的权重,提升在线 RL 的权重。原因是过多的 SFT/DPO 会过度约束模型,限制其在 RL 阶段的探索能力

  自我批判式数据筛选:一个有趣的技术点是,训练过程中模型较早的检查点(checkpoint)可以作为“批评家”来评估后续模型,帮助过滤掉过于简单的训练样本/提示,让模型在不断筛选和学习中变得更强

  Behemoth 的训练细节与数据挑战: Llama 4 Behemoth 的庞大规模(FP8 精度、32K GPU、30T tokens 训练)。由于模型能力太强,普通的 SFT 数据对它来说太“简单”了,因此需要裁剪掉高达 95% 的 SFT 数据,而小模型只需要裁剪约 50%

  实现千万级上下文窗口的技术手段看起来“相当简单”:

  1.去除部分位置编码:在某些注意力层(特别是全局层)不使用位置编码,借鉴了NoPE (No Positional Embedding)论文的思想

  2.调整 Softmax 注意力:根据上下文的长度来调整 Softmax 注意力计算

  这次Llama 4的推理模型还不见踪影,这多少有点说不过去,大家觉得呢?毕竟Meta也是妥妥的大厂啊!不过Meta 表示这只是开始,后续还有更多模型,团队正在全力开发中,特别提到了Llama 4 Reasoning模型

  另外相比于DeepSeekMIT开源方式,Llama 4 的新许可证有几个限制:

  - 每月活跃用户超过 7 亿的公司必须向 Meta 申请特殊许可,Meta 可自行决定授予或拒绝该许可。

  - 必须在网站、界面、文档等处突出显示“使用 Llama 构建”。

  - 使用 Llama Materials 创建的任何 AI 模型的名称开头都必须包含“Llama”

  - 必须在任何分发的“通知”文本文件中包含具体的归属通知 - 使用必须遵守 Meta 单独的可接受使用政策(参考 http://llama.com/llama4/use-policy...) - 仅出于符合品牌要求的有限许可使用“Llama”名称

  参考:

  https://ai.meta.com/blog/llama-4-multimodal-intelligence/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇马颜面尽失,欧冠决赛场外闹剧上演,大巴巡游暗讽穆里尼奥战术

皇马颜面尽失,欧冠决赛场外闹剧上演,大巴巡游暗讽穆里尼奥战术

穆里尼奥主义者
2026-05-31 12:38:43
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
南开院长、中大副院长被撸!耿同学明明赢了,为啥彻底输了?

南开院长、中大副院长被撸!耿同学明明赢了,为啥彻底输了?

大江看潮
2026-05-31 09:37:53
原恒大总裁夏海钧豪宅被拍卖,7室5厅6卫,428平,价值7000万,起拍价4943.85万

原恒大总裁夏海钧豪宅被拍卖,7室5厅6卫,428平,价值7000万,起拍价4943.85万

新浪财经
2026-05-30 16:44:03
无锡网红夜市明起暂停!

无锡网红夜市明起暂停!

江南晚报
2026-05-31 11:19:57
地主恶霸刘文彩:子孙众多,后代回来祭拜,光饭菜就准备了200席

地主恶霸刘文彩:子孙众多,后代回来祭拜,光饭菜就准备了200席

阿器谈史
2026-05-11 15:43:13
中国女人到底有多少看过黄片?答案可能让你大吃一惊!

中国女人到底有多少看过黄片?答案可能让你大吃一惊!

樱桃小丸子1987
2026-05-20 14:46:33
家业:李祯带回御赐四合墨,七祖母把掌家大权交给祯娘,戚九遇袭

家业:李祯带回御赐四合墨,七祖母把掌家大权交给祯娘,戚九遇袭

两年的海
2026-05-31 11:26:55
韩国5-0特立尼达和多巴哥 孙兴慜、曹圭成双响曹侑珉、裴峻浩伤退

韩国5-0特立尼达和多巴哥 孙兴慜、曹圭成双响曹侑珉、裴峻浩伤退

兰亭墨未干
2026-05-31 11:14:17
南京医学院女学生被害案,历经28年,真相终于露出水面

南京医学院女学生被害案,历经28年,真相终于露出水面

莫地方
2026-05-26 01:15:03
我定居日本20年,娶过3个妻子,发现日本的女人都有一个共同特点

我定居日本20年,娶过3个妻子,发现日本的女人都有一个共同特点

千秋文化
2026-05-20 20:33:05
为什么现金受贿还是会被查到?纪委的3个手段你根本想不到

为什么现金受贿还是会被查到?纪委的3个手段你根本想不到

职场资深秘书
2026-05-25 15:59:26
香会变调:美国在台海问题上收声

香会变调:美国在台海问题上收声

环球网资讯
2026-05-30 20:40:20
国安夏窗转会消息:斯帕无缘中超下半程,重庆主力有望加盟球队

国安夏窗转会消息:斯帕无缘中超下半程,重庆主力有望加盟球队

体坛鉴春秋
2026-05-31 10:05:10
首次季后赛就进总决赛,斩获MVP,文班痛哭,公开发声,太霸气了

首次季后赛就进总决赛,斩获MVP,文班痛哭,公开发声,太霸气了

萌兰聊个球
2026-05-31 12:11:35
一人毁掉整部剧?央视剧《主角》唯一败笔,观众:看他演戏真别扭

一人毁掉整部剧?央视剧《主角》唯一败笔,观众:看他演戏真别扭

老黯谈娱
2026-05-26 12:47:27
法拉利推出首款纯电动车,定价435万元,被指撞脸“萤火虫”!股价应声大跌,前主席吐槽“能不能抠掉车标”

法拉利推出首款纯电动车,定价435万元,被指撞脸“萤火虫”!股价应声大跌,前主席吐槽“能不能抠掉车标”

极目新闻
2026-05-28 14:23:11
这一回,轮到烟草员工开始没心情上班了?干活没底气了?

这一回,轮到烟草员工开始没心情上班了?干活没底气了?

今朝牛马
2026-05-26 20:40:56
日本人在美网探问:如果日本再次侵略中国,中国人会不会害怕?

日本人在美网探问:如果日本再次侵略中国,中国人会不会害怕?

半路友人之他
2026-05-31 12:17:26
终于等到你!国足天才时隔587天再次踢满全场:已贡献3助攻

终于等到你!国足天才时隔587天再次踢满全场:已贡献3助攻

邱泽云
2026-05-30 23:44:54
2026-05-31 13:36:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1040文章数 395关注度
往期回顾 全部

数码要闻

苹果新款Beats头戴耳机曝光 巴萨小将亚马尔率先佩戴

头条要闻

解放军代表针对日本防卫大臣尖锐提问 对方未正面回应

头条要闻

解放军代表针对日本防卫大臣尖锐提问 对方未正面回应

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

贾玲最新动作!侯明昊给虞书欣抬轿!

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

艺术
旅游
家居
教育
公开课

艺术要闻

Luis Alvarez Roure | 美国现实主义画家

旅游要闻

广西北海:AI赋能开启海岛游“黄金时代”

家居要闻

云栖 舒展如流云

教育要闻

保姆级教程:2026山东高考打印准考证步骤+入口!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版