网易首页 > 网易号 > 正文 申请入驻

Llama 4,超过DeepSeek了吗

0
分享至

在科技巨头接连暴跌的周末喘息之际,Meta推出了Llama 4。

它想用千万上下文、原生多模态和一个即将推出的2万亿参数基座模型,证明它反超了DeepSeek,自己仍然是硅谷开放权重大模型之王。

去年底今年初,DeepSeek在一个月内接连推出开源基座模型V3和推理模型R1,完胜Llama 3,扎克伯格懵逼了,Meta AI陷入一片恐慌。

R1的训练仅用了2000多张H800,费用下来500多万美元,相当于仅用了Meta一名技术大咖的年薪,而且Llama 3 训练用了16000张H100。

从那之后,大家都等着Meta会拿出一个什么样的Llama 4。

这次发布的Llama 4 群,包括了两个大模型Maverick-400B参数(17B活跃参数,128专家模型),Scout-109B (17B活跃,16专家)。还有一个仍在训练中的基座模型Behemoth-2T(288B活跃,16专家)。

Llama 4 群从总体上实现了对DeepSeek V3.1的超越,如千万上下文,原生多模态,以及看起来更便宜的价格,但是它没有推理模型。Llama 4也超过了其他主要的开放权重或免费的小模型,如Gemma 3、Mistral 3.1和Gemini 2.0 Flash-lite。

Behemoth-2T已经超过了包括GPT-4.5在内的前沿基座模型,但是Meta在介绍中没有提及、也可能逊色于Gemini 2.5 Pro。

细看一下各主要指标的得分对比:

Behemoth超过了目前最前沿的大模型GPT-4.5,Gemini 2.0 pro, Claude Sonnet 3.7,但Gemini 2.5 Pro除外:

Maverick的性价比上超过了主流应用模型GPT-4o、DeepSeek V3.1、Gemini 2.0 Flash:

Scout吊打其他主流的开源模型:

预训练

Llama 4 首次采用专家混合架构(Mixture of Experts,简称 MoE)。以 Llama 4 Maverick 为例,该模型拥有 170 亿个激活参数,总参数量达 4000 亿。为了提升推理效率,密集层和 MoE 层可交替使用。MoE 层包括 128 个路由专家和一个共享专家。每个 token 会同时发送到共享专家和 128 个专家中的一个。因此,虽然所有参数都被保存在内存中,但实际推理时只激活其中一部分参数。这种设计降低了模型的推理成本和延迟,使得 Llama 4 Maverick 可以在一台 英伟达 H100 DGX 主机上运行,便于部署,也可支持分布式推理以获得更高效率。

Llama 4 模型原生支持多模态,通过早期融合(early fusion)将文本与视觉 token 无缝整合到统一的模型主干中。早期融合是一个重要突破,使得模型可以利用海量的无标注文本、图像和视频数据进行联合预训练。Meta AI还升级了视觉编码器,其基础为 MetaCLIP,但通过与冻结的 Llama 模型联合训练,以更好地适配 LLM。

Meta AI开发了一种名为 MetaP 的新训练技术,用于可靠设定关键模型超参数,如各层的学习率和初始化比例。这些超参数具有良好的可迁移性,适用于不同的 batch size、模型宽度、深度和训练 token 数。Llama 4 在预训练阶段覆盖了 200 种语言,其中超过 100 种语言的训练 token 数超 10 亿,总体多语言 token 数是 Llama 3 的 10 倍,为开源微调提供了良好的基础。

Behemoth使用 FP8 精度和 32K 张 GPU 进行预训练,达到了每张 GPU 390 TFLOPs 的训练效率。训练所用数据总量超过 30 万亿 tokens,是 Llama 3 的两倍以上,涵盖了丰富的文本、图像和视频数据集。相比之下,Llama 3的精度是BF16,使用了16000张GPU,达到了每张GPU 400 TFLOPs的训练效率。

Meta AI还引入了“中期训练”(mid-training)阶段,以新颖的训练策略强化模型的核心能力,包括利用专用数据集实现超长上下文扩展,在提升模型质量的同时,为 Llama 4 Scout 实现了业界领先的 1000 万 token 输入上下文长度。

后训练

Maverick充当了主力助手和对话模型,在进行后训练时,最大的挑战是如何平衡多模态输入、推理能力和对话表现。在多模态融合方面,Meta AI设计了课程式训练策略(curriculum strategy),确保模型在多模态任务中的性能不逊于各个单一模态专家模型。针对 Llama 4,Meta AI全面改造了后训练流程,采用了新的方法链条:轻量监督微调(SFT)> 在线强化学习(RL)> 轻量偏好优化(DPO)。他们发现,SFT 和 DPO 如果过于严格,会限制模型在在线 RL 阶段的探索能力,尤其影响推理、编程与数学任务的表现。

为了解决这一问题,Meta AI使用 Llama 模型作为判定器,对数据进行筛选,剔除了超过 50% 被标记为“简单”的训练数据,仅在剩下的高难度数据上进行轻量微调。

在后续的多模态在线强化学习阶段,Meta AI通过精挑细选更具挑战性的 prompt,实现了性能的跃迁。Meta AI还引入了一种连续在线 RL 策略:训练过程中交替进行模型训练和数据过滤,仅保留中等到高难度的 prompt,从而实现了计算效率和准确率之间的最佳平衡。

Meta AI再通过一次轻量级 DPO 微调,处理模型响应质量中的边缘情况,使模型在智能能力与对话表现之间达成了理想的平衡。

这种全新的后训练流程架构,以及结合自适应数据筛选的持续在线强化学习策略,使 Llama 4 Maverick 成为一款在智能能力和图像理解上均达到行业顶尖水平的通用聊天模型。

推理能力逊色

Llama 4 群没有推理模型,如果用基座Behemoth来比较,可以发现在数学和通识方面仍然逊色于DeepSeek-R1,全面不及OpenAI o1。

如果拿通用的Maverick 来比较,它跻身于目前主流的多模态模型,在编程、推理、多语言、长上下文处理和图像任务等多个基准上超越了同类模型(如 GPT-4o 和 Gemini 2.0),在编程与推理能力上也可以与体量更大的 DeepSeek v3.1 相媲美。

为什么周六发布

因为硅谷的几家头部AI实验室的高层,彼此了解发布时间表已经司空见惯,所以对 Meta 周六发布,也是不得已的选择,因为下周将会非常疯狂,或者至少有可能盖过 Llama 4 的风头;而原本想上周被特朗普搞得更疯狂。

Semianalysis创始人Dylan Patel说:

“阿里巴巴和DeepSeek会很快发布,并再次超越Meta的。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
56岁大妈心梗离世,医生:吃他汀时除了牛奶,这6种食物尽量少碰

56岁大妈心梗离世,医生:吃他汀时除了牛奶,这6种食物尽量少碰

岐黄传人孙大夫
2026-02-28 22:15:03
特朗普称必要时美军会护航霍尔木兹海峡,美军:护不了

特朗普称必要时美军会护航霍尔木兹海峡,美军:护不了

极目新闻
2026-03-11 20:23:20
镇压抗议的伊朗巴斯基负责人被斩首

镇压抗议的伊朗巴斯基负责人被斩首

桂系007
2026-03-10 23:37:31
女子谈释永信过往,她们姐妹住少林寺3天2夜,争着往释永信房间跑

女子谈释永信过往,她们姐妹住少林寺3天2夜,争着往释永信房间跑

江山挥笔
2025-07-29 16:50:59
随着广岛三箭2-3出局,亚冠精英赛八强诞生4席:东南亚球队占2席

随着广岛三箭2-3出局,亚冠精英赛八强诞生4席:东南亚球队占2席

侧身凌空斩
2026-03-11 20:01:50
直通珠海!新高铁,开通时间定了!

直通珠海!新高铁,开通时间定了!

珠海发布
2026-03-12 10:38:57
金正恩携女儿视察军工厂,了解武器生产情况,体验手枪射击

金正恩携女儿视察军工厂,了解武器生产情况,体验手枪射击

上观新闻
2026-03-12 14:22:06
以色列何去何从,历史惊人的相似,犹太人在打中国的主意

以色列何去何从,历史惊人的相似,犹太人在打中国的主意

走进事件的中心
2026-03-11 21:30:26
中国警告外国航运巨头:你在巴拿马的选择,影响在中国市场的未来

中国警告外国航运巨头:你在巴拿马的选择,影响在中国市场的未来

别人都叫我阿腈
2026-03-12 15:00:28
窜访结束,卓荣泰离开日本,大陆咬死4个字,邱毅:他捅了马蜂窝

窜访结束,卓荣泰离开日本,大陆咬死4个字,邱毅:他捅了马蜂窝

吃货的分享
2026-03-12 15:40:36
近八百架无人机导弹奔袭莫斯科等地!乌克兰对俄发动最大规模攻击

近八百架无人机导弹奔袭莫斯科等地!乌克兰对俄发动最大规模攻击

项鹏飞
2026-03-10 16:56:37
史诗级!2亿“三驾马车”有望空降曼联!“7500万先生”离队在即

史诗级!2亿“三驾马车”有望空降曼联!“7500万先生”离队在即

头狼追球
2026-03-12 12:13:47
国内将逐步淘汰白内障手术?做完人就瞎了?医生告诉你真相

国内将逐步淘汰白内障手术?做完人就瞎了?医生告诉你真相

健康之光
2026-03-12 13:55:08
倒计时3天!巴萨大选终局之战:拉波尔塔陷丑闻,丰特携哈维叫板

倒计时3天!巴萨大选终局之战:拉波尔塔陷丑闻,丰特携哈维叫板

徐扙老表哥
2026-03-12 08:07:22
全球首发,追觅首款“火箭车” 正式亮相!

全球首发,追觅首款“火箭车” 正式亮相!

电动知家
2026-03-12 15:12:28
涉嫌严重违纪违法,熊俊被查

涉嫌严重违纪违法,熊俊被查

都市快报橙柿互动
2026-03-12 16:55:01
美国做梦都没想到!伊朗打击以色列的命根子,难怪特朗普打算停火

美国做梦都没想到!伊朗打击以色列的命根子,难怪特朗普打算停火

张鴘喜欢软软糯糯
2026-03-12 15:38:13
炸裂!图灵奖得主 LeCun 新论文:追逐「AGI」是错的,人类根本不是通用智能

炸裂!图灵奖得主 LeCun 新论文:追逐「AGI」是错的,人类根本不是通用智能

人工智能学家
2026-03-10 18:21:06
耻辱!瓜迪奥拉昏招致命!重用 2 废柴,曼城 0-3 被皇马吊打

耻辱!瓜迪奥拉昏招致命!重用 2 废柴,曼城 0-3 被皇马吊打

澜归序
2026-03-12 06:08:06
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
2026-03-12 17:47:00
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
327文章数 62关注度
往期回顾 全部

科技要闻

当养虾人开始卸载,大厂的战争才真正开始

头条要闻

法新社称"中国炼油厂已被要求暂停石油出口" 中方回应

头条要闻

法新社称"中国炼油厂已被要求暂停石油出口" 中方回应

体育要闻

要脸,还是要83分纪录?

娱乐要闻

李湘瘦身惊艳亮相肖邦之夜 携女儿出席

财经要闻

卢锋:从特朗普团队群演看时代变局

汽车要闻

大众2025财报:转型虽有阵痛 "大象"已然起跑

态度原创

教育
时尚
旅游
本地
健康

教育要闻

全国唯一!高中生在国际顶会发论文,仅次于nature,实验室曝光

风衣+大包,春季最气质搭配!

旅游要闻

人与山的命运交织:一位作家与四姑娘山的16年丨寻找21“峰”面

本地新闻

坐标北京,过敏季反向迁徒

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版