网易首页 > 网易号 > 正文 申请入驻

Meta 对 DeepSeek 的回应来了:Llama 4 发布,上下文长达 1000 万,参数超 2 万亿!

0
分享至

Meta 的 Llama 系列自诞生以来,便以其卓越的性能和开源精神引领了大型语言模型(LLM)社区的浪潮。然而,自 Llama 3 发布以来,时间已悄然流逝近一年,开源爱好者和开发者们翘首以盼的下一代模型迟迟未现。

就在今天,我们终于迎来了 Llama 4 的震撼亮相!作为 Llama 家族的第四代产品,这一全新模型不仅延续了 Meta 的技术传承,更在性能、功能和应用场景上实现了质的飞跃,标志着开源 AI 迈向新纪元。

本文将从背景、技术特性、模型变体、应用潜力以及未来展望五个方面,带您全面了解 Llama 4 的魅力。

一、背景与发展历程

Llama(Large Language Model Meta AI)系列由 Meta AI 于 2023 年首次推出,旨在为研究人员和开发者提供高效、开源的语言模型解决方案。从初代 Llama 到后续的 Llama 2 和 Llama 3,Meta 逐步放宽模型的访问权限,并引入了指令微调版本和多模态功能,使其在学术界和产业界广受欢迎。

然而,开源领域的竞争从未停歇,尤其是中国 AI 公司 DeepSeek 的崛起,对 Meta 的 Llama 系列构成了显著压力。DeepSeek 自 2024 年以来推出了多款高性能开源模型(如 DeepSeek-V2),以其高效的推理能力和多语言支持迅速在全球开发者社区中占据一席之地。

这种外部竞争迫使 Meta 加速 Llama 4 的研发,甚至一度传闻,Meta 组建了作战室来解密 DeepSeek 如何降低运行和部署R1和V3等模型的成本,以巩固其在开源 LLM 领域的领导地位。

据报道,Llama 4 的训练使用了超过 10 万个 H100 GPU 的超大规模集群,用于训练的整体数据组合由超过 30 万亿个 token 组成,是 Llama 3 预训练组合的两倍多,包括各种文本、图像和视频数据集。,也反映了 Meta 对抗 DeepSeek 等新兴对手的决心。

Mark Zuckerberg 在早前的声明中表示,Llama 4 旨在成为“行业中最先进的模型”,并推动 AI 代理(AI Agents)和多模态应用的普及。这一目标的背后,既是对技术突破的追求,也是对市场竞争的回应。

二、技术特性

今天,Meta 创始人兼 CEO 马克·扎克伯格在他的 Instagram 账号上宣布了新的 Llama 4 系列模型,其中两个——4000 亿参数的 Llama 4 Maverick 和 1090亿参数的 Llama 4 Scout——今天即可供开发者下载并开始使用或微调,现在可以在 llama.com 和 AI 代码共享社区 Hugging Face 上进行。

今天还预览了一款拥有 2 万亿参数的 Llama 4 巨兽,尽管 Meta 的博客文章关于发布的内容表示它仍在训练中,并未给出可能发布的具体时间。(参数指的是控制模型行为的设置,一般来说参数越多意味着模型更强大、更复杂。)

这些模型的一个主要特点是它们都是多模态的——经过训练,因此能够接收和生成文本、视频和图像(尽管没有提到音频)。

图:LLama4 Maverick 在 LMArena 上评分位 1417 分

另一个特点是它们的上下文窗口非常长——Llama 4 Maverick 为 100 万个标记(Token),Llama 4 Scout 为 1000 万个标记——分别相当于大约 15000 和 150000 页文本,所有这些模型都可以在一次输入/输出交互中处理。这意味着用户理论上可以上传或粘贴多达 7500 页的文本,并从 Llama 4 Scout 那里获得等量的信息,这对于信息密集型领域如医学、科学、工程、数学、文学等将非常有用。

Llama 4 在架构设计、训练数据和功能扩展上均有显著创新,以下是其核心技术特点:

  1. 超大上下文窗口
    Llama 4 的一个亮点是其上下文窗口(context window)长度。Llama 4 Scout 模型支持高达 1000 万 token 的上下文窗口,这一数字刷新了开源模型的纪录。与之相比,Llama 3 的最大上下文仅为 128k token,而市场上其他领先模型如 GPT-4o 也未达到如此规模。超大上下文窗口使得 Llama 4 在处理长文档、复杂对话和多轮推理任务时表现出色。

  2. 混合专家模型(MoE)架构
    Llama 4 全系采用了混合专家模型(Mixture of Experts, MoE)架构,这一设计通过将计算任务分配给多个“专家”子模型,提升了效率和性能。与传统密集模型相比,MoE 架构在保持高精度的同时显著降低了推理成本。

    据悉,Llama 4 Maverick 和即将推出的 Behemoth 模型在此基础上进一步优化,使其在多模态任务中表现尤为突出。这一技术选择或许是对 DeepSeek 在 MoE 架构上成功应用的回应,后者在 DeepSeek-V2 中率先展示了其高效性。

  3. 多模态能力
    Llama 4 不再局限于文本处理,而是迈向真正的多模态模型。Llama 4 Maverick 支持图像输入和语音交互,能够处理视觉-语言任务(如图像描述)和语音对话。这种原生多模态设计(而非简单的模块拼接)使其在复杂场景下的表现超越了部分竞争对手,例如 GPT-4o和 Gemini 2.0 Flash。

  4. 参数规模与优化
    Llama 4 提供了多个变体,参数规模从小型的 Scout(16 位专家,17B 活跃参数,总参数 109B)到超大型的 Behemoth( 16位专家,17B 活跃参数,总参数高达 2 万亿)不等。Meta 还提供了量化版本(如 BF16 和 FP8),以适配不同硬件需求。

    例如,Llama 4 Maverick (128 位专家,总参数 400B)的 FP8 量化权重可在一台 H100 DGX 上运行,兼顾性能与部署灵活性。而Llama4 Scout 甚至能在单个 H100 GPU 上云运行(使用 Int4 量化)。

  5. 数据质量与多样性
    Llama 4 的训练数据不仅包括公开的网络数据,还整合了 Meta 生态系统内的许可数据(如 Instagram 和 Facebook 的公开帖子)以及用户与 Meta AI 的交互记录。这种多样化的数据来源提升了模型在多语言支持(覆盖阿拉伯语、英语、法语等 12 种语言)和现实场景中的适应性,与 DeepSeek 在多语言优化上的努力形成直接竞争。

三、模型变体

Llama 4 系列包括三种主要变体,分别针对不同需求:

  1. Llama 4 Scout

  • 特点:小型、快速,拥有 1000 万 token 的超大上下文窗口,专为单张 H100 GPU 上的高效部署设计。

  • 定位:适用于需要高效推理和长文本处理的场景,如学术研究、文档总结和实时对话。匹配或超越 Mistral 3.1、Gemini 2.0 Flash-Lite 和 Gemma 3 等模型。

  • 性能:据 Meta 宣称,Scout 在多项基准测试中超越了顶级模型(如 Llama 3.1 和部分闭源模型),尤其在速度和资源占用上具有优势。

Llama 4 Maverick

  • 特点:专注于多模态能力,支持视觉和语音输入,预训练数据量约为 22 万亿 token。

  • 定位:面向需要复杂交互的应用,如智能助手、内容生成和多媒体分析。

  • 性能:在视觉-语言任务和对话能力上超越 GPT-4o和 Gemini 2.0,与 DeepSeek v3.1(45.8B 参数)竞争力相当,同时使用的激活参数不到一半(17B),成为当前开源多模态模型的标杆。

    图:Meta 的 Llama 4 Maverick 在所有类别中均位列前五。

Llama 4 Behemoth(即将发布)

  • 特点:参数规模高达 2 万亿,专注于 STEM(科学、技术、工程、数学)领域的高级推理,其他模型都是从这个模型蒸馏出来的。这是一个拥有 16 位专家的 2880 亿个活跃参数模型,是我们迄今为止最强大的,也是世界上最聪明的大模型之一。

  • 定位:目标是挑战 GPT-4.5 等闭源模型,成为开源社区的“巨无霸”。 它在多个 STEM 基准测试中优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。

  • 预期:虽然尚未发布,但其超大规模和针对性优化预示着在专业领域的巨大潜力。

四、后训练(Post-Training)

Llama 4 的后训练(Post-Training)阶段是其性能提升的关键环节,尤其是在多模态能力和推理精度上的突破。Meta 在 Llama 4 上彻底革新了后训练流程,采用了轻量级监督微调(SFT) > 在线强化学习(RL) > 轻量级直接偏好优化(DPO)的全新pipeline(看起来参考了 DeepSeek),以应对多模态输入、推理能力和对话能力的平衡挑战。

  1. Llama 4 Maverick 的后训练挑战与策略

    在后训练 Llama 4 Maverick 时,最大的难题是多模态输入(图像和文本)与推理、对话能力之间的平衡。为此,Meta 设计了一种精心策划的课程策略(curriculum strategy),确保多模态性能不逊于单一模态专家模型。通过使用 Llama 模型作为评判工具,团队剔除了超过 50% 被标记为“简单”的数据,仅对剩余的较难数据集进行轻量级 SFT。

    随后,在多模态在线 RL 阶段,通过精心挑选更具挑战性的提示(prompts),模型性能实现了显著提升。

    此外,Meta 实施了持续在线 RL 策略,交替进行模型训练和数据过滤,保留中等到高难度的提示。这种方法在计算成本和精度之间取得了优异平衡。最后,通过轻量级 DPO 处理模型响应质量的边缘情况,Llama 4 Maverick 在智能性和对话能力上达到了行业领先水平,成为具备顶级图像理解能力的通用聊天模型。

  2. Llama 4 Scout 的上下文长度优化

    Llama 4 Scout 的后训练聚焦于超长上下文能力的提升。模型在预训练和后训练阶段均以 256K 的上下文长度为基础,通过创新的 iRoPE 架构(交错注意力层结合旋转位置嵌入)增强了长度泛化能力。

    这种架构去除了传统的位置嵌入,并在推理时引入注意力温度缩放(temperature scaling),支持高达 1000 万 token 的上下文长度。在“大海捞针”(retrieval needle in haystack)和 1000 万 token 代码的累积负对数似然(NLL)测试中,Llama 4 Scout 展现了令人信服的性能,为多文档总结和大规模代码推理等任务开辟了新可能。

  3. 多模态视觉训练

    Llama 4 的两个变体均在后训练中融入了广泛的图像和视频帧数据,以提升视觉理解能力,包括对时间活动和相关图像的感知。预训练阶段支持多达 48 张图像输入,后训练测试中则验证了最多 8 张图像的良好表现。这种多图像处理能力结合文本提示,使模型在视觉推理任务中表现出色。

五、Llama4 与 DeepSeek 相比如何?

别忘了,还有一类以推理为主的模型,例如 DeepSeek R1、OpenAI 的“o”系列(如 GPT-4o)、Gemini 2.0 和 Claude Sonnet。

使用最高参数模型基准——Llama 4 Behemoth,并将其与 DeepSeek R1 的初始发布图表中的 R1-32B 和 OpenAI o1 模型进行比较,以下是 Llama 4 Behemoth 的表现:

我们发现:

- MATH-500:Llama 4 Behemoth 略逊于 DeepSeek R1 和 OpenAI o1。
- GPQA Diamond:Behemoth领先 DeepSeek R1,但落后于 OpenAI o1。

- MMLU:Behemoth在两者中均落后,但仍然优于 Gemini 2.0 Pro 和 GPT-4.5。

总结:虽然 DeepSeek R1 和 OpenAI o1 在几个指标上略胜 Behemoth,但 Llama 4 Behemoth 仍然具有很强的竞争力,并在其类别中推理排行榜上处于或接近顶端。

六、未来展望

尽管 Llama 4 在技术上取得了突破,但其发展仍面临挑战。首先,超大规模模型的训练成本(预计 2025 年 Meta AI 基础设施支出高达 650 亿美元)需要长期回报来证明其价值。

其次,多模态功能的实际效果需经过广泛测试,尤其是在安全性(如生成风险内容)和公平性方面。此外,DeepSeek 的持续创新对 Meta 构成了长期威胁。DeepSeek 不仅在模型效率和多语言支持上表现出色,还通过低成本策略吸引了大量中小企业用户,这可能削弱 Llama 4 在商业领域的渗透力。

展望未来,Llama 4 的成功可能推动开源 AI 生态的进一步繁荣,同时加剧与 Google、OpenAI、xAI 以及 DeepSeek 等对手的竞争。Meta 首席产品官 Chris Cox 曾表示,Llama 4 将为 AI 代理铺平道路,这意味着未来的 Llama 模型可能不仅是被动工具,而是能够主动执行任务的智能实体。然而,要实现这一愿景,Meta 必须在技术创新和市场策略上双管齐下,以应对 DeepSeek 等新兴力量的挑战。

结语

Llama 4 的发布不仅是 Meta AI 技术实力的展示,也是开源 AI 社区的一次胜利。从超大上下文到多模态能力,再到多样化的模型变体,Llama 4 为用户提供了前所未有的灵活性和性能。尽管 DeepSeek 的崛起为 Meta 带来了新的竞争压力,但 Llama 4 的突破无疑巩固了其在开源领域的地位。随着 Behemoth 的到来和生态系统的完善,Llama 4 有望重塑我们对语言模型的认知,并在 AI 的未来发展中占据重要地位。

© AI范儿

要进“交流群”,请关注公众号获取进群方式

投稿、需求合作或报道请添加公众号获取联系方式

Meta 发布其最强大的 AI 模型 Llama 3.1,具有 4050亿参数

揭秘LLaMA进化史:从初代到LLaMA3,一文读懂最强开源模型家族

Llama3训练集群揭秘,共24,576 个 GPU

点这里关注我,记得标星哦~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
胡锡进以安全代言沃尔沃,是整个社会的耻辱

胡锡进以安全代言沃尔沃,是整个社会的耻辱

黔有虎
2026-04-19 17:34:12
安娃抢七丢赛点时想到媒体惊天逆转标题,乌女将拒绝握手起风波

安娃抢七丢赛点时想到媒体惊天逆转标题,乌女将拒绝握手起风波

网球之家
2026-05-01 13:30:27
卢秀燕真面目暴露、郑丽文身陷僵局!若想翻盘,恐怕只剩一条路

卢秀燕真面目暴露、郑丽文身陷僵局!若想翻盘,恐怕只剩一条路

不似少年游
2026-05-01 14:24:16
还差2分!击败利物浦必进欧冠,马竞无法打破曼联的纪录

还差2分!击败利物浦必进欧冠,马竞无法打破曼联的纪录

嗨皮看球
2026-04-30 18:16:41
中央政治局会议,释放哪些经济发展新信号?

中央政治局会议,释放哪些经济发展新信号?

国际金融报
2026-04-30 20:25:57
这大体格子,太完美了,什么条件的男人才能娶她呢

这大体格子,太完美了,什么条件的男人才能娶她呢

小陆搞笑日常
2026-05-01 14:04:13
票房会破5亿?看完《寒战1994》,我敢说:港片的荣光又回来了

票房会破5亿?看完《寒战1994》,我敢说:港片的荣光又回来了

阿废冷眼观察所
2026-05-01 12:25:43
又一国产车要复活了

又一国产车要复活了

放毒
2026-05-01 12:16:09
“零关税”生效第一天,24吨南非苹果连夜来了,中国向非洲敞开的不只是市场

“零关税”生效第一天,24吨南非苹果连夜来了,中国向非洲敞开的不只是市场

上观新闻
2026-05-01 13:21:07
76岁刘晓庆现身开封万岁山,站花车上扭来扭去,风韵犹存

76岁刘晓庆现身开封万岁山,站花车上扭来扭去,风韵犹存

喜文多见01
2026-05-01 10:42:25
浙江男子花2000多元订3晚民宿,商家要求涨到3000元/晚被拒后以“蛇很多”等理由劝退,官方通报:将依法进行立案调查

浙江男子花2000多元订3晚民宿,商家要求涨到3000元/晚被拒后以“蛇很多”等理由劝退,官方通报:将依法进行立案调查

大象新闻
2026-05-01 10:42:04
1季度四大直辖市经济分野,京沪双驾齐驱,天津有定力,重庆掉队

1季度四大直辖市经济分野,京沪双驾齐驱,天津有定力,重庆掉队

金卡读城
2026-04-30 17:32:25
丑哭了!迪奥活动上的热巴,造型真的一言难尽,王亚飞被骂上热搜

丑哭了!迪奥活动上的热巴,造型真的一言难尽,王亚飞被骂上热搜

动物奇奇怪怪
2026-05-01 03:05:19
“5月2日出发,机票价格省一半”,五一假期“捡漏”时刻来了

“5月2日出发,机票价格省一半”,五一假期“捡漏”时刻来了

封面新闻
2026-05-01 13:40:02
岸田文雄任首相特使,携高市早苗亲笔信访菲,与小马科斯谈合作

岸田文雄任首相特使,携高市早苗亲笔信访菲,与小马科斯谈合作

就像当初啊
2026-05-01 13:11:28
我有罪,大导演昆汀花1万美金,在包房舔脚半小时,直到皮肤起皱

我有罪,大导演昆汀花1万美金,在包房舔脚半小时,直到皮肤起皱

西楼知趣杂谈
2026-04-20 08:40:47
晚饭七分饱被推翻了?医生建议:过了60岁,吃饭尽量要做到这7点

晚饭七分饱被推翻了?医生建议:过了60岁,吃饭尽量要做到这7点

牛锅巴小钒
2026-05-01 13:56:21
尤伯杯4强出炉,汤姆斯杯1/4决赛国羽男团换二双,大马变阵

尤伯杯4强出炉,汤姆斯杯1/4决赛国羽男团换二双,大马变阵

佑铭羽球
2026-05-01 07:13:06
打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

细说职场
2026-04-28 10:39:02
叶新萍已被查实,举报人再爆院长儿子:一个人占了整个科室的福利

叶新萍已被查实,举报人再爆院长儿子:一个人占了整个科室的福利

娱乐圈见解说
2026-05-01 00:33:10
2026-05-01 15:19:00
AI范儿 incentive-icons
AI范儿
AI范儿是一个专注于人工智能领域的资讯和学习平台,提供最新的人工智能资讯
732文章数 670关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

山东舰遭日本侦察机抵近侦察 解放军一句警告将其喝退

头条要闻

山东舰遭日本侦察机抵近侦察 解放军一句警告将其喝退

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

本地
数码
时尚
旅游
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

三星停产LPDDR4/X内存,产能聚焦LPDDR5/X与HBM等AI产品

她们看起来气血好足,每套搭配我都想抄

旅游要闻

第二届南昌园艺展5月1日在安义启幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版