网易首页 > 网易号 > 正文 申请入驻

Meta发布Llama 4系列模型,参数高达2万亿

0
分享至

Meta 对 DeepSeek 的回应来了:Llama 4 发布,包括具备长上下文处理能力的 Scout 和 Maverick 模型,且拥有 2 万亿参数的庞然大物 Behemoth 也即将推出。

2025 年 1 月,随着 DeepSeek R1 在研究人员和企业中迅速普及,据报道 Meta 在得知这个新的 R1 模型的训练成本只是许多其他领先模型的一小部分,却仅花费几百万美元(相当于 Meta 给其一些 AI 团队负责人的薪酬)就超越了这些模型时,陷入了恐慌状态。

在那之前,Meta 的整个生成式 AI 战略一直基于以其“Llama”品牌发布一流的开源模型,供研究人员和公司自由使用并在此基础上进行开发。至少,对于那些月用户数少于 7 亿的用户来说是这样,若月用户数超过这个数字,则需要联系 Meta 获取特殊的付费许可条款。

然而,DeepSeek R1 在预算少得多的情况下却展现出惊人的出色性能,据称这震动了 Meta 的领导层,并促使其进行某种反思。就在 2024 年 12 月,也就是一个月前,Meta 刚刚发布了上一版本的 Llama 3.3,但在当时它显得有些过时。

现在我们知道了那次反思的成果:当地时间 4 月 5 日,Meta 创始人兼 CEO 扎克伯格在他的 Instagram 账号上宣布推出新的 Llama 4 系列模型,其中两款——拥有 4000 亿参数的 Llama 4 Maverick 和拥有 1090 亿参数的 Llama 4 Scout——现已可供开发者在 llama.com 和 AI 代码共享社区 Hugging Face 上下载、使用或进行微调。

同样在 4 月 5 日,拥有 2 万亿参数的大型模型 Llama 4 Behemoth 也发布了预览版,不过 Meta 的博客文章称该模型仍在训练中,并未透露其可能的发布时间。需要注意的是,参数指的是控制模型行为的设置,一般来说参数越多意味着模型在各方面更强大、更复杂。

这些模型的一个主要特点是它们都是多模态的,经过针对文本、视频和图像的训练,因此能够接收和生成这些内容。

另一个特点是它们拥有较长的上下文窗口——Llama 4 Maverick 为 100 万个 tokens,Llama 4 Scout 为 1000 万个 tokens——分别相当于大约 1500 页和 15000 页的文本内容,并且模型在一次输入/输出交互中就能处理这些内容。这意味着理论上用户可以上传或粘贴多达 7500 页的文本内容,并从 Llama 4 Scout 获得同样多的回复,这对于医学、科学、工程、数学、文学等信息密集型领域来说非常实用。

据了解,这三个模型都采用了“专家混合(MoE)”架构方法,这种方法在 OpenAI 和 Mistral 早期发布的模型中得到了推广,本质上是将多个专门处理不同任务、主题和媒体格式的较小模型(即“专家”模型)组合成一个更大的统一模型。据说每个 Llama 4 模型都是 128 个不同专家模型的混合体,并且运行效率更高,因为在处理每个 tokens 时,只需特定任务所需的专家模型加上一个“共享”专家模型,而无需让整个模型对每个 tokens 都进行处理。

虽然所有参数都存储在内存中,但在运行这些模型时,只有总参数的一个子集被激活。这通过降低模型运行成本和延迟提高了推理效率——Llama 4 Maverick 可以在单个英伟达 H100 DGX 主机上运行,不仅便于部署,也可以通过分布式推理实现最高效率。

Llama 4 Scout 和 Llama 4 Maverick 现已向公众开放,可供自行部署,不过 Meta 尚未公布其官方基础设施的托管 API 或定价等级。相反,Meta 专注于通过开放下载以及与 WhatsApp、Messenger、Instagram 和网页版的元 AI 进行集成来进行分发。

Meta 估计,Llama 4 Maverick 的推理成本为每 100 万个 tokens 0.19 美元至 0.49 美元(输入和输出比例为 3:1)。根据社区基准测试,这使得它比像 GPT-4o 这样的专有模型便宜得多,据估计 GPT-4o 的成本为每 100 万个 tokens 4.38 美元。

Llama 4 的三个模型尤其是 Maverick 和 Behemoth,都被设计用于推理、编码和逐步解决问题,不过它们似乎没有表现出像 OpenAI 的“o”系列或 DeepSeek R1 等专门推理模型那样的思维链。

相反,它们似乎旨在更直接地与“经典”的非推理大语言模型和多模态模型竞争,比如 OpenAI 的 GPT-4o 和 DeepSeek 的 V3。但是,Llama 4 Behemoth 除外,它似乎确实对 DeepSeek R1 构成了威胁。

此外,对于 Llama 4,Meta 构建了专注于增强推理能力的定制训练后流程,例如:

- 在有监督的微调过程中,去除超过 50% 的“简单”提示。

- 采用不断增加难度提示的持续强化学习循环。

- 使用“k 次尝试通过”评估和课程采样来加强在数学、逻辑和编码方面的性能。

- 采用一种名为 MetaP 的新技术,让工程师可以在模型上调整超参数(如每层的学习率),并将其应用于其他不同规模和 tokens 类型的模型,同时保持模型预期的行为。

MetaP 可被用于在一个模型上设置超参数,然后应用于许多其他类型的模型,从而提高训练效率。这样可以节省大量的时间和金钱,从而可以在较小的模型上进行实验。

在训练像 Behemoth 这样的大型模型时,这一点尤其关键,Behemoth 使用 32000 个 GPU 和 FP8 精度,在超过 30 万亿个 tokens 上实现了每个 GPU 390 TFLOPs 的运算能力,其训练数据是 Llama 3 的两倍多。换句话说:研究人员可以大致告诉模型他们希望它如何运行,并将这种设置应用于不同规模的模型,以及不同形式的媒体上。

在 Instagram 上的发布视频中,扎克伯格表示 Meta 的“目标是打造世界领先的 AI,将其开源,并让所有人都能使用,从而使全世界的人都受益…… 我早就说过,我认为开源 AI 将成为领先的模型,而随着 Llama 4 的推出,这正在成为现实。”

Meta 的博客文章称 Llama 4 Scout“是同类中世界上最好的多模态模型,比所有上一代 Llama 模型都更强大”。这些的确都是非常强大的模型,与同参数规模的其他模型相比,它们处于领先地位,但不一定创造了新的性能纪录。尽管如此,Meta 还是热衷于宣扬 Llama 4 系列模型的“超越性”。

使用参数最高的基准测试模型 Llama 4 Behemoth,并将其与 DeepSeek R1 最初发布的 R1-32B 模型图表以及 OpenAI o1 模型进行比较之后发现,虽然 DeepSeek R1 和 OpenAI o1 在几个指标上领先于 Behemoth,但 Llama 4 Behemoth 仍然具有很强的竞争力,在其同类推理排行榜上处于领先或接近领先的位置。

Meta 还通过引入 Llama Guard、Prompt Guard 和 CyberSecEval 等工具来强调模型的一致性和安全性,以帮助开发者检测不安全的输入/输出或对抗性提示,并实施生成式攻击性代理测试(GOAT)来进行自动化的红队测试。

该公司还声称 Llama 4 在“政治偏见”方面有显著改善,并表示“(领先的大语言模型)在有争议的政治和社会话题上历来倾向于左派观点”,而 Llama 4 在迎合右派观点方面表现得更好……”这与扎克伯格在 2024 年选举后对美国总统特朗普及其政党的支持相一致。

此外,Meta 的 Llama 4 模型在多模态和推理任务中融合了效率、开放性和高端性能。

随着 Scout 和 Maverick 现已向公众开放,以及 Behemoth 作为最先进的教师模型进行了预览,Llama 生态系统有望成为 OpenAI、Anthropic、DeepSeek 和谷歌等公司顶级专有模型的有力开源替代品。

参考资料:

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/

https://www.theverge.com/news/644171/llama-4-released-ai-model-whatsapp-messenger-instagram-direct

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2025-12-26 09:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16035文章数 514436关注度
往期回顾 全部

科技要闻

“不再是机器人大国”,日本错过了什么?

头条要闻

网友取300元少5元被银行员工拿走 公开后被人上门威胁

头条要闻

网友取300元少5元被银行员工拿走 公开后被人上门威胁

体育要闻

约基奇有多喜欢马?

娱乐要闻

朱孝天把阿信好意当球踢!

财经要闻

涉案近300亿元 多方围剿金融“黑灰产”

汽车要闻

速来!智界在上海西岸准备了年末潮流盛典

态度原创

数码
本地
亲子
公开课
军事航空

数码要闻

从699元到5.19万不等,小米17 Ultra发布会产品大汇总

本地新闻

这辈子要积多少德,下辈子才能投胎到德国当狗

亲子要闻

一岁以后一定要让宝宝多涂鸦画画,培养想象力和手眼协调

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

多国取消订单 美报告:F-35"去年有一半时间无法升空"

无障碍浏览 进入关怀版