网易首页 > 网易号 > 正文 申请入驻

Llama 4 发布:我看到了 DeepSeek 的影子

0
分享至

Llama 4 发布了。

https://huggingface.co/meta-llama

但这次,它没有高调宣称参数量“遥遥领先“,而是通过三款模型来重新布局:

  • Scout:109B 参数,17B 激活,16 专家 MoE,可部署在单张 H100 上,10M token 长上下文 ,适用于文档分析、多轮对话、代码等任务

  • Maverick:400B 参数,17B 激活,128 专家 MoE,1M token 长上下文 :400B 参数,128 专家,推理仅激活两个。对标 GPT-4o,性能不逊色, 推理成本仅为其十分之一

  • Behemoth:2T 参数,288B激活,16 专家 MoE ,不部署、不开放,仅用于训练阶段, 为 Scout 和 Maverick 生成训练数据

一个用、一主力、一教学,不卷彼此,也不试图通吃所有任务。

讲道理,看这个发布的时候,我总隐隐有当时读 DeepSeek V3 技术报告的感觉:拥抱 MoE,拥抱合成数据

架构转向:MoE 登上主舞台

Lllma 3 是 Dense,哪怕 400B 的模型都是 Dense;而 Llama 4 是 MoE 架构。

(关于架构的问题,推荐阅读:)

MoE 大概就是这样

过去,MoE 更多还是“实验室选项”,自 DeepSeek 大火后,很多厂商开始尝试将其用于主力模型,比如这次的 Meta。在 Llama 4 中,模型 Scout 配置 16 专家,而 Maverick 则是 128 专家,推理时都只激活两个,17B的量。

回顾一下,DeepSeek 在 R1 和 V3 中也是类似:671B 总参数,37B 激活,用更可控的计算开销,换来模型能力密度的提升

当然,得说一下,MoE 并不适合所有任务场景,也存在调度复杂、专家平衡等训练难题。但它至少打开了一个现实维度:参数使用方式,和参数数量本身一样值得被设计。

多模态:从外挂走向原生

Llama 3 时代,图像输入依赖外挂 encoder,与语言模型拼接;Llama 4 时代,图像直接作为 token 输入,参与语言上下文建模。

这意味着:图文不是模型之后拼出来的,而是在训练中就一体建模的语境单位

这种结构带来的提升,在任务表现中非常直接:

  • Maverick 在 DocVQA 拿下 94.4,超过 GPT-4o(92.8)

  • ChartQA 达到 90.0,MathVista 73.7,均高于 GPT-4o

  • 推理成本却仅为 GPT-4o 的十分之一

Maverick 跑分成绩

而原生多模态架构也体现在 Scout 身上——虽然是轻量模型,但在 DocVQA、ChartQA 上,Scout 依然打出了高于同尺寸模型(甚至部分大模型)的稳定表现。

此处说一下, DeepSeek 的 V3/R1 仍未引入图像 token

训练转向:大模型是过程

Behemoth 最大号的 Llama4,很强,但它不对外。

Behemoth的全部作用,是生成训练数据,为 Scout 和 Maverick 提供能力示范,并通过轻量 DPO 和 RLHF 进一步优化行为。换句话说,Meta 并不再执着于“最强模型”上线,而是选择把最大资源投入到训练系统本身。

这个事儿,有点像:

  • • OpenAI 开发了「草莓」,来训练新的 GPT

  • • DeppSeek 开发了 DeepSeek-R1-Light 来训练 DeepSeek V3

《 DeepSeek-V3 Technical Report》 不是封神,而是转向

在我看来,Llama 4 并没有带来参数最大、能力最强的单点突破。但它用一个更完整、更分工明确的体系,回应了模型设计正在发生的变化:

Scout 是部署,Maverick 是交付,Behemoth 是理解力的源头

与其说是一次产品发布,更像是宣告一次路线调整。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
圣地亚哥海滩丢人一幕:中国游客纵容熊孩子砸海狮,全家被赶出海滩

圣地亚哥海滩丢人一幕:中国游客纵容熊孩子砸海狮,全家被赶出海滩

大洛杉矶LA
2026-02-26 01:08:26
当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

牛锅巴小钒
2026-02-25 15:15:15
台北101大厦董事长贾永婕被青鸟攻击,因身穿红色衣服参加活动!

台北101大厦董事长贾永婕被青鸟攻击,因身穿红色衣服参加活动!

总在茶余后
2026-02-25 21:50:23
痛心!江西跑友刘涛去世,仅51岁,生前坚持晨跑,是3家公司老板

痛心!江西跑友刘涛去世,仅51岁,生前坚持晨跑,是3家公司老板

离离言几许
2026-02-25 10:43:45
平顶山打人事件的二次通报,看完让人后背发凉

平顶山打人事件的二次通报,看完让人后背发凉

清书先生
2026-02-25 17:01:07
春节旅行,看完三亚账单我沉默了:一家三口10天,烧掉一年血汗钱

春节旅行,看完三亚账单我沉默了:一家三口10天,烧掉一年血汗钱

夜深爱杂谈
2026-02-24 22:41:54
TVB御用烂仔游飙去世,演41年戏月薪不如保安,留下8岁女儿无依靠

TVB御用烂仔游飙去世,演41年戏月薪不如保安,留下8岁女儿无依靠

新金牌娱乐观察家
2026-02-25 10:15:08
“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

妍妍教育日记
2026-02-25 21:18:14
中华人民共和国和德意志联邦共和国联合新闻声明

中华人民共和国和德意志联邦共和国联合新闻声明

新华社
2026-02-25 21:46:25
中纪委2026下死手!四类人好日子到头,退休也不是护身符

中纪委2026下死手!四类人好日子到头,退休也不是护身符

观星赏月
2026-02-25 18:28:44
“感谢俄罗斯的打捞队”,这刁钻角度,我是真没想到!

“感谢俄罗斯的打捞队”,这刁钻角度,我是真没想到!

走读新生
2026-02-25 19:23:57
含泪告别赛场!43岁了,已经是个传奇!

含泪告别赛场!43岁了,已经是个传奇!

德译洋洋
2026-02-25 12:20:33
张兰撒谎风波升级!细节证明孩子非新生儿,产房被扒是月子中心

张兰撒谎风波升级!细节证明孩子非新生儿,产房被扒是月子中心

古希腊掌管月桂的神
2026-02-25 16:35:25
微信出新功能,网友:简直是社恐福音

微信出新功能,网友:简直是社恐福音

南方都市报
2026-02-25 16:59:07
TVB“御用烂仔”演员游飚去世,终年57岁,李力持发文悼念

TVB“御用烂仔”演员游飚去世,终年57岁,李力持发文悼念

红星新闻
2026-02-25 11:05:07
河南二次通报平顶山事件,这对嚣张夫妻三天就被批捕了

河南二次通报平顶山事件,这对嚣张夫妻三天就被批捕了

林中木白
2026-02-25 09:08:10
江苏这么多年来一直没意识到一个问题:苏南根本辐射不了其他地方

江苏这么多年来一直没意识到一个问题:苏南根本辐射不了其他地方

林子说事
2026-02-25 11:51:07
大家不知道的是,妈祖乩童的真实待遇,不只是荣耀这么简单

大家不知道的是,妈祖乩童的真实待遇,不只是荣耀这么简单

观察鉴娱
2026-02-25 10:17:00
伊朗这次没嘴炮,直接给中国打款:导弹我买了,美国你看着办

伊朗这次没嘴炮,直接给中国打款:导弹我买了,美国你看着办

十夏九漓
2026-02-25 22:36:07
比尔盖茨承认出轨,与俄罗斯核物理学家有染,否认与爱泼斯坦有关

比尔盖茨承认出轨,与俄罗斯核物理学家有染,否认与爱泼斯坦有关

社会酱
2026-02-25 16:46:40
2026-02-26 06:55:00
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
302文章数 44关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

女子爬山失联10天后遗体被找到 丈夫:她登顶神情恐惧

头条要闻

女子爬山失联10天后遗体被找到 丈夫:她登顶神情恐惧

体育要闻

勇士爆冷惜败鹈鹕 梅尔顿28分赛季新高

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

本地
健康
数码
房产
手机

本地新闻

津南好·四时总相宜

转头就晕的耳石症,能开车上班吗?

数码要闻

三星发布 Galaxy Buds 4 与 Buds 4 Pro 耳机产品

房产要闻

海南楼市春节热销地图曝光!三亚、陵水又杀疯了!

手机要闻

谷歌官方“豆包手机”来了,安卓旗舰迎来AI操控功能

无障碍浏览 进入关怀版