网易首页 > 网易号 > 正文 申请入驻

Llama 4多模态大模型上线即开源,测试成绩、开源模式广遭质疑

0
分享至

作者|沐风

来源|AI先锋官

就在这周末,开源界元老Meta正式推出了首个原生多模态Llama 4系列模型,性能上全面超越GPT-4o、Gemini 2.0等顶级竞品,同时支持1000万token超长上下文。

该系列总共公布了3个模型,分别为Scout、Maverick和Behemoth。

在这三个模型中,Maverick、Scout都是从Behemoth上蒸馏得来,并且Scout和Maverick已经开源,可以在其官网和Hugging Face上进行下载。

据官方介绍,Llama 4是Meta迄今为止最先进的模型,也是同类产品中多模态性最强的模型。

另外,Llama 4模型是Llama系列模型中首批采用混合专家(MoE)架构的模型,也是DeepSeek系列模型采用的架构。

与传统的稠密模型相比,在MoE架构中,单独的token只会激活全部参数中的一小部分,训练和推理的计算效率更高。

接下来,我们就一起看看Llama 4系列模型都有哪些亮点。

Llama 4 Scout

  • 拥有170亿活跃参数,总参数量为1090亿。

  • 配备了16个专家模块,每次推理激活其中2个。

  • 支持1000万token上下文。

  • 单张H100 GPU即可运行。

  • 在基准测试中,其性能表现超过了Gemma 3、Gemini 2.0 Flash-Lite以及Mistral 3.1。

Llama 4 Maverick

  • 同样具备170亿活跃参数,总参数量增加至4000亿。

  • 专家模块的数量增加到128个,每次推理激活17个专家。

  • 支持1000万token上下文。

  • 基准测试中,其性能表现超越了GPT-4o和Gemini 2.0 Flash。

  • 在推理、编程、多语言等任务上媲美DeepSeek v3,但参数仅为其一半。

  • 在LMArena测试中,ELO评分高达1417。

Llama 4 Behemoth

  • 拥有2880亿个活跃参数,总参数量接近2万亿。

  • 具体有16个专家模型。

  • 在多个 STEM 基准测试中优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。

  • 目前仍在训练中,尚未公开发布。

值得一提的是,Llama 4 Maverick一经发布就冲上了LMArena排行榜中的第二名,仅仅比 Gemini-2.5-pro模型少22分,成为第四个突破 1400 分的大模型。

但这一成绩却引发了诸多质疑。

据多位AI研究人员在社交平台X上指出,Meta在LMArena上部署的Llama 4 Maverick与广泛提供给开发者的版本并不一致。

不过,Meta在其公告中明确提到,参与LMArena测试的Llama 4 Maverick是一个“实验性聊天版本”。

而根据官方Llama网站上公布的信息,Meta 在LMArena的测试中所使用的实际上是“针对对话性优化的Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应 LM Arena 的测试环境和评分标准。

有AI研究人员在社交平台X上指出,公开可下载的Maverick与LMArena上托管版本之间存在明显行为差异。LMArena版本更倾向于使用大量表情符号并提供冗长的回答,这在标准版本中并不常见。

在实际使用中,很多人觉得Llama 4的编码能力和数学逻辑方面都没有测试中那么厉害,甚至有社区用户给它进行了重新打分,重新打分后的Llama 4连前10都进不去。

在经典测试题“strawberry中有多少个R”的问题上,Llama 4 Maverick也未能做对。

据博主“karminski-牙医”发布的评测结果显示,Llama 4 Maverick与Qwen-QwQ-32B的写代码水平一致,Scout则是直接挂科。

其更是直言:“不建议用Llama 4写代码”。

看来,Llama 4这次更像是个“偏科生”,多模态和长文本是长板,但逻辑推理和代码生成似乎还需要打磨。

除此之外,Llama 4的开源模式也遭质疑。

例如,油管知名博主1littlecoder就指出Llama 4的许可条款与真正的开源精神相去甚远。

马克·扎克伯格在Llama 4发布视频中充满热情地宣布:"今天是Llama 4的日子。我们的目标是构建世界领先的AI,将其开源,并使其普遍可访问,让全世界都能受益。我一直认为开源AI将成为领先模型,而随着Llama 4,这开始变为现实。"

然而,1littlecoder直言不讳地表示:"这是对开源的污蔑,与开源毫无关系。你可以称它为开放模型,你可以称它为开放权重模型,但它不是开源的。"

1littlecoder认为,开源软件的基本原则之一是普遍可访问性。开源通过开源或免费许可促进对产品的普遍访问。这意味着任何人都应该能够访问你的产品,而不会有太多麻烦。"

与其他真正开源的AI模型相比,Llama 4的获取过程显得异常复杂。

1littlecoder提到,“Meta的模型要求你首先登录Hugging Face账户,这点我能理解,他们可能有垃圾邮件问题。然后填写表格,务必提供你的法定全名。我是说,为什么下载PyTorch权重或一些随机二进制文件需要提供我的法定姓名?还有出生日期、完整的组织名称、所有公司标识符。”

更令人担忧的是,表格上明确警告:“避免使用首字母缩写和特殊字符。未能按照这些指示操作可能会阻止你访问此模型和Hugging Face上的其他模型。提交后,你将无法编辑此表格。因此,请确保所有信息准确无误。”

这意味着一旦因填写信息不当被Meta禁止,用户可能永远无法从Hugging Face下载该模型,这与开源软件的普遍可访问性原则直接冲突。

更具争议性的是Llama 4的社区许可协议。

1littlecoder更是将其描述为"对开源的污蔑"。

这份许可协议包含多项限制,直接挑战了传统开源定义:

首先是用户限制条款:“如果你拥有一家月活跃用户超过7亿的公司,你不能使用这个模型。”虽然这对大多数开发者来说影响有限,但它违背了开源软件不应对使用者有歧视的基本原则。

其次是关于再分发的严格要求。许可证规定,如果分发或提供Llama材料,必须显示"使用Llama构建"的标志。

1littlecoder对此表示强烈不满:“为什么我要这样做?你想加速开源,对吧?你不是在寻求任何好处,因为你相信开源。只要给我模型,我想怎么用就怎么用。这是愚蠢,完全的愚蠢。”

更令人震惊的是命名要求:“如果你使用Llama材料或任何Llama材料的输出或结果来创建、训练、微调或以其他方式改进分发或提供的AI模型,你还应该在任何此类AI模型名称的开头包含‘Llama’。”

此外,还有版权声明要求:“在你分发的Llama材料的所有副本中,你必须包含以下归属声明,并与分发的此类副本一起提供声明文本文件‘Llama 4的许可证和Llama 4社区许可证,版权Meta平台,保留所有权利。’”

1littlecoder在结束时呼吁AI社区重新思考什么才是真正的开源:“请不要称这为开源。我相信,将任何进入Hugging Face的愚蠢模型称为开源,对于开源代表的内容或开源支持者来说,是一种污蔑。这不是开源,只是你可以下载并带有一堆限制的开放权重。”

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海德云社上座率跌到谷底,得罪观众是问题,作品不行是根本

上海德云社上座率跌到谷底,得罪观众是问题,作品不行是根本

我就是个码字的
2026-05-27 07:35:03
加拿大宣布:27日起,这三国居民禁止入境

加拿大宣布:27日起,这三国居民禁止入境

南方都市报
2026-05-27 16:32:22
深圳南坪快速路突发火情,交警通报

深圳南坪快速路突发火情,交警通报

界面新闻
2026-05-27 18:36:36
一个赌徒引发的启发:赌到一半怎么分钱?逼出了改变世界的概率论

一个赌徒引发的启发:赌到一半怎么分钱?逼出了改变世界的概率论

知识圈
2026-05-27 12:09:19
汕头市公安局港航分局局长林展宏被查

汕头市公安局港航分局局长林展宏被查

新快报新闻
2026-05-27 10:25:02
朱时茂陈佩斯现状曝光差距大,一人家财万贯,一人真被倪萍说中了

朱时茂陈佩斯现状曝光差距大,一人家财万贯,一人真被倪萍说中了

孤城落日
2026-05-26 19:45:03
真假难辨!多位媒体人曝怀特塞德缺席G1因兴奋剂问题 等官方澄清

真假难辨!多位媒体人曝怀特塞德缺席G1因兴奋剂问题 等官方澄清

醉卧浮生
2026-05-27 16:41:55
5%永久分红有多恐怖?每年赚3.3亿美元!一纸合约让乔丹永久躺赚

5%永久分红有多恐怖?每年赚3.3亿美元!一纸合约让乔丹永久躺赚

青橘罐头
2026-05-26 22:10:56
官媒接连力挺,耿同学又爆新料!

官媒接连力挺,耿同学又爆新料!

新动察
2026-05-27 14:59:13
“免费采摘”不实视频致258亩荠菜地遭数百人哄抢!种植户称未获赔偿,已申请刑事立案

“免费采摘”不实视频致258亩荠菜地遭数百人哄抢!种植户称未获赔偿,已申请刑事立案

浪潮新闻
2026-05-26 20:36:57
全网封杀已注定?林志玲风波升级,国台办回应,以后难在大陆捞金

全网封杀已注定?林志玲风波升级,国台办回应,以后难在大陆捞金

手工制作阿歼
2026-05-27 16:21:44
央视赚翻!4亿拿下美加墨世界杯,不到2周已签2家分销,进账32亿

央视赚翻!4亿拿下美加墨世界杯,不到2周已签2家分销,进账32亿

十点街球体育
2026-05-27 16:14:22
深圳南坪快速上突发火情,隔音棚烧毁严重,多方回应:车辆起火引发,正处置

深圳南坪快速上突发火情,隔音棚烧毁严重,多方回应:车辆起火引发,正处置

潇湘晨报
2026-05-27 18:00:17
突发利空!A股跳水、近4500家下跌,科技股吸血市场遭不住了

突发利空!A股跳水、近4500家下跌,科技股吸血市场遭不住了

看财经show
2026-05-27 16:56:53
沉默1日后,赖清德终于表态,岛内已爆发逃兵潮,洪秀柱定调统一

沉默1日后,赖清德终于表态,岛内已爆发逃兵潮,洪秀柱定调统一

浪子阿邴聊体育
2026-05-25 17:22:16
马斯克转发的这张梗图,藏着工程界最朴素的真理

马斯克转发的这张梗图,藏着工程界最朴素的真理

新浪财经
2026-05-27 13:40:30
周琦再开炮!北京队老大太多,4股人马互相不服,许利民无计可施

周琦再开炮!北京队老大太多,4股人马互相不服,许利民无计可施

体坛大事记
2026-05-27 15:39:53
每秒可击落30多只蚊子 众筹超250万美元 中国造“激光灭蚊神器”海外爆单

每秒可击落30多只蚊子 众筹超250万美元 中国造“激光灭蚊神器”海外爆单

封面新闻
2026-05-27 15:24:09
逆转未果!王欣瑜战满三盘惜败出局,无缘法网女单32强

逆转未果!王欣瑜战满三盘惜败出局,无缘法网女单32强

全景体育V
2026-05-27 19:42:02
景甜急卖1.5亿江景房!疑似为筹钱还富豪男友,难怪突然不爆料了

景甜急卖1.5亿江景房!疑似为筹钱还富豪男友,难怪突然不爆料了

萌神木木
2026-05-27 11:42:30
2026-05-27 20:20:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
522文章数 81关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

跨省履新江西省委常委、统战部部长8个月后 李伟被查

头条要闻

跨省履新江西省委常委、统战部部长8个月后 李伟被查

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

房产
教育
亲子
家居
艺术

房产要闻

地产投资又跌30%!连跌15月!海南房子将越来越少?

教育要闻

小健健第五课:那些教给孩子的知识,也在滋养我们自己

亲子要闻

宝宝辅食“干净”才安心?看懂婴幼儿辅食的安全标准

家居要闻

古老而持久 石影扶手椅

艺术要闻

这个夏天去苏州过几天清闲安逸的日子

无障碍浏览 进入关怀版