网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

2024-05-19 12:47:33　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子乔杨

【新智元导读】GPT-4o发布不到一周，首个敢于挑战王者的新模型诞生！最近，Meta团队发布了「混合模态」Chameleon，可以在单一神经网络无缝处理文本和图像。10万亿token训练的34B参数模型性能接近GPT-4V，刷新SOTA。

GPT-4o的横空出世，再次创立了一个多模态模型发展的新范式！

为什么这么说？

OpenAI将其称为「首个『原生』多模态」模型，意味着GPT-4o与以往所有的模型，都不尽相同。

传统的多模态基础模型，通常为每种模态采用特定的「编码器」或「解码器」，将不同的模态分离开。

然而，这种方法限制了模型，有效融合跨模态信息的能力。

官博介绍，GPT-4o是「首个端到端」训练的，跨越文本、视觉和音频的模型，所有的输入和输出，都由单个神经网络处理。

而现在，业界首个敢于挑战GPT-4o的模型现身了！

最近，来自Meta团队的研究人员发布了「混合模态基座模型」——Chameleon（变色龙）。

论文地址：https://arxiv.org/pdf/2405.09818

与GPT-4o一样，Chameleon采用了统一的Transformer架构，使用文本、图像和代码混合模态完成训练。

以类似文本生成的方式，对图像进行离散「分词化」（tokenization），最终生成和推理交错的文本和图像序列。

这种「早期融合」的方法，所有的pipeline从一开始就被映射到一个共同的表示空间，因此模型可以无缝处理文本和图像。

Chameleon生成的多模态内容

与此同时，这样的设计，为模型训练带来了重大的技术挑战。

对此，Meta研究团队引入了一系列架构创新和训练技术。

结果表明，在纯文本任务中，340亿参数Chameleon（用10万亿多模态token训练）的性能和Gemini-Pro相当。

在视觉问答和图像标注基准上，刷新SOTA，性能接近GPT-4V。

不过，不论是GPT-4o，还是Chameleon，都是新一代「原生」端到端的多模态基础模型早期探索。

GTC 2024大会上，老黄描述了迈向AGI最终愿景的重要一步——各种模态互通有无。

下一个开源GPT-4o要来？

Chameleon的发布，简直就是对GPT-4o做出最快的反应。

有网友表示，token进，token出，简直无法去解释。

甚至还有人称，在GPT-4o诞生之后发布的非常扎实的研究，OOS将迎头赶上。

不过，目前Chameleon模型支持生成的模态，主要是图像文本。缺少了GPT-4o中的语音能力。

网友称，然后只需添加另一种模态（音频），扩大训练数据集，「烹饪」一段时间，我们就会得到GPT-4o...?

Meta的产品管理总监称，「我非常自豪能够给予这个团队支持。让我们朝着让GPT-4o更接近开源社区的方向迈进一步」。

或许用不了多久，我们就得到了一个开源版的GPT-4o。

接下来，一起看看Chameleon模型的技术细节。

技术架构

Meta在Chameleon的论文中首先表示：很多新近发布的模型依旧没有将「多模态」贯彻到底。

这些模型虽然采用了端到端的训练方式，但仍然单独对不同模态进行建模，使用分开的编码器或解码器。

如开头所述，这种做法限制了模型跨模态信息的能力，也难以生成包含任意形式信息的、真正的多模态文档。

为了改进这种缺陷，Meta提出了一系列「混合模态」的基座模型Chameleon——能够生成文本和图像内容任意交织在一起的内容。

Chameleon的生成结果，文本和图像交错出现

所谓「混合模态」基座模型，指Chameleon不仅使用了端到端的方式从头开始训练，而且训练时将所有模态的信息交织混合在一起，并使用统一的架构处理。

如何将所有模态的信息混合在同一个模型架构中表示？

答案还是「token」。

只要全部表示为token，就可以把所有所有模态的信息映射到同一个向量空间中，让Transformer无缝处理。

但是，这种做法会带来优化稳定性以及模型扩展性方面的技术挑战。

为了解决这些问题，论文相应地对模型架构进行创新，并使用了一些训练技巧，包括QK归一化和Zloss等。

同时，论文也提出了将纯文本LLM微调为多模态模型的方法。

图像「分词器」

要将所有模态全部表示为token，首先需要一个强大的分词器。

为此，Chameleon的团队在Meta之前一篇论文的基础上开发了一种新的图像分词器，基于大小为8192的codebook，将规格为512×512的图像编码为1024个离散的token。

文字分词器则基于谷歌开发的sentencepiece开源库，训练了一个同时含有65536个文本token与8192个图像token的BPE分词器。

预训练

为了彻底激发「混合模态」的潜力，训练数据也是将不同模态打散、混合呈现给模型的，既有纯文本、文本-图像对，也有文本、图像交错出现的多模态文档。

纯文本数据囊括了Llama 2和CodeLlama所使用的所有预训练数据，共计2.9万亿个token。

文本-图像对包含了一些公开数据，共计14亿对、1.5万亿个token。

对于文本和图像交错的数据，论文特意强调没有包含来自Meta产品的数据，完全使用公开数据来源，整理出共4000亿个token。

Chameleon的预训练分两个单独的阶段进行，分别占总训练比例的80%和20%。

训练的第一阶段就是让模型以无监督的方式学习以上数据，第二阶段开始时，先将第一阶段得到的权重降低50%，并混合更高质量的数据让模型继续学习。

在模型扩展到超过8B参数和1T token时，训练后期会产生明显的不稳定问题。

由于所有模态共享模型权重，每个模态似乎都有增加norm的倾向，与其他模态「竞争」。

这在训练初期不会产生太大的问题，但随着训练的进行、数据超出bf16的表达范围时，就会有loss发散的现象。

研究人员将其归因于softmax函数所具有的平移不变性，这种现象在单模态模型中也被称为「logit 漂移」（logit drift）。

因此，论文提出了一些架构调整和优化方法来保证稳定性：

-QK归一化（query-key normalization）：将layer norm应用于注意力模块中的query和key向量，从而直接控制softmax层输入的norm增长。

-在注意力层和前馈层之后引入dropout

-在损失函数中使用Zloss正则化

除了数据来源和架构，论文还大方公开了预训练所用的算力规模。

硬件型号为80GB内存的英伟达A100，7B版本并行使用1024个GPU训练了约86万个GPU小时，34B模型所用的GPU数量则扩大了3倍，GPU小时数超过428万。

作为曾经开源Llama 2的公司，Meta的研究团队确实大方，相比连技术报告都没有的GPT-4o，这篇有数据有干货的论文可谓「仁至义尽」。

全面超越Llama 2

具体的实验评估中，研究人员将其分为人工评估和安全测试，以及基准评估。

基准评估

Chameleon-34B使用了比Llama 2多四倍的token进行训练后，在各种单模态的基准测试中都取得了惊艳的效果。

在纯文本任务生成中，研究人员将预训练（非SFT）模型的纯文本功能与其他领先的纯文本LLM进行比较。

评估内容包括，常识推理、阅读理解、数学问题和世界知识领域，评估结果如下表所示。

- 常识推理和阅读理解

可以观察到，与Llama 2相比，Chameleon-7B和Chameleon-34B更具竞争力。甚至，34B甚至在5/8的任务上超过了Llama-2 70B，性能与Mixtral-8x7B相当。

- 数学和世界知识

尽管进行了其他模态的训练，但两个Chameleon模型都表现出很强的数学能力。

在GSM8k上，Chameleon-7B的表现优于相应参数规模的Llama 2模型，性能与Mistral-7B相当。

此外，Chameleon-34B在maj@1（61.4 vs 56.8）和Mixtral-8x7B在maj@32 （77.0 vs 75.1）上的表现均优于Llama 2-70B。

同样，在数学运算中，Chameleon-7B的性能超过Llama 2，与Mistral-7B在maj@4上的性能相当，而 Chameleon-34B的性能超过Llama 2-70B，接近Mixtral-8x7B在maj@4上的性能（24.7 vs 28.4）。

总体而言，Chameleon的性能全面超过了Llama 2，在某些任务上接近Mistral-7B/8x7B。

在文本到图像任务中，研究人员具体评测了视觉问答、图像标注两项具体任务。

Chameleon在视觉问答和图像标注任务中打败Flamingo和Llava-1.5等模型成为SOTA，在纯文本任务中也和第一梯队的Mixtral 8x7B、Gemini Pro等模型表现相当。

人工评估和安全测试

同时，为了进一步评估模型生成多模态内容的质量，论文也在基准测试之外引入了人类评估实验，发现Chameleon-34B的表现远远超过了Gemini Pro和GPT-4V。

相对于GPT-4V和Gemini Pro，人类评委分别打出了51.6%和60.4的偏好率。

下图展示了，对于一组多样化的、来自人类标注者的prompt，Chameleon与基线模型在理解和生成内容方面的性能对比。

其中的每个问题，都由三个不同的人类标注回答，并将多数票作为最终答案。

为了了解人类标注者的质量，以及问题的设计是否合理，研究人员还检查了不同标注者之间的一致性程度。

表5是对20,000个众包提示和445个红队交互进行的安全测试，引发模型产生不安全内容。

与Gemini和GPT-4V相比，Chameleon在处理需要交错、混合模态响应的提示时，非常有竞争力。

从示例中可以看到，在完成问答任务时，Chameleon既能理解输入的文本+图像，也能为模型输出内容加上合适的「配图」。

并且，Chameleon生成的图像通常与上下文相关，这样一来，这种交错内容的输出对用户来说，极具吸引力。

贡献团队

论文最后，还放上了参与这项研究的贡献者。

包括预训练、对齐和安全、推理和评估、所有项目的参与者。

其中，*表示共同一作，†表示关键贡献者，‡表示工作流程负责人，♯表示项目负责人。

参考资料：

https://the-decoder.com/metas-chameleon-ai-model-blends-text-and-images-hinting-at-a-future-gpt-4o-rival/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

机器之心Pro 2024-03-25 16:09:30
0 跟贴 0
GPT-4 更强的标志，原来藏在了 logo 里

爱范儿 2024-02-20 17:25:29
0 跟贴 0

谷歌DeepMind：GPT-4高阶心智理论彻底击败人类！第6阶推理讽刺暗示全懂了

新智元 2024-06-01 13:26:09
8 跟贴 8

六位一线AI工程师总结爆火！大模型应用摸爬滚打一年心得公开

量子位 2024-06-01 14:01:56
3 跟贴 3
全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
391 跟贴 391

AlphaFold 3引不满！服务器被黑，全世界科学家竞相破解

新智元 2024-06-02 12:34:23
0 跟贴 0

不分割成token，直接从字节中高效学习，Mamba原来还能这样用

机器之心Pro 2024-02-04 17:15:05
0 跟贴 0
Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

量子位 2024-05-26 15:58:07
0 跟贴 0

首次解密Claude 3大脑！25岁Anthropic参谋长预言3年内自己将被AI淘汰

新智元 2024-06-02 12:34:39
0 跟贴 0
Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
212 跟贴 212
大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
59 跟贴 59
可以互相交谈的人工智能来了

钛媒体APP 2024-04-14 16:22:14
0 跟贴 0
20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

量子位 2024-01-18 15:38:06
68 跟贴 68
新一代注意力机制Lightning Attention-2：无限序列长度

机器之心Pro 2024-01-18 14:41:20
2 跟贴 2
AI 搜索，已经在污染互联网了

爱范儿 2024-06-01 20:08:22
35 跟贴 35
论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

生物学霸 2024-03-15 15:02:25
0 跟贴 0
欧冠-克罗斯告别维尼修斯破门皇马2-0多特夺第15冠

网易体育 2024-06-02 04:59:22
17862 跟贴 17862
从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

量子位 2024-05-21 09:51:02
0 跟贴 0
GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

机器之心Pro 2024-02-20 15:15:48
0 跟贴 0
嫦娥六号着陆月背南极-艾特肯盆地

央视新闻客户端 2024-06-02 06:46:29
21033 跟贴 21033
三个Agent顶个GPT-4，基于开源小模型的那种｜中大阿里联合出品

量子位 2024-02-11 14:07:36
0 跟贴 0
深度分析：大国准备一场战争的复杂程度堪比神经网络（上）

元宇宙幻世 2024-06-01 20:36:52
0 跟贴 0
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
773 跟贴 773
多地市委书记晋升副省长候补中央委员跨省履新

鲁中晨报 2024-06-02 08:03:07
243 跟贴 243
首个智慧城市大模型UrbanGPT，全面开源开放｜港大&百度

量子位 2024-06-01 15:08:34
1 跟贴 1
GPT-4找到我女朋友的过敏原

量子位 2024-01-09 13:34:53
0 跟贴 0
比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

机器之心Pro 2024-04-01 15:29:05
18 跟贴 18
一位互联网创业者的深度解析：我为什么不用飞书？

虎嗅APP 2024-04-01 16:57:15
36 跟贴 36
媒体：美国海军未来战舰又栽进"坑里" 出现一系列麻烦

环球网资讯 2024-06-01 23:24:30
3360 跟贴 3360
若孤立我们的趋势不变，我们可能会面临很大的麻烦

罗sir职话 2024-06-02 11:51:25
738 跟贴 738
ChatGPT真能记住你的话吗？DeepMind与开源大佬揭示LLM记忆之谜

新智元 2024-06-01 13:25:22
3 跟贴 3
手冲咖啡改成了预制咖啡！南京老太却没明白，自己为啥不火了

金牌娱乐 2024-06-02 11:30:35
685 跟贴 685
要想拉动经济增长，还得看小县城的公务员

火锅局 2024-06-02 00:05:26
4193 跟贴 4193
引发观众现场痛哭，淘宝宠物行为艺术展单日参观人数破万

金羊网 2024-06-02 14:14:07
22125 跟贴 22125
泽连斯基来“香会”，讲什么不重要，重要的是他做成了三件事！

头条爆料007 2024-06-02 13:11:24
1851 跟贴 1851
价格大跳水!上海很多人爱吃商家:从未见过如此大降价

新闻坊 2024-06-02 15:29:16
205 跟贴 205
传Andre Elijah Immersive已决定撤销对Meta的诉讼

新浪XR 2024-05-31 11:23:17
0 跟贴 0
距离发射不到四分钟！波音取消了“星际客机”载人试飞任务

财联社 2024-06-02 03:25:09
4672 跟贴 4672
创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

DeepTech深科技 2024-04-26 15:48:38
0 跟贴 0
爆火ChatTTS突破开源语音天花板，3天斩获9k的Star量

机器之心Pro 2024-05-31 15:35:08
43 跟贴 43

四川、新疆发生地震！

娱乐圈见解说

2024-06-02 14:55:43

女单名将被淘汰！重庆冠军赛0:3张本美和，陈梦拒绝被爆冷3:2险胜

女单名将被淘汰！重庆冠军赛0:3张本美和，陈梦拒绝被爆冷3:2险胜

国乒二三事

2024-06-02 06:13:32

女人别乱买内衣！夏天穿它“大胸变小、小胸挺翘”，清凉又显瘦

女人别乱买内衣！夏天穿它“大胸变小、小胸挺翘”，清凉又显瘦

十点读书

2024-06-01 19:16:06

周深演唱会到处送票没人看，开场大片空座，座位上放荧光棒太尴尬

周深演唱会到处送票没人看，开场大片空座，座位上放荧光棒太尴尬

阿芒娱乐说

2024-06-02 17:32:21

回顾：江苏女子见一学生像前夫，鉴定后竟是她死了17年的儿子

回顾：江苏女子见一学生像前夫，鉴定后竟是她死了17年的儿子

可乐86

2024-05-30 10:11:18

曝汪峰与森林北一起过儿童节！逛商店主动付款，默契度似老夫老妻

曝汪峰与森林北一起过儿童节！逛商店主动付款，默契度似老夫老妻

裕丰娱间说

2024-06-02 14:23:27

刘湘.才貌双全的游泳运动员一一明星风采（265）

刘湘.才貌双全的游泳运动员一一明星风采（265）

祝晓塬

2024-06-02 17:00:44

2024年退休金上涨，事退涨4%、企退涨8%，可行吗？事实，但有差距

2024年退休金上涨，事退涨4%、企退涨8%，可行吗？事实，但有差距

暖心人社

2024-06-01 21:51:23

恳请中国队退赛！巴黎街头屎尿横飞，画面惨不忍睹，还开奥运会？

恳请中国队退赛！巴黎街头屎尿横飞，画面惨不忍睹，还开奥运会？

莫将离

2024-06-01 23:38:29

成为完全自由球员，李凯尔：很想回到森林狼，但一切还都未知

成为完全自由球员，李凯尔：很想回到森林狼，但一切还都未知

懂球帝

2024-06-01 22:52:03

唐山打人案：主犯被判24年，背后保护伞被揪出，在法庭上忏悔

唐山打人案：主犯被判24年，背后保护伞被揪出，在法庭上忏悔

古书记史

2024-05-29 14:20:06

你把汉堡王藏哪去了阿扎尔晒照骑自行车，这造型你认得出吗？

你把汉堡王藏哪去了阿扎尔晒照骑自行车，这造型你认得出吗？

直播吧

2024-06-02 16:56:08

草根学霸！美国最强高中生获1.1亿奖学金，231所大学抢着要

草根学霸！美国最强高中生获1.1亿奖学金，231所大学抢着要

娱乐的宅急便

2024-06-02 05:09:04

小s曝猛料：大s情绪不稳定，最近总发脾气，具俊晔已躲回韩国

小s曝猛料：大s情绪不稳定，最近总发脾气，具俊晔已躲回韩国

娱小小新

2024-06-02 10:55:47

A股突发重磅利好，两亿股民可以睡个好觉了，券商或将迎来逆转

A股突发重磅利好，两亿股民可以睡个好觉了，券商或将迎来逆转

静守时光落日

2024-06-02 07:00:08

《歌手》前导演洪涛：孙楠是国内男歌手天花板，这是深思熟虑的决定

《歌手》前导演洪涛：孙楠是国内男歌手天花板，这是深思熟虑的决定

潇湘晨报

2024-05-31 12:08:07

许家印被“顶格”罚款引网友不满：相当于欠债200万，罚47元一样

许家印被“顶格”罚款引网友不满：相当于欠债200万，罚47元一样

娱乐圈的大爆炸

2024-06-02 08:48:12

2024广东省政府机关和事业单位人员遗属待遇出炉，比去年上涨多少？

2024广东省政府机关和事业单位人员遗属待遇出炉，比去年上涨多少？

健康乡村

2024-06-02 16:30:02

东契奇：塔图姆不是凯尔特人的老大，因为布朗拿下了东决MVP

东契奇：塔图姆不是凯尔特人的老大，因为布朗拿下了东决MVP

刺头体育

2024-06-02 06:38:10

科比应与乔詹一起成为GOAT一员？打了四个时代的他，最有发言权

科比应与乔詹一起成为GOAT一员？打了四个时代的他，最有发言权

阿雄侃篮球

2024-06-02 19:25:26

AI产业主平台领航智能+时代

11106文章数 65532关注度

往期回顾全部

科技要闻

成功着陆！嫦娥六号将开始月背“挖宝”

头条要闻

知名国企巨头公告：3亿元理财到期仅收回不到3000万

头条要闻

知名国企巨头公告：3亿元理财到期仅收回不到3000万

体育要闻

我已伤痕累累却依然感动不了命运之神

娱乐要闻

白玉兰提名：胡歌、范伟争视帝

财经要闻

新造车5月销量: 小鹏乏力问界暂"缺席"

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

游戏

教育

家居

亲子

军事航空

踩就完了！这款能让你踩到爆的解压游戏Steam免费玩

教育要闻

院校推荐 | 热门且高薪的计算机科学与技术

家居要闻

风雅自来中式的和谐平衡

亲子要闻

宝宝不吃饭，爸爸用玩具做示范进行“恐吓”

军事要闻

匈牙利总理:欧洲已进入对俄开战准备阶段

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版