网易首页 > 网易号 > 正文 申请入驻

1000亿参数!阿里&清华发布最大规模的中文多模态预训练模型M6

0
分享至

作者 | 蒋宝尚、陈彩娴

编辑 | 青暮

近日,阿里巴巴联合清华大学发表了一项新研究,提出了 参数规模达到1000亿的中文预训练模型 M6 。我们可以看到,这项研究的通讯作者包括达摩院智能计算实验室资深算法专家杨红霞,以及清华大学计算机与科学技术系教授唐杰。

论文链接:https://arxiv.org/pdf/2103.00823.pdf

在这项新工作中,研究人员为了弥补大型预训练模型家族中(比如GPT-3、DALL-E等)中文数据集和中文模型的缺失,构建了一个最大的中文多模态预训练数据集M6-Corpus, 该数据集包含超过 1.9 TB图像和 292GB 文本 ,涵盖了广泛的领域,并提出了一种称为“M6”(Multi-Modality to MultiModality Multitask Mega-transformer)的跨模态预训练方法,以便对单模态和多模态的数据进行统一的预训练。

M6的应用适用于广泛的任务,包括产品描述生成、视觉问答、问答、中国诗歌生成等,实验结果表明M6的表现优于一系列强大的基准。并且, 研究人员还专门设计了文本引导的图像生成任务 ,从而可以实现那样的“sao操作”,并证明经过微调的 M6 可以创建具有高分辨率和丰富细节的高质量图像。

1

应用

1、文本-图像生成

文本:绵羊毛商务休闲西服套装

文本:减震透气跑鞋

文本:军旅风迷彩高跟鞋

文本:机器人矢量插图

2、视觉问答

图注:论文将原始问题题调成设计模式,并使用了“?”与“答案”等经典 token。这个预训练模型可以识别问题,提供答案与更深入的描述。

3、图片文字说明

图注:论文仅将图像特征作为输入,并没有提供任何提示。

4、问题回答

图注:提示(包含问题)成功触使模型生成论坛讨论形式的长文本。

5、诗歌生成

图注:提示和约束掩码协同工作,根据给定标题生成一首诗。

M6-Corpus涵盖了百科全书、问答、论坛讨论、产品说明等类型的数据集。此外,研究人员设计了完善的清洁程序以确保数据质量 。

M6 模型基于Transformer,并且已经过多项任务的预训练,使模型具有对单模态和多模态的理解和生成的能力。 成为有史以来最大的中文预训练模型。

首先用已训练的量化向量生成对抗网络以离散图像编码表示图像,然后使用预训练的M6来学习文本和编码之间的关系。这种学习方法可以桥接这两种模态,并实现可控的文本到图像生成。

最后,研究人员表示,通过精心设计的大规模分布式训练优化,M6在训练速度上具有明显的优势,并大大降低了训练成本,从而为更广泛地使用多模态预训练提供了可能性。

2

数据集

与现有的英文数据集相比,中文语料库的规模和形式略显不足。 另外,对于多模态预训练而言,用图文数据进行训练显然是比文本数据更好的选择。

这篇论文在统一自然语言预训练和多模态的预训练的同时,构建了纯文本和图像-文本对的大型数据集M6-Corpus。这些多模态预训练的语料库满足以下特点:

1.句子长度正常,语言流畅,不含有重复标点符号、随意组合字符等无意义的符号;

2.图像分辨率足够高,以人类能够识别为标准

3.文字、图片不含有色情、暴力等违法内容;

4.图像和文本应具有语义关联性

5.数据集涉及的领域广阔,目标是能够赋予模型足够的世界知识。

最后,研究者根据以上特点收集的多模态预训练的语料库的来源如上,包括百科全书、爬行网页、社区问答、论坛、产品描述等等。

为了突出数据集的优势,研究者还和“友商”进行了比较,经过文本规模、图像规模、是否多模态几项要素对比,研究者得出结论: M6-Corpus是首个大规模、多模态、多领域的中文预训练语料库。

数据收集并不容易,研究者还进行了复杂的预处理 ,对于文本数据,删除了HTML标记和重复的标点符号,只保留中文和英文的字符和标点符号。对于短于5个字符的标题和短于15个字符的文本内容,研究者予以删除。

此外,研究者使用其“内部垃圾邮件检测器”筛选包含某些政治问题、色情或脏话等不合适的句子。为了保持文本的语言接受度,还建立了一个语言模型进行评估文本的困惑程度,去掉了困惑程度高的句子。

对于图片数据,只有超过5000像素的图像才有资格被保留用于预训练。 并利用一系列分类器筛出非法内容,用预先训练好的图像评分系统对图像质量进行评价,择优录取。

整个数据集的收集可谓用心良苦,但也保证了数据集的高质量。百科全书、网页和产品描述三类数据展示如上。

百科全书、社区问答、论坛讨论这些文本数据的展示如上。

3

模型架构

此预训练模型的架构名为M6,Multi-Modality-to-Multi-Modality Multitask Mega-transformer。

顾名思义,此模型有两个特点:一个是大,模型规模大,包含参数千亿;另一个是多模态,能够处理文本到图像的任务。 另外,从模型的名字我们也可以看出,基础架构是自注意力机制的transformer。

图注:M6预训练框架一览

主流的多模态预训练方法通过目标检测将图像转换为特征序列。 目标检测器的性能及其主干的表现力极大地影响了预先训练的模型在下游任务中的最终性能。以电子商务中的数据图像为例。研究者随机抽取1百万幅图像,并对图像进行目标检测。结果表明,90%以上的图像包含的对象少于5个,且对象之间的重叠度也很高。

为了解决上述问题,研究者用了一个简单但有效的解决方案: 将图像分割成多个块,并用经过训练的特征提取器(如ResNet-50)提取2D的特征。 然后,按照特征的位置排列成一个序列。

据悉,单词序列输入的处理比较简单。将WordPiess和掩码应用到单词序列,并在BERT之后将它们整合进嵌入层。

另外在M6模型框架中,研究者使用不同的掩码策略(masking strategies )进行实现编码和解码。输入分为三个部分,包括视觉输入、掩码的语言输入和完整的语言输入。作者将双向掩码应用于视觉输入和掩码的语言输入,并将因果掩码应用于完整的语言输入。 因此,该模型在同一框架中实现了编码和解码功能。

研究者还使用多任务设置预先训练模型,包括文本到文本转换、图像到文本转换的和多模态转换。模型还可以处理不同模态的信息,并同时执行单模态和跨模态的理解和生成。

M6模型一共有两个版本,根据模型包含的参数不用,分为M6-10B(包含100亿个参数)、M6-100B(包含1000亿个参数)。

模型大小不同,意味着神经网络的隐藏层大小和层数不同,更大的模型显然能更好的表示、学习世界知识。 当然,研究者也采取了节省GPU内存手段:应用混合精度训练和激活检查点(activation checkpointing )。尽管如此,M6模型还是由于太大不能容纳在单个GPU中。

图注:不同规模模型的介绍

M6-100B并不是M6-10B的简单扩大版本 ,在扩大参数的过程中,研究者使用过了专家混合( MoE,Mixture-of-Experts)。考虑到MOE需要Mesh-TensorFlow以及TPU,有些研究人员使用这么计算资源有门槛,因为论文作者用框架Whale实现了带有MOE的M6-100B,执行与GPU的模型并行性。

4

总结与讨论

当下最火的AI应用是什么?毫无疑问是OpenAI名为DALL-E的神经网络模型,它可以魔法一般按照自然语言文字描述直接生成对应图片。生成效果非常神奇,有人说自然语言与视觉的壁垒正在被逐渐打通。

而清华大学和阿里巴巴公布了M6模型,也在一定程度上证明了中国企业和学界也有能力开发出魔法般的AI技术。

图注:M6模型根据文本内容,自动设计特定风格图片(图片来源网络,侵删)

对此,在reddit上,网友评:虽然和OpenAI的工作类似,但是MOE方面的工作是极具创新的。另外,仿佛每个人,即使没有AI背景的“妈妈”在此之后也能轻松训练大规模多模态模型。

还有网友认为:中国拥有无与伦比的大规模数据,非常适合大型多模态AI训练。

另一方面这种“跨界模型”也正是当下的研究趋势,正如之前OpenAI 联合创始人、首席科学家 Ilya Sutskever 在推特上发文表示道:人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念(文本和视觉领域为主),从而更好地理解世界。

M6模型的发布也意味着,中国在工程和技术上有能力做出兼顾训练效率和生成精度的多模态预训练模型,为迎接下一代人工智能打下基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
姚晨刚刚宣布离婚,二婚又离了!震惊又唏嘘…

姚晨刚刚宣布离婚,二婚又离了!震惊又唏嘘…

黎兜兜
2026-03-16 15:58:30
1942年,一位渔夫载着16名日军渡江,到江中心他突然跳进了水中

1942年,一位渔夫载着16名日军渡江,到江中心他突然跳进了水中

浩渺青史
2026-02-10 13:31:21
市值蒸发70亿!纯天然椰子水居然是勾兑糖水,3.15第一个雷炸

市值蒸发70亿!纯天然椰子水居然是勾兑糖水,3.15第一个雷炸

社会日日鲜
2026-03-16 06:53:17
美军陷在中东出不来,台海突然静悄悄,台军为何后背发凉?

美军陷在中东出不来,台海突然静悄悄,台军为何后背发凉?

Ck的蜜糖
2026-03-15 03:18:25
前队长炮轰,宫鲁鸣下课?新帅曝光或是她,辽宁名宿,曾执教CBA

前队长炮轰,宫鲁鸣下课?新帅曝光或是她,辽宁名宿,曾执教CBA

萌兰聊个球
2026-03-16 19:32:46
不丹佩玛王后拎爱马仕新包,穿白色风衣亮相,一扫寒酸样消费升级

不丹佩玛王后拎爱马仕新包,穿白色风衣亮相,一扫寒酸样消费升级

夜深爱杂谈
2026-03-16 18:06:03
库尼亚:我总是跟胖虎说再留一年吧,他让我学到了很多

库尼亚:我总是跟胖虎说再留一年吧,他让我学到了很多

懂球帝
2026-03-16 21:20:30
国际金价一度跌破5000美元,金饰价格同步下调 专家:高位回调,中长期牛市逻辑未破

国际金价一度跌破5000美元,金饰价格同步下调 专家:高位回调,中长期牛市逻辑未破

红星新闻
2026-03-16 13:38:13
中国资产深夜大涨,美股科技股普涨,半导体集体拉升,国际油价大跳水

中国资产深夜大涨,美股科技股普涨,半导体集体拉升,国际油价大跳水

21世纪经济报道
2026-03-17 07:13:57
江苏多地发出倡议书:鼓励用人单位在中小学春秋假期间安排职工错峰休息休假

江苏多地发出倡议书:鼓励用人单位在中小学春秋假期间安排职工错峰休息休假

环球网资讯
2026-03-16 15:51:06
一场4分险胜,上海男篮七连胜,CBA最新积分榜排名出炉

一场4分险胜,上海男篮七连胜,CBA最新积分榜排名出炉

越岭寻踪
2026-03-17 00:56:31
比刘亦菲还漂亮的女人出现了,就她

比刘亦菲还漂亮的女人出现了,就她

手工制作阿歼
2026-03-17 02:35:15
他护送毛主席进京,1958年被连降十级,主席知道后:我要亲自过问

他护送毛主席进京,1958年被连降十级,主席知道后:我要亲自过问

浩渺青史
2026-03-12 17:27:22
4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

通鉴史智
2026-03-15 11:45:00
某鱼初代“小姨子”复播,被嘲奔四老掉渣,网友:A8老了也是A8

某鱼初代“小姨子”复播,被嘲奔四老掉渣,网友:A8老了也是A8

电竞瓜皮
2026-03-15 22:09:36
朱德罕见发怒痛斥彭德怀:这样搞,你对得起那些跟你出生入死的老兄弟吗

朱德罕见发怒痛斥彭德怀:这样搞,你对得起那些跟你出生入死的老兄弟吗

文史明鉴
2026-03-14 17:33:24
最后期限已过!祝融号没被唤醒,但天问一号还在传回火星照片!

最后期限已过!祝融号没被唤醒,但天问一号还在传回火星照片!

火星一号
2026-03-16 01:00:53
2500亿煤化工巨头日赚3100万,股价涨超70%

2500亿煤化工巨头日赚3100万,股价涨超70%

21世纪经济报道
2026-03-16 23:41:45
中方话音刚落,扎哈罗娃准时回应,关乎黑瞎子岛,俄方有了新想法

中方话音刚落,扎哈罗娃准时回应,关乎黑瞎子岛,俄方有了新想法

探源历史
2026-03-16 14:55:23
一项被低估的抗衰运动!延缓大脑衰老,保持紧实身材

一项被低估的抗衰运动!延缓大脑衰老,保持紧实身材

增肌减脂
2026-03-15 15:55:10
2026-03-17 08:51:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7121文章数 20740关注度
往期回顾 全部

科技要闻

冲击万亿美元订单!黄仁勋定下宏大目标

头条要闻

外媒:美国已输掉了对伊朗的战争 一个动作令中国获益

头条要闻

外媒:美国已输掉了对伊朗的战争 一个动作令中国获益

体育要闻

那个送老奶奶去医院的球员 成了队史第一人

娱乐要闻

姚晨曹郁发离婚声明 多年前已结束婚姻

财经要闻

我们都是被“训练”出来的大模型

汽车要闻

大众全球首款9系旗舰SUV 上汽大众ID.ERA 9X首秀

态度原创

教育
时尚
游戏
健康
亲子

教育要闻

中产鸡娃是无效努力 家长最稀缺的心理资源,安全感

除了阔腿裤,这条裤子今年最流行!

《我的机器人女友》Steam好评如潮 谁不想要个?

转头就晕的耳石症,能开车上班吗?

亲子要闻

萌娃实力吐槽妈妈做的饭难吃

无障碍浏览 进入关怀版