腾讯混元文生图大模型开源，并推出首个DiT架构|算法|dit架构|视频生成模型

腾讯混元文生图大模型开源，并推出首个DiT架构

2024-05-16 23:24:20　来源: 光子星球

江西举报

分享至

5月14日，腾讯发布2024年第一季财务数据，财报提到会持续投资AI技术。

在AI驱动下，代表数实经济的金融科技与企业服务业务一季度收入增长7%，毛利同比增长42%，主要受益于视频号直播带货技术服务费等强劲增长，以及企业微信与其他企业服务的商业化增加。一季度，企业微信、腾讯会议、腾讯文档、腾讯乐享、腾讯电子签、腾讯问卷等协作SaaS产品，已全部接入腾讯混元大模型。

腾讯混元也在产业侧不断深入到具体场景中。4月，腾讯发布汽车行业大模型“全域智能”方案，与十余家车企，在研发、生产、营销等场景开启行业大模型合作。

当天稍早时候，腾讯宣布旗下混元文生图大模型全面升级并对外开源，目前已在HuggingFace平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

我们整理了发布会的关键信息，如下：

DiT，即DiffusionWithTransformer，基于Transfomer架构的扩散模型。过去几年，主流的文生图模型以基于U-Net架构的扩散模型为主，DiT架构主要是替换了模型中的U-Net架构的部分。

文生图的核心模型：扩散模型是什么？

用于理解扩散模型最常听见的比喻，是来自意大利文艺复兴雕塑家米开朗琪罗的一句话：“塑像本来就在石头里，我只是把不需要的部分去掉。”

这也是文生图扩散模型工作的原理，跟米开朗琪罗一样：模型拿到的也是一块原始的石头，用户给了模型一句指令，模型会根据这句指令把上面不需要的部分去掉，这个部分在扩散模型中称为噪声/噪点。

而训练这样一个模型的方式，就是反过来。

先收集大量的原始图像，并对图像打标签，然后一层一层地在原始图像上加上随机噪点，该噪点服从高斯分布，直到该图像无限接近纯粹噪点。以此获得训练的原始数据集。

训练则是让模型通过输入的指令，一层一层迭代，去除噪点，直到还原出原始图片，是就符合描述图片的过程。

以下两张图片比较形象地描述出了该过程。

——图片来自西南证券研报《Transformer扩展优势凸显，视频理解与生成能力提升》

——图片来自博主“AI研究室-帆哥”《AI文生图时，电脑里到底发生了什么？我们给stablediffusion解剖开一探究竟！》

这里需要解释DiT与U-Net架构两者的区别。

一点点地把噪声/噪点去掉、把不需要的石头凿掉，就是扩散模型的工作原理。而如何思考、判断和计算该去掉哪些石头、怎么去掉这些石头，这个思考框架就是“U-Net架构”和“Transformer架构”的核心区别。

U-Net架构的整体思路，是一种有损压缩再逐步还原的思路：通俗来说，是一步步地把图像缩小，再去计算图像的相似性。这样不仅可以大大降低计算量，简化之后有可能发现图片过大时更不容易发现的相似之处与特征。

V-

具体而言，是通过不断迭代，降低数据的维度，把高维数据转换成低维数据，比如将原来的3D数据——需要用（x,y,z）表示，变成2D数据——仅需要用（x,y），肉眼可见计算复杂程度的降低。（更学术的解释可见下列参考文章与请教交流会现场腾讯混元专家）

——图片来自西南证券研报《Transformer扩展优势凸显，视频理解与生成能力提升》

U-Net架构在“降低复杂度”和“保留细节度”之间进行平衡，提升了模型的计算效率，让文生图模型所需要的算力不需要太高。

然而，随着当研究人员希望让文生图模型“越来越聪明”，加入的参数越来越多，图像或指令变得越来越复杂，这时候Unet模型容易陷入性能瓶颈，面临着扩展性问题。

比如，用户如果希望生成一副“一位年轻亚洲女子”这样简单的图像时，U-Net架构还可以轻松处理；但如果指令变得愈发复杂，比如需要画面中具有多个不同主体（人物、动物、物体），而且对每个主体的外表、神态、位置都有详细的描述，这个任务就会变得有点困难；更别说完成一幅像伦勃朗的《夜巡》或达·芬奇《最后的晚餐》这样能精确描绘每个人表情的巨制。

Transformer架构，则是通过全局的注意力机制关注整幅图像的过程：首先将一张大图切割成无数个小图片块，然后通盘地计算整幅图像中各个图像块之间的关联，从而计算出与目标指令最接近的图。这样的机制，显然需要更大的计算量，尤其当图片变得越来越大、参数变得越来越多时，但好处是不会忽略图片中任何一个细节，而且只要算力与数据量足够，可以无限扩展。

——图片来自西南证券研报《Transformer扩展优势凸显，视频理解与生成能力提升》

因此，基于Transformer架构的模型，似乎更有潜力让文生图模型变得更聪明。

腾讯混元做了什么？

在此背景下，腾讯混元文生图如何做出基于DiT架构的文生图模型？又在原DiT基础上做了哪些改进？我们获悉主要包括算法、数据质量、工程加速三个方面。

原来Meta做的DiffusionTransformer（DiT）架构，在ImageNet的1000类图像上训练了类别控制的生成模型，首先验证了扩散模型基于Transformer架构的生成能力。

针对模型算法本身，腾讯混元文生图模型增加如下三种能力：

l 让DiT架构具备了长文本理解能力：在模型中加入了LLM的组件，该组件能力包括语义理解，以及文生图的扩充和优化。腾讯混元文生图架构支持最长256个字符（业界主流是77个）的图片生成指令；同时利用多模态大语言模型，对简单/抽象的用户指令文本进行强化，转写成更丰富/具象的画面文本描述，最终提升文生图的生成效果。

l 增加了中文原生的理解能力：自主训练中文原生文本编码器，让模型的中文语义理解能力更强，同时也支持英文。

l 增加多轮对话的能力：让模型具备上下文连贯的理解能力，同时通过技术手段控制同一话题与主体下图片主体的一致性。

同时，针对文生图训练数据缺乏、普遍质量不高的问题，腾讯混元团队也通过系统化手段，提升了训练数据的规模与质量。

语言模型数据质量优化

l 构建结构化图片描述能力提升文生图训练数据文本质量，并结合领域专家模型和构建文本注入Caption模型增强图片描述的知识性，提升文生图训练图文数据质量。

l 构建覆盖多维度、多主题的改写指令数据集，通过保障数据的多样性使得改写模型具备较强的泛化性。

图片训练数据处理流程（数据管道）优化

l 对数据分类分层：数据管道利用高效、精准、多元化的打标算子，在图片获取的同时，对图片内容进行理解，将图片的质量进行区分，按图片质量的高低，服务于不同精度的模型

l 制定数据质量评估机制指导数据质量优化：为了给模型提供高质量、类目均衡的样本，同时降低训练数据分布变化带来的风险，腾讯混元文生图团队提出了数据班车的机制，通过对比线上模型与变化样本分布后的模型效果的方式，从主体、风格、场景等多角度评估训练样本改变对模型带来的收益情况，并且形成了可迭代的训练样本调整机制。

为了更好地提升模型训练与运行效率，提升算力资源利用率，腾讯混元文生图团队为该模型构建专属工程加速工具库：

l 工程优化方面，腾讯混元文生图团队通过ONNX图优化减少冗余操作和显存消耗、通过优化kernel及融合算子减少计算量、内存访问以及预计算中间结果，降低实时计算需求，提高计算效率。

l 数据构造方面，腾讯混元文生图团队通过数据筛选保证蒸馏过程中整体数据分布与蒸馏前近似性，并重点挑选高质量数据以满足对细节质感要求高的场景。

l 模型蒸馏方面，腾讯混元文生图团队采用自研的基于渐进式蒸馏的方法，确保训练过程的稳定性、准确性的同时保证可扩展性，合理控制压缩成本和压缩效率，实现经济高效的模型压缩。

同时，针对大模型训练和推理场景，腾讯自研了Angel机器学习平台，主要包含负责训练的AngelPTM和负责推理的AngelHCF两大部分。其中，AngelPTM训练速度相比主流开源框架提升1.6倍，AngelHCF推理速度相比业界主流框架提升1.3倍。

可以把机器学习平台比作一条多车道的高速公路，大模型就像许许多多的重型卡车，可以在高速公路上高速行驶；相比之下，较落后的技术平台就像是乡间的泥泞小道，只通行一辆小车也颠簸、缓慢。两者能提供的服务以及最终带来的用户体验显然也不能同日而语，而当前具备领先性能的机器学习平台，能够帮助提供更好的基建体系，助力大模型高速运行。

腾讯混元文生图大模型就是基于Angel机器学习平台进行训练，大幅提升了训练效率。

由上述改进亦可看出，混元文生图整体模型主要由三个部分组成： a)多模态LLM，支持用户文本改写以及多轮绘画； b)双语文本编码器,构建中英文双语CLIP理解文本，同时具备双语生成能力； c)生成模型，从U-Net升级为DiffusionwithTransformer，采用隐空间模型，生成多分辨率的图像,确保图像整体的稳定结构;

技术关键点

a)将文生图架构从自研的U-Net架构升级为DiT架构：基于Transformer的扩散模型可以提升图像的质量，同时提高生成模型扩展能力。

b)原生中文理解能力：对中文新概念学习速度更快，对中文认知更深刻。同时让模型更细致地分辨不同粒度文本信息。

c)数据清洗与加速工程：数据质量是大模型能力的重要因素，工程加速则影响着大模型的训练与运行性能，以及算力资源使用效率。

整体而言，结合内部广告等真实场景需求优化与架构升级，最新的腾讯混元文生图大模型，对比基于U-Net架构的模型，视觉生成整体效果提升20%，同时在语义理解、画面质感与真实性方面全面提升，在多轮对话、细粒度语义理解、中国元素、真实人像生成等细分场景下效果提升显著。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.