Janus-Pro：通过数据和模型扩展实现统一的多模态理解与生成|深度思考模型

Janus-Pro：通过数据和模型扩展实现统一的多模态理解与生成

2025-07-11 12:28:00　来源: CreateAMind

上海举报

分享至

Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

Janus-Pro：通过数据和模型扩展实现统一的多模态理解与生成

https://arxiv.org/pdf/2501.17811

摘要

在本工作中，我们介绍了 Janus 的升级版本——Janus-Pro。具体而言，Janus-Pro 融合了以下改进：(1) 优化的训练策略，(2) 扩展的训练数据，以及 (3) 更大规模的模型架构。通过这些改进，Janus-Pro 在多模态理解和文本到图像指令跟随能力方面实现了显著提升，同时增强了文本生成图像的稳定性。我们希望这项工作能够激发该领域的进一步探索。代码和模型已公开发布。

1 引言

近年来，统一的多模态理解和生成模型取得了显著进展 [30, 40, 45, 46, 48, 50, 54, 55]。这些方法已被证明能够提升视觉生成任务中的指令跟随能力，同时减少模型冗余。大多数方法在多模态理解和生成任务中均使用相同的视觉编码器来处理输入。由于这两类任务所需的表征存在差异，这种方式常常导致多模态理解性能不够理想。为了解决这一问题，Janus [46] 提出了视觉编码解耦的方法，缓解了多模态理解和生成任务之间的冲突，从而在两类任务上均实现了优异的表现。

作为开创性模型，Janus 在 1B 参数规模下得到了验证。然而，由于训练数据量有限以及模型容量相对较小，它表现出一些不足之处，例如在短文本提示下的图像生成效果不理想，以及文本到图像生成质量不稳定。本文中，我们提出了 Janus-Pro，这是 Janus 的增强版本，在训练策略、训练数据和模型规模三个方面进行了改进。Janus-Pro 系列包含两种模型尺寸：1B 和 7B，展示了视觉编码与解码方法的良好可扩展性。

我们在多个基准测试中对 Janus-Pro 进行了评估，结果表明其在多模态理解方面具有卓越的能力，并在文本到图像指令跟随性能上实现了显著提升。具体而言，Janus-Pro-7B 在多模态理解基准 MMBench [29] 上得分达到 79.2，超过了当前最先进的统一多模态模型，如 Janus [46]（69.4）、TokenFlow [34]（68.9）和 MetaMorph [42]（75.2）。此外，在文本到图像指令跟随榜单 GenEval [14] 上，Janus-Pro-7B 得分为 0.80，优于 Janus [46]（0.61）、DALL-E 3（0.67）和 Stable Diffusion 3 Medium [11]（0.74）。

2 方法
2.1. 架构

Janus-Pro 的架构如图3所示，与 Janus [46] 相同。整体架构的核心设计理念是将用于多模态理解和生成的视觉编码进行解耦。我们对原始输入采用独立的编码方法将其转换为特征，然后由一个统一的自回归 Transformer 进行处理。

在多模态理解任务中，我们使用 SigLIP [53] 编码器从图像中提取高维语义特征。这些特征从二维网格展平为一维序列，并通过一个“理解适配器”（understanding adaptor）映射到大语言模型（LLM）的输入空间。

在视觉生成任务中，我们使用来自 [38] 的 VQ tokenizer 将图像转换为离散的 ID 序列。ID 序列被展平为一维后，我们通过一个“生成适配器”（generation adaptor）将每个 ID 对应的码本嵌入（codebook embeddings）映射到 LLM 的输入空间。

随后，我们将这些特征序列拼接起来，形成一个多模态特征序列，并输入至 LLM 中进行处理。除了 LLM 内置的预测头外，我们在视觉生成任务中还额外使用了一个随机初始化的预测头用于图像生成预测。整个模型遵循自回归框架。

2.2. 优化的训练策略

前一版本 Janus 采用的是三阶段训练流程：

第一阶段（Stage I）：专注于训练适配器和图像预测头；
第二阶段（Stage II）：进行统一预训练，除理解编码器和生成编码器外的所有组件参数都会更新；
第三阶段（Stage III）：监督微调，在 Stage II 的基础上进一步解锁理解编码器的参数进行训练。

该训练策略存在一些问题。在 Stage II 中，Janus 按照 PixArt [4] 的方式将文本到图像能力的训练分为两部分：

第一部分使用 ImageNet [9] 数据集，以图像类别名称作为文本提示进行文本到图像生成训练，目标是建模像素依赖关系；
第二部分则使用常规的文本到图像数据进行训练。

在实际执行中，Stage II 中约有 66.67% 的文本到图像训练步骤分配给了第一部分。然而，通过进一步实验我们发现，这种策略并不理想，且会导致显著的计算资源浪费。

为了解决这一问题，我们进行了以下两项改进：

延长 Stage I 的训练时间 ：我们增加了 Stage I 的训练步数，使得在 ImageNet 数据上的训练更加充分。研究发现，即使在 LLM 参数固定的情况下，模型仍能有效建模像素依赖关系，并基于类别名称生成合理的图像。
聚焦于 Stage II 的训练内容 ：在 Stage II 中，我们舍弃了 ImageNet 数据，直接使用常规的文本到图像数据，训练模型根据密集描述生成图像。这种重新设计的方式使 Stage II 更高效地利用文本到图像数据，从而提升了训练效率和整体性能。

此外，我们在 Stage III 的监督微调过程中调整了不同数据类型的配比，将多模态数据、纯文本数据和文本到图像数据的比例由原来的 7:3:10 调整为 5:1:4。通过略微减少文本到图像数据的比例，我们观察到这种调整能够在保持强大视觉生成能力的同时，提升多模态理解的表现。

2.3. 数据扩展

我们在多模态理解和视觉生成两个方面都对 Janus 所使用的训练数据进行了扩展。

多模态理解 ：在 Stage II 预训练数据方面，我们参考了 DeepSeek-VL2 [49]，新增了约 9000 万个样本。这些数据包括图像描述数据集（例如 YFCC [31]），以及用于表格、图表和文档理解的数据（例如 Docmatix [20]）。在 Stage III 的监督微调数据中，我们也引入了来自 DeepSeek-VL2 的额外数据集，如 MEME 理解任务、中文对话数据，以及旨在提升对话体验的数据集。这些新增内容显著扩展了模型的能力，增强了其处理多样化任务的能力，并提升了整体的对话体验。
视觉生成 ：我们发现前一版本 Janus 中使用的现实世界数据质量不高，存在大量噪声，这常常导致文本到图像生成过程不稳定，输出效果不佳。在 Janus-Pro 中，我们引入了约 7200 万个合成美学数据样本，使得在统一预训练阶段中真实数据与合成数据的比例达到 1:1。这些合成数据的提示词来源于公开资源，例如 [43]。实验表明，使用合成数据进行训练时模型收敛更快，且生成的文本到图像结果不仅更加稳定，美学质量也显著提升。

2.4. 模型扩展

Janus 的早期版本使用了一个 15 亿参数的大语言模型（LLM）验证了视觉编码解耦的有效性。在 Janus-Pro 中，我们将模型规模扩展至 70 亿参数。表 1 中详细列出了 15 亿和 70 亿参数 LLM 的超参数配置。我们观察到，在使用更大规模的 LLM 时，无论是多模态理解还是视觉生成任务，损失函数的收敛速度相比小模型都有显著提升。这一发现进一步验证了该方法具有良好的可扩展性。

3 实验
3.1. 实现细节

在我们的实验中，我们采用 DeepSeek-LLM（1.5B 和 7B）[3] 作为基础语言模型，其最大支持的序列长度为 4096。对于多模态理解任务中使用的视觉编码器，我们选择了 SigLIP-Large-Patch16-384 [53]。用于生成任务的编码器包含一个大小为 16,384 的码本，并以 16 倍的比例对图像进行下采样。理解和生成适配器均为两层的多层感知机（MLP）。每个训练阶段的详细超参数如表 2 所示。

请注意，在 Stage II 中我们采用了早停策略（early stopping），在 270K 步时停止训练。所有图像统一调整为 384 × 384 像素。对于多模态理解任务的数据，我们将图像长边缩放至 384 像素，并将短边填充为背景色（RGB：127, 127, 127）以达到 384 像素；对于视觉生成任务的数据，我们将短边缩放为 384 像素，并将长边裁剪为 384 像素。

为了提高训练效率，我们在训练过程中使用了序列打包（sequence packing）技术，并在一个训练步骤中按照指定比例混合所有类型的数据。我们的 Janus-Pro 是基于 HAI-LLM [15] 进行训练和评估的，这是一个建立在 PyTorch 之上的轻量级、高效的分布式训练框架。

整个训练过程在配备了 8 块 NVIDIA A100 (40GB) GPU 的 16/32 节点集群上完成，1.5B 和 7B 模型分别耗时约 9 天和 14 天。

3.2. 评估设置

多模态理解 ：为了评估多模态理解能力，我们在多个广泛认可的基于图像的视觉-语言基准测试中进行了评测，包括 GQA [17]、POPE [23]、MME [12]、SEED [21]、MMBench [29]、MM-Vet [51] 和 MMMU [52]。

视觉生成 ：为了评估视觉生成能力，我们使用了 GenEval [14] 和 DPG-Bench [16]。GenEval 是一个具有挑战性的文本到图像生成基准，旨在通过提供对模型组合能力的细粒度实例级别分析，反映视觉生成模型的综合生成能力。DPG-Bench（密集提示图基准）则是一个包含 1065 条长且密集提示的全面数据集，用于评估文本到图像模型在复杂语义对齐方面的能力。

3.3. 与最先进方法的对比

多模态理解性能 ：我们在表 3 中将所提出的方法与当前最先进的统一模型和仅用于理解的模型进行了比较。Janus-Pro 取得了整体最佳的结果。这可以归因于对多模态理解和生成任务中视觉编码的解耦设计，有效缓解了这两类任务之间的冲突。即使与显著更大规模的模型相比，Janus-Pro 依然表现出很强的竞争力。例如，除了 GQA 之外，Janus-Pro-7B 在所有基准测试中的表现均优于 TokenFlow-XL（13B）。

视觉生成性能 ：我们在 GenEval 和 DPG-Bench 上报告了模型的视觉生成性能。如表 4 所示，我们的 Janus-Pro-7B 在 GenEval 上取得了 80% 的整体准确率，优于所有其他统一模型或仅用于生成的模型，例如 Transfusion [55]（63%）、SD3-Medium（74%）和 DALL-E 3（67%）。这表明我们的方法在指令跟随能力方面表现更优。

如表 5 所示，Janus-Pro 在 DPG-Bench 上得分达到 84.19，超过所有其他方法，进一步证明 Janus-Pro 在根据密集文本提示进行文本到图像生成方面表现出色。

3.4. 定性结果

我们在图 4 中展示了多模态理解的结果。Janus-Pro 在处理来自不同上下文输入时展现出出色的综合理解能力，体现了其强大的多模态处理能力。

图 4 的下半部分展示了一些文本到图像生成的结果。由 Janus-Pro-7B 生成的图像高度逼真，尽管分辨率为 384 × 384，但仍包含大量细节。对于富有想象力和创造性的场景，Janus-Pro-7B 能够准确捕捉提示中的语义信息，生成逻辑清晰、内容连贯的图像。

4 结论
本文从训练策略、数据和模型规模三个方面对 Janus 进行了改进。这些增强使得 Janus-Pro 在多模态理解和文本到图像指令跟随能力方面实现了显著提升。然而，Janus-Pro 仍存在一些局限性。

在多模态理解方面，输入图像的分辨率被限制在 384 × 384，这影响了其在诸如 OCR 等细粒度任务中的表现。

在文本到图像生成方面，较低的分辨率以及视觉 tokenizer 引入的重建损失，导致生成的图像虽然在语义内容上丰富，但在细节表现上仍有所欠缺。例如，图像中占据较小区域的人脸可能细节不足，显得不够清晰。

提高图像分辨率有望缓解上述问题

https://arxiv.org/pdf/2501.17811

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.