香港中文大学和字节跳动联合发布：如何实现AI图文双向理解？|模态|知名企业|深度思考模型

分享至

这项由香港中文大学多媒体实验室的韩佳明和字节跳动种子实验室的陈昊领导的研究团队发表于2025年6月的arXiv预印本服务器，有兴趣深入了解的读者可以通过https://tar.csuhan.com访问完整论文和相关代码。

在人工智能的世界里，一直存在着一个有趣的现象。当我们要求AI看懂一张图片时，它需要用一种方式来理解图像；而当我们要求它画出一张图片时，它又需要用另一种完全不同的方式来生成图像。这就像是一个人在理解汉语时用汉语思维，但在说英语时却必须切换到英语思维一样，显得既复杂又低效。

研究团队把这个问题想象成了一个有趣的比喻：如果把视觉理解和图像生成看作是两种不同的"方言"，那么能不能找到一种通用的"普通话"让AI在处理这两种任务时都能流利交流呢？他们的答案是开发一种叫做"文本对齐表示"（Text-aligned representation，简称Tar）的方法，就像是给AI装上了一个万能翻译器。

这个研究的核心创新在于设计了一个名为"文本对齐分词器"（TA-Tok）的系统。如果把传统的AI处理图像比作两个不同的厨师，一个专门品尝食物（理解图像），另一个专门制作食物（生成图像），那么TA-Tok就像是一本通用的菜谱，让同一个厨师既能品尝出食物的精妙，又能按照同样的标准制作出美味佳肴。

研究团队面临的第一个挑战是如何让AI用同一种"语言"来处理看图和画图这两个看似截然不同的任务。传统方法就像是让一个翻译官在中文和英文之间反复切换，不仅效率低下，还容易出错。他们的解决方案是创建一个基于大语言模型词汇表的统一表示空间，这就像是建立了一个所有语言都能理解的通用符号系统。

具体来说，TA-Tok的工作原理可以这样理解：当你给它一张照片时，它首先用一个叫做SigLIP2的视觉编码器将图像转换成连续的特征表示，就像是把一幅画描述成一系列详细的文字。然后，这些描述会通过一个"规模自适应池化"的过程进行调整，这个过程就像是用不同的放大镜来观察同一个物体，可以选择看大致轮廓还是精细细节。

接下来是最关键的步骤：文本对齐编码本的运用。研究团队没有使用随机初始化的编码本，而是直接借用了大语言模型中已经训练好的词汇嵌入。这就像是不重新发明轮子，而是直接使用已经成熟的零件来组装新机器。他们从Qwen2.5语言模型的15万个词汇中精选出6万5千个最具代表性的词嵌入，然后通过一个可学习的投影矩阵将视觉特征映射到这些词嵌入空间中。

这种设计带来了一个巧妙的效果：图像中的每个部分都能用语言模型能够理解的"词汇"来表示，这样AI在处理图像时就能像处理文字一样自然流畅。研究团队还设计了一个规模自适应解码器来确保这个转换过程的准确性，它会重建出原始的视觉特征，并与教师模型的输出进行对比，确保信息没有丢失。

为了解决从这些语义词汇回到真实图像的问题，研究团队开发了两种互补的"生成式去分词器"。第一种是自回归去分词器，它的工作方式就像是一个画家按照既定顺序一笔一划地绘制图像，每一笔都基于前面已经画好的内容。这种方法的优点是速度快，且与语言模型的工作方式完全一致。

第二种是扩散去分词器，它的工作原理更像是先在画布上铺一层噪声，然后逐渐去除噪声来显现出最终的图像。这种方法的优势在于能够利用现有的强大扩散模型，只需要简单地将原本的文本条件替换为TA-Tok生成的视觉词汇即可。虽然这种方法在推理时需要更多计算资源，但它能够生成质量极高的图像，特别适合处理复杂场景。

研究团队在统一多模态建模方面也有重要创新。他们将文本和图像都表示为共享词汇表中的离散标记，通过扩展语言模型的文本嵌入矩阵来包含视觉标记集合。这个过程就像是在原有的字典中添加新的词汇条目，让AI能够在同一个"语言"框架内理解和生成不同类型的内容。

特别值得注意的是，研究团队在预训练阶段引入了两种新的任务类型：图像到图像生成和文本图像到图像生成。第一种任务让AI学会根据一张图像生成类似的图像，这就像是让画家学会临摹和风格迁移。第二种任务更加复杂，它要求AI同时理解文本描述和参考图像，然后生成符合要求的新图像，这就像是给画家一个详细的委托和一张参考图片，让他创作出既符合要求又保持风格一致的作品。

在数据准备方面，研究团队采用了一个高效的合成数据生成流程。他们首先使用Qwen2.5-VL模型为各种图像数据集生成丰富详细的描述，然后使用FLUX模型根据这些描述生成高质量的图像。这个过程就像是先让一个文学家描述画作，然后让另一个画家根据这些描述重新创作，最终获得了2300万个高质量的文本-图像对用于训练。

研究结果显示，Tar模型在各种视觉理解和生成任务上都取得了令人瞩目的表现。在视觉理解方面，1.5B参数的Tar模型超越了大多数同规模的理解专用模型和统一模型，7B参数的模型更是达到了与Janus-Pro-7B相当的性能水平。这证明了使用完全离散的语义表示进行统一建模的可行性。

在视觉生成方面，Tar在GenEval和DPG Bench两个基准测试中都表现出色。特别是在GenEval测试中，Tar-7B达到了0.84的总体得分，在DPG Bench中也取得了84.19的优异成绩。研究团队还开发了一种"自我反思"策略，利用模型自身的视觉理解能力来评估生成图像与文本提示的匹配度，进一步提升了生成质量。

为了验证设计选择的有效性，研究团队进行了大量的对比实验。他们比较了文本对齐表示与其他几种视觉表示方法，包括传统的VQVAE、Janus风格的分离表示和混合表示。结果显示，文本对齐表示在视觉生成任务上明显优于其他方法，同时在理解任务上也能保持竞争力。

研究团队还发现，使用文本对齐编码本初始化多模态语言模型的视觉嵌入比随机初始化效果更好，这验证了他们设计思路的正确性。此外，规模自适应池化的设计让模型能够根据不同任务的需求灵活调整视觉细节的粒度，这在实际应用中非常有价值。

在技术实现层面，研究团队使用siglip2-so400m-patch14-384作为视觉编码器，采用三层ViT结构作为解码器。他们从Qwen2.5的词汇表中选择了65536个标记作为文本对齐编码本的基础。对于不同分辨率的图像，系统可以生成不同数量的标记：384×384的图像在不同尺度下可以生成729、169或81个标记。

自回归去分词器采用LLaMA架构实现，从头开始训练。研究团队首先在256像素分辨率上训练基础模型，然后逐步微调到512像素和1024像素。扩散去分词器则基于预训练的SANA-0.6B模型，只需要微调交叉注意力和条件嵌入层即可。

在训练数据方面，TA-Tok使用了来自LAION的2亿张图像进行训练，其中包括1亿张原始网络图像和1亿张美学过滤图像，以平衡模型在通用图像理解和高质量图像生成方面的能力。自回归去分词器使用5000万张美学图像和2300万张合成图像进行训练，而扩散去分词器主要在2300万张合成图像上进行微调。

多模态语言模型的预训练采用了多种数据类型的混合，包括标准的图像到文本、文本到图像任务，以及新提出的图像到图像和文本图像到图像任务。在监督微调阶段，研究团队使用了来自LLaVA系列的指令调优数据集，以及从预训练数据中筛选出的高质量子集。

通过详细的消融实验，研究团队验证了各个设计组件的重要性。他们发现，相比传统的随机初始化编码本，文本对齐编码本在理解任务上带来了显著提升，在生成任务上也保持了竞争力。规模自适应池化让模型能够在效率和细节之间找到最佳平衡点，而两种去分词器的组合则提供了速度和质量之间的灵活选择。

研究还揭示了一个有趣的现象：当使用共享表示进行联合训练时，视觉理解和生成任务能够相互促进。这与一些使用分离表示的方法形成鲜明对比，后者在联合训练时往往无法获得这种互益效果。这进一步证明了统一表示方法的优势。

值得一提的是，通过引入新的预训练任务，Tar模型展现出了一些令人惊喜的涌现能力，比如主体驱动生成和基于参考的风格迁移。这些能力让模型能够理解和操作图像中的语义概念，为未来的应用开辟了新的可能性。

在实际应用中，Tar模型的灵活性体现在多个方面。它可以根据计算预算和质量要求选择不同的配置：使用较少的视觉标记以获得更快的推理速度，或使用更多标记以获得更精细的细节。两种去分词器的存在也为不同应用场景提供了选择：自回归版本适合需要快速响应的应用，而扩散版本则适合对图像质量有更高要求的场景。

研究团队还开发了一个有趣的"自我反思"机制，让模型能够评估自己生成的图像质量。这个机制利用了统一模型既能理解又能生成图像的特性，让AI能够像人类艺术家一样审视自己的作品并进行改进。这种能力在提升生成质量的同时，也为模型的自我改进提供了新的途径。

在模型的可扩展性方面，研究结果表明，随着训练数据量的增加，文本对齐表示展现出了良好的扩展性。这一点对于实际应用非常重要，因为它意味着模型的性能会随着更多数据的加入而持续改善。

说到底，这项研究最让人兴奋的地方在于它展示了一种全新的思路来解决多模态AI的统一问题。通过巧妙地利用语言模型的词汇空间作为视觉和文本的桥梁，研究团队不仅简化了模型架构，还提升了性能。这就像是找到了一种通用语言，让不同类型的AI任务能够在同一个框架内协同工作。

当然，这个方法也有一些局限性。由于使用了向量量化技术，不可避免地会引入一些量化误差，这在需要精细视觉理解的任务（如光学字符识别）中可能会造成一定影响。此外，使用生成模型作为去分词器虽然能产生高质量图像，但在重建输入图像的准确性方面还有改进空间。

归根结底，这项研究为多模态AI的发展开辟了一条新路径。它展示了统一表示的强大潜力，也为未来的研究提供了宝贵的经验和启发。随着技术的不断改进和完善，我们有理由相信，这种"视觉方言"的统一方法将在更多领域发挥重要作用，让AI在理解和创造视觉内容方面变得更加智能和高效。有兴趣深入了解技术细节的读者可以访问https://tar.csuhan.com获取完整的代码、模型和数据资源。

Q&A

Q1：什么是文本对齐表示（Tar），它能解决什么问题？ A：Tar是一种让AI用同一种"语言"既能看懂图片又能画出图片的技术。传统方法需要两套不同的系统分别处理理解和生成任务，而Tar通过统一的表示方法让一个模型就能胜任两种工作，就像给AI装上了万能翻译器，提高了效率和性能。

Q2：这个技术会不会让AI画图变得更简单？ A：是的，Tar让AI画图变得更加智能化。它不仅能生成高质量图像，还能理解文本描述并据此创作，甚至能够评估自己画作的质量。这为艺术创作、设计制作等领域提供了强大工具，让非专业人士也能轻松获得专业级的视觉创作能力。

Q3：普通人能使用这项技术吗？有什么实际用途？ A：虽然目前还是研究阶段，但技术已经相当成熟。未来可能应用于智能设计助手、教育工具、内容创作等多个领域。比如帮助老师制作教学图片、协助设计师快速构思方案，或者让普通人通过文字描述就能生成所需的图像内容。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.