香港中文大学（深圳）：让AI生成图像技术走向全民化|深圳市|深度思考模型

分享至

这项由香港中文大学（深圳）的陈俊颖、蔡振洋、陈鹏程、陈舜年等研究团队在2025年6月发表于arXiv平台的研究（论文编号：arXiv:2506.18095v1），可以说是AI图像生成领域的一次重要突破。对于想要深入了解技术细节的读者，可以通过GitHub项目页面（https://github.com/FreedomIntelligence/ShareGPT-4o-Image）获取完整的数据集和模型。

当前最先进的AI图像生成技术掌握在少数大公司手中，就像高级餐厅的秘制菜谱一样，普通人只能品尝却无法学习制作方法。GPT-4o-Image虽然能够生成令人惊叹的照片级图像，但它就像一个密不透风的黑盒子，研究人员和开发者们只能望而兴叹。这种技术垄断严重阻碍了整个AI图像生成领域的发展进步。

正是在这样的背景下，香港中文大学（深圳）的研究团队决定打破这种技术壁垒。他们的策略非常巧妙：既然无法直接获得GPT-4o-Image的内部工作原理，那就通过大量的"师傅带徒弟"式学习，让开源模型掌握同样的技能。这就好比一个天才厨师虽然不知道米其林三星餐厅的具体烹饪步骤，但通过反复品尝和练习，最终也能做出同样美味的菜肴。

研究团队首先构建了一个名为ShareGPT-4o-Image的大型数据集，这个数据集包含了91000个精心设计的样本，其中45000个用于文本生成图像的任务，46000个用于基于文本和图像生成新图像的任务。这些样本就像是一本巨大的"烹饪教程"，详细记录了各种"食材"（文本描述）应该如何"烹制"成精美的"菜肴"（图像）。

为了确保这些"教程"的质量和多样性，研究团队设计了两套互补的生成策略。第一套策略叫做"提示优先方法"，就像按照标准食谱烹饪一样。研究人员首先定义了一个六维度的属性空间，包括物体、背景、风格、光照、拍摄角度和构图技巧等要素，就好比烹饪中的主料、配菜、调料、火候、刀工和摆盘技巧。然后从ImageNet数据库中选取1000个物体类别作为"食材库"，通过随机组合这些属性来生成结构化的文本描述，最后交给GPT-4o-Image来"烹制"对应的图像。

第二套策略被称为"图像优先方法"，更像是"逆向工程"的思路。研究团队从ALLaVA数据集中选取高质量的真实图像，然后让大语言模型仔细观察这些图像，生成能够准确描述图像内容的文本描述。这种方法就像是品尝一道美味佳肴后，努力推测出制作这道菜的具体步骤和原料配比。通过这种方式，研究团队确保了数据集中的文本描述既能覆盖人工设计的各种情况，又能贴近真实世界中自然出现的场景。

对于图像编辑任务，研究团队设计了更加复杂的"三重奏"训练方法。每个训练样本都包含三个要素：原始图像、编辑指令和编辑后的图像。研究团队将图像编辑任务分为14个具体类别，归纳为5个大类，包括物体操作、风格转换、背景修改、条件控制和创意生成等。这就像是为一位画家准备了各种不同的"改画任务"：有时需要在画中添加一个人物，有时需要把油画风格改成水彩风格，有时需要更换整个背景场景。

在获得了这个珍贵的"教学材料库"后，研究团队开始训练他们的学生模型Janus-4o。这个模型是在已有的Janus-Pro模型基础上进行改进的，就像在一个已经很优秀的学徒基础上进一步传授高级技艺。训练过程分为两个主要部分：文本生成图像和文本加图像生成新图像。

一、文本生成图像的技术突破

对于文本生成图像任务，Janus-4o采用了自回归的方式来生成图像。这个过程可以比作写作文，模型需要根据给定的题目（文本描述），一个词一个词地"写出"对应的图像内容。不过这里的"词"不是普通的文字，而是经过特殊编码的图像片段，叫做图像标记。

具体来说，当模型接收到一个文本提示时，比如"一只橙色的猫咪坐在红色沙发上"，它首先会将这段文字转换成一系列文本标记。然后模型开始生成对应的图像标记序列，每生成一个图像标记，都会考虑前面已经生成的所有内容和原始的文本描述。这个过程就像是一位画家在画布上一笔一笔地作画，每一笔都要考虑整体构图和前面已经画好的部分。

为了提高生成质量，研究团队在训练过程中采用了一个巧妙的技巧：随机遮蔽10%的文本内容。这就像是让学生在考试时偶尔看不到完整的题目，从而训练他们根据图像的内在逻辑来完成创作。这种训练方式帮助模型更好地理解图像像素之间的依赖关系，而不是过度依赖文本描述。

在推理阶段，模型使用了一种被称为"分类器自由引导"的技术。这个技术可以比作在绘画时使用两支不同的画笔：一支画笔专门负责根据文本描述作画，另一支画笔则完全凭借想象自由发挥。最终的图像是两支画笔协同工作的结果，其中第一支画笔的权重更大，确保生成的图像符合文本要求，而第二支画笔则增加创意和自然性。

二、文本和图像协同生成的创新机制

Janus-4o最大的创新之一是支持基于文本和图像的协同生成，这是其前身Janus-Pro所不具备的能力。这种任务需要模型既要理解输入图像的语义内容，又要能够按照文本指令对图像进行精确修改。

为了实现这个功能，研究团队设计了一套双重编码机制。当模型接收到一张输入图像时，它会通过两条并行的路径来处理这张图像。第一条路径使用图像编码器提取图像的语义特征，就像是让模型"看懂"图像内容；第二条路径将图像转换成标记序列，就像是将图像"翻译"成模型能够直接操作的"语言"。

这两种表示方式各有优势：语义特征帮助模型理解图像的高层含义，比如这是一张风景照还是人物肖像；而图像标记则提供了像素级的详细信息，确保生成的新图像能够保持原图的细节特征。这就好比一位修图师既要理解照片的整体构图和主题，又要掌握每个像素点的具体颜色和亮度信息。

在训练过程中，为了防止模型过度依赖输入图像而失去创新能力，研究团队随机遮蔽50%的图像标记。这种做法迫使模型学会在不完整信息的基础上进行推理和创作，就像让艺术家在只能看到画作一半的情况下完成整幅作品的修改。

推理时的技术更加精妙。模型需要计算三种不同的概率分布：完全基于输入信息的条件概率、遮蔽图像标记后的条件概率，以及完全无条件的概率。这三种概率的加权组合决定了最终生成图像的特征。研究团队引入了一个控制参数s'，用来调节生成图像与原图的相似度：较小的s'值会让新图像更接近原图，适合进行细微调整；较大的s'值则允许更大胆的创意修改，适合风格转换等任务。

三、联合训练策略的精妙设计

研究团队没有将文本生成图像和图像编辑两个任务分开训练，而是采用了联合训练的策略。这种方法就像是让一个学生同时学习绘画和修图，两种技能可以相互促进，共同提高。

整个训练过程使用了ShareGPT-4o-Image数据集中的全部91000个样本，包括45000个文本生成图像样本和46000个图像编辑样本。训练时通过随机采样的方式混合这两类任务，让模型在每个训练周期中都能接触到不同类型的挑战。

训练的技术参数经过精心调优：学习率设置为5×10^-6，这个数值既不会让模型学习过快而错过细节，也不会学习过慢而影响效率；批量大小设置为128，确保每次更新都有足够的样本来稳定梯度；总共训练3个周期，让模型有充分的时间消化所有训练材料。值得一提的是，整个训练过程只需要6小时，在一台配备8块A800 GPU的机器上完成，这种效率在当前的AI模型训练中算是相当出色的。

四、实验验证与性能表现

为了验证Janus-4o的实际性能，研究团队进行了全面而严格的评估实验。他们选择了多个权威基准测试，就像为学生安排了不同科目的期末考试，全方位检验模型的各项能力。

在文本生成图像任务上，研究团队使用了GenEval和DPG-Bench两个主要基准。GenEval主要测试模型处理复杂组合关系的能力，比如能否正确生成"两只不同颜色的猫坐在绿色桌子上"这样包含多个对象和属性的图像。测试结果显示，Janus-4o在总体评分上达到了80分（满分100分），比其前身Janus-Pro提升了4个百分点。特别是在颜色属性和属性识别方面，Janus-4o的表现有了显著提升，这说明新的训练数据有效地增强了模型对细节特征的把握能力。

DPG-Bench测试则更加注重语义对齐和指令跟随能力。这个基准会给模型一些相对复杂的文本描述，然后检查生成的图像是否准确反映了文本中的所有要求。Janus-4o在这个测试中获得了85.71分，比Janus-Pro高出1.6分。虽然提升幅度看似不大，但在这个竞争激烈的领域中，每一分的提升都代表着显著的技术进步。

更加令人印象深刻的是图像编辑任务的表现。研究团队使用ImgEdit-Bench来评估模型的图像编辑能力，这个基准包含了8个不同类别的编辑任务：添加对象、移除对象、替换对象、动作变化、风格转换、背景修改、对象提取和混合编辑。每个类别都有其特定的挑战和技术要求。

Janus-4o在图像编辑任务上取得了3.26分的平均成绩（满分5分），超越了所有对比的开源模型。特别值得注意的是，Janus-4o在动作变化和风格转换这两个最具挑战性的类别中表现尤为出色，分别获得了4.13分和4.47分的高分。这个结果特别令人兴奋，因为Janus-4o使用的训练数据只有91000个样本，而其他竞争对手使用的训练数据规模往往达到数百万甚至千万级别。

五、人类评估的真实反馈

除了自动化的基准测试，研究团队还进行了人类评估实验，邀请真实用户来比较不同模型的输出质量。这种评估方式更加贴近实际应用场景，就像让真正的美食家来品鉴不同厨师的作品。

评估采用了盲测的方式，评估者不知道哪张图像来自哪个模型，只需要根据图像质量、指令符合度和视觉美观度来选择更好的结果。测试样本来自真实的社交媒体帖子，包括52个文本生成图像的例子和35个图像编辑的例子，确保测试内容贴近用户的实际需求。

结果显示，在文本生成图像任务中，人类评估者在51.9%的情况下更喜欢Janus-4o的输出，26.9%的情况下认为两个模型表现相当，只有21.2%的情况下更倾向于Janus-Pro的结果。这个结果清楚地表明，ShareGPT-4o-Image数据集确实帮助模型生成了更符合人类审美和期望的图像。

在图像编辑任务中，Janus-4o的优势更加明显。人类评估者在51.4%的情况下选择了Janus-4o，28.6%的情况下认为结果相当，只有20.0%的情况下偏好其他模型。这个结果特别有意义，因为图像编辑通常需要更精细的控制和更深入的图像理解，人类评估者的偏好充分证明了Janus-4o在这方面的进步。

六、技术创新的深层意义

Janus-4o的成功不仅仅是一个模型性能的提升，更重要的是它证明了一种全新的技术发展路径的可行性。在AI图像生成这个被大公司垄断的领域，开源社区终于找到了一条可以与商业巨头抗衡的道路。

这种"蒸馏学习"的方法特别值得关注。传统的模型训练需要从零开始，就像从头学习一门技艺，需要大量的时间、数据和计算资源。而Janus-4o采用的方法更像是"师傅带徒弟"，通过观察和模仿已有的优秀作品来快速提升技能。这种方法不仅效率更高，而且对计算资源的要求相对较低，为更多研究团队参与前沿AI研究降低了门槛。

更重要的是，这项研究展示了开源社区的强大力量。ShareGPT-4o-Image数据集和Janus-4o模型都将完全开源，任何研究者都可以免费使用和改进。这种开放的态度形成了与封闭商业模型截然不同的发展生态，有望推动整个领域的快速进步。

从技术架构的角度来看，Janus-4o的设计理念也代表了未来多模态AI系统的一个重要方向。它将图像理解和图像生成统一在一个模型中，避免了传统方法中需要多个独立模块协作的复杂性。这种端到端的设计不仅简化了系统架构，也提供了更好的性能和更灵活的应用可能性。

七、应用前景与社会影响

Janus-4o的技术突破为AI图像生成的普及应用开辟了新的可能性。在内容创作领域，设计师和艺术家将能够使用这种强大的工具来快速实现创意想法，无论是概念草图的生成还是现有作品的精细修改。教育培训行业也将受益匪浅，教师可以轻松创建各种教学辅助图像，让抽象概念变得更加直观易懂。

在商业应用方面，电商平台可以利用这种技术来快速生成产品展示图像，根据不同的营销需求调整产品的展示场景和风格。广告公司也能够更高效地制作各种宣传素材，大大降低视觉内容的制作成本和周期。

科研领域同样会迎来新的机遇。研究人员可以使用Janus-4o来生成各种实验场景的模拟图像，辅助数据分析和结果展示。在医学影像、地理信息系统、考古学等需要大量视觉材料的学科中，这种技术将成为重要的研究工具。

然而，这种技术的普及也带来了一些需要认真考虑的社会问题。生成图像的真实性问题是其中最重要的一个。当AI生成的图像质量足够高时，普通人很难区分真实照片和AI生成内容，这可能会被恶意利用来制造虚假信息或进行欺诈活动。

研究团队在论文中特别强调了对这些问题的重视。他们指出，虽然训练过程中努力确保了属性的多样性，比如在人物描述中包含了各种种族、年龄和性别的均衡表示，但由于基础训练数据来自GPT-4o-Image，仍然可能继承一些潜在的偏见。这提醒我们，技术进步必须伴随着对公平性和道德性的持续关注。

八、开源贡献与未来展望

ShareGPT-4o-Image项目的开源策略代表了AI研究领域的一个重要趋势。研究团队不仅公开了完整的数据集，还提供了详细的技术文档和训练代码，确保其他研究者能够复现实验结果并在此基础上进行进一步创新。这种开放的态度打破了技术壁垒，让世界各地的研究团队都能够参与到前沿AI技术的开发中来。

数据集的构建过程也体现了严谨的科学态度。研究团队详细记录了每个步骤的设计理念和技术细节，包括属性空间的定义、采样策略的选择、质量控制的标准等。这些信息不仅帮助其他研究者理解和使用数据集，也为类似项目提供了宝贵的参考经验。

展望未来，这项研究为AI图像生成技术的发展指明了几个重要方向。首先是模型规模的进一步扩大，研究团队表示正在探索将类似的方法应用到更大规模的模型上，期望获得更好的性能表现。其次是应用领域的拓展，除了通用图像生成，专业领域如医学影像、工程设计等也有巨大的应用潜力。

多模态能力的增强也是一个重要发展方向。目前的Janus-4o主要处理文本和图像两种模态，未来可能会扩展到音频、视频等其他媒体形式，构建真正的多媒体AI助手。这种发展将使AI系统能够更自然地与人类进行交互，提供更丰富的创作和表达可能性。

技术民主化是这项研究最重要的贡献之一。通过证明相对较小的研究团队也能够在前沿AI技术方面取得重要突破，Janus-4o为全球的研究者和开发者注入了信心。这种技术路径的成功将鼓励更多团队投入到开源AI研究中，形成与商业巨头不同的、更加开放和协作的技术生态系统。

说到底，ShareGPT-4o-Image和Janus-4o的意义远远超出了技术本身的进步。它们代表了一种新的AI发展模式：通过开放合作而不是封闭竞争来推动技术进步，通过共享资源而不是垄断技术来促进创新。这种模式不仅有助于加速技术发展，也确保了AI技术的进步能够惠及更广泛的人群。

当我们站在AI图像生成技术快速发展的节点上回望这项研究时，我们看到的不仅是一个优秀的技术成果，更是开源社区力量的有力证明。正如研究团队在论文结尾所展望的那样，他们希望这项工作能够激发更多研究者投入到照片级、指令对齐的图像生成研究中来。从目前的反响来看，这个愿望正在逐步实现。

对于关心AI技术发展的普通读者来说，这项研究传递了一个重要信息：最先进的AI技术不应该也不会永远被少数公司垄断。通过巧妙的方法设计、严谨的科学研究和开放的合作精神，学术界和开源社区完全有能力创造出不逊于商业产品的技术成果。而这样的技术进步，最终将让我们所有人受益。

想要深入了解技术细节或者尝试使用这些工具的读者，可以访问项目的GitHub页面（https://github.com/FreedomIntelligence/ShareGPT-4o-Image），那里有完整的代码、数据和使用说明。这个项目的开源特性意味着任何有兴趣的人都可以参与到这项激动人心的技术发展中来。

Q&A

Q1：ShareGPT-4o-Image是什么？它解决了什么问题？ A：ShareGPT-4o-Image是香港中文大学（深圳）团队创建的AI图像生成数据集，包含91000个高质量样本。它解决了先进AI图像生成技术被大公司垄断的问题，让开源社区也能开发出媲美GPT-4o水平的图像生成模型，推动技术民主化。

Q2：Janus-4o相比前代模型有什么突破性改进？ A：Janus-4o最大的突破是新增了图像编辑能力，不仅能根据文字生成图像，还能根据指令修改现有图像。在文字生成图像任务上比前代Janus-Pro提升了4分，更重要的是仅用91000个样本就实现了强大的图像编辑功能，训练效率极高。

Q3：这项技术会不会很快普及到日常应用中？ A：技术普及需要时间，但前景光明。由于Janus-4o完全开源且训练成本相对较低（仅需6小时），将大大降低AI图像生成技术的应用门槛。未来在内容创作、电商展示、教育培训等领域都有广泛应用潜力，但需要注意防范生成内容的滥用风险。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.