Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
Z-Image:单流扩散Transformer高效图像生成模型
https://arxiv.org/pdf/2511.22699v1
![]()
![]()
摘要
高性能图像生成模型的版图目前被专有系统(如 Nano Banana Pro [27]、Seedream 4.0 [65])垄断。主流开源替代方案,包括 Qwen-Image [77]、Hunyuan-Image-3.0 [8] 和 FLUX.2 [36],参数量高达 200–800 亿,推理与消费级硬件微调均不现实。为此,我们提出 Z-Image:一款仅 60 亿参数的高效基础生成模型,采用可扩展单流扩散 Transformer(S3-DiT)架构,向“唯规模论”发起挑战。通过对完整模型生命周期的系统优化——从精选数据基建到精简训练课程——全程训练仅耗 31.4 万 H800 卡时(约 63 万美元)。几步蒸馏加奖励后训练进一步得到 Z-Image-Turbo:在单张企业级 H800 上实现亚秒级推理,并兼容 <16 GB 显存的消费级显卡。此外,我们的全任务预训练范式还高效孵化了 Z-Image-Edit,一款指令跟随能力突出的编辑模型。定量与定性实验均表明,Z-Image 在多项指标上持平或超越顶尖对手,尤其在照片级真实图像生成与双语文字渲染上媲美顶级商业模型,证明“少算力也能 SOTA”。代码、权重与在线演示全部开源,推动人人可及、预算友好且最先进的生成模型发展。
1 引言
近年来,文本到图像(T2I)生成领域突飞猛进,从简陋纹理跃升至兼具照片级真实感与复杂语义对齐的影像 [58,18,35,77,65,8,4]。然而,随着模型能力膨胀,其开发与可及性壁垒也日益高企。当下生态呈现两极:一侧是顶尖商业闭源模型——如 Nano Banana Pro [27]、Seedream 4.0 [65]——虽性能傲人,却黑箱封闭,透明性与可复现性俱缺;另一侧是开源阵营,虽高举民主化大旗,却动辄堆栈至数百亿(例:Qwen-Image [77] 200 亿、FLUX.2 [36] 320 亿、Hunyuan-Image-3.0 [8] 800 亿),令训练与推理成本令人望而却步。于是,从专有模型蒸馏合成数据成了资源受限学术圈的“捷径”[13,20],但这招易陷闭环:误差累积、数据同质化,抑制超越教师模型的新视觉能力。
本文推出 Z-Image,一款强力扩散 Transformer,同时向“唯规模论”与“合成蒸馏依赖”开战。我们证明:顶级图像生成模型无需堆参,也无需蒸馏。相反,我们首次给出端到端全栈方案——从数据精选、架构设计、训练策略到推理加速——全程优化,仅用最朴素的实拍数据,不借他人蒸馏。方法论的高效令整体算力开销极低:如表 1 所示,Z-Image 完整训练仅需 31.4 万 H800 卡时,按现价约 62.8 万美元(约 2 美元/卡时 [38])。在头部模型动辄数倍乃至数十倍资源的当下,这一“小投入”证明:精巧设计足以抗衡暴力扩标。
![]()
这一成本效率的突破,建立在四大支柱的系统方法论之上:
高效数据基建:资源受限场景下,数据基建是决定“单位时间知识获取率”的关键,它既加速训练,也划定能力上限。我们提出四模块协同的数据体系:多维特征提取的 Data Profiling Engine、语义去重与精准检索的 Cross-modal Vector Engine、结构化概念组织的 World Knowledge Topological Graph,以及闭环精修的 Active Curation Engine。通过细粒度数据画像与训练分布编排,让“对的数据”在“对的阶段”出现,最大化实拍数据利用率,杜绝冗余或低质样本带来的算力浪费。
高效架构:受大语言模型解码器扩展性启发,我们设计 Scalable Single-Stream Multi-Modal Diffusion Transformer(S3-DiT)。不同于双流架构各模态独立处理,S3-DiT 每层都实现紧密跨模态交互,仅用 60 亿参数就达成顶尖效果,显著降低训练与部署硬件门槛。紧凑体积还得益于 Prompt Enhancer(PE)补强世界知识与提示理解,进一步缓解参数量限制。早期融合 Transformer 把文本、图像 VAE、语义标记统一视为令牌,一套框架无缝完成文生图、图生图等多元任务。
高效训练策略:三阶段渐进课程。(1) 低分辨率预训练:固定 256²,让模型快速获得视觉-语义对齐与合成基础。(2) Omni-pre-training:统一多任务,一次性学会任意分辨率生成、文生图、图生图,把高昂预算摊到多项能力,省去重复烧卡。(3) PE-aware 监督微调: jointly 优化,用 PE 增强字幕微调主模型,Prompt Enhancer 与扩散主干零额外 LLM 训练成本即可深度协同,开发效率最大化。
高效推理:Z-Image-Turbo 仅用 8 步 NFE 即可输出高美感、高保真图像。关键来自两项创新:Decoupled DMD [46] 把蒸馏中的“提质量”与“稳训练”角色显式解耦;DMDR [32] 用分布匹配项作内禀正则的强化学习。二者协同,实现速度-质量零妥协的高效生成。
![]()
![]()
![]()
![]()
2 数据基础设施
尽管顶尖文生图模型的卓越能力依赖大规模训练数据,但在算力受限条件下,性能最优化的关键在于“数据效率”而非“数据规模”。单纯堆量往往收益递减;高效的训练管线需要一套能“每单位计算获取最多信息”的数据基础设施。理想的数据系统必须:概念覆盖广且无冗余、多语言图文对齐稳健,并支持动态课程学习——让数据配比随训练阶段演进。为此,我们设计并落地了一套一体化的“高效数据基础设施”。它远非静态仓库,而是一台动态引擎,专为“固定训练预算内最大化知识获取速率”而架构。作为整套管线的基石,该基础设施由四大协同核心模块组成:
数据画像引擎:该模块为数据策略提供量化底座。它从原始数据中提取并计算丰富的多维特征,涵盖低级物理属性(如图像元数据、清晰度指标)到高级语义属性(如异常检测、文本描述)。这些画像不仅用于基础过滤,更是衡量数据复杂度与质量的核心信号,支撑动态学习阶段课程的程序化构建。
跨模态向量引擎:基于数十亿级嵌入,该模块保障效率与多样性。通过大规模语义去重实现“零冗余”数据集目标;其跨模态检索能力还能诊断并修复模型失效——精准定位并剔除致错数据,同时针对性采样填补概念空白。
世界知识拓扑图:这张结构化知识图谱构成整个设施的语义脊梁。它按层级组织知识,确保概念广度;更重要的是,它充当数据策划的“语义罗盘”。通过图遍历发现未被充分表征的实体,及时填补概念空洞,并在训练过程中精确重平衡各概念的数据分布,实现更高效、更全面的学习。
主动策划引擎:该模块让基础设施成为真正的动态、自进化系统。它肩负两大协同职能:其一,作为前沿探索引擎,自动采样定位模型表现差或知识缺失的“硬案例”;其二,驱动闭环数据标注管线,确保每次迭代既扩展数据集的概念广度,又持续精炼数据质量,从而最大化整体训练效率。
四大组件协同,铸就稳健数据基础设施,不仅支撑文生图模型训练,也为更广的多模态模型提供通用底座。借助该系统,我们顺利完成了字幕模型、奖励模型及图像编辑模型(Z-Image-Edit)等关键组件的训练。第 2.5 节将详述基于该设施为 Z-Image-Edit 专门搭建的数据管线。
2.1 数据画像引擎
Data Profiling Engine 专为系统性处理海量、未整理的版权数据池而设计。它为每一对图文样本计算一套全面的多维特征,支撑有原则的数据策划。鉴于不同数据源自带独特偏差,引擎支持源相关的启发式规则与采样策略,确保训练语料均衡且高质。画像流程围绕以下关键维度展开:
图像元数据
首先缓存每张图像的基本属性:分辨率(宽高)、文件大小等,便于按分辨率/长宽比快速过滤;同时计算感知哈希(pHash)作为紧凑视觉指纹,实现毫秒级去重,剔除相同或近似图像。这些预计算属性构成数据筛选的第一道关卡。
技术质量评估
图像技术质量直接决定模型上限。引擎采用多管齐下策略量化并剔除低质样本:
压缩伪影:通过“理想未压缩大小/实际大小”比例揪出过度压缩图。
视觉退化:内训质量模型给图像打分,涵盖色偏、模糊、可见水印、噪点等。
信息熵:用边界像素方差与瞬态 JPEG 重编码的 BPP 双指标,滤除大色块、低复杂度图,确保训练所见皆“干货”。
语义与美学内容
除技术质量外,还刻画高阶语义与美学:
美学评分:用专业标注员训练的模型量化视觉吸引力。
AIGC 检测:依 Imagen 3 经验,自训分类器剔除 AI 生成图,防止输出质量与物理真实度下滑。
高层语义标签:专用 VLM 生成丰富标签,涵盖通用物体、人物属性(人数等)及中华文化相关概念;同一模型输出 NSFW 分数,一键过滤无关或不适内容。
2.2 跨模态向量引擎
我们在 Stable Diffusion 3 [18] 的去重方法基础上进一步升级,将其重构为可扩展的“基于图的社区检测”任务。针对原 range_search 函数的严重扩展瓶颈,改用高效 k-近邻(k-NN)搜索;先由 k-NN 距离构建邻近图,再运行社区检测算法 [69]。只要 k 足够大,输出即可高度逼近原算法,而时间复杂度大幅下降。整套 GPU 加速 [61] 管线在 8 张 H800 上处理 10 亿样本约需 8 小时(含索引构建与 100-NN 查询),既能发现密集簇完成去重,也可通过模块度层级提取语义结构,实现细粒度数据平衡。
此外,我们搭建了高效检索管线,融合多模态特征 [87] 与最先进索引算法 [55]。其跨模态搜索能力贯穿数据策划与主动修复:既能识别分布空洞、定向采样填补概念缺口,实现预训练分布的靶向增强;也能通过失败案例(问题图像或文本)反查库内对应簇,精准剪除致错数据。迭代式“补洞+剪错”确保数据集稳健,并为下游复杂任务持续输送高质量候选。
2.3 世界知识拓扑图
图谱构建分三阶段:
基于全部 Wikipedia 实体与超链接,先搭建全面但冗余的知识图;
双路剪枝:先用 PageRank [57] 剔除中心性极低的孤立节点,再用 VLM 筛掉无法连贯可视化的抽象或歧义概念;
为弥补概念覆盖不足,引入内部大规模带描述图像数据集,抽取标签与文本 embedding,借鉴 [72] 做自动层次聚类,并由 VLM 为父节点生成摘要,补全新节点并整理成分层树,显著提升图谱结构完整性。
最后,进行权重分配与动态扩展:人工提升用户 prompt 高频概念权重,并主动并入尚未入库的新潮热词,保持图谱时效性。
使用时,图谱支撑语义级均衡采样:将训练 caption 中的标签映射到图节点,综合 BM25 [63] 得分及层级父子关系,计算每一样本的语义采样权重,指导数据引擎分阶段、有原则地抽数,实现对训练分布的细粒度控制。
2.4 主动策划引擎
为系统提升数据质量并解决长尾分布难题,我们部署了完整的主动策划引擎(图 5)。该框架集成过滤工具与 Z-Image 作为诊断式生成先验。流程先对未整理数据做跨模态嵌入与去重,再经规则过滤剔除低质样本。
![]()
为支持 Z-Image 的持续进化,我们建立“人在回路”主动学习循环(图 6):奖励模型与字幕模型同步迭代优化。具体地,先用拓扑图(第 2.3 节)与初始奖励模型,从无标注媒体池中策划均衡子集;当前字幕模型与奖励模型为其打上伪标签;随后人机混合验证——AI 与人工双重把关——拒绝样本由专家手动修正字幕或分数。这些高质量标注数据再用于重训字幕与奖励模型,形成数据基础设施自我增强的良性循环。
![]()
2.5 基于图表示的高效编辑对构建
收集“指哪打哪”的编辑样本极难:既要保持一致性,又要覆盖千姿百态的编辑操作。借助图 7 所示的可扩展、可控策略,我们从多源数据快速拼出大规模训练语料。
![]()
专家模型混合编辑
先整理一份全覆盖的编辑任务分类表,再调用各任务专用专家模型批量合成高质量数据。为提效,我们把多种编辑动作塞进同一张“复合编辑对”,让模型一次学会多项技能,省掉多套样本。高效图表示
对同一张原图,我们按不同任务合成 N 张编辑图,随后任意两两配对,零成本扩增 C(2N+1,2) 对样本。此举既爆炸式扩量,又自动产出“混合编辑”与“逆向编辑”对,进一步提升训练效率与数据质量。视频抽帧配对
预设任务易撞天花板。我们直接在大规模视频帧里“捞”天然成组图像:同主体、同场景、同风格,自带复杂编辑关系。用 CN-CLIP [87] 算embedding余弦相似度,只留高语义相关帧对。由此得到的视频帧编辑对兼具:1) 任务多样,2) 多编辑类型天然耦合(如人物姿态+背景同时变),3) 规模易扩展。文本渲染编辑
真实图像文本稀、分布偏,且需精确标注操作。我们自建可控文本渲染系统 [77],可任意指定文字内容、字体、颜色、大小、位置,一键生成成对图像,编辑指令即渲染参数,直接破解数据瓶颈。
原文链接:https://arxiv.org/pdf/2511.22699v1
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.