刚刚，全球AI生图新王诞生！腾讯混元图像3.0登顶了|文生|模态|ai生图|知名企业|深度思考模型

分享至

时令发自凹非寺
量子位 | 公众号 QbitAI

全球文生图大模型王座，易主了。

就在刚刚，LMArena竞技场发布了最新的文生图榜单，第一名来自中国，属于腾讯混元图像3.0！

不仅超越了谷歌的Nano Banana，也超越了字节的Seedream和OpenAI的gpt-Image，在全球26个大模型中稳居第一。

LMArena官方也对新王大加祝贺，称其为巨大的成就。

LMArena榜单，AI内外都不陌生了。

这是目前国际上最权威的AI模型竞技场，由美国加州大学伯克利分校推出，采用基于人类真实偏好的“盲测”机制。

用户输入同一个问题，平台随机展示两款模型的回答，用户只需选择更喜欢的一方，投票结果便直接影响全球排行榜。

相比起直接性能跑分，竞技场也能更加体现用户层面的体验，堪称用户之选。

这次登顶榜首的混元，可能会让很多人意外。在谷歌Nano Banana和即梦大乱斗的生图领域，居然突然跑出来一匹黑马——腾讯混元。

其实早在2024年5月，腾讯混元就曾开源首个中文原生的文生图DiT模型，一度成为开源第一，吸引了社区很多人的关注和建设。

此后，开源领域陆续出现了Flux和Wan等文生图模型，而闭源阵营则有MJ、Nano-Banana和SeedDream等作品。相比之下，混元在社区中沉寂了一段时间。

但腾讯混元团队一直坚持在生图领域持续深耕，今年5月，他们发布首个毫秒级实时生图模型，随后，9月推出的混元图像2.1也以开源SoTA的表现获得广泛关注。

而最新推出的混元图像3.0，则依托全新架构，不仅跃升至文生图榜单首位，更超越了众多闭源模型，充分展现了其厚积薄发的实力。

据官方介绍，混元图像3.0采用的是原生多模态架构，能够通过单一模型处理文字、图片、视频与音频等多种模态的输入与输出，而无需依赖多个组合模型来完成图文理解或图像生成等任务。

这意味着，该模型不仅拥有生图模型的绘画能力，还具备语言模型的思考能力和常识。它就像一个自带“大脑”的画家，可以利用智能去思考图像的布局、构图、笔触，利用世界知识去推理常识性的画面。

此外，混元图像3.0参数规模高达80B，不仅是目前参数量最大的开源生图模型，也是业界首个开源工业级原生多模态生图模型。

不过，目前该模型仅开放了文生图能力，图生图、图像编辑、多轮交互等能力预计将于后续版本中推出。

下面先来看看它现阶段的能力与模型架构。

语义理解能力大幅提升

在文生图领域，学术界和业界正在从传统DiT转向原生多模态模型架构。当前业界已经有一些开源的模型，但都是小模型，偏向于学术研究和实验阶段，生图效果也离工业界最优效果有较大差距。

作为原生多模态开源模型，混元图像3.0需要对模型整体架构进行重构，以支持多任务的训练，并实现多任务效果之间的相互促进。

混元图像3.0以Hunyuan-A13B为基础，基于50亿量级的图文对、视频帧、图文交织数据，并结合6T语料，进行了多模态生成、理解和LLM的混合训练。

通过上述过程，模型能够充分融合多任务效果，具备超强的语义理解能力，不仅能够响应复杂的长文本、生成长文本文字，还具有LLM的世界知识，能够利用世界知识进行推理。

临近中秋佳节，先让混元3.0做一张中秋节海报。

嫦娥、玉兔、皓月，这该有的中秋节元素那是一应俱全，再加上金色的桂花和温馨的灯笼，节日氛围直接拉满。

或者将十二生肖做成表情包。

每种动物特征都很明显，emoij家族也是可以进一步壮大了。

灵机一动，让林黛玉大战孙悟空如何？

只见满屏繁花环绕，远处的天宫若隐若现。孙悟空手持金箍棒摆出战斗姿势，林黛玉双手合十，神情柔弱，形成鲜明对比。

再生成一只完全由火焰构成的猫咪。

哇哦，简直是帅呆了，忍不住配上一句“我命由我不由天”。

此外，混元3.0还能生成香水广告大片。

高级，实在是高级！香水瓶居中平视，周围鲜花环绕，既突出主体，又充满艺术气息，整体画面精致唯美。你不说，我不说，谁能看出是AI生成的？

那四宫格插画效果如何？完全没问题啊。

下面就展示了牛顿在树下被苹果砸中，从而发现万有引力的过程。

说完模型效果，就必须得剖析一下其技术方案了。

核心技术方案

HunyuanImage 3.0是一种原生多模态模型，旨在实现对文本和图像模态的统一理解与生成。

该模型选用Hunyuan-A13B作为其基础模型，这是一个预训练的混合专家（MoE）大语言模型，总参数超800亿，但在推理时每个token仅激活130亿参数。

如图所示，混元3.0采用了一种混合式的离散-连续建模策略：对文本词元采用自回归的下一词元预测方式进行建模，而对图像词元则采用基于扩散的预测框架进行建模。

整个模型在一个紧密结合的框架内融合了语言建模、图像理解和图像生成三大功能，从而实现了统一的多模态建模。

广义因果注意力机制

因果注意力（Causal attention）是大语言模型（LLM）中用于自回归（autoregressive）文本生成的基础组件，因为它能确保每个token只关注其前面的tokens，从而保持自回归属性。

相比之下，全局注意力（full attention）通常用于DiT模型进行图像生成，它允许每个图像token关注同一图像内的所有其他tokens，这对于捕捉全局空间依赖关系非常有益。

混元3.0原生多模态模型整合了上述两种注意力类型，以有效处理异构数据模态。具体来说，他们引入了一种广义因果注意力（Generalized Causal Attention）机制。

在该机制下，文本tokens被限制为仅关注序列中在它们之前的多模态tokens。而图像tokens则被允许关注所有在它们之前的多模态tokens，以及同一图像片段（image segment）内所有在它们之后的图像tokens。

这种设计既尊重了文本的自回归生成特性，又利用了全局注意力对图像块（image patches）的全局上下文捕捉能力。

如图所示，研究团队根据正在处理的加噪图像所对应的生成图像段（Gen Image）的数量，将训练注意力掩码分为两种不同类型。

在序列中没有Gen Image（如图像理解任务，图4（a）中蓝框所示）或只有一个Gen Image（如文生图任务，图4（a）中绿框所示）的情况下，注意力掩码严格遵循上述定义的广义因果注意力模式。

然而，当单个训练序列中存在多个Gen Image时（图4（b）），就需要进行修改：上下文中出现的任何Gen Image都不能被序列中后续的tokens所关注。这个约束在注意力掩码的下三角部分引入了一个“空洞” （“hole”，即一个被掩码的注意力区域）。

二维位置编码

旋转位置编码（Rotary Position Embedding，RoPE）因其灵活性和可扩展性，被广泛应用于大语言模型（LLM）和扩散Transformer（DiT）中。

在混元3.0中，研究人员实现了一种由Su提出的广义二维RoPE （Generalized 2D RoPE）。这种方法保持了与预训练LLM的向后兼容性（backward compatibility）。

形式上，对于一个一维的文本位置索引n和一组频率{θ0,θ1,…}，位置嵌入定义为 [cos(nθ0),cos(nθ1),…,sin(nθ0),sin(nθ1),…]。研究人员将此公式推广到二维坐标，对于一个位置 (x,y），其嵌入变为 [cos(xθ0),cos(yθ1),…,sin(xθ0),sin(yθ1),…]。

如图所示，从一维重塑为二维的图像tokens被赋予这种广义二维位置编码，而文本tokens则保留标准的1D RoPE，同时也可以被视为对角线位置上的2D RoPE。

这种设计确保了在没有图像tokens的情况下，编码方式能完全退化为1D RoPE，从而保留了与传统文本生成的完全兼容性，并最大限度地减少了对预训练语言能力的破坏性影响。

自动分辨率预测

类似DiT的模型通常需要用户进行确定性的输入（deterministic user input），以指定所需的图像尺寸和宽高比。

在混元3.0中，他们引入了一种自动模式，允许模型根据上下文（可以是提示词prompt或条件图像tokens）来决定合适的图像形状。

具体来说，他们扩展了语言模型的词汇表，加入了两种特殊标记（special tokens）：一组表示为 {

在训练过程中，模型学会将这些形状标记与上下文中的用户输入和先前的对话相关联，从而能够根据输入上下文预测出合适的尺寸和比例标记。此外，用户还可以提供明确的提示（explicit cues）——例如“3:4”或“纵向”——来引导模型生成特定的宽高比标记。

基于预测出的尺寸和比例标记，混元3.0可以为图像tokens应用二维旋转位置编码（2D RoPE），使模型能够生成具有所需结构属性的图像。

数据构建

数据处理方面，混元3.0采用了一个全面的三阶段过滤流程，从超过100亿张原始图像中筛选出近50亿张高质量、多样化的图像，移除了包括低分辨率、水印、AI生成内容在内的低质量数据，并补充了知识增强、文本相关等专业数据集。

在图像描述上，混元3.0构建了一套新颖的中英双语、分层级的描述体系，将图像内容分解为从简到详的描述、风格属性和事实性实体等多个维度，并利用组合式合成策略来动态生成长度和模式各异的标题，以增强数据多样性。

为保证描述的真实性，该系统集成了专门的OCR（文字识别）和命名实体识别代理来提供事实依据，并通过双向验证循环进行核对，此外还针对成对的图像数据开发了差异描述功能，用以生成描述变化的文本。

推理数据构建方面，为了激活模型的“思维链”（Chain-of-Thought）能力，团队还专门构建了思考生图数据集，包括用于增强逻辑推理的“文本到文本”（T2T）数据，以及将图像与推理过程和详细描述配对的“文本到文本到图像”（T2TI）数据，旨在训练模型自主地完成从理解用户意图、进行概念优化到最终生成图像的全过程。

训练策略

混元3.0的预训练过程分为四个渐进式阶段，在这些阶段中，训练数据从粗到精进行筛选，VAE编码器的图像分辨率逐步提高，而ViT编码器的则保持不变。在训练期间，图像的宽高比被保留，以支持多分辨率图像生成。

阶段一：训练Transformer主干网络，同时保持ViT冻结，利用图文对和纯文本数据联合优化三个任务：文生图（T2I）、语言建模（LM）和多模态理解（MMU）。VAE编码器采用低图像分辨率（256px）和大批量训练，从海量图像中学习跨模态对齐。

阶段二：Transformer主干网络保持冻结，而ViT及其相关的对齐器模块（aligner module）则仅使用MMU数据进行微调，以增强视觉理解能力。

阶段三：联合训练ViT与Transformer，使用更高分辨率（>512px）图像，并引入图文交错数据（如图像编辑、图生图）增强多模态建模。

阶段四：在更高分辨率（≥1024px）子集上训练，强化视觉与推理能力，引入基于思维链（CoT）的文生图任务。

在多阶段的后训练中，混元3.0首先在一个精心筛选的人工标注样本数据集上进行SFT（监督微调）。随后，引入DPO（直接偏好优化）来有效解决并减少物理失真问题。

接着，利用MixGRPO提升文本-图像对齐度、真实感和美学吸引力这几个关键方面。最后，通过SRPO和自研的奖励分布对齐（ReDA）进一步优化模型，两者协同作用，对提升生成图像的真实感与清晰度起到关键作用。

模型效果

HunyuanImage 3.0采用了机器指标（SSAE）和人工评测（GSB）两种方式评估模型效果。

SSAE（Structured Semantic Alignment Evaluation）是一项基于多模态大语言模型（MLLM）的自动化评测指标，用于评估文生图模型的语义一致性。该指标精心构建了500道评测题目，并将每道题目按12个细分要点进行拆解，最后借助MLLM自动比对生成的图像内容是否与拆解的要点匹配。

最终输出两个结果：平均图像准确率（图像层级的平均分数MeanAcc）和全局准确率（所有要点的平均得分GlobalAcc）。

可以看到，HunyuanImage 3.0在最终生成效果和各项细分指标上，都能与行业顶尖模型媲美，甚至有所超越。

在人工评测GSB（Good/Same/Bad）中，HunyuanImage 3.0相较于Seedream 4.0胜率为1.17%，相较于Nano Banana胜率为2.64%，相较于GPT-Image胜率为5.00%，相较于目前最好的上一版本模型HunyuanImage 2.1胜率为14.10%，这表明HunyuanImage 3.0是足以媲美业界领先闭源模型的开源模型。

One More Thing

凭借领先的技术实力，混元3.0成功登顶榜单第一，不仅在业内展现了强劲的竞争力，也在双节假期掀起了一股全民热潮，大家纷纷上手体验，热度持续飙升。

比如，用该模型解方程时，它不仅能给出准确答案，还能在图中展示详细的计算过程，让复杂步骤一目了然。

在生成复古票券拼贴画时，即便图中包含多种文本元素，混元3.0也能将它们排版得井然有序，保持整体美感。

科技感十足的创作同样令人惊叹，像这只巨型章鱼，仿佛深海巨物一般，气势逼人。

人物特写效果也极为出色，面部细节、表情和光影处理都非常精细。

此外，从神话传说到超现实梦境，混元3.0都能将丰富的幻想场景生动呈现，每一幅画面都充满想象力与细节。

如果你也满脑子创意，那就快去亲自体验一番吧。

开源仓库：https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
HF：https://huggingface.co/tencent/HunyuanImage-3.0
提示词手册：https://docs.qq.com/doc/DUVVadmhCdG9qRXBU
技术报告：https://arxiv.org/pdf/2509.23951
官网：https://hunyuan.tencent.com/image/zh?tabIndex=0

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.