网易首页 > 网易号 > 正文 申请入驻

刚刚,全球AI生图新王诞生!腾讯混元图像3.0登顶了

0
分享至

来源:市场资讯

(来源:量子位)

全球文生图大模型王座,易主了。

就在刚刚,LMArena竞技场发布了最新的文生图榜单,第一名来自中国,属于腾讯混元图像3.0!


不仅超越了谷歌的Nano Banana,也超越了字节的Seedream和OpenAI的gpt-Image,在全球26个大模型中稳居第一。

LMArena官方也对新王大加祝贺,称其为巨大的成就。


LMArena榜单,AI内外都不陌生了。

这是目前国际上最权威的AI模型竞技场,由美国加州大学伯克利分校推出,采用基于人类真实偏好的“盲测”机制。

用户输入同一个问题,平台随机展示两款模型的回答,用户只需选择更喜欢的一方,投票结果便直接影响全球排行榜。

相比起直接性能跑分,竞技场也能更加体现用户层面的体验,堪称用户之选。

这次登顶榜首的混元,可能会让很多人意外。在谷歌Nano Banana和即梦大乱斗的生图领域,居然突然跑出来一匹黑马——腾讯混元。


其实早在2024年5月,腾讯混元就曾开源首个中文原生的文生图DiT模型,一度成为开源第一,吸引了社区很多人的关注和建设。

此后,开源领域陆续出现了Flux和Wan等文生图模型,而闭源阵营则有MJ、Nano-Banana和SeedDream等作品。相比之下,混元在社区中沉寂了一段时间。

但腾讯混元团队一直坚持在生图领域持续深耕,今年5月,他们发布首个毫秒级实时生图模型,随后,9月推出的混元图像2.1也以开源SoTA的表现获得广泛关注。

而最新推出的混元图像3.0,则依托全新架构,不仅跃升至文生图榜单首位,更超越了众多闭源模型,充分展现了其厚积薄发的实力。


据官方介绍,混元图像3.0采用的是原生多模态架构,能够通过单一模型处理文字、图片、视频与音频等多种模态的输入与输出,而无需依赖多个组合模型来完成图文理解或图像生成等任务。

这意味着,该模型不仅拥有生图模型的绘画能力,还具备语言模型的思考能力和常识。它就像一个自带“大脑”的画家,可以利用智能去思考图像的布局、构图、笔触,利用世界知识去推理常识性的画面。

此外,混元图像3.0参数规模高达80B,不仅是目前参数量最大的开源生图模型,也是业界首个开源工业级原生多模态生图模型。

不过,目前该模型仅开放了文生图能力,图生图、图像编辑、多轮交互等能力预计将于后续版本中推出。

下面先来看看它现阶段的能力与模型架构。

语义理解能力大幅提升

在文生图领域,学术界和业界正在从传统DiT转向原生多模态模型架构。当前业界已经有一些开源的模型,但都是小模型,偏向于学术研究和实验阶段,生图效果也离工业界最优效果有较大差距。

作为原生多模态开源模型,混元图像3.0需要对模型整体架构进行重构,以支持多任务的训练,并实现多任务效果之间的相互促进。


混元图像3.0以Hunyuan-A13B为基础,基于50亿量级的图文对、视频帧、图文交织数据,并结合6T语料,进行了多模态生成、理解和LLM的混合训练。

通过上述过程,模型能够充分融合多任务效果,具备超强的语义理解能力,不仅能够响应复杂的长文本、生成长文本文字,还具有LLM的世界知识,能够利用世界知识进行推理。

临近中秋佳节,先让混元3.0做一张中秋节海报。


嫦娥、玉兔、皓月,这该有的中秋节元素那是一应俱全,再加上金色的桂花和温馨的灯笼,节日氛围直接拉满。

或者将十二生肖做成表情包。


每种动物特征都很明显,emoij家族也是可以进一步壮大了。

灵机一动,让林黛玉大战孙悟空如何?


只见满屏繁花环绕,远处的天宫若隐若现。孙悟空手持金箍棒摆出战斗姿势,林黛玉双手合十,神情柔弱,形成鲜明对比。

再生成一只完全由火焰构成的猫咪。


哇哦,简直是帅呆了,忍不住配上一句“我命由我不由天”。

此外,混元3.0还能生成香水广告大片。


高级,实在是高级!香水瓶居中平视,周围鲜花环绕,既突出主体,又充满艺术气息,整体画面精致唯美。你不说,我不说,谁能看出是AI生成的?

那四宫格插画效果如何?完全没问题啊。

下面就展示了牛顿在树下被苹果砸中,从而发现万有引力的过程。


说完模型效果,就必须得剖析一下其技术方案了。

核心技术方案

HunyuanImage 3.0是一种原生多模态模型,旨在实现对文本和图像模态的统一理解与生成。

该模型选用Hunyuan-A13B作为其基础模型,这是一个预训练的混合专家(MoE)大语言模型,总参数超800亿,但在推理时每个token仅激活130亿参数。


如图所示,混元3.0采用了一种混合式的离散-连续建模策略:对文本词元采用自回归的下一词元预测方式进行建模,而对图像词元则采用基于扩散的预测框架进行建模。

整个模型在一个紧密结合的框架内融合了语言建模、图像理解和图像生成三大功能,从而实现了统一的多模态建模。

广义因果注意力机制

因果注意力(Causal attention)是大语言模型 (LLM) 中用于自回归 (autoregressive)文本生成的基础组件,因为它能确保每个token只关注其前面的tokens,从而保持自回归属性。

相比之下,全局注意力(full attention)通常用于DiT模型进行图像生成,它允许每个图像token关注同一图像内的所有其他tokens,这对于捕捉全局空间依赖关系非常有益。

混元3.0原生多模态模型整合了上述两种注意力类型,以有效处理异构数据模态。具体来说,他们引入了一种广义因果注意力(Generalized Causal Attention)机制。

在该机制下,文本tokens被限制为仅关注序列中在它们之前的多模态tokens。而图像tokens则被允许关注所有在它们之前的多模态tokens,以及同一图像片段(image segment)内所有在它们之后的图像tokens。

这种设计既尊重了文本的自回归生成特性,又利用了全局注意力对图像块(image patches)的全局上下文捕捉能力。


如图所示,研究团队根据正在处理的加噪图像所对应的生成图像段(Gen Image)的数量,将训练注意力掩码分为两种不同类型。

在序列中没有Gen Image(如图像理解任务,图4(a)中蓝框所示)或只有一个Gen Image(如文生图任务,图4(a)中绿框所示)的情况下,注意力掩码严格遵循上述定义的广义因果注意力模式。

然而,当单个训练序列中存在多个Gen Image时(图4(b)),就需要进行修改:上下文中出现的任何Gen Image都不能被序列中后续的tokens所关注。这个约束在注意力掩码的下三角部分引入了一个“空洞” (“hole”,即一个被掩码的注意力区域)。

二维位置编码

旋转位置编码(Rotary Position Embedding,RoPE)因其灵活性和可扩展性,被广泛应用于大语言模型(LLM)和扩散Transformer(DiT)中。

在混元3.0中,研究人员实现了一种由Su提出的广义二维RoPE (Generalized 2D RoPE)。这种方法保持了与预训练LLM的向后兼容性(backward compatibility)。

形式上,对于一个一维的文本位置索引n和一组频率{θ0,θ1,…},位置嵌入定义为 [cos(nθ0),cos(nθ1),…,sin(nθ0),sin(nθ1),…]。研究人员将此公式推广到二维坐标,对于一个位置 (x,y),其嵌入变为 [cos(xθ0),cos(yθ1),…,sin(xθ0),sin(yθ1),…]。


如图所示,从一维重塑为二维的图像tokens被赋予这种广义二维位置编码,而文本tokens则保留标准的1D RoPE,同时也可以被视为对角线位置上的2D RoPE。

这种设计确保了在没有图像tokens的情况下,编码方式能完全退化为1D RoPE,从而保留了与传统文本生成的完全兼容性,并最大限度地减少了对预训练语言能力的破坏性影响。

自动分辨率预测

类似DiT的模型通常需要用户进行确定性的输入(deterministic user input),以指定所需的图像尺寸和宽高比。

在混元3.0中,他们引入了一种自动模式,允许模型根据上下文(可以是提示词prompt或条件图像tokens)来决定合适的图像形状。

具体来说,他们扩展了语言模型的词汇表,加入了两种特殊标记(special tokens):一组表示为 {

在训练过程中,模型学会将这些形状标记与上下文中的用户输入和先前的对话相关联,从而能够根据输入上下文预测出合适的尺寸和比例标记。此外,用户还可以提供明确的提示(explicit cues)——例如“3:4”或“纵向”——来引导模型生成特定的宽高比标记。

基于预测出的尺寸和比例标记,混元3.0可以为图像tokens应用二维旋转位置编码(2D RoPE),使模型能够生成具有所需结构属性的图像。

数据构建

数据处理方面,混元3.0采用了一个全面的三阶段过滤流程,从超过100亿张原始图像中筛选出近50亿张高质量、多样化的图像,移除了包括低分辨率、水印、AI生成内容在内的低质量数据,并补充了知识增强、文本相关等专业数据集。


在图像描述上,混元3.0构建了一套新颖的中英双语、分层级的描述体系,将图像内容分解为从简到详的描述、风格属性和事实性实体等多个维度,并利用组合式合成策略来动态生成长度和模式各异的标题,以增强数据多样性。

为保证描述的真实性,该系统集成了专门的OCR(文字识别)和命名实体识别代理来提供事实依据,并通过双向验证循环进行核对,此外还针对成对的图像数据开发了差异描述功能,用以生成描述变化的文本。

推理数据构建方面,为了激活模型的“思维链”(Chain-of-Thought)能力,团队还专门构建了思考生图数据集,包括用于增强逻辑推理的“文本到文本”(T2T)数据,以及将图像与推理过程和详细描述配对的“文本到文本到图像”(T2TI)数据,旨在训练模型自主地完成从理解用户意图、进行概念优化到最终生成图像的全过程。

训练策略

混元3.0的预训练过程分为四个渐进式阶段,在这些阶段中,训练数据从粗到精进行筛选,VAE编码器的图像分辨率逐步提高,而ViT编码器的则保持不变。在训练期间,图像的宽高比被保留,以支持多分辨率图像生成。


阶段一:训练Transformer主干网络,同时保持ViT冻结,利用图文对和纯文本数据联合优化三个任务:文生图(T2I)、语言建模(LM)和多模态理解(MMU)。VAE编码器采用低图像分辨率(256px)和大批量训练,从海量图像中学习跨模态对齐。

阶段二:Transformer主干网络保持冻结,而ViT及其相关的对齐器模块(aligner module)则仅使用MMU数据进行微调,以增强视觉理解能力。

阶段三:联合训练ViT与Transformer,使用更高分辨率(>512px)图像,并引入图文交错数据(如图像编辑、图生图)增强多模态建模。

阶段四:在更高分辨率(≥1024px)子集上训练,强化视觉与推理能力,引入基于思维链(CoT)的文生图任务。

在多阶段的后训练中,混元3.0首先在一个精心筛选的人工标注样本数据集上进行SFT(监督微调)。随后,引入DPO(直接偏好优化)来有效解决并减少物理失真问题。

接着,利用MixGRPO提升文本-图像对齐度、真实感和美学吸引力这几个关键方面。最后,通过SRPO和自研的奖励分布对齐(ReDA)进一步优化模型,两者协同作用,对提升生成图像的真实感与清晰度起到关键作用。

模型效果

HunyuanImage 3.0采用了机器指标(SSAE)和人工评测(GSB)两种方式评估模型效果。

SSAE(Structured Semantic Alignment Evaluation)是一项基于多模态大语言模型(MLLM)的自动化评测指标,用于评估文生图模型的语义一致性。该指标精心构建了500道评测题目,并将每道题目按12个细分要点进行拆解,最后借助MLLM自动比对生成的图像内容是否与拆解的要点匹配。

最终输出两个结果:平均图像准确率(图像层级的平均分数MeanAcc)和全局准确率(所有要点的平均得分GlobalAcc)。

可以看到,HunyuanImage 3.0在最终生成效果和各项细分指标上,都能与行业顶尖模型媲美,甚至有所超越。


在人工评测GSB(Good/Same/Bad)中,HunyuanImage 3.0相较于Seedream 4.0胜率为1.17%,相较于Nano Banana胜率为2.64%,相较于GPT-Image胜率为5.00%,相较于目前最好的上一版本模型HunyuanImage 2.1胜率为14.10%,这表明HunyuanImage 3.0是足以媲美业界领先闭源模型的开源模型。


One More Thing

凭借领先的技术实力,混元3.0成功登顶榜单第一,不仅在业内展现了强劲的竞争力,也在双节假期掀起了一股全民热潮,大家纷纷上手体验,热度持续飙升。

比如,用该模型解方程时,它不仅能给出准确答案,还能在图中展示详细的计算过程,让复杂步骤一目了然。


在生成复古票券拼贴画时,即便图中包含多种文本元素,混元3.0也能将它们排版得井然有序,保持整体美感。


科技感十足的创作同样令人惊叹,像这只巨型章鱼,仿佛深海巨物一般,气势逼人。


人物特写效果也极为出色,面部细节、表情和光影处理都非常精细。


此外,从神话传说到超现实梦境,混元3.0都能将丰富的幻想场景生动呈现,每一幅画面都充满想象力与细节。


如果你也满脑子创意,那就快去亲自体验一番吧。

开源仓库:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

HF:https://huggingface.co/tencent/HunyuanImage-3.0

提示词手册:https://docs.qq.com/doc/DUVVadmhCdG9qRXBU

技术报告:https://arxiv.org/pdf/2509.23951

官网:https://hunyuan.tencent.com/image/zh?tabIndex=0

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

大龄女一晓彤
2025-09-23 19:35:20
山东小伙赴日读研,娶走班主任,世界杯看台差点掀桌子

山东小伙赴日读研,娶走班主任,世界杯看台差点掀桌子

冒泡泡的鱼儿
2025-11-08 10:25:52
医生手术时,涉诈停机

医生手术时,涉诈停机

中国新闻周刊
2025-11-08 14:11:05
林丹在西班牙为子庆生,谢杏芳盛装笑容满面,豪宅别墅显得热闹

林丹在西班牙为子庆生,谢杏芳盛装笑容满面,豪宅别墅显得热闹

科学发掘
2025-11-06 13:42:50
外网热议:东大军工自己吓到自己,卷出全球最狠空战体系

外网热议:东大军工自己吓到自己,卷出全球最狠空战体系

林子说事
2025-11-08 14:51:28
去了日本才发现,没人穿羽绒服、棉服了,满大街都是这3种外套

去了日本才发现,没人穿羽绒服、棉服了,满大街都是这3种外套

小陈聊搭配
2025-11-08 18:22:12
下周一人民币遭踢!伦敦金属交易所动手,美国想12月印钱锁死中国

下周一人民币遭踢!伦敦金属交易所动手,美国想12月印钱锁死中国

亿通电子游戏
2025-11-08 13:09:04
两年内或统一?大陆宣布重磅决定,赖清德坐不住,要打造铜墙铁壁

两年内或统一?大陆宣布重磅决定,赖清德坐不住,要打造铜墙铁壁

蔡蔡说史
2025-11-08 17:50:37
币圈血流成河之际,又一个稳定币“脱锚”

币圈血流成河之际,又一个稳定币“脱锚”

华尔街见闻官方
2025-11-08 18:58:38
2比3惜败!新版莎头组合首轮折戟,网友:大场面心态待磨炼

2比3惜败!新版莎头组合首轮折戟,网友:大场面心态待磨炼

番茄体坛
2025-11-08 18:59:10
凌晨三四点无故惊醒,别不当回事,或是“不干净”的东西在敲门

凌晨三四点无故惊醒,别不当回事,或是“不干净”的东西在敲门

古怪奇谈录
2025-11-06 14:23:56
佘诗曼也带不动,全程挤眉弄眼油腔滑调引差评,港圈没人了吗?

佘诗曼也带不动,全程挤眉弄眼油腔滑调引差评,港圈没人了吗?

悦君兮君不知
2025-11-06 12:17:59
杨振宁最后一道物理题:“落叶”为何不飘向妻子,而是飘向父母?

杨振宁最后一道物理题:“落叶”为何不飘向妻子,而是飘向父母?

Thurman在昆明
2025-11-08 07:20:07
手机黑屏瞬间,她竟莫名背上11万元贷款!

手机黑屏瞬间,她竟莫名背上11万元贷款!

现代快报
2025-11-08 18:24:10
意外!不是莱昂纳多也不是维塔尔,他是上港夺冠后最该留下的外援

意外!不是莱昂纳多也不是维塔尔,他是上港夺冠后最该留下的外援

梅亭谈
2025-11-08 16:44:08
代入郑智化视角去上了个班,我终于知道:八千万残障人士去哪了?

代入郑智化视角去上了个班,我终于知道:八千万残障人士去哪了?

新住家居
2025-11-07 19:05:12
空乘穿毛衣上班被吐槽“很土”,山东航空回应

空乘穿毛衣上班被吐槽“很土”,山东航空回应

大风新闻
2025-11-08 14:47:09
名嘴:布朗尼关键时刻用防守助队赢球!拿他当枪黑詹姆斯真丢人!

名嘴:布朗尼关键时刻用防守助队赢球!拿他当枪黑詹姆斯真丢人!

氧气是个地铁
2025-11-08 17:58:53
45岁殷桃比基尼照火辣出圈,丰满身材吸睛无数,冻龄状态完美?

45岁殷桃比基尼照火辣出圈,丰满身材吸睛无数,冻龄状态完美?

娱乐领航家
2025-11-08 00:00:03
我花12800请月嫂,她每天玩手机给我吃剩菜,辞退她时才知道,她竟是婆婆花3000请来的远房亲戚

我花12800请月嫂,她每天玩手机给我吃剩菜,辞退她时才知道,她竟是婆婆花3000请来的远房亲戚

上海约饭局
2025-11-08 12:05:46
2025-11-08 19:43:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1321395文章数 4411关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

"全网最像夫妻"被喊话测DNA 妻子:做过婚检 越长越像

头条要闻

"全网最像夫妻"被喊话测DNA 妻子:做过婚检 越长越像

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

旅游
时尚
家居
游戏
公开课

旅游要闻

万盏LED点亮伦敦夜空!摄政街天使彩灯,藏着欧洲最暖的圣诞浪漫

推广 || 断舍离N次也不会断了它,买过最值的冬日单品之一

家居要闻

现代自由 功能美学居所

玩家破译出《质量效应5》隐藏截图:暗示游戏剧情?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版