网易首页 > 网易号 > 正文 申请入驻

Mogao=Seedream 3.0?霸榜数天,神秘文生图模型曝光

0
分享至

机器之心报道,编辑:泽南、Panda。

霸榜数天的神秘文生图模型 Mogao,什么来头?

这两天,不少业内人已在询问「这个魔法般模型」的出处。

有人对模型效果颇为认可,好奇如何体验。

神秘模型 Mogao 的横空出世,始于近期它在盲测打分的 Artificial Analysis 文生图排行榜上迅速蹿升,一度排名第一,位列 GPT-4o、Recraft V3、Imagen 3、Midjourney v6.1 等模型之前。

从社交媒体也能看到,网友对该模型近乎一水的好评。

昨晚,Mogao 的神秘面纱终于被揭下。

它背后是图像生成基础模型 Seedream 3.0,来自字节跳动 Seed 团队。

在 Artificial Analysis 文生图榜单上,除了拿下总榜第一,Seedream 3.0 在真实、图形设计与数字渲染、动漫、卡通与插图、复古风、传统艺术等不同风格,以及文字、商务、人像、自然、幻想等不同维度均表现领先。

图片从左至右展示了在真实感、动漫、人像这三个细分项上的前 10 名。

尤其海报设计方面,Seedream 3.0 表现尤为突出,不仅小字崩坏率低,输出图像的设计感也很强。

众所周知,Seedream 3.0 已于 4 月初在字节自家的即梦和豆包平台上线,其在文字生成和排版上的出色能力备受关注。

而就在今天,字节跳动 Seed 团队也对外发布了 Seedream 3.0 技术报告,详细披露了模型的性能表现和技术细节。

机器之心带大家一睹为快。

  • 技术报告:https://team.doubao.com/zh/tech/seedream3_0
  • arXiv:https://arxiv.org/abs/2504.11346

定性定量评估俱佳

文生图 SOTA 实至名归

Seedream 3.0 不久前开放使用时,我们已经专门体验了一番,参阅《实测完 Seedream 3.0,我后悔大学选了设计专业……》。

总结起来,相比于市面上其它同类产品,Seedream 3.0 优势体现在 —— 速度与质量兼备、文字准且美、原生支持 2K 图像输出三个方面。

根据官方披露的技术报告也能发现,模型在结构、指令遵循、美感、人像、文本可用性等多个维度均表现突出。

综合能力之外,团队还强调了密集文本渲染和逼真人像生成两方面能力。

具体来说,在生成结果中,Seedream 3.0 中文和英文字符的文本可用率均达到 94%,基本让文本渲染不再成为图像生成的掣肘。

除了可用率的整体提升之外,相比 2.0 版本,Seedream 3.0 渲染密集文本的能力也有重大提升,同时其小字符生成的准确率和文本布局的自然度也显著明显进步。

在人像真实感方面,团队为评估模型表现,专门构建了一个采用 Elo 竞赛机制、包含 100 个提示的人像评估新基准,囊括表情、姿势、角度、发质、肤质、服饰、配饰等人像生成的方方面面。

经过超过 50000 轮的公开评估,Seedream 3.0 与 Midjourney V6.1 同处第一梯队,相比其他模型优势明显。

从示例可以看到,Seedream 3.0 能有效消除人像生成的「AI 感」,可生成带有皱纹、绒毛和疤痕等真实特征的皮肤质感,逼真度已基本接近专业摄影水平。

机器之心还在实际评测发现,Seedream 3.0 不需要像之前一样执行超分辨率操作,而是可以一键直出 2K 分辨率图像。

对比其他模型,Seedream 3.0 也展现出极快的生成效率。

根据实测体验,Seedream 3.0 基本十几秒左右就能生成 4 张 2K 分辨率待选图像,生成高清图像(1K)时长更是短至数秒。相较之下,业界同类模型生成一张高清内容的耗时基本在 10 秒以上,而效果较好的 GPT-4o 生成一张高清图耗时往往超过 1 分钟。

从数据过滤到后训练

大量底层技术升级

Seedream 3.0 究竟是如何炼成的?在技术报告中,我们看到了 Seed 研究团队在数据、预训练和后训练上的多项工作。

数据准备阶段

在数据上,因之前偏保守的数据过滤策略会极大限制可用数据集大小,团队引入了一种全新的缺陷感知型训练范式。

该范式包含一个专门的缺陷检测器,可通过边界框预测精确定位缺陷区域。当检测到的缺陷总面积小于图像空间的 20%(可配置阈值)时,就会选择保留这些样本(之前会被丢弃),同时使用掩码隐含空间优化。

团队认为,这种创新方法的效果很好:在保证模型稳定性的同时,将有效训练数据集扩展了21.7%。

为了优化数据分布,他们提出了一个双轴协同数据采样框架,可从视觉形态和语义分布两个维度进行联合优化。

团队还自主研发了一套跨模态检索系统,进一步增强数据生态系统的协调性,针对图像 - 文本对,建立了一个联合嵌入空间。该系统在所有基准测试中均取得了最佳性能。

预训练阶段

Seedream 3.0 的基本架构设计继承自 2.0 版,采用 MMDiT 来处理图像和文本 token ,并捕捉两种模态之间的关系。不过,在 Seedream 3.0 中,团队增加了基础模型的总参数,并引入了多项关键改进,提高了模型的可扩展性、泛化能力和视觉语言对齐能力,其中包括:

混合分辨率训练:每个训练阶段中,不同宽高比和分辨率的图像会被打包在一起,首先在平均分辨率为 256² 的图像上预训练模型,然后在更高分辨率的图像(从 512² 到 2048²)上对其进行微调。Seed 团队还采用了尺寸嵌入作为另一个条件,使模型能够感知目标分辨率。

跨模态 RoPE:Seedream 2.0 中的 Scaling RoPE 被扩展成了跨模态 RoPE,从而进一步增强了视觉文本 token 的对齐效果和文本渲染精度。其中,文本 token 被视为形状为 [1, L] 的二维 token,并对文本 token 应用二维 RoPE。

后训练阶段

Seedream 3.0 后训练流程则包含以下几个阶段:持续训练(CT)、监督微调(SFT)、人工反馈对齐(RLHF)和提示工程(PE)。各阶段效果对比如下图所示。

为进一步提升美感,在新模型上,团队专门训练了多个版本的描述模型。

这些模型能在审美、风格、排版等专业领域提供精准的描述,确保 Seedream 3.0 能够更有效地响应相关提示,不仅增强了模型的可控性,也提升了提示工程后模型的性能。

另外在奖励模型上,Seedream 3.0使用了 VLM 作为奖励建模框架,而不再是 CLIP,并提升了其参数量。

团队借鉴语言模型中生成式 RM 经验,进行奖励建模,依靠 LLM 原本的 Scaling 能力,提升奖励准确性与鲁棒性;此外,团队还将奖励模型参数量从 0.8B 拓展至 20B 以上。

推理加速相关工作

为促使 Seedream 3.0 拥有更高生成效率,团队专门针对推理加速进行了优化。

框架方面,模型采用了Hyper-SD 和 RayFlow。这使得生成路径得到了优化,每个数据点会被引导至特定实例的目标分布,从而实现每个样本的轨迹定制。这可显著减少路径碰撞,并提高生成稳定性和样本多样性。

该团队还引入一种重要性采样机制来提升效率,其可以学习在训练过程中关注最关键的时间步。此外,Seedream 3.0 的框架也支持高效的少步数采样,且不会影响生成质量。

打榜一时超越 4o

就比它更强?

看到这,相信不少人也会提问,Seedream 3.0 比起 GPT-4o 如何?打榜超过就一定强么?

在技术报告中,我们发现团队专门对比了 Seedream 3.0 与 GPT-4o 的表现。需要强调的是,GPT-4o 本质上是一款文本 + 图像的多模态模型,而这里的对比仅限于图像生成能力。不过,通过一些案例比较,该团队也找到了这两个模型各自的优势和短板。

例如密集文本渲染方面,团队发现 GPT-4o 在小英文字符的准确性和某些 LaTeX 符号的渲染方面表现出色。然而, GPT-4o 在渲染中文字体方面表现相对不足,相比之下,Seedream 3.0 可以轻松生成密集的中文文本,并且在排版和构图美感方面优于 GPT-4o。

下图给出了一些示例,其中上列来自 Seedream 3.0,下列来自 GPT-4o。

此外,团队还系统性地对比了包括颜色、纹理、清晰度和美观度在内的生成质量。

下图展示了多组示例,每组图像的左图来自 Seedream 3.0,右图来自 GPT-4o。

在生成质量方面,Seedream 系列模型色彩更为饱满,GPT-4o 生成图像部分伴有噪点。

值得一提的是,在连续性图片生成(比如:漫画、流程图)方面,GPT-4o 的能力依然让人感到惊艳,这也是 Seedream 3.0 需要进一步提升之处。

文生图开卷

全面落地时代已来

最近,文生图模型又开始卷到飞起,字节 Seedream 3.0 正式亮相的同时,仅在国内,就有好几家 Artificial Analysis 上榜模型同期发布。

从多模态对齐到高分辨率输出,再到密集文字渲染与人像真实感优化, Seedream 3.0、GPT-4o 等模型在这一波集体跃迁,MJ、Flux 等曾经的明星模型被逐渐淡忘。而背后的技术演进、系统设计哲学与产品化思路,也将越来越多地决定 AI 在真实世界中的落地路径与生态潜力。

一轮新竞赛已经悄然开场,这些新模型在吸引关注的同时,也有望催生出全新的创作范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

张嘴说财经
2026-03-25 23:07:05
原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

大铁猫娱乐
2026-03-25 13:03:57
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

寻墨阁
2026-03-25 11:39:10
新加坡站队了?正式向世界宣布:中方若继续挑衅日本,会让他好看

新加坡站队了?正式向世界宣布:中方若继续挑衅日本,会让他好看

小影的娱乐
2026-03-26 13:45:58
中东局势加剧美国的信任危机,欧洲很受伤意见很大

中东局势加剧美国的信任危机,欧洲很受伤意见很大

上观新闻
2026-03-26 14:26:45
恶毒诋毁张雪峰离世:千万粉丝“留几手”被罚!网友:应永久封杀

恶毒诋毁张雪峰离世:千万粉丝“留几手”被罚!网友:应永久封杀

影像温度
2026-03-26 11:25:05
张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

笔墨V
2026-03-26 14:53:51
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
伊朗对以色列发起导弹打击 以多地响起防空警报

伊朗对以色列发起导弹打击 以多地响起防空警报

财联社
2026-03-26 14:50:24
张雪峰猝死后,卢克文也不敢跑步了,曾每年跑1千公里,身体垮了

张雪峰猝死后,卢克文也不敢跑步了,曾每年跑1千公里,身体垮了

水晶的视界
2026-03-26 09:28:29
中日战争还没打响,中国可能就先“输”了。

中日战争还没打响,中国可能就先“输”了。

别人都叫我阿腈
2026-03-26 08:03:09
是什么,让这个日本自卫官竟敢对中国大使馆举刀?

是什么,让这个日本自卫官竟敢对中国大使馆举刀?

环球时报国际
2026-03-26 00:13:51
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
痛别!李幼平逝世

痛别!李幼平逝世

极目新闻
2026-03-26 13:31:27
黎真主党导弹袭击以国防部及军营

黎真主党导弹袭击以国防部及军营

北青网-北京青年报
2026-03-26 10:19:17
2026户籍新规全面落地:人在何处生活,户口即可登记于此

2026户籍新规全面落地:人在何处生活,户口即可登记于此

复转这些年
2026-03-26 09:43:09
京牌不再稀缺,北京车市进入理性新阶段

京牌不再稀缺,北京车市进入理性新阶段

音乐时光的娱乐
2026-03-26 14:59:43
2026-03-26 16:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
数码
家居
时尚
手机

艺术要闻

哪一座桥不是风景?

数码要闻

三星更新870 EVO系列SATA SSD:最高8TB 定价超1万元

家居要闻

傍海而居 静观蝴蝶海

皮衣+裙,高级到炸

手机要闻

苹果回应iPhone自动打电话 升级系统可解决

无障碍浏览 进入关怀版