网易首页 > 网易号 > 正文 申请入驻

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

0
分享至


智东西AI前瞻(公众号:zhidxcomAI)
作者|江宇
编辑|漠影

智东西AI前瞻9月9日报道,今日,字节跳动Seed团队正式发布新一代图像创作模型Seedream 4.0(即梦图片4.0模型)

作为该系列迭代以来的一次整合升级,Seedream 4.0在一套模型架构中集成了文生图、图像编辑、草图控图、风格迁移等多种能力,并支持最高4K分辨率图像生成,现已接入即梦、豆包等平台。

这一版本的发布,恰逢Google图像生成模型Nano Banana(Gemini 2.5 Flash Image)在社交媒体刷屏走红之际。相比之下,Seedream 4.0也带来了完整的多模态创作能力,不仅支持自定义图像比例、多图融合与复杂结构推理,在中文文字生成、图像清晰度与任务一致性等关键能力上,具备鲜明优势。

在Seed团队构建的评测体系中,Seedream 4.0在文生图与图像编辑两项任务的综合Elo评分,已超越Nano Banana(Gemini 2.5 Flash Image)。

智东西先试了试用它给VOGUE二十周年群像封面改风格。在豆包对话页面点击“豆包P图”,上传照片,默认模型便是即梦4.0,输入文字描述,等待近30秒,豆包就能一次性生成2张符合描述的图片。

我们让它生成了复古港风、未来赛博朋克、洛可可宫廷风、Y2K千禧辣妹风、极简现代摄影风和古风等风格。从生图效果来看,模型在整体风格还原上表现较好,无论是背景氛围、光影色调,还是人物造型,都能做到较统一的风格转换,不足之处是人脸五官特征出现变形,人名栏也变模糊。


▲豆包修改的VOGUE二十周年群像封面 (点击链接可查看原图)

在初步体验的基础上,智东西进一步参考Seedream 4.0官方提出的八类基础能力场景,设计了一组Prompt,并将同一任务同步交由Nano Banana执行,围绕精准编辑、控图生成、手办建模、多图输出、中文排版等维度,观察两款模型在生成效果上的差异。

一、八种玩法实测,Seedream 4.0和Nano Banana短兵相接

Seed团队给出了Seedream 4.0的八类基础玩法,官方将其归纳为:精准编辑、灵活参考、控图生成、上下文推理、多图融合、多图输出、文字渲染和自适应画布。

智东西围绕每类能力,设置了实战Prompt,并同步用Nano Banana跑同一任务,来看谁的生成更稳定、画面更自然、任务理解力更强。

以下体验均为真实测试结果,欢迎读者复制指令自行复现。

1、中文写实图生成+精准编辑(Precise Editing)

Prompt:一个亚洲面孔女孩坐在江边看书,身边放着咖啡和一本笔记本,黄昏时分水面反光,构图为3:2横图,风格为写实摄影。

补充指令1:发色为粉色。

补充指令2:背景为图书馆。


▲Seedream 4.0


▲Nano Banana

补充指令1:发色为粉色。


▲Seedream 4.0


▲Nano Banana

补充指令2:背景为图书馆。


▲Seedream 4.0


▲Nano Banana

这组图最能拉开“写实能力”的差距。Seedream 4.0对补充指令的理解更精准,效果也更自然。不仅发色和波光粼粼的这类细节更为写实,场景切换到图书馆后,依旧能维持整体画面协调。

而Nano Banana在补充“背景为图书馆”的指令后,画面中的人物姿态上就略显僵硬。

2、多图参考生成(Multi-Image Reference Generation)

Prompt:请将参考图中的衣服、鞋子和配饰整体换到模特身上,确保服装贴合身形,面部特征和姿势保持一致,生成图像风格与参考图一致。


▲参考图


▲Seedream 4.0


▲Nano Banana

这组体验中,Seedream 4.0的表现略逊。虽然衣物与姿态基本对得上,但服饰的款式并未完全复刻。在图像理解上,未能准确识别参考图上衣服的褶皱。

反观Nano Banana的效果更自然流畅,整体穿搭更“贴身”。

3、 草图控图/视觉信号可控生成(Visual Signal Controllable Generation)

Prompt 1:根据上传的手绘草图生成现代极简风格客厅实景图,保留草图中家具位置,房间挑高,光线明亮。


▲参考图


▲Seedream 4.0


▲Nano Banana

Prompt 2:为一张包含两个人物的动作线稿进行上色,动作姿势与线稿图保持完全一致,人物比例和细节需严格遵循参考图。


▲参考图


▲Seedream 4.0


▲Nano Banana

这一类任务中,Seedream 4.0展现出了更强的一致性,动作还原几乎“丝滑贴线”。Nano Banana的优势则在人物细节与氛围感,但在贴合线稿的控制上略有波动。

4、手办生成/灵活参考(Flexible Reference)

Prompt:绘制图中角色的1/7比例商业化手办,写实风格,场景设定为电脑桌,亚克力底座,旁边有印有原画的包装盒和ZBrush建模画面。


▲Seedream 4.0


▲Nano Banana

这类任务曾是Nano Banana走红社媒的“代表作”,这次Seedream 4.0也做得颇为出色,手办质感真实,周边元素丰富,构图也更完整。

5、多图输出(Multi-Image Output)

Prompt:参考这个LOGO,做一套户外运动品牌视觉设计,品牌名称为“GREEN”,包括包装袋、帽子、卡片、手环、纸盒、挂绳等,绿色为主色调,简约现代风。


▲参考图


▲Seedream 4.0


▲Nano Banana

这类多图输出任务,是考验模型细节、统一性与输出清晰度的硬仗。Nano Banana生成结果清新可爱,但有些空泛。而Seedream 4.0能保持多图风格一致,外加高清晰度,也更适合商业展示。

6、高级文字渲染与排版(Advanced Text Rendering)

Prompt 1:生成一张中文海报,主标题为“城市绿色出行倡议”,副标题为“打造未来低碳生活方式”,底部有二维码和品牌LOGO。


▲Seedream 4.0


▲Nano Banana

Prompt 2:生成送货机器人的手绘草图,含文字、公式、表格、统计图等元素。


▲Seedream 4.0


▲Nano Banana

在中文字处理这一项,Seedream 4.0是“降维打击”。文本清晰度、字形规整性与位置排布都表现稳定,有“直接交付”的潜力。

而Nano Banana则依旧存在“中文混乱”的老问题。

7、上下文推理生成(In-Context Reasoning Generation)

Prompt:时间从中午12点过去11小时15分钟,房间光线变暗,闹钟时间应同步变化。


▲Seedream 4.0


▲Nano Banana

Seedream 4.0不仅调暗了室内光线,窗外景色也配合“入夜”,连闹钟显示时间也匹配。而Nano Banana虽然场景变暗,但窗外还是大白天,可见“推理”这一步还没跟上。

8、自适应比例与4K生成(Adaptive Aspect Ratio & 4K Generation)

Prompt:生成一张16:9横版构图的城市夜景俯瞰图,建筑灯光清晰,要求图像分辨率为4K。


▲Seedream 4.0


▲Nano Banana

Seedream 4.0一键输出4K高分图,比例、光影、清晰度都达标。Nano Banana则提示“当前不支持生成4K图像”,尽管构图不错,但解析度还是有局限。

二、一套模型通吃文生图与编辑,推理速度提升10倍

Seedream 4.0在架构设计上完成了一次整合式升级,将前代文生图模型Seedream 3.0与图像编辑模型SeedEdit 3.0融合为一套统一模型架构。

核心创新包括:

1、DiT架构+高压缩比VAE:构建了一个高效率的扩散Transformer模型,训练与推理速度提升10倍

2、VLM模块加持:引入SeedVLM模块,强化对图像语义、世界知识的理解,增强多模态上下文推理能力

3、联合训练机制:通过CT、SFT、RLHF三阶段全链路训练,将生成与编辑任务进行融合优化,在图像结构还原度、风格一致性、文字理解力上表现更佳;

4、大规模多模态数据链路:结合视频抽帧、HTML内容检索、专家模型合成等方式,构建出大规模高质量训练数据集;

5、推理效率优化:引入对抗蒸馏、分布匹配、推测解码等机制,在保持质量的同时大幅减少生成耗时,2K图像可秒级完成生成

在保持生成质量稳定的同时,Seedream 4.0还提供了图像尺寸、画面比例、风格控制等细致参数设置,并原生集成了草图、Canny、Depth、Mask等控图通道,无需额外模型支持。

三、评测成绩:图像编辑任务Elo评分超Nano Banana,文生图能力稳中有短板

根据Seed团队在MagicBench评测基准上的结果,Seedream 4.0在图像编辑任务(Single-Image Editing Evaluation)中整体表现较为均衡,综合评分(Overall Elo)略高于模型Nano Banana(Gemini 2.5 Flash Image)。在“文字渲染(Text Rendering)”、“人工评价得分(DreamEval, bo4/avg)”等维度表现突出,特别是在中文内容处理上具备明显优势。


▲图片编辑任务综合评测

在“指令对齐(Alignment)”方面,Seedream 4.0与模型Nano Banana(Gemini 2.5 Flash Image)处于同一水平,略低于GPT-Image-1;而在“一致性(Consistency)”和“结构还原(Structure)”上,相比模型Nano Banana(Gemini 2.5 Flash Image)略有不足,但整体差距不大。


▲文生图任务综合评测

在文生图任务(Text-to-Image Evaluation)中,Seedream 4.0在“美学表现(Aesthetics)”维度得分相对较高;但在“结构还原(Structure)”、“文字渲染(Text Rendering)”、“语义对齐(Alignment)”和“错误纠正(Correction)”等指标上,相比GPT-Image-1略逊一筹,整体评分略低于后者,比模型Nano Banana(Gemini 2.5 Flash Image)整体能力突出。

整体来看,Seedream 4.0在图像编辑场景中具备较强能力,而在自由生成类的文生图场景中,其基础能力稳定,仍有部分生成一致性和对抗复杂场景的提升空间。

结语:一个更实用、更本地化的国产图像模型

通过一轮多维度的实际体验与评测对比可以看出,Seedream 4.0在图像生成能力上的表现更加成熟,特别是在中文场景下具备明显优势。

它为用户提供了更高的控制自由度,也具备支持商业、设计、教育等专业场景的基础能力。在国产图像模型不断演进的过程中,Seedream 4.0或许已代表了当前图像生成领域的一个稳定阶段成果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东:妻子亲手教丈夫尿尿,一边教学一边示范,“就差坐着尿了”

广东:妻子亲手教丈夫尿尿,一边教学一边示范,“就差坐着尿了”

音乐时光的娱乐
2025-11-11 07:39:24
50万架军机对付中国!南海若交战,结局只有6字,美防长突然下令

50万架军机对付中国!南海若交战,结局只有6字,美防长突然下令

影孖看世界
2025-11-10 19:16:09
3.5亿美元!汉堡王中国迎来新主人

3.5亿美元!汉堡王中国迎来新主人

每日经济新闻
2025-11-10 21:46:05
东莞一铁皮厂房突发大火,“给消防员面都煮了250碗,应该有几百人在救火“;当地回应:火已扑灭无人伤亡

东莞一铁皮厂房突发大火,“给消防员面都煮了250碗,应该有几百人在救火“;当地回应:火已扑灭无人伤亡

大风新闻
2025-11-11 13:27:05
演员王辉:《雍正王朝》里的十三爷,竟成自己不可逾越的高峰

演员王辉:《雍正王朝》里的十三爷,竟成自己不可逾越的高峰

小小李娱
2025-11-10 15:41:04
全运会开幕式落幕:四大惊喜、三大感动、两大遗憾,刘德华赢麻了

全运会开幕式落幕:四大惊喜、三大感动、两大遗憾,刘德华赢麻了

查尔菲的笔记
2025-11-10 17:12:25
你要打多久我就陪多久!只要大陆战机敢越线,台军就开第1枪击落

你要打多久我就陪多久!只要大陆战机敢越线,台军就开第1枪击落

许穋很机智
2025-11-10 01:52:53
鸡娃失败:网传武汉顶级高中,学生开始退出!

鸡娃失败:网传武汉顶级高中,学生开始退出!

文雅笔墨
2025-11-11 10:00:28
忽然发现,全红婵的失利,支持她的秘诀原来是把她当人看

忽然发现,全红婵的失利,支持她的秘诀原来是把她当人看

动物奇奇怪怪
2025-11-11 13:11:54
汪小菲丈母娘才是高手,带娃爬山,玥儿全程乐开花

汪小菲丈母娘才是高手,带娃爬山,玥儿全程乐开花

黔乡小姊妹
2025-11-11 12:50:56
此女只应天上有,人间只有此一人,真的漂亮,而且很媚,媚而不俗

此女只应天上有,人间只有此一人,真的漂亮,而且很媚,媚而不俗

乡野小珥
2025-10-19 14:41:29
香港回不来,加拿大又待不下去,这一次心高气傲李婉华没有退路

香港回不来,加拿大又待不下去,这一次心高气傲李婉华没有退路

郭蛹包工头
2025-11-11 08:39:22
17分钟视频后续来了!主要是这几点

17分钟视频后续来了!主要是这几点

魔都姐姐杂谈
2025-11-09 15:45:32
湖南某医院不雅事件的同款“战袍”,彻底火了!

湖南某医院不雅事件的同款“战袍”,彻底火了!

仕道
2025-11-10 14:06:05
十女配一男都不够,成为世界上最缺男人的国家,美女多到嫁不出去

十女配一男都不够,成为世界上最缺男人的国家,美女多到嫁不出去

素衣读史
2025-11-10 17:32:56
全运会乒乓球!16强诞生,向鹏3-4惨遭绝杀,王楚钦4-1,蒯曼晋级

全运会乒乓球!16强诞生,向鹏3-4惨遭绝杀,王楚钦4-1,蒯曼晋级

小鬼头体育
2025-11-11 13:17:56
日本民宿被曝变身卖淫场,性工作者称中国游客更大方。

日本民宿被曝变身卖淫场,性工作者称中国游客更大方。

环球趣闻分享
2025-11-09 14:20:06
绝了!C罗腹肌碰伊莲娜高跟鞋,分手后各自活成顶流典范

绝了!C罗腹肌碰伊莲娜高跟鞋,分手后各自活成顶流典范

罗氏八卦
2025-11-11 08:29:02
无缘全运会决赛,蒯纪闻:输在磨合不够,有些战术被对手摸透

无缘全运会决赛,蒯纪闻:输在磨合不够,有些战术被对手摸透

懂球帝
2025-11-11 13:25:07
若中日再次爆发战争,结局会如何?俄罗斯和美国看法一致​

若中日再次爆发战争,结局会如何?俄罗斯和美国看法一致​

寻途
2025-11-04 21:16:03
2025-11-11 14:36:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10720文章数 116894关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

15岁少年疑被骗至柬埔寨 社交账号发信息"找3人换他"

头条要闻

15岁少年疑被骗至柬埔寨 社交账号发信息"找3人换他"

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

何超莲窦骁真的没离婚?

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

房产
本地
游戏
公开课
军事航空

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

本地新闻

这届干饭人,已经把博物馆吃成了食堂

《英雄联盟》S15决赛赛后KT群访:过程本身已经非常重要"/> 主站 商城 论坛 自运营 登录 注册 《英雄联盟》S15决赛赛后KT群访:过程本身已经非...

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美媒承认:乌重镇即将被攻克

无障碍浏览 进入关怀版