网易首页 > 网易号 > 正文 申请入驻

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

0
分享至

智东西AI前瞻9月9日报道,今日,字节跳动Seed团队正式发布新一代图像创作模型Seedream 4.0(即梦图片4.0模型)

作为该系列迭代以来的一次整合升级,Seedream 4.0在一套模型架构中集成了文生图、图像编辑、草图控图、风格迁移等多种能力,并支持最高4K分辨率图像生成,现已接入即梦、豆包等平台。

这一版本的发布,恰逢Google图像生成模型Nano Banana(Gemini 2.5 Flash Image)在社交媒体刷屏走红之际。相比之下,Seedream 4.0也带来了完整的多模态创作能力,不仅支持自定义图像比例、多图融合与复杂结构推理,在中文文字生成、图像清晰度与任务一致性等关键能力上,具备鲜明优势。

在Seed团队构建的评测体系中,Seedream 4.0在文生图与图像编辑两项任务的综合Elo评分,已超越Nano Banana(Gemini 2.5 Flash Image)。

智东西先试了试用它给VOGUE二十周年群像封面改风格。在豆包对话页面点击“豆包P图”,上传照片,默认模型便是即梦4.0,输入文字描述,等待近30秒,豆包就能一次性生成2张符合描述的图片。

我们让它生成了复古港风、未来赛博朋克、洛可可宫廷风、Y2K千禧辣妹风、极简现代摄影风和古风等风格。从生图效果来看,模型在整体风格还原上表现较好,无论是背景氛围、光影色调,还是人物造型,都能做到较统一的风格转换,不足之处是人脸五官特征出现变形,人名栏也变模糊。

▲豆包修改的VOGUE二十周年群像封面 (点击链接可查看原图)

在初步体验的基础上,智东西进一步参考Seedream 4.0官方提出的八类基础能力场景,设计了一组Prompt,并将同一任务同步交由Nano Banana执行,围绕精准编辑、控图生成、手办建模、多图输出、中文排版等维度,观察两款模型在生成效果上的差异。

一、八种玩法实测,Seedream 4.0和Nano Banana短兵相接

Seed团队给出了Seedream 4.0的八类基础玩法,官方将其归纳为:精准编辑、灵活参考、控图生成、上下文推理、多图融合、多图输出、文字渲染和自适应画布。

智东西围绕每类能力,设置了实战Prompt,并同步用Nano Banana跑同一任务,来看谁的生成更稳定、画面更自然、任务理解力更强。

以下体验均为真实测试结果,欢迎读者复制指令自行复现。

1、中文写实图生成+精准编辑(Precise Editing)

Prompt:一个亚洲面孔女孩坐在江边看书,身边放着咖啡和一本笔记本,黄昏时分水面反光,构图为3:2横图,风格为写实摄影。

补充指令1:发色为粉色。

补充指令2:背景为图书馆。

▲Seedream 4.0

▲Nano Banana

补充指令1:发色为粉色。

▲Seedream 4.0

▲Nano Banana

补充指令2:背景为图书馆。

▲Seedream 4.0

▲Nano Banana

这组图最能拉开“写实能力”的差距。Seedream 4.0对补充指令的理解更精准,效果也更自然。不仅发色和波光粼粼的这类细节更为写实,场景切换到图书馆后,依旧能维持整体画面协调。

而Nano Banana在补充“背景为图书馆”的指令后,画面中的人物姿态上就略显僵硬。

2、多图参考生成(Multi-Image Reference Generation)

Prompt:请将参考图中的衣服、鞋子和配饰整体换到模特身上,确保服装贴合身形,面部特征和姿势保持一致,生成图像风格与参考图一致。

▲参考图

▲Seedream 4.0

▲Nano Banana

这组体验中,Seedream 4.0的表现略逊。虽然衣物与姿态基本对得上,但服饰的款式并未完全复刻。在图像理解上,未能准确识别参考图上衣服的褶皱。

反观Nano Banana的效果更自然流畅,整体穿搭更“贴身”。

3、 草图控图/视觉信号可控生成(Visual Signal Controllable Generation)

Prompt 1:根据上传的手绘草图生成现代极简风格客厅实景图,保留草图中家具位置,房间挑高,光线明亮。

▲参考图

▲Seedream 4.0

▲Nano Banana

Prompt 2:为一张包含两个人物的动作线稿进行上色,动作姿势与线稿图保持完全一致,人物比例和细节需严格遵循参考图。

▲参考图

▲Seedream 4.0

▲Nano Banana

这一类任务中,Seedream 4.0展现出了更强的一致性,动作还原几乎“丝滑贴线”。Nano Banana的优势则在人物细节与氛围感,但在贴合线稿的控制上略有波动。

4、手办生成/灵活参考(Flexible Reference)

Prompt:绘制图中角色的1/7比例商业化手办,写实风格,场景设定为电脑桌,亚克力底座,旁边有印有原画的包装盒和ZBrush建模画面。

▲Seedream 4.0

▲Nano Banana

这类任务曾是Nano Banana走红社媒的“代表作”,这次Seedream 4.0也做得颇为出色,手办质感真实,周边元素丰富,构图也更完整。

5、多图输出(Multi-Image Output)

Prompt:参考这个LOGO,做一套户外运动品牌视觉设计,品牌名称为“GREEN”,包括包装袋、帽子、卡片、手环、纸盒、挂绳等,绿色为主色调,简约现代风。

▲参考图

▲Seedream 4.0

▲Nano Banana

这类多图输出任务,是考验模型细节、统一性与输出清晰度的硬仗。Nano Banana生成结果清新可爱,但有些空泛。而Seedream 4.0能保持多图风格一致,外加高清晰度,也更适合商业展示。

6、高级文字渲染与排版(Advanced Text Rendering)

Prompt 1:生成一张中文海报,主标题为“城市绿色出行倡议”,副标题为“打造未来低碳生活方式”,底部有二维码和品牌LOGO。

▲Seedream 4.0

▲Nano Banana

Prompt 2:生成送货机器人的手绘草图,含文字、公式、表格、统计图等元素。

▲Seedream 4.0

▲Nano Banana

在中文字处理这一项,Seedream 4.0是“降维打击”。文本清晰度、字形规整性与位置排布都表现稳定,有“直接交付”的潜力。

而Nano Banana则依旧存在“中文混乱”的老问题。

7、上下文推理生成(In-Context Reasoning Generation)

Prompt:时间从中午12点过去11小时15分钟,房间光线变暗,闹钟时间应同步变化。

▲Seedream 4.0

▲Nano Banana

Seedream 4.0不仅调暗了室内光线,窗外景色也配合“入夜”,连闹钟显示时间也匹配。而Nano Banana虽然场景变暗,但窗外还是大白天,可见“推理”这一步还没跟上。

8、自适应比例与4K生成(Adaptive Aspect Ratio & 4K Generation)

Prompt:生成一张16:9横版构图的城市夜景俯瞰图,建筑灯光清晰,要求图像分辨率为4K。

▲Seedream 4.0

▲Nano Banana

Seedream 4.0一键输出4K高分图,比例、光影、清晰度都达标。Nano Banana则提示“当前不支持生成4K图像”,尽管构图不错,但解析度还是有局限。

二、一套模型通吃文生图与编辑,推理速度提升10倍

Seedream 4.0在架构设计上完成了一次整合式升级,将前代文生图模型Seedream 3.0与图像编辑模型SeedEdit 3.0融合为一套统一模型架构。

核心创新包括:

1、DiT架构+高压缩比VAE:构建了一个高效率的扩散Transformer模型,训练与推理速度提升10倍

2、VLM模块加持:引入SeedVLM模块,强化对图像语义、世界知识的理解,增强多模态上下文推理能力

3、联合训练机制:通过CT、SFT、RLHF三阶段全链路训练,将生成与编辑任务进行融合优化,在图像结构还原度、风格一致性、文字理解力上表现更佳;

4、大规模多模态数据链路:结合视频抽帧、HTML内容检索、专家模型合成等方式,构建出大规模高质量训练数据集;

5、推理效率优化:引入对抗蒸馏、分布匹配、推测解码等机制,在保持质量的同时大幅减少生成耗时,2K图像可秒级完成生成

在保持生成质量稳定的同时,Seedream 4.0还提供了图像尺寸、画面比例、风格控制等细致参数设置,并原生集成了草图、Canny、Depth、Mask等控图通道,无需额外模型支持。

三、评测成绩:图像编辑任务Elo评分超Nano Banana,文生图能力稳中有短板

根据Seed团队在MagicBench评测基准上的结果,Seedream 4.0在图像编辑任务(Single-Image Editing Evaluation)中整体表现较为均衡,综合评分(Overall Elo)略高于模型Nano Banana(Gemini 2.5 Flash Image)。在“文字渲染(Text Rendering)”、“人工评价得分(DreamEval, bo4/avg)”等维度表现突出,特别是在中文内容处理上具备明显优势。

▲图片编辑任务综合评测

在“指令对齐(Alignment)”方面,Seedream 4.0与模型Nano Banana(Gemini 2.5 Flash Image)处于同一水平,略低于GPT-Image-1;而在“一致性(Consistency)”和“结构还原(Structure)”上,相比模型Nano Banana(Gemini 2.5 Flash Image)略有不足,但整体差距不大。

▲文生图任务综合评测

在文生图任务(Text-to-Image Evaluation)中,Seedream 4.0在“美学表现(Aesthetics)”维度得分相对较高;但在“结构还原(Structure)”、“文字渲染(Text Rendering)”、“语义对齐(Alignment)”和“错误纠正(Correction)”等指标上,相比GPT-Image-1略逊一筹,整体评分略低于后者,比模型Nano Banana(Gemini 2.5 Flash Image)整体能力突出。

整体来看,Seedream 4.0在图像编辑场景中具备较强能力,而在自由生成类的文生图场景中,其基础能力稳定,仍有部分生成一致性和对抗复杂场景的提升空间。

结语:一个更实用、更本地化的国产图像模型

通过一轮多维度的实际体验与评测对比可以看出,Seedream 4.0在图像生成能力上的表现更加成熟,特别是在中文场景下具备明显优势。

它为用户提供了更高的控制自由度,也具备支持商业、设计、教育等专业场景的基础能力。在国产图像模型不断演进的过程中,Seedream 4.0或许已代表了当前图像生成领域的一个稳定阶段成果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
即将官宣!利物浦新帅基本确定是他!

即将官宣!利物浦新帅基本确定是他!

乌龙球OwnGoal
2026-06-02 17:28:45
又一日系车,回归了

又一日系车,回归了

放毒
2026-06-02 18:49:49
CBA总冠军鼎正式抵达杭州!

CBA总冠军鼎正式抵达杭州!

体育哲人
2026-06-01 22:26:36
她是王洪文亲信,曾任上海市委书记,1982年被判了17年

她是王洪文亲信,曾任上海市委书记,1982年被判了17年

鉴史录
2026-06-02 15:15:51
成人网红邦妮自曝恶心计划:6月办尿淋派对,粉丝可尿她发生关系

成人网红邦妮自曝恶心计划:6月办尿淋派对,粉丝可尿她发生关系

赴一场山海啊
2026-06-01 00:27:25
你曾经开过最烂的车是哪款车?网友:这个车0到100加速,少说30秒

你曾经开过最烂的车是哪款车?网友:这个车0到100加速,少说30秒

另子维爱读史
2026-05-28 08:01:14
他出车祸了?目前在接受治疗…

他出车祸了?目前在接受治疗…

奋斗在韩国
2026-06-01 14:09:43
震惊!一高考家长要物业驱夜鸟,网友:温度高,是否把太阳射下来

震惊!一高考家长要物业驱夜鸟,网友:温度高,是否把太阳射下来

火山詩话
2026-06-02 15:21:11
梁靖崑谈世乒赛逆转张本智和:我一直都没喊,他在这瞎忙活

梁靖崑谈世乒赛逆转张本智和:我一直都没喊,他在这瞎忙活

懂球帝
2026-06-02 17:17:07
赛豆汽车正式成立,首款车曝光!

赛豆汽车正式成立,首款车曝光!

电动内参
2026-06-01 23:51:46
马斯克变性“女儿”拍内衣广告!

马斯克变性“女儿”拍内衣广告!

喜欢历史的阿繁
2026-06-02 21:25:22
6月2日A股猛料:高层发表重要文章!一类股或成为6月行情领头羊!

6月2日A股猛料:高层发表重要文章!一类股或成为6月行情领头羊!

丁丁鲤史纪
2026-06-02 10:16:21
厂商们的刀法,终究还是对准了充电头。。。

厂商们的刀法,终究还是对准了充电头。。。

差评XPIN
2026-06-01 00:08:04
普京也无能为力:世界第二空军,为何拿不下乌克兰的天空

普京也无能为力:世界第二空军,为何拿不下乌克兰的天空

民间胡扯老哥
2026-06-01 06:07:10
3800亿龙头,涨停!“光还是那个光”

3800亿龙头,涨停!“光还是那个光”

新浪财经
2026-06-02 16:11:11
暴跌83%!娃哈哈的“情绪泡沫”终于破了

暴跌83%!娃哈哈的“情绪泡沫”终于破了

ZAKER新闻
2026-06-02 19:36:10
11-0开局险遭逆转!单局8-21惨败,梁王组合1-2世界第19遭一轮游

11-0开局险遭逆转!单局8-21惨败,梁王组合1-2世界第19遭一轮游

钉钉陌上花开
2026-06-02 18:24:42
德天空:菲利佩没欧足联教练证书,摩纳哥愿每场为他支付罚款

德天空:菲利佩没欧足联教练证书,摩纳哥愿每场为他支付罚款

懂球帝
2026-06-02 18:53:21
二辽篮前功勋主力联手轰37+9+6无可挑剔!上海8分惜败3大原因曝光

二辽篮前功勋主力联手轰37+9+6无可挑剔!上海8分惜败3大原因曝光

君马体育
2026-06-02 21:52:31
他汀药有7种,只有一种不影响血糖,早知道早收益!

他汀药有7种,只有一种不影响血糖,早知道早收益!

药师方健
2026-05-31 22:45:44
2026-06-02 22:19:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11958文章数 117090关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

准新小区数百户业主自筹1750万改造外立面 系杭州首例

头条要闻

准新小区数百户业主自筹1750万改造外立面 系杭州首例

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

教育
亲子
手机
数码
公开课

教育要闻

事关中考命题,南京一些老师被“关起来了”?

亲子要闻

六一平安出院,恰逢科室节日活动,欣欣尽兴玩耍

手机要闻

爆苹果iPhone Ultra敲定本月量产!定价破万,你真考虑好入手了?

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版