网易首页 > 网易号 > 正文 申请入驻

字节发完阿里发!Qwen-Image 2.0火线出击

0
分享至


智东西
作者 陈骏达
编辑 李水青

字节的图像生成模型刚发不到半天,阿里的新模型也来了!

智东西2月10日报道,今天,阿里巴巴发布了新一代图像生成基础模型Qwen-Image 2.0,这一模型支持长达一千个token的超长指令、2k分辨率,并采用了更轻量的模型架构,模型尺寸远小于Qwen-Image 2.0的20B,带来更快的推理速度。

智东西第一时间对阿里Qwen-Image 2.0、字节Seedream 5.0 Preview以及谷歌Nano Banana Pro三款模型进行了横向体验比较,发现Qwen-Image 2.0在长指令遵循、长文本渲染方面确实具有优势,但在图像生成的真实感上仍稍逊于Nano Banana Pro。

Qwen-Image 2.0的升级重点是文字渲染。在下方关于AB测试的官方案例中,文字的字体、排版、格式等都是由一则888个token(包含近千个中英文字词)的超长提示词精确定义的,而Qwen-Image 2.0可以做到不错的还原。


Qwen-Image 2.0还能用毛笔字渲染《兰亭集序》的全文,并且确保文字和画面的相对协调,文字没有遮挡画面的山水景色和人物。细看文字部分,虽然仍然可以找到一些渲染失败的文字,但是占比已经很低了。


Qwen-Image 2.0还支持一次性渲染属数十个子图,并保持其中主体的一致性。比如,下图就是Qwen-Image 2.0一次性生成的漫画,一共有24个画面,其中的人物、画风都较为连贯。


针对AI生图常见的“油腻感”问题,Qwen-Image 2.0也做了优化。与前一代模型相比,Qwen-Image 2.0的色彩不会过于饱和,观感更像实拍,AI味淡了一些。


▲从左到右:原图、Qwen-Image-2512、Qwen-Image 2.0

阿里在AI盲测平台AI Arena上对Qwen-Image 2.0进行了测试,数据显示,Qwen-Image 2.0在文生图和图生图基准中分别排名第三和第二,不过距离谷歌的Nano Banana Pro(图中为Gemini-3-Pro-Image-Preview)还有一定差距。此外,这一模型暂时还没有和刚发布的Seedream 5.0 Preview进行对比。


千问视觉生成负责人吴晨飞在采访中谈道,Qwen-Image项目2025年5月份项目才立项,去年8月份发布首款模型,此后主要围绕生图和编辑两个支线迭代模型,而Qwen-Image 2.0则把生图和编辑两个能力整合到了一个模型中。


目前,Qwen-Image 2.0已在阿里云百炼上已开通API邀测,用户也可通过Qwen Chat(chat.qwen.ai)免费体验新模型。千问App产品经理刘巍透露,这一模型后续将在千问App里上线。


会后,我们还与吴晨飞和千问大模型高级解决方案架构师熊撼天进行了沟通。

当我们问及Qwen-Image系列模型的未来规划时,吴晨飞称,如果用一个词作为Qwen-Image 2.0升级的核心,那就是“信息图”,而在未来一年,Qwen-Image团队会继续研究如PPT、多图海报、漫画等复杂“父图”的生成,进一步减少幻觉和错误。

此外,该团队还计划在此前发布的分层模型基础上,进一步强化模型的分层编辑能力,目标是让生成模型真正成为生产力工具。通过AI分图层,设计师可以灵活结合AI生成(如千问编辑特定层)与传统手段,或融合不同模型的专长,实现“分而治之”的复杂编辑流程。

一、阿里、字节、谷歌三款模型对决,Qwen-Image 2.0文字渲染能力突出

在超长提示词任务上,我们对Qwen-Image 2.0的官方超长提示词进行了微调,调整了部分元素的位置,看看Qwen-Image 2.0能否交付同样质量的生成结果。

提示词内容:


Qwen-Image 2.0的生成结果如下。可以看到模型还原了我们对图片布局、字体颜色的要求,内容也得到准确呈现,基本没有遗漏。


而Nano Banana Pro的生成结果明显有更多的图像和图标,设计风格和我们要求的一样,大部分文字也都成功渲染。美中不足的是,可以看到部分文字出现了模糊的问题,已经难以辨别。


Seedream 5.0 Preview的生成结果较我们的提示词出现了一些偏差,并没有准确还原文字内容,这在PPT等场景可能是较为严重的问题。但是抛开这一问题之外,完成度还是不错的。


而在多子图生成任务上,我们让上述三款模型生成一副具有20个分镜的漫画,提示词依旧较长。

在经过三次尝试后,Qwen-Image 2.0未能完全按照我们的要求生成这张图像。我们也对提示词本身进行了优化,标注了更为清晰的序号,但是没能让模型生成更准确的结果。

此外,画面中也有一些不符合常理的现象,比如外卖员的手机竟然安在电动车车头上,手机屏幕面向外侧,。


▲Qwen-Image 2.0的三个生成结果

在这一任务中,Nano Banana Pro(左)和Seedream 5.0 Preview(右)拿到提示词后都陷入了长时间的推理过程,最终未能成功生成。


文字渲染之外,我们也考察了这两款模型在图像生成方面的表现。发布会中提到,超现实场景其实对图像生成模型来说是一大挑战,如何在满足提示词要求的情况下保证真实感,很考验模型的功力。

我们向模型发送了如下提示词:

无边无际的海面上漂浮着一座倒置的城市,城市建筑如水晶般透明,内部流动着星空与光点。天空呈现撕裂般的云层结构,巨大的月亮贴近海平面,月光化为实体的光带缠绕在城市周围。一名渺小的人站在水面之上,脚下泛起涟漪,现实与梦境在此交汇,画面安静而震撼。

Qwen-Image 2.0生成的画面其实与提示词有一些差距,图中的城市与其说是倒置,不如说是镜像。同时,左右两侧云层的形状是完全对称的,在美感上较有视觉冲击力,在真实性上稍显欠缺。


Nano Banana Pro的生成结果则更符合我们的提示词,还原了城市的“倒置”、云层的“撕裂感”等关键描述。


Seedream5.0 Preview提供了四个版本,可以看到它并没有遵循我们提示词中“像水晶般透明”的要求,不过其余内容基本得到了还原。其画风更为科幻感一些。


二、生成、编辑融合效果1+1>2,新模型尺寸远小于1.0版本

发布会结束后,千问视觉生成负责人吴晨飞、千问大模型高级解决方案架构师熊撼天与智东西等媒体进行了沟通。

当谈及1.0版本与2.0版本相比,最大的提升在哪些领域,吴晨飞称Qwen-Image 2.0主要实现了“多”和“真”两个特性的融合。

“多”指的是其更强的文字渲染能力。Qwen-Image 2.0能在一个画面中稳定生成大量、复杂的文字(如完整的PPT、信息图),错误率极低,基本达到“可用”状态,而之前的模型生成结果依然是不可用的。

“真”指图像的真实感。1.0主要聚焦文字准确性,2.0在保证文字精准的同时,提升了图像(如材质、光影)的真实感。尤其当文字与图像结合时,生成结果更具真实感和代入感,减少了以往AI生图在文字区域的模糊和虚假感。

谈及融合图像生成与编辑的选择时,吴晨飞透露,经过探索,他们发现二合一模型能实现能力相互促进,达到1+1>2的效果,而非功能妥协。

文生图中训练出的能力(如文字生成、图像质感)可以迁移到编辑任务上。例如,上传照片“题诗”的功能,就是文生图能力在编辑任务上的体现。

编辑任务训练能迫使基础模型更好地理解语义变化和遵循指令,从而反哺文生图,使其对提示词更敏感、遵循更精确。这也是实现“理解-生成”一体化统一范式的重要一步。

此外,Qwen-Image 2.0的模型尺寸比1.0(约200亿参数)显著减小,但能力更强,且生成速度更快。


▲千问视觉生成负责人吴晨飞

当被问及如何解决文字生成崩溃的难点时,吴晨飞回应道,目前大部分生图模型都需要用到VAE(变分自编码器)负责图像压缩,小文字信息密集,压缩难度大,因此容易出现文字崩坏。其团队提升了VAE的重构能力,为清晰小字生成奠定基础。

Qwen-Image 2.0对密集、细小文字的建模和生成能力也得到了增强。两者结合,使得小文字也能清晰渲染、准确显示。

熊撼天则分享了与模型落地场景相关的话题。他认为,模型能力的提升(尤其是可控性、稳定性)使其能真正渗透到各行各业。

在电商领域,图像生成模型可用于海量商品的主图、详情图、广告素材图生成。例如,服装行业的模特换装、商品属性修改、多图融合,以及利用“信息图”能力生成商品详情长图。

在医疗等专业领域,图像生成模型可以将复杂的流程(如就诊流程、诊断报告)通过信息图、流程图等形式可视化,便于理解。

他认为,中国AIGC市场在应用落地和产业迭代速度上具有优势。国内有强大的应用土壤和快速落地的能力。当技术追平后,丰富的应用场景能催生出新的产业链(如短剧),并快速反哺模型迭代。

Qwen-Image系列将与WPS等国民级应用进行合作,获取真实用户反馈和需求,并融入下一代模型开发,形成从应用到技术的闭环迭代。

结语:从玩具到生产力,图像生成模型探索真实场景落地

从近期的发布情况来看,图像生成领域的多家头部厂商已达成共识。如今,图像生成模型不仅仅追求生成逼真的画面,更要满足现实场景中对提示词精准遵循、文字准确渲染等关键因素的需求,这些才是真正决定模型生产力的核心要素。

随着模型的不断优化与迭代,图像生成或许有潜力成为企业和个人在信息处理、创作表达及决策支持等方面的强大助手。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
退伍回村救了个落水女人,2天后县长突然来电:明天来我办公室

退伍回村救了个落水女人,2天后县长突然来电:明天来我办公室

秋风专栏
2025-08-13 15:54:55
湖北一木匠,两年时间骗取宁夏自治区政府高层近十亿,无人敢吱声

湖北一木匠,两年时间骗取宁夏自治区政府高层近十亿,无人敢吱声

神奇的锤子
2025-02-14 20:48:49
高铁上一女士穿貂,标价35820,吊牌清晰可见!有网友特意问客服

高铁上一女士穿貂,标价35820,吊牌清晰可见!有网友特意问客服

火山詩话
2026-02-11 07:32:33
窗口工作人员8年收取好处费1614万元,厅长表态:以案为鉴、深刻反思!

窗口工作人员8年收取好处费1614万元,厅长表态:以案为鉴、深刻反思!

极目新闻
2026-02-10 21:41:10
字节Seedance2.0颠覆影视圈!电影人恐慌:全行业岗位或将消失 所学90%技能被替代

字节Seedance2.0颠覆影视圈!电影人恐慌:全行业岗位或将消失 所学90%技能被替代

快科技
2026-02-10 12:32:34
曼联锋线彻底翻车!此人全场隐身,再首发必拖垮全队

曼联锋线彻底翻车!此人全场隐身,再首发必拖垮全队

奶盖熊本熊
2026-02-11 13:44:57
升西部第三,火箭获4大利好!杜兰特成历史第四人谢泼德16+6回暖

升西部第三,火箭获4大利好!杜兰特成历史第四人谢泼德16+6回暖

锅子篮球
2026-02-11 13:34:39
曝邝兆镭加盟青岛海牛!媒体人:除夕官宣,去梯队或是更好选择

曝邝兆镭加盟青岛海牛!媒体人:除夕官宣,去梯队或是更好选择

奥拜尔
2026-02-11 11:33:51
腾讯与特斯拉共同升级座舱体验,覆盖中国市场超百万辆Model 3、Model Y车型

腾讯与特斯拉共同升级座舱体验,覆盖中国市场超百万辆Model 3、Model Y车型

财闻
2026-02-11 14:28:39
山西监狱提请减刑罪犯花名表公示

山西监狱提请减刑罪犯花名表公示

黄河新闻网吕梁频道
2026-02-11 09:51:40
6年败光千亿家底,潮汕大佬被围堵追债!

6年败光千亿家底,潮汕大佬被围堵追债!

领悟看世界
2026-02-08 01:54:01
日本全面备战,如果中日开战,对你我普通人有哪些影响?

日本全面备战,如果中日开战,对你我普通人有哪些影响?

子午线
2026-02-06 14:51:43
2300一吨,5年收了3万吨!日本狂收东北落叶,24年专家揭露真相

2300一吨,5年收了3万吨!日本狂收东北落叶,24年专家揭露真相

福建平子
2026-02-05 16:37:30
官宣!法甲名帅下课,曼联、曼城和热刺,都可能成为下家

官宣!法甲名帅下课,曼联、曼城和热刺,都可能成为下家

嗨皮看球
2026-02-11 16:18:34
中年失业学什么手艺比较吃香?网友:越是冷门的行业,越是吃香

中年失业学什么手艺比较吃香?网友:越是冷门的行业,越是吃香

另子维爱读史
2026-02-10 18:03:33
2026年央视春晚第四次彩排路透一出来,感觉看到了《浪姐》总决赛

2026年央视春晚第四次彩排路透一出来,感觉看到了《浪姐》总决赛

百态人间
2026-02-11 15:48:01
古巴告急,呼叫支援

古巴告急,呼叫支援

跟着老李看世界
2026-02-10 00:00:24
夺金点所剩无几?米兰冬奥中国队暂居第14,短道速滑引“叹息”!

夺金点所剩无几?米兰冬奥中国队暂居第14,短道速滑引“叹息”!

罗掌柜体育
2026-02-11 11:08:46
港股小米集团涨幅扩大至5%

港股小米集团涨幅扩大至5%

证券时报
2026-02-11 10:43:06
中国式父子为何像仇人?网友:有人喜欢耗费毕生精力用于制造仇恨

中国式父子为何像仇人?网友:有人喜欢耗费毕生精力用于制造仇恨

夜深爱杂谈
2026-02-06 17:57:35
2026-02-11 16:44:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11214文章数 116968关注度
往期回顾 全部

科技要闻

痛失两位华裔大佬!马斯克为何留不住人心

头条要闻

广西北海涠洲岛一头鲸鱼遭渔船撞击 官方通报

头条要闻

广西北海涠洲岛一头鲸鱼遭渔船撞击 官方通报

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

汪峰吃惊!章子怡年前6天高调官宣喜讯

财经要闻

习酒节前价格雪崩控量稳价变空谈

汽车要闻

新势力车企,盈利的号角已经吹响

态度原创

手机
时尚
亲子
本地
军事航空

手机要闻

曝7英寸巨屏新机正在评估,至少两款规划中

“短大衣+阔腿裤”才是今年最火搭配,这样穿高级又好看!

亲子要闻

沪上首方开出!不同近视进展速度孩子可以用上梯队浓度阿托品,精准诊疗开启

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

军事要闻

特朗普:若美伊谈判失败 或再派一支航母打击群

无障碍浏览 进入关怀版