网易首页 > 网易号 > 正文 申请入驻

阿里“干掉”PS了,深夜正式开源

0
分享至

智东西8月19日报道,今日,阿里推出Qwen-Image-Edit,这是其此前8月5日推出的图像生成基础模型Qwen-Image的图像编辑版本。(阿里开源图像大模型,实测中文渲染能力绝了!精准搞定复杂字体排版,硬刚字节OpenAI)

这下,PS可能真的要被干掉了。如下图所示,用户可以通过Qwen-Image-Edit在图中添加指示牌,指定指示牌中上的文本为“Welcome to Penguin Beach”。下面右图不仅准确生成了用户所需要素,指示牌下还生成了自然的倒影

▲Qwen-Image-Edit支持语义和外观编辑功能

Qwen-Image-Edit基于其20B的Qwen-Image模型进⼀步训练,将Qwen-Image的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。同时,Qwen-Image-Edit将输⼊图像同时输⼊到Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能⼒

Qwen-Image-Edit的主要特性包括:

1、语义与外观双重编辑:Qwen-Image-Edit不仅⽀持low-level(低阶)的视觉外观编辑,如元素的添加、删除、修改等,要求图片其他区域完全不变,也支持high-level(高阶)的视觉语义编辑,如IP创作、物体旋转、风格迁移等,允许整体像素变化但保持语义一致。

2、精准⽂字编辑:Qwen-Image-Edit支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作。

3、强⼤的基准性能:在多个公开基准测试中的评估表明,Qwen-Image-Edit在图像编辑任务上具备SOTA(最佳表现)性能,是一个强大的图像编辑基础模型。

目前,用户可以访问Qwen Chat(chat.qwen.ai)并选择“图像编辑”功能,体验Qwen-Image-Edit。本文通过实测及一些官方案例,发现Qwen-Image-Edit已经能实现比较准确的文本驱动图像编辑,比如在文字生成、视角切换、场景创设、背景变幻等方面都生成较精准,并且主体能保持较高一致性光线和质感会随场景自然变化。不过,目前其在Qwen Chat和Hugging Face的免费体验都有次数限制,不能无限使用。

▲Qwen-Image-Edit体验入口页面截图

ModelScope地址:

https://modelscope.cn/models/Qwen/Qwen-Image-Edit

Hugging Face地址:

https://huggingface.co/Qwen/Qwen-Image-Edit

GitHub地址:

https://github.com/QwenLM/Qwen-Image

一、支持语义和外观编辑,或成IP打造神器

Qwen-Image-Edit的一大亮点在于其语义和外观编辑功能,智东西对此进行了一手体验。

语义编辑是指在保留原始视觉语义的同时修改图像内容。

如下图所示,当智东西输入以下男士照片,并输入“在桌子上生成一个立牌,写着‘沐屿咖啡’”,Qwen-Image-Edit能输出准确的文字,人物保持了一致性,镜头拉近了一点,肤色略变黄了一些。

输入图片:

输出图片:

当智东西输入一张小兔子的图片,并输入“让小兔子拿着画笔画画”的提示词,Qwen-Image-Edit准确生成了这幅画面,且保持了小兔子形象的特点,延续了风格可爱活泼风格,柔光下毛发甚至更加细腻。

输入图片:

输出图片:

当我进一步要求“为小兔子穿上写着‘智东西’的短袖,画板上写上‘AGI’”,Qwen-Image-Edit也能够准确生成,而且画板上的文字与原本的画作风格一致,其他的元素没有发生变化。

输出图片:

当智东西让Qwen-Image-Edit将下面这幅书法中的“层”改为简体写法时,如输出图所示,Qwen-Image-Edit这次误将“穷”(标红框)字识别为了“层”,而没有将原本需要修改的字(标蓝框)改正。不过只能说中国文化博大精深,让大模型看草书属实有点为难它了。

输入图片:

输出图片:

Qwen-Image-Edit还支持视角转换、背景修改、添删细节等外观编辑。当我们输入一张小猴子卡通图片,提出“朝向左侧”的视角转换要求,Qwen-Image-Edit能够生成小猴子的侧面,可以说形象和场景完全保持一致,就像动画的前后两帧。我们还特意观察了下手脚的生成情况,没有出现类似“六根指头”的恐怖谷效应。

输入图片:

输出图片:

当我们输入一张女孩照片,并输入“将背景变为高原雪山”提示词,Qwen-Image-Edit快速更换了背景,值得一提的是女生身上的光感也切换到了外场状态,与内场的聚光灯效果有所区别,显得比较自然。

输入图片:

输出图片:

再来看看阿里官方公布的一些案例,以Qwen的吉祥物——水豚为例,在输入对应文字后,Qwen-Image-Edit输出了不同场景的水豚图片。

虽然编辑后的图像与输入图像(最左侧图像)的像素大部分不同,但水豚的形态一致性得到了完美保留。语义编辑功能可以让原创IP内容创作变得轻松便捷,且内容丰富多样。

团队还围绕16种MBTI性格类型设计了一系列编辑提示,基于这些提示生成了一套以吉祥物水豚为原型的MBTI主题表情包,这可以用于拓展IP的影响力。

新颖的视图合成是语义编辑的另一个关键应用场景。如下面的两个示例图所示,Qwen-Image-Edit不仅可以将物体旋转90度,还可以进行完整的180度旋转,让用户能够直接看到物体的背面。

语义编辑的另一个典型应用是风格转换。例如,给定一幅输入肖像,Qwen-Image-Edit可以轻松地将其转换为各种艺术风格,例如吉卜力工作室的风格。此功能在虚拟化身创建等应用中具有重要价值。

二、增删改特定元素,虚拟传达、模拟场景一键完成

除了语义编辑之外,外观编辑是另一种常见的图像编辑需求。外观编辑强调在添加、移除或修改特定元素时,保持图像的某些区域完全不变。开篇提到的案例展示了一个将招牌添加到场景中的案例。如图所示,Qwen-Image-Edit不仅成功插入了招牌,还生成了相应的反射。

下面这个例子演示了如何从图像中去除细发丝和其他小物体。

此外,图像中特定字母“n”的颜色可以修改为蓝色,从而实现对特定元素的精确编辑。

外观编辑在调整人物背景或更换服装等场景中也有广泛的应用。下面的三幅图分别展示了这些实际用例。

三、精准文本编辑,链式修改书法错误

Qwen-Image-Edit的另一大亮点在于其精准的文本编辑能力,这源于Qwen-Image在文本渲染方面的功底。

以下两个案例生动地展现了Qwen-Image-Edit在英文文本编辑方面的性能:

Qwen-Image-Edit还可以直接编辑中文海报,不仅可以修改大标题文本,还可以对细小复杂的文本元素进行精确调整。

最后,通过一个具体的图像编辑示例,通义团队演示了如何使用链式编辑方法逐步纠正Qwen-Image生成的书法作品中的错误:

然而,在实际操作中,“稽”字相对模糊,模型未能一次性将其正确纠正。“稽”字的右下角部分应该是“旨”,而不是“日”。此时,演示员进一步用红框突出显示“日”部分,指示Qwen-Image-Edit微调此细节,将其替换为“旨”。

通过这种链式、循序渐进的编辑方法,我们可以不断地纠正字符错误,直到达到理想的最终结果。

最终,演示员成功获取了完整正确的《兰亭集序》书法版本。

结语:AI图像编辑更精准,降低视觉创作门槛

通过体验,我们发现Qwen-Image-Edit具备较强大的语义和外观编辑功能。尽管在连续多轮修改中,Qwen-Image-Edit编辑的精准性和一致性仍有待提高,在草书等更复杂字体生成上有局限,并且使用次数有限制,但其目前已能实现大多物体增删、文字生成、角度转换等实用功能。

随着这一能力还在持续迭代,其有望推动图像生成领域的发展,降低视觉内容创作的技术门槛,并激发更多创新应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四十年来最大的谜:包产到户后农民马上就吃上了饱饭,是真的吗?

四十年来最大的谜:包产到户后农民马上就吃上了饱饭,是真的吗?

兴趣知识
2026-04-22 03:35:27
美军扣船不到48小时,中美在安理会大吵一架,孙磊对各国作出表率

美军扣船不到48小时,中美在安理会大吵一架,孙磊对各国作出表率

基斯默默
2026-04-22 10:19:14
不尊重中国领土完整!巴萨遭批:中国特供不发外网 甩锅临时工

不尊重中国领土完整!巴萨遭批:中国特供不发外网 甩锅临时工

念洲
2026-04-22 10:43:07
宁德时代狂丢王炸:满电6分钟,最高续航1500km,猛建超换一体站

宁德时代狂丢王炸:满电6分钟,最高续航1500km,猛建超换一体站

超电实验室
2026-04-22 09:23:32
“硬是撑了下来…”40岁男子心脏停跳2天后奇迹生还

“硬是撑了下来…”40岁男子心脏停跳2天后奇迹生还

黄河新闻网吕梁
2026-04-22 09:08:42
拼多多暴力抗法震惊全网,市值万亿巨头为何如此嚣张

拼多多暴力抗法震惊全网,市值万亿巨头为何如此嚣张

燕梳楼频道
2026-04-20 21:12:04
许家印围猎银行行长!高端行贿获1000亿超级授信 后者被判死缓

许家印围猎银行行长!高端行贿获1000亿超级授信 后者被判死缓

念洲
2026-04-22 10:41:32
大快人心!张敬轩复出泡汤,霍汶希被拖下水,英皇如坐针毡

大快人心!张敬轩复出泡汤,霍汶希被拖下水,英皇如坐针毡

一盅情怀
2026-04-21 19:20:32
老兵借厕所被拒后续!残疾原因曝光,老兵发声,官方建议辞退保安

老兵借厕所被拒后续!残疾原因曝光,老兵发声,官方建议辞退保安

离离言几许
2026-04-21 21:41:39
曾高喊打败美帝:如今却全家跑去美国,84岁活成这样,引人热议!

曾高喊打败美帝:如今却全家跑去美国,84岁活成这样,引人热议!

小莜读史
2026-04-20 22:58:35
田馥甄回应拒接《浪姐》:所有大陆综艺都邀过,全拒绝

田馥甄回应拒接《浪姐》:所有大陆综艺都邀过,全拒绝

陈意小可爱
2026-04-22 12:23:14
伊朗军舰军演返航时遭美军击沉致87死,幸存船员讲述细节:那里并非战区,事先没有收到任何警告,他们的目标是杀人

伊朗军舰军演返航时遭美军击沉致87死,幸存船员讲述细节:那里并非战区,事先没有收到任何警告,他们的目标是杀人

每日经济新闻
2026-04-22 00:08:27
1935年,如果将泸定桥炸毁,红军可能全军覆没,刘文辉为何没炸?

1935年,如果将泸定桥炸毁,红军可能全军覆没,刘文辉为何没炸?

健康快乐丁
2025-03-29 20:30:04
当地民政局回应“20岁小伙自称靠卖猪肉养育6个弟妹”:其父明确表示无需救助

当地民政局回应“20岁小伙自称靠卖猪肉养育6个弟妹”:其父明确表示无需救助

封面新闻
2026-04-22 12:48:11
爆料疯传!中南医院“王护士长”被扒,她到底有没有问题?

爆料疯传!中南医院“王护士长”被扒,她到底有没有问题?

坠入二次元的海洋
2026-04-22 10:14:47
中国篮协:祝贺王治郅

中国篮协:祝贺王治郅

新京报政事儿
2026-04-22 10:24:04
京东员工:周围同事不少得糖尿病呀,有点恐怖

京东员工:周围同事不少得糖尿病呀,有点恐怖

蚂蚁大喇叭
2026-04-22 09:54:02
有些品牌的坏,是从娘胎里带出来的那种坏

有些品牌的坏,是从娘胎里带出来的那种坏

细雨中的呼喊
2026-04-21 21:19:33
G2湖人101-94战胜火箭 球员评价:4人优秀,3人及格,2人低迷

G2湖人101-94战胜火箭 球员评价:4人优秀,3人及格,2人低迷

篮球资讯达人
2026-04-22 13:27:16
任泽平退款731万,恒大高管们开始退钱了

任泽平退款731万,恒大高管们开始退钱了

互联网大观
2026-04-22 13:44:17
2026-04-22 14:08:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11657文章数 117037关注度
往期回顾 全部

科技要闻

凌晨突发!ChatGPT Images 2.0发布

头条要闻

KTV服务员被指强奸14岁女生 官方通报

头条要闻

KTV服务员被指强奸14岁女生 官方通报

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

家居
亲子
手机
本地
公开课

家居要闻

极简绘梦 克制和谐

亲子要闻

卵巢早衰吃什么保养品调理好?辅酶q10备孕要提前多久吃?

手机要闻

双2亿演唱会神器 Find X9s Pro也有超强望远

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版