网易首页 > 网易号 > 正文 申请入驻

ViT一作盛赞:这个中国开源“PS模型”强过Nano Banana

0
分享至

梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI

太香了太香了,妥妥完爆ChatGPT和Nano Banana!

刚刚,ViT核心作者、Meta超级智能团队成员Lucas Beyer连发三条帖子,怒赞通义千问不久前发布的开源模型Qwen—Image—Layered

在他看来,这才是图像生成的正确打开方式~



他还顺便自补了一句:这个模型方向自己其实也想做来着,只是太忙,一直没来得及动手……(笑)

实话实说,Qwen—Image—Layered模型确实不一般,因为它可以让我们真正实现ps级别的拆图自由

也就是说现在图片元素也支持精细化修改了:



连网友们看了模型效果后都不禁感叹:咋有种开源PhotoShop的感觉,amazing啊~



所以,这套让Lucas Beyer反复点赞的模型到底强在哪儿,咱一起来看!

图片也能像PS一样拆拆拆了

如果说Nano Banana技能点在生图,那Qwen—Image—Layered模型则厉害在:《拆图》

相信大家都有过类似的经历,我们平时用大模型生图时总会碰的到一个抓狂问题,那就是图片生成so easy,细节修改so抓狂!!!

AI生出来的图片里,经常会有一些小细节不太到位,但我们又没法只改局部,只能整张丢回模型重新生成,结果往往还不如上一版…



Qwen—Image—Layered模型的核心能力,就是专治「一图定生死」这事儿的。

它能将一张普通图片分解成多个包含透明度信息的RGBA分离图层,实现真正意义上的图片素材的可编辑性。

光说概念有点抽象,咱直接看例子~



在官方案例中,一张完整图片输入之后,模型会自动把画面拆成6个包含不同元素的图层,背景是背景,人物是人物,装饰是装饰,互不干扰。

看到这儿大家是不是突然感觉,这个非常适合用在海报制作等细节较多的图片上??(雀实

但是Qwen—Image—Layered模型能做的还不止只是分离图层这么简单,我们还可以对图层进行二次编辑修改

比如最基础的:改背景,不动主体

只替换背景图层的颜色,一张橙色背景的海报,瞬间就能换成蓝色版本:



再比如,直接换主体

保持构图不变,把原图里的长发女孩,换成短发女孩,几乎看不出拼接修改痕迹:



再来看下面这个——文字编辑

我们可以只修改图片中的局部文字,哪怕第一次生成的文字有幻觉问题也不怕了:



除了基本的替换编辑功能外,Qwen—Image—Layered模型还支持调整元素的大小、删除不想要的元素等等。

例如像这样,我们可以删除掉画面中不想要的元素对象,只保留自己想留的画面元素:



又或者在不拉伸、不失真的前提下,轻松调整元素的大小比例,其实有点像PS里的自由缩放功能:



值得注意的是,Qwen—Image—Layered模型分层不限于固定的图层数量,支持可变层分解,例如我们可以根据需要将图像分解为3层或8层:



这个能力非常适合我们在不同的编辑需求场景下使用,可以根据我们想局部编辑的元素数量多或少而定。

当然,如果只是想改文字,差不多两三层就够了,如果修改需求比较多比较复杂,多拆几层反而更好操作~

除了刚才说的这些,模型还支持在已分解的图层基础上做进一步分解,进而实现无限分解,听上去很像无限套娃…



像下面这位网友,用Qwen—Image—Layered把人物元素进行一次性分层处理,最后甚至可以一路拆到只剩下一个线稿层:



再来看这位网友,原本人物和背景完全糊在一起的一张图,被模型直接拆成了主体和背景两个独立元素:



简单说就是:只要画面里不止一个元素,它就能拆、还能一直拆……

拆图的本事来自于扩散模型

有朋友看到这儿该问了,小小模型背后能有这PS一般的能力,用的是啥神奇魔法?

不藏着掖着,Qwen—Image—Layered的核心技术,本质上是一套端到端的「扩散模型」

它并不是用来生成图片的那种扩散模型,而是专门为「拆图片」这件事设计的——

模型直接输入一张完整的RGB照片,通过扩散过程,一步步预测出多个带透明度信息的RGBA图层。

这里有一个绕不开的前提是:

我们平时看到的图片其实只有RGB三个通道,但真正的图层编辑,离不开Alpha(透明度)通道。

为此,Qwen—Image—Layered专门设计了一套四通道的RGBA-VAE,把RGB输入和RGBA输出,统一压缩到同一个隐藏空间中:



具体来说,当输入是一张普通RGB图片时,模型会自动把Alpha通道补成1(完全不透明),在初始化阶段还会聪明地复用预训练参数,避免在透明度建模时出错。

这样一来,模型从一开始就「懂透明」,不同图层也就不会被混在一起。

而且在结构上模型也不是死板拆层,它的核心Transformer—VLD-MMDiT会根据图片复杂度,自动决定需要拆成多少层。

为了避免前一层把后一层盖住的问题,模型还加了一套Layer3D RoPE(三维位置编码),简单说就是给不同图层打上明确的层级标签,让模型在空间和顺序上都分得清楚~



还不止如此,在隐藏空间里中,模型能够被逐步「引导」去学会:哪些像素该属于哪一层、哪些区域需要保留透明度、哪些内容应该被分离开来。

这样一来哪怕图层再多对模型来说也都是小case了~

并且在训练策略上模型也不是从零教的,而是基于Qwen-Image预训练生成模型逐步升级:

第一阶段让模型学会文本生成单RGBA图层,第二阶段让模型学会扩展到多图层合成,第三阶段让模型真正学会从图片反向拆解多图层。

每阶段几百K步训练,加上重建损失和感知损失,确保语义分离干净、不冗余。



这样一来好处很直接,以前方法(如LayerD)要递归抠前景再补背景,容易积累错误,或者用分割+修复,遮挡区补不好。

Qwen—Image—Layered模型直接实现端到端生成完整RGBA层,避免这些问题,尤其擅长复杂遮挡、半透明和文字。

相较于Nano Banana的“一次抽图定生死”,Qwen—Image—Layered的拆图能力能让Lucas Beyer这么喜欢,也就不奇怪了…

目前模型已经开源,感兴趣的朋友可以试试~

github开源地址:https://github.com/QwenLM/Qwen-Image-Layered

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比穆里尼奥还意外!皇马换帅突发反转,球迷看完集体炸锅

比穆里尼奥还意外!皇马换帅突发反转,球迷看完集体炸锅

澜归序
2026-05-10 03:03:26
“盯住了,它跑不掉”!中国海军通报全球,胆敢抢黄岩岛决不轻饶

“盯住了,它跑不掉”!中国海军通报全球,胆敢抢黄岩岛决不轻饶

天注定
2026-05-08 07:10:16
离谱!去年谈崩的交易,今年成NBA最大遗憾,老鹰肠子都悔青了

离谱!去年谈崩的交易,今年成NBA最大遗憾,老鹰肠子都悔青了

林子说事
2026-05-10 15:23:48
细思极恐!印度女局长深夜便衣上街,3小时惨遭40名男性轮番冒犯

细思极恐!印度女局长深夜便衣上街,3小时惨遭40名男性轮番冒犯

小撇说事
2026-05-09 23:03:54
克雷桑太强了!山东泰山2:1冲进前4!战重庆铜梁龙:2将遗憾停赛

克雷桑太强了!山东泰山2:1冲进前4!战重庆铜梁龙:2将遗憾停赛

话体坛
2026-05-10 20:28:45
女大学生吐槽“普信男”视频火了,却因长相被嘲:你也照照镜子吧

女大学生吐槽“普信男”视频火了,却因长相被嘲:你也照照镜子吧

世界圈
2026-04-12 00:10:16
阿联酋决定给世界一点小小的王爷震撼

阿联酋决定给世界一点小小的王爷震撼

李建秋
2026-05-08 20:31:37
他活埋近5000红军,逃往国外安享晚年,如今国内竟还有人纪念他!

他活埋近5000红军,逃往国外安享晚年,如今国内竟还有人纪念他!

兴趣知识
2026-05-08 00:23:54
果不其然,特朗普访华又生变数。

果不其然,特朗普访华又生变数。

林子说事
2026-05-11 03:09:57
广西女画家齐丽丽被判死刑崩溃大哭,拒吃断头饭,临终作画

广西女画家齐丽丽被判死刑崩溃大哭,拒吃断头饭,临终作画

天梦见证
2025-04-06 21:50:09
女歌手现场晕倒!工作室:确诊耳石症复发

女歌手现场晕倒!工作室:确诊耳石症复发

南方都市报
2026-05-10 16:42:35
未经同意,以色列竟在伊拉克建秘密基地!以色列前外交官:特朗普和内塔尼亚胡相互挖坑

未经同意,以色列竟在伊拉克建秘密基地!以色列前外交官:特朗普和内塔尼亚胡相互挖坑

红星新闻
2026-05-10 19:16:12
82年杜义德退居二线后,提出要撰写回忆录,邓小平:你不要凑热闹

82年杜义德退居二线后,提出要撰写回忆录,邓小平:你不要凑热闹

历史龙元阁
2026-05-09 13:00:16
张豆豆被全网劝分手!节目组孙杨霍霍的心,一开始就已显露无疑!

张豆豆被全网劝分手!节目组孙杨霍霍的心,一开始就已显露无疑!

可乐谈情感
2026-05-10 20:21:22
国乒女团夺冠,孙颖莎绝对女王,零封日本两大名将,张本智和要夺冠

国乒女团夺冠,孙颖莎绝对女王,零封日本两大名将,张本智和要夺冠

夕落秋山
2026-05-11 02:00:01
“差点成恐怖片!”小伙脑子像被炸开一样,这病竟潜伏25年……平时无症状,发作可致命

“差点成恐怖片!”小伙脑子像被炸开一样,这病竟潜伏25年……平时无症状,发作可致命

环球网资讯
2026-05-10 14:53:11
一个人、一台电脑、4个产品,月入170万

一个人、一台电脑、4个产品,月入170万

盛景产业互联网观察
2026-05-09 12:06:44
广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

观威海
2026-03-18 22:11:07
泰星mild老公被曝性侵亲弟弟,弟弟哭诉一家人都知情,但没人帮他

泰星mild老公被曝性侵亲弟弟,弟弟哭诉一家人都知情,但没人帮他

韩小娱
2026-05-10 06:08:48
广东3消息!陈老板加码赢球奖金,徐杰获顶薪资格,宏远抵达北京

广东3消息!陈老板加码赢球奖金,徐杰获顶薪资格,宏远抵达北京

多特体育说
2026-05-10 22:22:32
2026-05-11 04:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12599文章数 176461关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

特朗普看完伊朗回应发帖:不喜欢 完全不可接受

头条要闻

特朗普看完伊朗回应发帖:不喜欢 完全不可接受

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

健康
数码
游戏
亲子
旅游

干细胞能让人“返老还童”吗

数码要闻

你昂贵的DDR5内存可能是假货:穿着三星的马甲 心里却是SK海力士

LPL第二赛段:拒绝让一追二!JDG三局战胜AL,挺进前三

亲子要闻

从第一声呼唤开始,爱就有了名字

旅游要闻

北京“二绿地区”郊野公园焕新升级

无障碍浏览 进入关怀版