网易首页 > 网易号 > 正文 申请入驻

ControlNet作者又出新作:百万数据训练,AI图像生成迎来图层设计

0
分享至


本文转自机器之心

尽管用于生成图像的大模型已经成为计算机视觉和图形学的基础,但令人惊讶的是,分层内容生成或透明图像(是指图像的某些部分是透明的,允许背景或者其他图层的图像通过这些透明部分显示出来)生成领域获得的关注极少。这与市场的实际需求形成了鲜明对比。大多数视觉内容编辑软件和工作流程都是基于层的,严重依赖透明或分层元素来组合和创建内容。

来自斯坦福大学的研究者提出了一种「latent transparency(潜在透明度)」方法,使得经过大规模预训练的潜在扩散模型能够生成透明图像以及多个透明图层。


  • 论文地址:https://arxiv.org/pdf/2402.17113.pdf

  • 论文标题:Transparent Image Layer Diffusion using Latent Transparency

举例来说,对于给定的文本提示(如头发凌乱的女人,在卧室里),该研究提出的方法能够生成具有透明度的多个图层。也就是说该模型不仅能根据提示生成图片,还能将前景和背景进行分层,背景丢失的信息也能很好的补充。


此外,本文还采用人机交互的方式来训练模型框架并同时收集数据,最终数据集的规模达到 100 万张透明图像,涵盖多种内容主题和风格。然后,该研究将数据集扩展到多图层样本。该数据集不仅可以训练透明图像生成器,还可以用于不同的应用,例如背景 / 前景条件生成、结构引导生成、风格迁移等。

实验表明,在绝大多数情况下 (97%),用户更喜欢由本文方法生成的透明内容,而不是以前的解决方案(例如先生成然后抠图)。当研究者将生成的质量与 Adobe Stock 等商业网站的搜索结果进行比较时,也取得了不错的成绩。

这项研究作者共有两位 Lvmin Zhang 以及 Maneesh Agrawala ,其中 Lvmin Zhang 还是 ContorlNet 的作者。

有网友表示:「能生成透明图层的意义绝不仅仅是抠图。这是现在动画、视频制作最核心的工序之一。这一步能够过,可以说 SD 一致性就不再是问题了。」


方法介绍

本文的目标是为像 Stable Diffusion (SD) 这样的大规模潜在扩散模型添加透明度支持,这些模型通常使用一个潜在编码器(VAE)将 RGB 图像转换为潜在图像,然后再将其输入到扩散模型中。在此过程中,VAE 和扩散模型应共享相同的潜在分布,因为任何重大不匹配都可能显著降低潜在扩散框架的推理 / 训练 / 微调性能。

潜在透明度:当调整潜在空间以支持透明度时,必须尽可能保留原始的潜在分布。这个看似不明确的目标可以通过一个直接的测量来确定:可以检查修改后的潜在分布被原始预训练的冻结潜在解码器解码的如何 —— 如果解码修改后的潜在图像创建了严重的人工痕迹,那么潜在分布就是不对齐或损坏的。这一过程可视化结果如下图所示:


生成多个图层:该研究进一步使用注意力共享和 LoRA 将基础模型扩展为多图层模型,如图 3-(b) 所示。图 3-(a) 为训练可视化结果。


图 4 引入了几种替代架构,以实现更复杂的工作流程。研究者可以向 UNet 添加零初始化通道,并使用 VAE(有或没有潜在透明度)将前景、背景或图层组合编码为条件,并训练模型生成前景或背景(例如,图 4-( b,d)),或直接生成混合图像(例如,图 4-(a,c))。


数据准备及其训练细节

训练数据集包括基础数据集(图 5-(a))以及多图层数据集 (5-(b)) 。


训练设备为 4 × A100 80G NV-link,整个训练时间为一周(为了减少预算,在人工收集下一轮优化数据时暂停训练),实际 GPU 时间约为 350 A100 小时。该方法适合个人规模或实验室规模的研究,因为 350 个 GPU 小时预算通常在 1K 美元内。

实验

图 6 展示了使用单图像基础模型生成的图像定性结果。这些结果展示了该模型可以生成原生透明图像,如生成高质量的玻璃透明度、头发、毛发、发光、火焰、魔法等效果。这些结果还证明了该模型可以泛化到不同的场景。


图 7 展示了使用具有不同主题的提示来生成图片的定性结果。每个示例会显示混合图像和两个输出层。这些图层不仅在照明和几何关系方面保持一致,而且还展示了稳定扩散的美学品质(例如,背景和前景的颜色选择,看起来和谐且美观)。


条件层生成。研究者在图 8 中展示了条件层生成结果(即以前景为条件的背景生成和以背景为条件的前景生成)。可以看到,本文的模型可以生成具有一致几何和照明效果的连贯构图。在「教堂中悬挂的灯泡」示例中,该模型尝试通过一种对称性审美设计来匹配前景。而在「坐在长登上或坐在沙发上」示例中,该模型可以推断前景和背景之间的交互,并生成相应的几何。


迭代生成。如图 9 所示,研究者可以迭代使用以背景为条件的前景生成模型,以实现构图或任意数量的层。对于每个新的层,他们将之前生成的所有层融入到一个 RGB 图像,并馈入到以背景为条件的前景模型。研究者还观察到,该模型能够在背景图像的上下文中解释自然语言,比如在一只猫的面前生成一本书。该模型展现了强大的几何构图能力,比如生成一个人坐在箱子上的组合图像。


可控生成。如图 10 所示,研究者展示了 ControlNet 等现有可控模型可以用于他们的模型,以提供丰富的功能。可以看到,本文的模型可以基于 ControlNet 信号来保留全局结构,以生成具有一致照明效果的和谐构图。研究者也通过一个「反射球」示例展示了本文的模型可以与前景和背景的内容进行交互,从而生成反光等一致性照明效果。


欢迎加入这个星球,见证硅基时代发展↓

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
50年石油美元协议到期 沙特:不再续约

50年石油美元协议到期 沙特:不再续约

南方都市报
2024-06-16 07:03:39
全球震呆!法国极右登台惊变,竟因不满穆斯林愚昧,誓要驱逐移民

全球震呆!法国极右登台惊变,竟因不满穆斯林愚昧,誓要驱逐移民

真实星球
2024-06-15 23:06:08
闹剧结束!网红樊小慧遭多人控诉,宣布退网,精神状态惹人担忧

闹剧结束!网红樊小慧遭多人控诉,宣布退网,精神状态惹人担忧

甜小娱儿
2024-06-14 16:07:49
事态升级!黄一鸣已找律师,高调放话法庭见,王思聪新动静曝光!

事态升级!黄一鸣已找律师,高调放话法庭见,王思聪新动静曝光!

古希腊掌管月桂的神
2024-06-13 19:54:17
媒体人:刚把一份18人的华裔归化名单交给足协的人

媒体人:刚把一份18人的华裔归化名单交给足协的人

懂球帝
2024-06-16 16:41:09
吴谨言横店剧组被偶遇,又瘦又矮法令纹明显,脸巴掌大还有点垮

吴谨言横店剧组被偶遇,又瘦又矮法令纹明显,脸巴掌大还有点垮

娱记掌门
2024-06-15 18:28:27
重磅!周琦放弃签字费+三年顶薪续约,主动降薪只为挑战辽宁王朝

重磅!周琦放弃签字费+三年顶薪续约,主动降薪只为挑战辽宁王朝

小鬼头体育
2024-06-16 11:46:15
6月13日俄乌最新:俄罗斯海军最强战队杀入美国后院

6月13日俄乌最新:俄罗斯海军最强战队杀入美国后院

西楼饮月
2024-06-13 15:12:33
越闹越大!官方紧急通告,涉事人员全部停职,司机被喷辣椒水不冤

越闹越大!官方紧急通告,涉事人员全部停职,司机被喷辣椒水不冤

乐阳聊军事
2024-06-15 18:34:44
王思聪21岁现任宣战!曝大量私照长腿吸睛颜值高,甜蜜躺女方腿上

王思聪21岁现任宣战!曝大量私照长腿吸睛颜值高,甜蜜躺女方腿上

八卦爱侃娱
2024-06-16 16:33:05
西方突然发现,美国对中国赶尽杀绝的关税政策,反而帮了中国大忙

西方突然发现,美国对中国赶尽杀绝的关税政策,反而帮了中国大忙

蓝色海边
2024-06-15 18:42:40
问界M9翻滚下山崖全景图曝光之后,网友们对山崖又有了新的认识

问界M9翻滚下山崖全景图曝光之后,网友们对山崖又有了新的认识

映射生活的身影
2024-06-13 18:26:51
谣言不攻自破,姜萍能否被浙大录取?专家泼了一盆冷水

谣言不攻自破,姜萍能否被浙大录取?专家泼了一盆冷水

平老师666
2024-06-15 12:51:39
俄专家:俄中双方在三年内启动大约3000个投资项目

俄专家:俄中双方在三年内启动大约3000个投资项目

俄罗斯卫星通讯社
2024-06-15 16:05:26
普京:如果乌克兰放弃加入北约,俄罗斯将立即停火

普京:如果乌克兰放弃加入北约,俄罗斯将立即停火

花非花008
2024-06-14 21:54:14
为什么现在没人关心油价了?

为什么现在没人关心油价了?

汽车扒壹扒
2024-06-14 22:07:30
朴素!王祖蓝现身香港,开五菱宏光迷你款,车高1米6,车价仅6万

朴素!王祖蓝现身香港,开五菱宏光迷你款,车高1米6,车价仅6万

柠檬有娱乐
2024-06-14 15:05:45
回顾浙江男子偷窥女士洗澡坠亡,家属索赔88.9万,法院判决赢赞许

回顾浙江男子偷窥女士洗澡坠亡,家属索赔88.9万,法院判决赢赞许

五月读书汇
2024-06-16 08:05:23
上海女子请人上门灭白蚁崩溃:几百元就能解决,对方竟收了9000元!网友:按只收费?

上海女子请人上门灭白蚁崩溃:几百元就能解决,对方竟收了9000元!网友:按只收费?

上海圈
2024-06-15 12:38:41
女儿高考完睡了3天3夜,家长不敢喊,醒来说一席话让父母破防

女儿高考完睡了3天3夜,家长不敢喊,醒来说一席话让父母破防

子芫伴你成长
2024-06-14 22:57:44
2024-06-16 17:20:49
硅星人
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
1321文章数 10257关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

G7峰会意总理向马克龙投去"死亡凝视" 视频在外网疯传

头条要闻

G7峰会意总理向马克龙投去"死亡凝视" 视频在外网疯传

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

家居
手机
数码
公开课
军事航空

家居要闻

空谷来音 朴素留白的侘寂之美

手机要闻

一次性购买四款荣耀折叠屏,谁这么豪横?

数码要闻

6 麦降噪、799 元,惠普旗下博诣 POLY 战 Free 20 耳机国行开售

公开课

近视只是视力差?小心并发症

军事要闻

以军宣布在加沙南部实行"战术暂停"

无障碍浏览 进入关怀版