网易首页 > 网易号 > 正文 申请入驻

生成效果逼真!扩散模型为手绘图到真实图像合成加入更多灵活的三维控制

0
分享至

从草图或素描生成图像是内容创作领域中一项非常重要的基本任务,在生成对抗网络(GAN)兴起的时代,研究者们往往会把这项任务表述成为图像到图像的转换(Pixel to Pixel,Image to Image),但是这种生成模式比较固定,即训练好一个模型只能完成一种类型的生成任务,当遇到输入是手绘草图的情况时,就需要更多的模型,因为不同的用户绘制出来的草图可能呈现出完全不同的风格。

但是在扩散模型(diffusion models)快速发展的今天,这种生成缺陷有望得到解决,本文作者提出了一种相对统一的框架,支持对用户输入的草图和笔画进行三维控制,用户不仅可以控制每个笔画的倾向程度,还可以决定该笔画生成的真实程度。此外基于扩散模型本身具有的高质量图像合成和稳定训练的特性,本文方法具有极高的生成灵活性,可以控制生成图像的形状、颜色和真实感

论文链接: https://arxiv.org/abs/2208.12675 项目主页: https://cyj407.github.io/DiSS/ 代码仓库: https://github.com/cyj407/DiSS(尚未开源)

一、引言

在很多情景中,草图或者手绘图都是人类对一些特定物体和场景的抽象描述,它们代表了人们脑海中闪过的各种各样的奇思妙想,如果借助AI模型对用户手绘的图像进行真实图像合成就可以将人类创作与现实场景联系起来,激发出创作者更多的灵感,并且有效提高内容创作的工作效率。但现实情况是,从草图合成真实图像是一件非常棘手的事情,因为不同的用户输入往往代表了不同的期望输出,这给模型翻译带来了挑战。

本文基于扩散模型[1]提出了DiSS框架,DiSS可以直接从草图和轮廓图生成真实图像,并且实现了对输入的三维控制(轮廓、颜色、真实感)。在传统的图像翻译过程中,模型为了使得生成的图像效果更加逼真,往往需要对形状和颜色进行权衡考虑。因此DiSS首先考虑将形状和颜色这两大因素进行分离控制,在对形状和颜色进行解耦之后,DiSS可以更加灵活的定制生成过程,并且根据用户的需求分别调整采样结果。除此之外,本文作者提出了DiSS的第三个控制因素,真实感尺度(realism scale),对于该因素,作者通过对潜在特征变量不断的迭代调整,并且使用了一个低通滤波器来动态微调生成图像

上图展示了DiSS的图像生成三维控制模式,其中用户可以灵活的控制输入草图和轮廓的各项参数,以及生成结果与真实图像之间的真实感尺度。此外,基于DiSS,本文作者还提出了几个与图像生成领域高度相关的几个新任务:图像的多条件局部编辑(multi-conditioned local editing)、给定区域的轮廓到图像转换(region-sensitive stroke-to-image),以及多模态多域图像合成(multi-domain sketch-to-image)。

二、本文方法

下图为DiSS整体框架的操作示意图,首先将草图(sketch)和轮廓图(stroke)进行整合作为整体的输入条件,然后进行sketch信息和stroke信息的离控制引导,再经过最后的真实感控制,得到最终的图像合成结果,下面将详细介绍其中的技术细节。

2.1 扩散模型的预定义

去噪扩散概率模型(DDPM)本质上是一种生成模型,它采用去噪过程来表示从简单分布(通常是高斯分布)到目标分布的映射。其中前向扩散过程逐渐向目标分布采样的数据中添加噪声,而后向去噪过程则试图学习反向映射,这两个过程都被建模为马尔可夫链。当我们给定目标分布 ,DDPM的前向扩散路径为马尔科夫链,通过 T 步将高斯噪声逐渐添加到 x0 中:

为了精确地学习去噪过程,首先需要根据生成样本训练模型去预测所添加的高斯噪声,并使用一个MSE损失进行优化:

为了根据给定的草图(sketch)和轮廓图(stroke)合成真实图像,本文的做法是先将sketch条件 Csketch 和 stroke条件Cstroke 以及输入 xt 进行拼接,作为U-Net模型的整体输入,基于上述扩散模型的目标转换形式,这里我们可以将生成映射形式化表示为:

接着,我们可以将本文的图像生成任务也转换为噪声预测任务,其中噪声信息为草图(sketch)和轮廓(stroke)信息,表示为 ,损失函数为:

为了对草图(sketch)和轮廓(stroke)信息进行分离控制,作者引入了一种classifier-free引导方法[2],并将其调整为二维控制形式,在具体实现中,作者采用了两阶段的训练策略,首先使用完整的草图和轮廓作为条件训练模型。然后对模型进行微调,将每种条件的30%随机替换为一幅灰色像素图像,记为 ∅ 。在采样过程中,使用两种信息的引导尺度 Sketch ,Sstroke 的线性组合对两种信息进行权衡:

得益于这种设置,使得DiSS可以在模型扩展中加入多种信息的生成引导。

2.3 真实感控制

上文提到,作者还在DiSS中加入了对真实感尺度的控制,这使得模型可以显示的控制生成图像的真实程度,作者使用了一种对潜在特征变量不断迭代细化的技术[3]在生成图像与目标数据分布之间进行调整,此外使用低通滤波操作 LP 对图像进行微调,然后上采样得到生成图像。假设给定真实感尺度 srealism ∼[0,1] 作为转换尺度的指示信息,然后再结合草图(sketch)和轮廓(stroke)信息的参考图像,我们可以将时间 tt 步的真实感调节过程形式化表示为:

其中 comb 表示草图(sketch)和轮廓(stroke)信息的组合。

三、实验效果

本文的实验部分在AFHQ、Landscapes和Oxford Flower三个数据集上进行,其中包含了丰富的草图和轮廓物象和意象。作者首先将DiSS的生成图像效果与现有的三种较为先进的图像生成方法进行了比较:

  1. U-GAT-IT是一种基于GAN的图像翻译方法,在测试U-GAT-IT时,作者将黑色草图与彩色轮廓叠加在一起形成绘图图像,将其作为输入图像,然后将相应的真实照片作为目标域图像训练模型。

  2. SSS2IS是一种基于GAN的自监督框架,它以黑色草图和风格图像作为输入,然后通过将风格图像替换为彩色轮廓图像来构成监督信号,通过计算真实图像和自编码器输出之间的回归损失来训练模型。

  3. SDEdit是一种基于扩散模型的轮廓图图像生成方法,为了构成引导信号,作者将草图图像与U-Net网络的原始输入进行拼接,同时在模型训练时使用草图作为条件信号参与训练。

下图详细的展示了DiSS与上述三种方法的生成效果对比,与其他方法相比,DiSS在对象级(猫和花)和场景级(自然景观)数据集上得到了更加真实的结果。此外作者还观察到,DiSS对于轮廓图像所提供的不同层次的细节具有更好的鲁棒性,例如,在下图的第二行中,虽然轮廓图(stroke)没有明确指示出猫的眼睛位置,但是DiSS仍然可以精确的合成具有逼真效果的猫眼。

此外作者还展示了DiSS的多模态多域图像合成效果,如下图所示,DiSS可以接受来自不同域(即多模态)的图像进行统一的图像生成,下图中的所有图像(猫、狗以及其他的野生动物)都是使用同一个DiSS模型生成的,这表明DiSS可以理解输入草图中隐含的类别信息。

此外,DiSS借助于对生成过程的三维控制特性,还可以实现两个非常有趣的功能,即图像的多条件局部编辑和给定区域的轮廓到图像转换。作者还强调,对于这两个新功能无需重新训练新的模型,下图展示了可视化编辑的效果,作者在输入图像中重点标注了需要模型重点编辑的区域。

下图进一步展示了给定区域的轮廓到图像转换效果,该功能可以将草图和具有局部彩色轮廓的图像作为输入,进而产生具有更真实细节效果的图像。

四、总结本文借助扩散模型提出了一种全新的图像生成模型DiSS,这是一个具有多种功能且极具灵活性的框架,它可以从草图和彩色轮廓图出发,指导扩散模型合成具有照片级的真实感图像。为了实现模型的精确引导,作者分别提出了一种基于classifier-free和隐层特征微调的技术来在图像生成过程中提供三维控制(轮廓、颜色、真实感)。此外作者还展示了DiSS独特的两个有趣的功能,即图像的多条件局部编辑和给定区域的轮廓到图像转换,希望能够激发内容创作领域更多有趣、高效的人工智能应用。参考

[1] Alexander Quinn Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models. In International Conference on Machine Learning (ICML), 2021.

[2] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. In NeurIPS Workshop on Deep Generative Models and Downstream Applications, 2021.

[3] Jooyoung Choi, Sungwon Kim, Yonghyun Jeong, Youngjune Gwon, and Sungroh Yoon. ILVR: Conditioning method for denoising diffusion probabilistic models. In IEEE International Conference on Computer Vision (ICCV), 2021.

作者:seven_

Illustration by Ilusiku Studio from IconScout

-The End-

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官媒对刘强东的称呼变了,3字之差释放强烈信号,雷军真没说错

官媒对刘强东的称呼变了,3字之差释放强烈信号,雷军真没说错

风月得自难寻
2025-12-25 08:12:20
46条中日航线取消才1天,就炸出一群“牛鬼蛇神”,郑强说对了

46条中日航线取消才1天,就炸出一群“牛鬼蛇神”,郑强说对了

除夕烟火灿烂
2025-12-25 10:00:49
交易吧!湖人完败火箭,里夫斯伤情更新,雷迪克发布会又要开骂了

交易吧!湖人完败火箭,里夫斯伤情更新,雷迪克发布会又要开骂了

邹维体育
2025-12-26 11:27:00
四川男子在家抽烟被楼上女邻居制止,民警到场后,女子傻眼了

四川男子在家抽烟被楼上女邻居制止,民警到场后,女子傻眼了

温辞韫
2025-12-25 15:45:33
林子祥叶蒨文上海压马路!78岁白发苍苍却牵手依旧!

林子祥叶蒨文上海压马路!78岁白发苍苍却牵手依旧!

娱乐领航家
2025-12-25 22:00:03
弗拉格成为第2位圣诞大战砍25+分的新秀,此前仅詹姆斯做到过

弗拉格成为第2位圣诞大战砍25+分的新秀,此前仅詹姆斯做到过

懂球帝
2025-12-26 13:12:10
女子扇医生后续:为5分钟行拘5天,漂亮长相已社死,曝更多正脸照

女子扇医生后续:为5分钟行拘5天,漂亮长相已社死,曝更多正脸照

丁丁鲤史纪
2025-12-26 09:59:59
小孩子哪里会撒谎呢?美国一萌娃走丢,画出其父画像,超级抽象

小孩子哪里会撒谎呢?美国一萌娃走丢,画出其父画像,超级抽象

趣笔谈
2025-12-25 10:42:34
又涨了!2026年1月起,深圳市医疗保险缴费比例上调通知!

又涨了!2026年1月起,深圳市医疗保险缴费比例上调通知!

上海当地宝
2025-12-26 10:47:54
新一轮下岗潮杀到?这4个行业最先被淘汰,看看你中招没

新一轮下岗潮杀到?这4个行业最先被淘汰,看看你中招没

老特有话说
2025-12-25 12:15:23
董宇辉直播卖玉米,弹幕突然飘过一句“内衣穿反了”,瞬间脸变红

董宇辉直播卖玉米,弹幕突然飘过一句“内衣穿反了”,瞬间脸变红

丫头舫
2025-12-25 18:29:33
再见库明加,勇士篮网国王商讨3方交易!27+冠军前锋辅佐库里冲冠

再见库明加,勇士篮网国王商讨3方交易!27+冠军前锋辅佐库里冲冠

毒舌NBA
2025-12-26 09:37:58
美军玩砸了,后悔抢中国原油,新令开启“熬鹰游戏”,看谁先眨眼

美军玩砸了,后悔抢中国原油,新令开启“熬鹰游戏”,看谁先眨眼

野史日记
2025-12-26 08:42:08
碾压徐杰赵睿,CBA第一后卫横空出世,喊话中国男篮渴望加入

碾压徐杰赵睿,CBA第一后卫横空出世,喊话中国男篮渴望加入

宗介说体育
2025-12-25 15:36:49
吉林一62岁女子宣布怀孕数月,称“失去的儿子又回来了”

吉林一62岁女子宣布怀孕数月,称“失去的儿子又回来了”

大风新闻
2025-12-26 10:50:08
贺龙蒙冤去世后,薛明给中央写亲笔信诉说真相,贺帅名誉得以恢复

贺龙蒙冤去世后,薛明给中央写亲笔信诉说真相,贺帅名誉得以恢复

历史龙元阁
2025-12-25 11:50:05
钱再多有啥用?身价上亿美金的贝克汉姆现状,给所有运动员提了醒

钱再多有啥用?身价上亿美金的贝克汉姆现状,给所有运动员提了醒

人间无味啊
2025-12-24 19:34:17
董力阿诺家里过节,餐桌紧挨屋门,过道只能走一人,6口住好拥挤

董力阿诺家里过节,餐桌紧挨屋门,过道只能走一人,6口住好拥挤

八怪娱
2025-12-26 10:14:31
最后一次!安东尼奥尼传世佳作迎来告别放映

最后一次!安东尼奥尼传世佳作迎来告别放映

幕味儿
2025-12-26 10:37:17
曾是“央视名嘴”,因揭露姜昆丑闻被封杀,如今70岁处境如何?

曾是“央视名嘴”,因揭露姜昆丑闻被封杀,如今70岁处境如何?

小熊侃史
2025-12-15 10:51:25
2025-12-26 13:28:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2293文章数 596关注度
往期回顾 全部

科技要闻

收割3000亿!拼多多"土办法"熬死所有巨头

头条要闻

实探北京某宝马汽车门店:试驾已停 店内仅留2名销售

头条要闻

实探北京某宝马汽车门店:试驾已停 店内仅留2名销售

体育要闻

约基奇有多喜欢马?

娱乐要闻

朱孝天深夜道歉,只字未提五月天阿信

财经要闻

资管江湖的人事“寒冬”

汽车要闻

速来!智界在上海西岸准备了年末潮流盛典

态度原创

旅游
艺术
手机
时尚
公开课

旅游要闻

德国旅行团深度体验魅力新疆:“这片土地令人惊叹”

艺术要闻

William Dyce:19世纪苏格兰重要的画家

手机要闻

小米新品发布会一图看,从手机到家电,总有一个适合你

微胖女孩冬天怎么穿衣?看看这27套冬季穿搭LOOK,保暖又显瘦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版