网易首页 > 网易号 > 正文 申请入驻

AI毕加索来了,借助CLIP模型轻松画素描!

0
分享至

如果说,深度学习的目标是将低层高维的图像数据,转换为高层低维的抽象表达的话,那素描线一定是一种非常重要的抽象视觉表达。目前,使用计算机对目标生成素描线的技术也是视觉领域中一个非常重要的话题。抽象意味着需要识别目标或者场景的基本视觉概念,随后再将这些概念转换为素描线段或着其他的描述语言。而对于机器而言,首先需要具有非常鲁棒的图像语义提取能力,才可能对任意目标图像生成描述。

本文使用了之前在文本图像合成领域中大放异彩的CLIP(Contrastive-Language-Image-Pretraining)模型[1],并将二者进行巧妙的结合提出了CLIPasso模型。CLIPasso的命名来源于著名画家毕加索(Picasso),本文正是受启发于毕加索的系列石版画作品“Le Taureau”。本文由苏黎世理工学院和特拉维夫大学等单位合作完成。


论文链接: https://arxiv.org/abs/2202.05822 项目主页: https://clipasso.github.io/clipasso/ 代码链接: https://github.com/yael-vinker/CLIPasso

在这一系列中,毕加索描绘了一头公牛的渐进抽象,他将一头公牛从一幅具体的、完全渲染的解剖图变成了只有几条线条构成的素描画,仍然捕捉到了公牛的视觉特征,如下图所示:

CLIPasso使用CLIP的感知损失作为素描线生成的语义监督,而无需像之前方法一样使用大规模素描线数据集进行训练。同时使生成的素描线图展现了多层次的抽象,保持了一定的可辨识性和基础拓扑结构。下面我们来看一下具体的生成效果。

CLIPasso可以像毕加索一样,将一个具体目标逐渐简化为素描图,素描线段的数量同时也表示了抽象的程度,可以看到,即便是最抽象的程度(最右边的火烈鸟和马只画了几笔),人类也可以进行辨识。

一、本文方法

本文将每条素描线表示为具有四个控制点的贝塞尔曲线,为了简单起见,在模型优化阶段,只优化控制点的位置,其他参数例如曲线程度、宽度和不透明度都固定。随后通过改变素描线的数量n来控制图像的抽象程度

上图为本文方法的整体框架,首先给定图像I,我们的目标是生成同时保留目标语义特征和几何结构的目标图像S,首先对图像I生成一个显著性图寻找显著区域来确定素描线的起笔位置。接下来,在优化过程中,将素描线参数输入到可微分的光栅器R中来生成素描线图,随后将生成的草图S和输入图像I一起送入CLIP模型中计算CLIP感知损失。通过计算损失并不断更新素描线的控制点,模型逐渐达到收敛。

损失函数

由于素描线图具有高度稀疏的特点,因此使用像素级损失函数不足以测量生成图像与标签之间的距离。因此本文创新性的引入了CLIP感知损失,CLIP模型在各种模态的图像数据集上进行了预训练,因此具有计算素描线图像语义的能力,而无需进一步的微调训练。本文使用CLIP模型的最后一层特征对图像进行高级语义编码,将生成草图和输入图像之间的CLIP语义距离可以定义如下:

作者还将CLIP损失与其他损失函数进行了对比,如下图所示:

其中XDoG[2]为边缘检测的结果,L2损失只能帮助网络学习简单的彩色像素,LPIPS[3]虽然被定义为语义距离,但是其生成的图像仍然接近边缘检测的结果,使用CLIP损失的结果具有更好的语义测量效果,同时也保留了原有图像的属性。

除了使用CLIP语义距离在嵌入空间对生成素描线图和原图进行语义约束之外,作者还为CLIPasso考虑了生成图像的几何相似性。几何相似性通过计算CLIP模型中中间激活层的L2距离(本文使用的是ResNet101 CLIP模型):

最终的损失函数为联立CLIP语义和CLIP几何损失函数得到:


初始位置

由于上文描述的损失函数是高度非凸的,因此其优化过程非常容易受到初始化(即素描线的起笔位置)的影响,尤其对于更高层次的抽象效果会产生灾难性的影响,因为越高层次的抽象,素描线的数量越少。例如下图中最后两列的图像是使用相同数量的素描线生成的,其抽象程度一致,但是随机初始化的效果明显较差,其更多关注的是头发,而与人脸本质特征高度相关的眼睛、鼻子和嘴巴却被忽略了。

因此为了提高模型语义描述和收敛性和准确性,本文根据目标图像中的显著性区域来确定初始笔画位置。通过使用CLIP模型的ViT-B/32版本来对输入图像进行自注意力全局上下文建模,来捕获图像的显著性特征,并生成注意力图,如上图第二列所示。最终使用的分布图是使用注意力图与XDoG提取的图像边缘图相乘得到的,然后使用Softmax函数进行归一化,如上图第三列所示。其中XDoG的作用是为了增强关键笔画的位置定位。上图完整的展示了整体的初始化定位过程,可以看出,与随机初始化相比,本文基于图像显著性特征的初始化方法对最终的效果有明显的改善。


二、实验效果

在实验部分,作者首先与之前传统素描线生成的方法进行了对比,这些方法统一通过数据驱动的方式进行优化,需要特殊的数据集进行微调训练,而本文方法与此不同,其不限于训练期间所观察到的类别,没有固定的类别,这使得模型本身具有强鲁棒性。下图展示了本文方法与目前流行的5种方法的对比效果,其中D方法只在含有鞋子的数据集上进行训练,因此这里只能在鞋子的图像上进行对比。这些方法中的每一种都定义了一个特定的目标类别,这个类别会影响模型的最终输出风格,同时也限制了模型的泛化能力。

此外,作者也将本文方法与CLIPDraw方法[4]进行了对比,并且将CLIPDraw中的文本输入替换成本文的目标图像,这样可以将输入图像重新编码到与CLIP相同的嵌入空间中。为了进行可视化比较,作者也将CLIPDraw的描绘语言替换成与本文一致的贝塞尔曲线。从下图中可以看出,CLIPDraw的绘制结果虽然可以识别出目标的各个部分,但是缺少了几何结构的稳定性,因而导致整体的结构被打乱了。

除了视觉效果对比,作者还进行了素描线画可识别性的对比,从SketchyCOCO数据集中选择了五个动物类别,并随机抽取每个类别的五幅图像进行实验。其中包含对生成图像的类别级别和实例级别的对比,共设置了人类感知和分类模型感知两个实验结果。其中人类感知实验邀请了121名受试人员对生成图像进行测试,实验结果如下表所示,在抽象程度为16和32时,本文方法已经有较好的识别效果,即使在高度抽象的8笔画时,仍然也达到了95%的实例可识别能力。

对于分类模型感知实验,作者选用了两个预训练分类器,分别是ResNet34和CLIP ViT-B/32,分类结果如下表所示:

三、总结

本文借助CLIP模型强大的图像语义提取能力,提出了一种新颖的图像素描线合成方法CLIPasso,达到了近乎于毕加索的艺术抽象效果,并且无需在特定的数据集上进行训练。CLIPasso可以推广到各种类别上进行快速高效的草图绘制,同时保留原图在类别级别和实例级别的语义视觉特征。

但是其仍存在一定的缺陷,例如在面对有复杂背景的图像,生成素描线图可能会受到背景的影响,作者提出可以通过背景掩码预处理进行屏蔽。

此外,由于CLIPasso在绘图时,所有的笔画同时进行优化,因此在开始绘制之前,必须先手动确定好笔画的数量,才能保证最后的抽象程度,作者称在后续的工作中可以将生成图像的抽象层次也作为一个可学习的参数进行优化。

参考文献

[1] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. CoRR, abs/2103.00020, 2021.

[2] Holger Winnemoller, Jan Eric Kyprianidis, and Sven C. Olsen. Xdog: An extended difference-of-gaussians compendium including advanced image stylization. Comput. Graph., 36:740–753, 2012.

[3] Richard Zhang, Phillip Isola, Alexei A. Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 586–595, 2018.

[4] Kevin Frans, Lisa B. Soros, and Olaf Witkowski. Clipdraw: Exploring text-to-drawing synthesis through language-image encoders. CoRR, abs/2106.14843, 2021.

作者: seven_

Illustration b y Marina Mogulskaya from i cons8

-The End-

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯:佛得角0-0创历史!首次参赛就出线+将战阿根廷 沙特出局

世界杯:佛得角0-0创历史!首次参赛就出线+将战阿根廷 沙特出局

念洲
2026-06-27 10:09:07
女子与七旬大爷交往留下8月大男婴离开,大爷为泄愤多次殴打婴儿致死 一审获刑12年

女子与七旬大爷交往留下8月大男婴离开,大爷为泄愤多次殴打婴儿致死 一审获刑12年

红星新闻
2026-06-27 13:05:11
欧洲热浪滚滚,民众疯抢中国空调:一场由空调引发的“造反”开始

欧洲热浪滚滚,民众疯抢中国空调:一场由空调引发的“造反”开始

菁菁子衿
2026-06-27 10:16:45
柳州市柳南区发生3.6级地震,震源深度5千米

柳州市柳南区发生3.6级地震,震源深度5千米

新京报
2026-06-27 12:22:28
亚足联是西亚的足联,伊拉克损人不利己,耻辱出局拉韩国垫背

亚足联是西亚的足联,伊拉克损人不利己,耻辱出局拉韩国垫背

生活新鲜市
2026-06-27 14:26:13
1-2,夺冠热门轰然倒下,送对手逆袭,人在做,天在看,上限16强

1-2,夺冠热门轰然倒下,送对手逆袭,人在做,天在看,上限16强

我就是一个说球的
2026-06-26 20:33:00
李谷一不再沉默,揭晓宋祖英唱歌真相,观众:原来是这样!

李谷一不再沉默,揭晓宋祖英唱歌真相,观众:原来是这样!

林轻吟
2026-06-27 09:30:42
白玉兰奖名场面!台上台下哭成一片,杨紫妆花了,杨幂陪跑又陪哭

白玉兰奖名场面!台上台下哭成一片,杨紫妆花了,杨幂陪跑又陪哭

萌神木木
2026-06-26 23:57:34
比独行侠送出东契奇更离谱,球迷:见过蠢的,没见过如此蠢的!

比独行侠送出东契奇更离谱,球迷:见过蠢的,没见过如此蠢的!

奇迹行者在刷野
2026-06-27 10:49:24
57岁王菲机舱素颜曝光!走出洗手间那一刻,全网沉默

57岁王菲机舱素颜曝光!走出洗手间那一刻,全网沉默

小椰的奶奶
2026-06-27 15:29:14
全国人民代表大会常务委员会决定免职的名单

全国人民代表大会常务委员会决定免职的名单

吉刻新闻
2026-06-27 14:43:28
还有戏吗?韩国已跌至第8,亚洲兄弟补时绝杀被吹,净胜球占上风

还有戏吗?韩国已跌至第8,亚洲兄弟补时绝杀被吹,净胜球占上风

萌兰聊个球
2026-06-27 13:25:48
崩溃!“根本删不完”!老人微信上有77万条未读消息,家属:群聊退一个,他们又拉一个,拉群还无需本人确认

崩溃!“根本删不完”!老人微信上有77万条未读消息,家属:群聊退一个,他们又拉一个,拉群还无需本人确认

佛山电视台小强热线
2026-06-26 22:37:52
彭博:中国1亿消费者债务逾期,严重削弱内需

彭博:中国1亿消费者债务逾期,严重削弱内需

罗sir财话
2026-06-27 11:59:43
上海酒吧,国内球迷为日本队欢呼,应不应该?

上海酒吧,国内球迷为日本队欢呼,应不应该?

十柱
2026-06-26 19:36:27
瑞典一女部长带3个月婴儿参加欧盟会议,发言时婴儿突然啼哭,她一句话幽默回应

瑞典一女部长带3个月婴儿参加欧盟会议,发言时婴儿突然啼哭,她一句话幽默回应

大象新闻
2026-06-27 10:54:09
伊朗助韩国5-0极限自救,第八名晋级路漫漫

伊朗助韩国5-0极限自救,第八名晋级路漫漫

春日筆記
2026-06-27 14:27:38
1:1战平埃及队保留晋级希望,伊朗队主帅赛后发声:仍为球队和国家感到自豪

1:1战平埃及队保留晋级希望,伊朗队主帅赛后发声:仍为球队和国家感到自豪

环球网资讯
2026-06-27 15:13:19
俄罗斯前防长谢尔盖·伊万诺夫去世,普京向其亲属表示慰问

俄罗斯前防长谢尔盖·伊万诺夫去世,普京向其亲属表示慰问

环球网资讯
2026-06-26 20:54:19
28/32!美加墨世界杯32强只差4队:比利时、埃及、塞内加尔突围

28/32!美加墨世界杯32强只差4队:比利时、埃及、塞内加尔突围

懂球帝
2026-06-27 13:15:13
2026-06-27 16:36:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2414文章数 596关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

美国专家:亚洲秩序正在转变 中国统一可能"不战而胜"

头条要闻

美国专家:亚洲秩序正在转变 中国统一可能"不战而胜"

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

首搭华为乾崑智驾ADS5 启境GT7上市售价20.99万-32.99万元

态度原创

房产
时尚
数码
亲子
教育

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

乙女游戏新人设,竟然是195年下体育生?!

数码要闻

美光预测:内存危机至少得持续到2028年

亲子要闻

果然还是哥哥比较厉害

教育要闻

2026年艺术类、体育类综合分一分一段表公布!

无障碍浏览 进入关怀版