网易首页 > 网易号 > 正文 申请入驻

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

0
分享至

新智元报道

编辑:LRS

【新智元导读】Stable Diffusion除了生成图像外,还能用来压缩图像!

基于文本的图像生成模型火了,出圈的不止有扩散模型,还有开源的Stable Diffusion模型。

最近一位瑞士的软件工程师Matthias Bühlmann无意间发现,Stable Diffusion不仅能用来生成图像,还可以用来压缩位图图像,甚至比JPEG和WebP的压缩率更高。

比如一张美洲骆驼的照片,原图为768KB,使用JPEG压缩到5.66KB,而Stable Diffusion可以进一步压缩到4.98KB,而且能够保留更多高分辨率的细节以及更少的压缩伪影,肉眼可见地优于其他压缩算法。

不过这种压缩方式也存在缺陷,即不适合压缩人脸和文本图像,在某些情况下,甚至会生成一些原图并不存在内容。

虽然重新训练一个自编码器也能做到类似于Stable Diffusion的压缩效果,但使用Stable Diffusion的一个主要优势在于,有人已经投入了上百万的资金帮你训练了一个,你又何必重新花钱训练一个压缩模型呢?

Stable Diffusion如何压缩图像

扩散模型正在挑战生成模型的霸主地位,对应的开源Stable Diffusion模型也在机器学习社区掀起一场艺术革命。

Stable Diffusion由三个训练后的神经网络串联得到,即一个变分自编码器(VAE),U-Net模型和一个文本编码器。

变分自编码器对图像空间中的图像进行编码和解码,从而获得该图像在潜空间的表征向量,以一个分辨率更低(64x64)具有更高精度(4x32bit)的向量来表示源图像(3x8或4x8bit的512x512)。

VAE在将图像编码到潜空间的训练过程主要依赖自监督学习,即输入和输出都是源图像,因此随着模型进一步训练,不同版本的模型的潜空间表征可能会看起来不同。

使用Stable Diffusion v1.4的潜空间表征通过重新映射和解释为4通道彩色图像后,看起来就是下图的中间图像,源图像中的主要特征仍然可见。

需要注意的是,VAE往返编码一次并不是无损的。

比如在解码之后,蓝色带子上的ANNA名字就没有源图像那么清晰了,可读性显著降低。

Stable Diffusion v1.4中的变分自编码器不太擅长表示小文本以及人脸图像,不知道在v1.5版本中是否会改善。

Stable Diffusion的主要压缩算法就是利用图像的这种潜空间表征,从短文本描述中生成新的图像。

从潜空间表征的随机噪声开始,使用充分训练的U-Net迭代去除潜空间图像的噪声,用一种更简单的表征输出模型认为它在这个噪声中「看到」的预测,有点像我们在看云的时候,从不规则的图形中还原出脑海里的形状或面孔。

当使用Stable Diffusion来生成图像时,这个迭代去噪步骤是由第三个组件,即文本编码器引导的,该编码器为U-Net提供关于它应该尝试在噪声中看到什么的信息。

不过对于压缩任务来说,并不需要文本编码器,所以实验过程只创建了一个空字符串的编码用于告诉U-Net在图像重建过程中进行非引导去噪。

为了使用Stable Diffusion作为图像压缩编解码器,算法需要有效地压缩由VAE产生的潜表征。

在实验中可以发现,对潜表征进行下采样或者直接使用现有的有损图像压缩方法,都会大大降低重建图像的质量。

但作者发现 VAE 的解码似乎对潜表征的量化(quantization)非常有效。

通过对从浮点到8位无符号整数的潜量化进行缩放、拖拽(clamping)和重新映射,只会产生很小的可见重构错误。

通过量化8位的潜表征,图像表示的数据大小现在是64*64*4*8bit=16kB ,远小于未压缩源图像的512*512*3*8bit=768kB

如果潜表征的位数小于8bit,无法产生比较好的效果。

如果对图像进一步执行调色板(palettizing)和抖动(dithering),则量化效果就会再次提升。

使用256*4*8位向量和Floyd-Steinberg抖动的潜表征创建了一个调色板表示,使数据大小进一步压缩到64*64*8+256*4*8bit=5kB

潜空间调色板的抖动会引入噪声,从而扭曲了解码结果。但由于Stable Diffusion是基于潜噪声的去除,所以可以使用U-Net去除抖动引起的噪声。

经过4次迭代,重建结果在视觉上非常接近未量化的版本。

虽然数据量大大减少了(源图像为压缩图像的155倍大),但效果是非常好的,不过也引入了一些伪影(比如原图的心形图案中不存在伪影)。

有趣的是,这种压缩方案引入的伪影对图像内容的影响比对图像质量的影响更大,而且以这种方式压缩的图像可能包含这些类型的压缩伪影。

作者还用zlib对调色板和索引进行了无损压缩,在测试样本中,大多数的压缩结果都小于5kb,但这种压缩方法仍然存在更多的优化空间。

为了评估该压缩编解码器,作者没有使用任何在网上找到的标准测试图像,因为网上的图像都有可能在Stable Diffusion的训练集中出现过,而压缩这类图像可能会导致不公平的对比优势。

为了尽可能公平地进行比较,作者使用了Python图像库中最高质量的编码器设置,以及使用mozjpeg库添加了压缩后的JPG数据的无损数据压缩。

值得注意的是,虽然Stable Diffusion的结果主观上看起来比JPG和WebP压缩的图像要好得多,但在标准测量指标(如PSNR或SSIM)方面,它们并没有明显更好,但也没有更差。

只是引入的伪影类型不那么明显,因为它们对图像内容的影响大于对图像质量的影响。

这种压缩方法也有一点危险,虽然重建特征的质量很高,但内容可能会受到压缩伪影的影响,即使它看起来非常清晰。

例如,在一张测试图像中,虽然Stable Diffusion作为编解码器在保持图像的质量方面要好得多,甚至连相机颗粒纹理(camera grain)都能保留下来(这是大多数传统压缩算法难以做到的) ,但其内容仍然受到压缩伪影的影响,像建筑物形状这样的精细特征可能会发生变化。

虽然在JPG压缩图像中当然不可能比在Stable Diffusion压缩图像中识别出更多的真实值,但是Stable Diffusion压缩结果的高视觉质量可能具有欺骗性,因为JPG和WebP中的压缩伪影更容易识别。

如果你也想动手复现一遍实验,作者在Colab上开源了代码。

代码链接:https://colab.research.google.com/drive/1Ci1VYHuFJK5eOX9TB0Mq4NsqkeDrMaaH?usp=sharing

最后,作者表示,文章中设计的实验仍然是相当浅显的,但效果仍然令人惊喜,未来仍然有很大的改进空间。

参考资料:

https://arstechnica.com/information-technology/2022/09/better-than-jpeg-researcher-discovers-that-stable-diffusion-can-compress-images/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视突然曝光“空天母舰”!外媒彻底懵了:到底是科幻还是现实?

央视突然曝光“空天母舰”!外媒彻底懵了:到底是科幻还是现实?

科技处长
2026-05-31 16:53:35
错失总决赛后卫!火箭3号签选错人?场均16+7,卡斯尔完胜谢泼德

错失总决赛后卫!火箭3号签选错人?场均16+7,卡斯尔完胜谢泼德

熊哥爱篮球
2026-06-01 19:09:14
预言:到2035年的中国,很有可能是这样的,赶紧一起来看看

预言:到2035年的中国,很有可能是这样的,赶紧一起来看看

洛川融媒科技
2026-05-31 13:00:31
王菲现实长什么样?路人镜头才是照妖镜,突然理解谢霆锋的专一了

王菲现实长什么样?路人镜头才是照妖镜,突然理解谢霆锋的专一了

临云史策
2026-06-01 11:35:00
辽宁舰“闯入”菲律宾海,美航母火速赶到!解放军:送上门的陪练

辽宁舰“闯入”菲律宾海,美航母火速赶到!解放军:送上门的陪练

晓旓就是我
2026-05-29 10:28:35
减肥神药存在巨大副作用!不只减少你的体重,也剥夺了你的多巴胺,让人失去快乐

减肥神药存在巨大副作用!不只减少你的体重,也剥夺了你的多巴胺,让人失去快乐

风向观察
2026-05-28 15:31:33
夏天,比鸭肉牛肉更补的,是这“4样”,营养好消化,清补不上火

夏天,比鸭肉牛肉更补的,是这“4样”,营养好消化,清补不上火

小茉莉美食记
2026-05-29 13:35:16
马龙带娃好“狼狈”?晒到脱妆汗流浃背,夏露小腹妊娠纹看哭网友

马龙带娃好“狼狈”?晒到脱妆汗流浃背,夏露小腹妊娠纹看哭网友

TVB的四小花
2026-06-01 14:08:35
悲剧!17岁马刺球迷庆祝时从车上坠落 已被判定脑死亡

悲剧!17岁马刺球迷庆祝时从车上坠落 已被判定脑死亡

罗说NBA
2026-06-01 06:51:55
宁愿在国外种地,也不愿意回国,培养出92个世界冠军的李永波图啥

宁愿在国外种地,也不愿意回国,培养出92个世界冠军的李永波图啥

阅微札记
2026-02-22 19:15:15
钱到账了!工龄15年,个人账户养老金43642元,深圳某职工退休金

钱到账了!工龄15年,个人账户养老金43642元,深圳某职工退休金

巢客HOME
2026-05-27 05:50:03
武汉豪宅,卖疯了!

武汉豪宅,卖疯了!

光华楼评
2026-06-01 12:44:22
余秋雨在印考察很沮丧,印前部长安慰:中国再过25年就能赶上我们

余秋雨在印考察很沮丧,印前部长安慰:中国再过25年就能赶上我们

抽象派大师
2026-05-30 04:21:16
女子发“避雷帖”被医美公司起诉,要求其道歉并赔2万元 法院:驳回!未超出合理评价范围

女子发“避雷帖”被医美公司起诉,要求其道歉并赔2万元 法院:驳回!未超出合理评价范围

大风新闻
2026-06-01 14:59:03
冰火两重天!AI硬件集体回调,千亿龙头直奔跌停!应用端却逆市走强,龙头豪取三连板!英伟达重磅宣布,这股30CM涨停...

冰火两重天!AI硬件集体回调,千亿龙头直奔跌停!应用端却逆市走强,龙头豪取三连板!英伟达重磅宣布,这股30CM涨停...

雪球
2026-06-01 16:13:56
英伟达,重大发布!引爆A股涨停潮

英伟达,重大发布!引爆A股涨停潮

证券时报
2026-06-01 15:58:18
山东小伙养了一颗极品黄荆,有人出价1.8万元都不卖,晒晒

山东小伙养了一颗极品黄荆,有人出价1.8万元都不卖,晒晒

荷兰豆爱健康
2026-06-01 17:20:09
联合国爆发激战,英国打第一枪后,美国也跟上,日本入常倒计时?

联合国爆发激战,英国打第一枪后,美国也跟上,日本入常倒计时?

动漫里的童话
2026-06-01 13:58:06
10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

听风喃
2026-04-06 11:16:04
张雪机车收获两个第8名,张雪发文反对车手德比斯揽责:“知道短板了就改进,相信下一代赛车更强”

张雪机车收获两个第8名,张雪发文反对车手德比斯揽责:“知道短板了就改进,相信下一代赛车更强”

都市快报橙柿互动
2026-06-01 08:57:58
2026-06-01 20:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15359文章数 66894关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

浙江一600年古树迁移后死亡 镇领导被指给60万封口费

头条要闻

浙江一600年古树迁移后死亡 镇领导被指给60万封口费

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

吉利汽车5月销量23.76万辆 连续三月双增创出口新高

态度原创

教育
时尚
房产
手机
军事航空

教育要闻

北京家长连夜排队,你想象不到这中专的含金量有多高?

女人不管多大年纪,夏天都要准备一条白色阔腿裤,百搭又清爽

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

手机要闻

2699元起!华为nova16系列发布,线下机要开始抢旗舰饭碗了?

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版