网易首页 > 网易号 > 正文 申请入驻

Stable Diffusion在各种显卡上的加速方式测试,最高可提速211.2%

0
分享至

Stable Diffusion是一种基于扩散模型的图像生成技术,能够从文本生成高质量的图像,适用于CG,插图和高分辨率壁纸等领域。

但是它计算过程复杂,使得它的生成速度较慢。所以研究人员就创造了各种提高其速度的方式,比如Xformers、Aitemplate、TensorRT和onflow。在本人中我们将对这些加速方法进行了一系列对比测试。

在本文中,我们将介绍这些加速方法的原理和性能测试结果,并提供对不同显卡的成本效益总结,我们的目标时在并在2秒内生成高质量的图像。

通过我们的试验与RTX 3090上的Xformers相比,OneFlow实现了211.2%的加速,在RTX 4090上实现了205.6%的加速。所以一个高配的GPU还是很必要的。

加速方案原理及特性

以下表格整理了目前能够看到的加速方案

本文使用Xformers, Aitemplate, TensorRT和onflow进行测试。因为NvFuser在原理上与Xformers相似,都使用了FlashAttention技术。DeepSpeed和colossalAI主要是为训练加速而设计的,而OpenAI Triton则是一个模型部署引擎,适用于批大小的加速,但不适用于优化延迟场景,所以这些都包含在本文中。

我们使用VoltaML来评估Aitemplate的加速效果,使用Stable Diffusion web来评估Xformers的加速,使用官方TensorRT示例来评估TensorRT的性能,并将OneFlow集成到Diffusion中来测试其加速度。

加速方案测试

接下来,我们将介绍相关的测试配置

1、测试设置

我们的性能度量是每秒迭代数(its/s)。图像设置为512*512,步骤100

提示词为:A beautiful girl, best quality, ultra-detailed, extremely detailed CG unity 8k wallpaper, best illustration, an extremely delicate and beautiful, floating, high resolution.

Negative提示: Low resolution, bad anatomy, bad hands, text error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, bad feet, fused body.

Sampler: Euler a

模型:Stable Diffusion 1.5

2、测试结果

在各种gpu上的性能测试结果,如下图所示(上图第一行为Xformers,第三行为Aitemplate ,第四行为OneFlow ):

加速度比较如下:OneFlow > TensorRT > Aitemplate > Xformers。

与RTX 3090上的Xformers相比,OneFlow实现了211.2%的相对加速,在RTX 4090上实现了205.6%的加速。

以下是一个结果:

GPU性价比

通过对不同的gpu进行了成本效益分析,得到以下结论:

从性价比角度来看,RTX4090 GPU性价比最高,目前RTX 2080Ti是最高性价比,极低端的gpu会增加整体成本。所以不建议用低端入门级GPU。

我们这里选择的几个低端gpu,包括M60、1660s和1080,问题如下:

1、GPU如1660和1080不支持加速方案,如TensorRT, Aitemplate,和OneFlow,可能是由于内存不足或GPU不兼容

2、其中1660s(1080)在生成512*512的20步图像,耗时7.66s (7.57s),达到2.61 it/s (2.64 it/s),虽然慢,但是可以用,如果你时间富裕或者只是玩一下可以考虑

3、M60达到1.27 it/s, 20步生成512*512图像需要15.74s,比1660s又慢了1倍

选择的建议

1、虽然RTX 4090有最高的速度,但RTX 3090也是可以考虑,RTX 3090的性能优于其他同级别的gpu,如A5000和A4000(下面价格基于云服务提供商的GPU价格计算,自购肯定RTX 4090,因为比3090差不了多少钱)。

2、更大的VRAM允许缓存更多的模型,减少模型加载时间,并显著加快图像生成过程。

RTX 3090和RTX 4090都有24GB的VRAM,但如果稳定扩散web是基于VRAM使用进行优化,RTX 3090可能在VRAM成本上有优势。如果优先考虑推理速度,RTX 4090是最佳选择,因为它的推理时间大约是RTX 3090的一半。

3、不同gpu的更多详细信息,请参阅下面的图表。

以上就是完整的测试,希望对你有所帮助。

https://avoid.overfit.cn/post/4d41ab2ecdce462786892e315dc49ecc

作者:Omniinfer

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球没对手?美专家曾言:如果动真格,全球联合起来也打不过!

全球没对手?美专家曾言:如果动真格,全球联合起来也打不过!

春序娱乐
2026-05-10 12:46:33
从“傅妈”到清冷姐姐,傅首尔减肥后大变,她的面相讨论重新定义

从“傅妈”到清冷姐姐,傅首尔减肥后大变,她的面相讨论重新定义

枫尘余往逝
2026-05-10 11:27:13
广西男子展示蜗牛汤?汤面有很多漂浮物,吓得广西网友想脱离省籍

广西男子展示蜗牛汤?汤面有很多漂浮物,吓得广西网友想脱离省籍

狸猫之一的动物圈
2026-05-09 09:16:48
77岁港星在东莞租房养老,35平米月租1300,无儿无女靠老本度日

77岁港星在东莞租房养老,35平米月租1300,无儿无女靠老本度日

喜欢历史的阿繁
2026-05-10 00:04:45
欧尔班刚下台,匈牙利立刻驱逐俄间谍,16年亲俄路线开始清算

欧尔班刚下台,匈牙利立刻驱逐俄间谍,16年亲俄路线开始清算

桂系007
2026-05-08 22:26:27
1986年的运10下马案,位列中国30年重大间谍案首位,真相令人扼腕

1986年的运10下马案,位列中国30年重大间谍案首位,真相令人扼腕

干史人
2026-01-12 22:07:50
“汉坦病毒”来袭,医生提醒:宁可每天看电视,也不要出门做7事

“汉坦病毒”来袭,医生提醒:宁可每天看电视,也不要出门做7事

普陀动物世界
2026-05-09 05:16:15
主动给特朗普送上稀土资源?这国家转头撂下一句话,出乎中方意料

主动给特朗普送上稀土资源?这国家转头撂下一句话,出乎中方意料

通鉴史智
2026-05-10 14:33:05
重磅!无锡或将诞生全新主城,这个板块成最大赢家!

重磅!无锡或将诞生全新主城,这个板块成最大赢家!

靓仔情感
2026-05-10 15:23:58
男子晒两任老婆做的菜,问这说明什么,网友:证明前妻能陪你吃苦

男子晒两任老婆做的菜,问这说明什么,网友:证明前妻能陪你吃苦

丫头舫
2026-04-22 21:55:06
广东男篮险胜北京首钢,媒体专家讨论,杨鸣点评一针见血

广东男篮险胜北京首钢,媒体专家讨论,杨鸣点评一针见血

刘笤说体坛
2026-05-10 05:43:22
“一家人凑不出一个高中生”,90后女子喜当奶,被嘲:牛马生牛马

“一家人凑不出一个高中生”,90后女子喜当奶,被嘲:牛马生牛马

番外行
2026-04-08 09:14:11
《陈翔六点半》人走茶凉,赚不到钱球球退出,根本原因早就注定了

《陈翔六点半》人走茶凉,赚不到钱球球退出,根本原因早就注定了

汪巗的创业之路
2026-05-06 12:26:17
曝皇家马德里已经与曼城后防大将经纪人取得联系

曝皇家马德里已经与曼城后防大将经纪人取得联系

本泽体育
2026-05-10 12:31:30
雷霆大胜湖人3比0拿到赛点,詹姆斯正负值最低,这两点才是败因

雷霆大胜湖人3比0拿到赛点,詹姆斯正负值最低,这两点才是败因

姜大叔侃球
2026-05-10 11:22:05
请山西省忻州市委查一下,这位副局长是谁

请山西省忻州市委查一下,这位副局长是谁

微言微评
2026-05-10 13:36:54
用所谓的“基本盘”嘲讽人民群众,只能是搬起石头,砸自己的脚!

用所谓的“基本盘”嘲讽人民群众,只能是搬起石头,砸自己的脚!

让心灵得以栖息
2026-05-08 11:19:31
美国郁闷到了极点,为什么别人都不还手,中国老是还手呢?

美国郁闷到了极点,为什么别人都不还手,中国老是还手呢?

混沌录
2026-05-06 18:04:25
脾脏破裂+韧带撕裂!胡金秋带伤拼到呕吐,全网喷他良心不会痛吗?

脾脏破裂+韧带撕裂!胡金秋带伤拼到呕吐,全网喷他良心不会痛吗?

星Xin辰大海
2026-05-10 13:38:58
“缺算力成共识、所有实验室都忌惮字节跳动、极度敬重DeepSeek”,10天走访中国顶尖AI实验室后,美国研究者的最新观察

“缺算力成共识、所有实验室都忌惮字节跳动、极度敬重DeepSeek”,10天走访中国顶尖AI实验室后,美国研究者的最新观察

CSDN
2026-05-09 18:13:31
2026-05-10 16:11:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1988文章数 1461关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

七旬邻居凌晨爬窗入室无刑责 上海男子全家被逼搬离

头条要闻

七旬邻居凌晨爬窗入室无刑责 上海男子全家被逼搬离

体育要闻

詹姆斯生涯第6次0-3困境:今年会被横扫吗

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
时尚
亲子
健康
艺术

本地新闻

用苏绣的方式,打开江西婺源

今年最好看的衬衫竟然是它?太减龄了!

亲子要闻

2026 年度进口奶粉真实大测评:基于科学喂养体系的品质分级与标杆遴选

干细胞能让人“返老还童”吗

艺术要闻

毛主席83岁时写给华国锋的6字真相令人震惊!

无障碍浏览 进入关怀版