网易首页 > 网易号 > 正文 申请入驻

什么显卡能畅玩AI生图?一篇文章带你了解显卡的差距!

0
分享至

AI画图今年可太火了

以Stable Diffusion为代表的AI工具

在CG圈非常流行。

总感觉再不学AI

就要在CG圈混不下去了。



虽然高级工具需要大型服务器,

但PC上的显卡也可运行已训练的网络。

问题是这对显卡有不小的要求

到底什么样的显卡能够畅玩AI?

这是设计师们最关心的话题。



外国硬件社区tomshardware


在45个最新的GPU上

测试了流行的AI图像生成器。
测试了所有RTX GPU的TensorRT性能


对于AMD和Intel GPU,

使用了针对DirectML和OpenVINO的分支。
那么一起来看看测试结果吧!

测试平台

英特尔酷睿 i9-12900K

微星 Pro Z690-A WiFi DDR4

海盗船 2x16GB DDR4-3600 CL16

英睿达 P5 Plus 2TB

酷冷至尊 MWE 1250 V2 Gold

酷冷至尊 PL360 Flux

酷冷至尊 HAF500

Windows 11 专业版 64 位

SD 512X512 性能


(图片来源:Tom's Hardware)

通过最新的调整,RTX 4090 以每秒多于一张图像的速度(每分钟 75 张)快速生成 512x512 Stable Diffusion。

AMD 最快的 GPU RX 7900 XTX 仅达到该性能水平的三分之一左右,每分钟处理 26 个图像。而RX 6950 XT 每分钟输出 6.6 张图像,甚至远远落后于 RX 7600。显然,RDNA 3 中的 AMD AI Matrix 加速器有助于提高该特定工作负载的吞吐量。

英特尔当前最快的 GPU Arc A770 16GB 每分钟可处理 15.4 个图像。它的硬件的理论性能比 RTX 2080 Ti 高很多。因此,Arc GPU 看起来只能管理不到其理论性能的一半,这就是为什么基准测试是衡量实际性能的最重要指标。

虽然各种 GPU 和架构之间存在差异,但性能在很大程度上与理论计算成正比。在我们的测试中,RTX 4090 比 RTX 4080 快 46%,而理论上它的计算性能高出 69%。同样,4080 比 4070 Ti 快 24%,计算能力高出 22%。

较新的架构不一定执行得更快。4080 比 3090 Ti 性能高出 10%,同时计算能力可能高出 20%。但 3090 Ti 还拥有更多的原始内存带宽(1008 GB/s,而 4080 的 717 GB/s),这当然是一个因素。旧的图灵一代也表现出色,较新的 RTX 4070 仅比 RTX 2080 Ti 快 12%,理论上计算量增加了 8%。

SD 768X768 性能


(图片来源:Tom's Hardware)

将分辨率提高到 768x768,Stable Diffusion 需要更多的 VRAM 才能良好运行。内存带宽也变得更加重要。

各种 Nvidia GPU 的排名并没有太大变化,AMD 的 RX 7000 系列在 RX 7800 XT 及以上版本中有一些小提升,而 RX 7600 则略有下降。7600 在 512x512 分辨率下比 7700 XT 慢 36%,但在 768x768 分辨率下则下降到 44%。

上一代 AMD GPU 的表现更为糟糕。RX 6950 XT 每分钟甚至无法渲染两幅图像,而 8GB RX 6650 XT、6600 XT 和 6600 甚至都无法渲染一幅图像。这有点奇怪,因为 RX 7600 在仅有 8GB 内存的情况下仍能正常运行,但可能是其他架构上的差异在起作用。

英特尔的 Arc GPU 在更高分辨率下也失去了优势,Nvidia GPU(尤其是最快的型号)在与竞争对手之间的差距更大了。例如,4090 在处理 512x512 图像时比 Arc A770 16GB 快 4.9 倍,在处理 768x768 图像时则领先 6.4 倍。

测试设置:BATCH SIZES





上面是一些Stable Diffusion生成的图,这些图像以 768x768 的分辨率生成,然后使用SwinIR_4X放大(在“附加”选项卡下),然后进行裁剪和调整大小。

为了进行测试,我们对所有 GPU 都遵循了相同的程序。我们总共生成了 24 张不同的 512x512 和 24 张不同的 768x768 图像,使用相同的“凌乱的房间”提示——short, sweet, to the point。每次运行 24 张图像,分别测试了3x8(三批,每批 8 张并发图像)、4x6、6x4、8x3、12x2 或 24x1,具体取决于 GPU。

我们尽最大努力优化吞吐量,这意味着在很多情况下运行的批次大小要大于 1。有时,限制同时生成多少张图像的因素是显存容量,但计算(和缓存)似乎也是一个因素。举例来说,RTX 4060 Ti 16GB 和 8GB 机型一样,在 6x4 批次下表现最佳,而 4070 在 4x6 批次下表现最佳。

在生成 512x512 图像时,Nvidia 的许多 GPU 在生成每批 8 幅图像(最大批量为 8 幅)的三批图像时表现最佳,不过我们也发现 4x6 或 6x4 在某些 GPU 上的效果略好。AMD 的 RX 7000 系列 GPU 都喜欢 3x8 的批次,而 RX 6000 系列在 Navi 21 上使用 6x4 效果最好,在 Navi 22 上使用 8x3,在 Navi 23 上使用 12x2。英特尔的 Arc GPU 在使用 6x4 时效果都很好,只有 A380 使用 12x2。

对于 768x768 图像,内存和计算要求要高得多。大多数 Nvidia RTX GPU 在使用 6x4 批次时效果最佳,少数情况下使用 8x3 批次。(即使是配备 6GB VRAM 的 RTX 2060,在使用 6x4 批次时也能达到最佳效果)。AMD 的 RX 7000 系列大多数 GPU 也喜欢使用 3x8,不过 RX 7600 需要降低批次大小,运行 6x4。RX 6000 系列只能在 24x1 下运行,一次只能处理单个图像(否则会出现乱码输出),而 8GB RX 66xx 显卡都无法在更高的目标输出下渲染任何内容--你需要在这些 GPU 上选择 Nod.ai 和不同的型号。


AMD 显卡上生成的凌乱房间


英特尔显卡上生成的凌乱房间


英伟达显卡上生成的凌乱房间

我们使用Euler Ancestral 采样方法,50 步(迭代),CFG 等级为 7。由于所有 GPU 都运行来自 Stable Diffusion 的相同 1.5 版本模型,因此生成的图像在内容上通常具有可比性。我们之前注意到,SD2.1 往往会经常生成“凌乱的房间”,而这些房间实际上并不凌乱,有时甚至是卡通化的。SD1.5 似乎也是许多 Stable Diffusion 用户的首选,因为后来的 2.1 模型从训练数据中删除了许多理想的特征。

比较理论 GPU 性能

虽然我们之前主要关注了Stable Diffusion在实际使用中的性能,但我们觉得现在也值得看一下GPU的理论性能。这主要涉及到两个方面:一是GPU的着色器计算能力,二是专门用于加速AI任务的硬件的性能,比如Nvidia的Tensor核心、AMD的AI加速器和Intel的XMX核心(具体用哪个要看情况)。不是所有的GPU都有这些专门的硬件,没有的就会用GPU的着色器来处理。

现在,我们先来看看理论上的GPU性能。有一个叫做“最大理论GPU FP16计算性能”的指标,这个指标对Stable Diffusion很重要。


理论上,Nvidia的Ampere和Ada Lovelace架构在处理FP16计算时,速度和FP32一样快,这都是因为有Tensor核心的帮忙。而AMD和Intel的GPU在处理半精度的FP16计算时,性能是FP32的两倍,Turing GPU也是这样。

这会导致一些有趣的现象。比如,RTX 2080 Ti的FP16着色器计算能力差不多和RTX 3080一样,都是29.8 TFLOPS左右,比RTX 3070 Ti的21.8 TFLOPS要强。如果只看着色器性能的话,AMD的RX 7000系列GPU也很有竞争力。

但是,实际的性能和理论不太一样。因为优化的Stable Diffusion会尽量提高处理速度,这不只是靠GPU着色器就能做到的。这也让我们了解到各种GPU上的Tensor、Matrix和AI核心的重要性。



Nvidia的Tensor核心非常强大,但Stable Diffusion似乎没有充分利用它的Sparsity特点(这可以让计算速度加倍)。所以,要看GPU的性能如何,最好关注第一个图表,那个是不考虑Sparsity的。

有趣的是,理论计算图表和Stable Diffusion表挺一致的。简单来说,很多Nvidia GPU都符合预期,AMD 7000系列也差不多。但Intel Arc GPU只达到了预期性能的一半左右。这可能是因为测试时用的是2.4 GHz的 boost clock,而不是平时的2.0 GHz的Game Clock。

RX 6000系列GPU表现不太好,可能是因为它们处理FP16计算的方式没有RDNA 3的WMMA指令高效。按理说,RX 6950 XT和RX 6900 XT应该比RX 7600强,但测试结果并不是这样。

目前还不清楚Stable Diffusion还有多少优化的空间。从目前的计算来看,英特尔的GPU吞吐量还有提升的可能。我们也在研究为什么Nvidia的30系列和40系列GPU没有达到预期的性能。

Stable Diffusion这类技术是目前人工智能领域最热门的研究方向之一,普通电脑也能轻松处理这些任务。我们还研究了其他AI应用,比如用Whisper进行语音识别和聊天机器人文本生成,但目前还没有像Stable Diffusion这样广泛应用和优化。

更多免费CG资产

欢迎前往CG模型网下载:

https://www.cgmodel.com/

外包定制需求

扫码或搜索微信号:cgmodel001

添加客服进入微信交流群

QQ交流群:248716879

· www.cgmodel.com · · www.codel.com ·

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏涟水数学天才女生涉嫌造假

江苏涟水数学天才女生涉嫌造假

张所长
2024-06-17 10:36:20
凯特复出后地位彻底稳了!查尔斯卡米拉承诺:罗斯不会进入王室

凯特复出后地位彻底稳了!查尔斯卡米拉承诺:罗斯不会进入王室

金牌娱乐
2024-06-17 12:10:00
55 岁男子相亲,要求试婚,女子:满足你,但我也有要求…

55 岁男子相亲,要求试婚,女子:满足你,但我也有要求…

好笑娱乐君每一天
2024-06-18 16:19:42
令人气愤!中超比赛沦为闹剧,上港御用裁判发威,这球没法踢了

令人气愤!中超比赛沦为闹剧,上港御用裁判发威,这球没法踢了

国足风云
2024-06-18 21:56:54
大师王林为几十名女星“床上开光”,坦胸露乳用酒画符,场面炸裂

大师王林为几十名女星“床上开光”,坦胸露乳用酒画符,场面炸裂

橘子大娱社
2024-06-18 14:50:03
54岁大哥,每个星期保持3次性生活,坚持2年后,身体指标让人羡慕

54岁大哥,每个星期保持3次性生活,坚持2年后,身体指标让人羡慕

39健康网
2024-06-16 22:25:03
闹大了!人民日报评“数学天才”姜萍冲上热搜,评论神评笑不活了

闹大了!人民日报评“数学天才”姜萍冲上热搜,评论神评笑不活了

起喜电影
2024-06-18 17:04:05
32岁处男花70元嫖娼,事后爱上卖淫女,为她花了5000块钱后杀了她

32岁处男花70元嫖娼,事后爱上卖淫女,为她花了5000块钱后杀了她

胖胖侃咖
2024-04-14 08:00:09
惨烈打击!1775名乌军官兵当场被消灭,数百件装备被炸成废铁

惨烈打击!1775名乌军官兵当场被消灭,数百件装备被炸成废铁

老吴教育课堂
2024-06-18 22:49:25
美特使急呼:黎以冲突需立即降级

美特使急呼:黎以冲突需立即降级

参考消息
2024-06-18 21:06:09
富士康转移到印度,结果河南这边举步维艰,说明了什么?

富士康转移到印度,结果河南这边举步维艰,说明了什么?

创作者朱海平
2024-06-17 12:03:15
ESPN:波尔津吉斯夺冠后要接受手术,康复期将有数月

ESPN:波尔津吉斯夺冠后要接受手术,康复期将有数月

懂球帝
2024-06-18 14:32:10
是∑还是½,姜萍竟然不认识数学符号?网友扒出姜萍事件最大漏洞

是∑还是½,姜萍竟然不认识数学符号?网友扒出姜萍事件最大漏洞

趣笔谈
2024-06-18 09:18:58
河南的一场高温,让96万电动车主苦不堪言,新能源车何去何从

河南的一场高温,让96万电动车主苦不堪言,新能源车何去何从

音乐时光的娱乐
2024-06-18 18:49:15
随着许家印的没落,其女儿的生活也被曝光,奢侈程度令人咋舌

随着许家印的没落,其女儿的生活也被曝光,奢侈程度令人咋舌

天闻地知
2024-06-14 14:07:23
沈从文笔下的湘西船妓:刚结婚没多久的小媳妇,一次两三块大洋

沈从文笔下的湘西船妓:刚结婚没多久的小媳妇,一次两三块大洋

吴学华看天下
2024-06-06 08:27:43
G5冲上全美第一热搜的不是布朗和塔图姆,竟然是另一名球员

G5冲上全美第一热搜的不是布朗和塔图姆,竟然是另一名球员

懂球哥评球
2024-06-18 11:39:45
我花2万找小姐要求处女,在酒店以为遇到仙人跳,最后动了真心

我花2万找小姐要求处女,在酒店以为遇到仙人跳,最后动了真心

叶天辰故事会
2024-06-07 18:02:04
她在生命最后时刻,执意包机从美回国,5天后在故土安详离去

她在生命最后时刻,执意包机从美回国,5天后在故土安详离去

鱼头鉴社
2024-06-17 14:23:42
美媒:塔图姆总决赛场均22.2分7.8板7.2助 分板助均全队最高

美媒:塔图姆总决赛场均22.2分7.8板7.2助 分板助均全队最高

直播吧
2024-06-18 11:20:22
2024-06-19 00:10:44
CG模型网
CG模型网
CG模型网-让设计更有价值!
805文章数 634关注度
往期回顾 全部

数码要闻

两大苹果专家同一天发文:iPad只是开始 iPhone和手表也将努力变薄

头条要闻

媒体:回暖的中澳关系就是一面镜子 照出欧盟的愚蠢

头条要闻

媒体:回暖的中澳关系就是一面镜子 照出欧盟的愚蠢

体育要闻

对于凯尔特人来说 谁是MVP根本不重要

娱乐要闻

被曝新恋情,张碧晨王琳凯发声辟谣

财经要闻

官方:税务部门没有倒查30年的安排

科技要闻

第一批小米车主,已经开始卖车了

汽车要闻

全球最低价 现代IONIQ 5N预售价39.88万

态度原创

亲子
房产
艺术
数码
本地

亲子要闻

假如把感冒喝药变成颁奖典礼……

房产要闻

净吸纳量连续两年TOP3!这座海口顶级写字楼,用实力上大分!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

数码要闻

超薄的兆芯KX-6000G ITX迷你小板发布:四核3.3GHz、高性能GPU三屏输出

本地新闻

我和我的家乡|在鞍山的每一步都有新发现

无障碍浏览 进入关怀版