什么显卡能畅玩AI生图？一篇文章带你了解显卡的差距！|内存|gpu|amd|英特尔|ai生图|nvidia

什么显卡能畅玩AI生图？一篇文章带你了解显卡的差距！

2023-12-19 17:38:31　来源: CG模型网

湖南举报

分享至

AI画图今年可太火了

以Stable Diffusion为代表的AI工具

在CG圈非常流行。

总感觉再不学AI

就要在CG圈混不下去了。

虽然高级工具需要大型服务器，

但PC上的显卡也可运行已训练的网络。

问题是这对显卡有不小的要求

到底什么样的显卡能够畅玩AI？

这是设计师们最关心的话题。

外国硬件社区tomshardware

在45个最新的GPU上

测试了流行的AI图像生成器。
测试了所有RTX GPU的TensorRT性能

对于AMD和Intel GPU，

使用了针对DirectML和OpenVINO的分支。
那么一起来看看测试结果吧！

测试平台

英特尔酷睿 i9-12900K

微星 Pro Z690-A WiFi DDR4

海盗船 2x16GB DDR4-3600 CL16

英睿达 P5 Plus 2TB

酷冷至尊 MWE 1250 V2 Gold

酷冷至尊 PL360 Flux

酷冷至尊 HAF500

Windows 11 专业版 64 位

SD 512X512 性能

（图片来源：Tom's Hardware）

通过最新的调整，RTX 4090 以每秒多于一张图像的速度（每分钟 75 张）快速生成 512x512 Stable Diffusion。

AMD 最快的 GPU RX 7900 XTX 仅达到该性能水平的三分之一左右，每分钟处理 26 个图像。而RX 6950 XT 每分钟输出 6.6 张图像，甚至远远落后于 RX 7600。显然，RDNA 3 中的 AMD AI Matrix 加速器有助于提高该特定工作负载的吞吐量。

英特尔当前最快的 GPU Arc A770 16GB 每分钟可处理 15.4 个图像。它的硬件的理论性能比 RTX 2080 Ti 高很多。因此，Arc GPU 看起来只能管理不到其理论性能的一半，这就是为什么基准测试是衡量实际性能的最重要指标。

虽然各种 GPU 和架构之间存在差异，但性能在很大程度上与理论计算成正比。在我们的测试中，RTX 4090 比 RTX 4080 快 46%，而理论上它的计算性能高出 69%。同样，4080 比 4070 Ti 快 24%，计算能力高出 22%。

较新的架构不一定执行得更快。4080 比 3090 Ti 性能高出 10%，同时计算能力可能高出 20%。但 3090 Ti 还拥有更多的原始内存带宽（1008 GB/s，而 4080 的 717 GB/s），这当然是一个因素。旧的图灵一代也表现出色，较新的 RTX 4070 仅比 RTX 2080 Ti 快 12%，理论上计算量增加了 8%。

SD 768X768 性能

（图片来源：Tom's Hardware）

将分辨率提高到 768x768，Stable Diffusion 需要更多的 VRAM 才能良好运行。内存带宽也变得更加重要。

各种 Nvidia GPU 的排名并没有太大变化，AMD 的 RX 7000 系列在 RX 7800 XT 及以上版本中有一些小提升，而 RX 7600 则略有下降。7600 在 512x512 分辨率下比 7700 XT 慢 36%，但在 768x768 分辨率下则下降到 44%。

上一代 AMD GPU 的表现更为糟糕。RX 6950 XT 每分钟甚至无法渲染两幅图像，而 8GB RX 6650 XT、6600 XT 和 6600 甚至都无法渲染一幅图像。这有点奇怪，因为 RX 7600 在仅有 8GB 内存的情况下仍能正常运行，但可能是其他架构上的差异在起作用。

英特尔的 Arc GPU 在更高分辨率下也失去了优势，Nvidia GPU（尤其是最快的型号）在与竞争对手之间的差距更大了。例如，4090 在处理 512x512 图像时比 Arc A770 16GB 快 4.9 倍，在处理 768x768 图像时则领先 6.4 倍。

测试设置：BATCH SIZES

上面是一些Stable Diffusion生成的图，这些图像以 768x768 的分辨率生成，然后使用SwinIR_4X放大（在“附加”选项卡下），然后进行裁剪和调整大小。

为了进行测试，我们对所有 GPU 都遵循了相同的程序。我们总共生成了 24 张不同的 512x512 和 24 张不同的 768x768 图像，使用相同的“凌乱的房间”提示——short, sweet, to the point。每次运行 24 张图像，分别测试了3x8（三批，每批 8 张并发图像）、4x6、6x4、8x3、12x2 或 24x1，具体取决于 GPU。

我们尽最大努力优化吞吐量，这意味着在很多情况下运行的批次大小要大于 1。有时，限制同时生成多少张图像的因素是显存容量，但计算（和缓存）似乎也是一个因素。举例来说，RTX 4060 Ti 16GB 和 8GB 机型一样，在 6x4 批次下表现最佳，而 4070 在 4x6 批次下表现最佳。

在生成 512x512 图像时，Nvidia 的许多 GPU 在生成每批 8 幅图像（最大批量为 8 幅）的三批图像时表现最佳，不过我们也发现 4x6 或 6x4 在某些 GPU 上的效果略好。AMD 的 RX 7000 系列 GPU 都喜欢 3x8 的批次，而 RX 6000 系列在 Navi 21 上使用 6x4 效果最好，在 Navi 22 上使用 8x3，在 Navi 23 上使用 12x2。英特尔的 Arc GPU 在使用 6x4 时效果都很好，只有 A380 使用 12x2。

对于 768x768 图像，内存和计算要求要高得多。大多数 Nvidia RTX GPU 在使用 6x4 批次时效果最佳，少数情况下使用 8x3 批次。(即使是配备 6GB VRAM 的 RTX 2060，在使用 6x4 批次时也能达到最佳效果）。AMD 的 RX 7000 系列大多数 GPU 也喜欢使用 3x8，不过 RX 7600 需要降低批次大小，运行 6x4。RX 6000 系列只能在 24x1 下运行，一次只能处理单个图像（否则会出现乱码输出），而 8GB RX 66xx 显卡都无法在更高的目标输出下渲染任何内容--你需要在这些 GPU 上选择 Nod.ai 和不同的型号。

AMD 显卡上生成的凌乱房间

英特尔显卡上生成的凌乱房间

英伟达显卡上生成的凌乱房间

我们使用Euler Ancestral 采样方法，50 步（迭代），CFG 等级为 7。由于所有 GPU 都运行来自 Stable Diffusion 的相同 1.5 版本模型，因此生成的图像在内容上通常具有可比性。我们之前注意到，SD2.1 往往会经常生成“凌乱的房间”，而这些房间实际上并不凌乱，有时甚至是卡通化的。SD1.5 似乎也是许多 Stable Diffusion 用户的首选，因为后来的 2.1 模型从训练数据中删除了许多理想的特征。

比较理论 GPU 性能

虽然我们之前主要关注了Stable Diffusion在实际使用中的性能，但我们觉得现在也值得看一下GPU的理论性能。这主要涉及到两个方面：一是GPU的着色器计算能力，二是专门用于加速AI任务的硬件的性能，比如Nvidia的Tensor核心、AMD的AI加速器和Intel的XMX核心（具体用哪个要看情况）。不是所有的GPU都有这些专门的硬件，没有的就会用GPU的着色器来处理。

现在，我们先来看看理论上的GPU性能。有一个叫做“最大理论GPU FP16计算性能”的指标，这个指标对Stable Diffusion很重要。

理论上，Nvidia的Ampere和Ada Lovelace架构在处理FP16计算时，速度和FP32一样快，这都是因为有Tensor核心的帮忙。而AMD和Intel的GPU在处理半精度的FP16计算时，性能是FP32的两倍，Turing GPU也是这样。

这会导致一些有趣的现象。比如，RTX 2080 Ti的FP16着色器计算能力差不多和RTX 3080一样，都是29.8 TFLOPS左右，比RTX 3070 Ti的21.8 TFLOPS要强。如果只看着色器性能的话，AMD的RX 7000系列GPU也很有竞争力。

但是，实际的性能和理论不太一样。因为优化的Stable Diffusion会尽量提高处理速度，这不只是靠GPU着色器就能做到的。这也让我们了解到各种GPU上的Tensor、Matrix和AI核心的重要性。

Nvidia的Tensor核心非常强大，但Stable Diffusion似乎没有充分利用它的Sparsity特点（这可以让计算速度加倍）。所以，要看GPU的性能如何，最好关注第一个图表，那个是不考虑Sparsity的。

有趣的是，理论计算图表和Stable Diffusion表挺一致的。简单来说，很多Nvidia GPU都符合预期，AMD 7000系列也差不多。但Intel Arc GPU只达到了预期性能的一半左右。这可能是因为测试时用的是2.4 GHz的 boost clock，而不是平时的2.0 GHz的Game Clock。

RX 6000系列GPU表现不太好，可能是因为它们处理FP16计算的方式没有RDNA 3的WMMA指令高效。按理说，RX 6950 XT和RX 6900 XT应该比RX 7600强，但测试结果并不是这样。

目前还不清楚Stable Diffusion还有多少优化的空间。从目前的计算来看，英特尔的GPU吞吐量还有提升的可能。我们也在研究为什么Nvidia的30系列和40系列GPU没有达到预期的性能。

Stable Diffusion这类技术是目前人工智能领域最热门的研究方向之一，普通电脑也能轻松处理这些任务。我们还研究了其他AI应用，比如用Whisper进行语音识别和聊天机器人文本生成，但目前还没有像Stable Diffusion这样广泛应用和优化。

更多免费CG资产

欢迎前往CG模型网下载：

https://www.cgmodel.com/

外包定制需求

扫码或搜索微信号：cgmodel001

添加客服进入微信交流群

QQ交流群：248716879

· www.cgmodel.com · · www.codel.com ·

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.