网易首页 > 网易号 > 正文 申请入驻

什么显卡能畅玩AI生图?

0
分享至

“ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ”

中国很有影响力影视特效CG动画领域自媒体

本文转自公众号:CGMODEL

AI画图今年可太火了

以Stable Diffusion为代表的AI工具

在CG圈非常流行。

总感觉再不学AI

就要在CG圈混不下去了。



虽然高级工具需要大型服务器,

但PC上的显卡也可运行已训练的网络。

问题是这对显卡有不小的要求

到底什么样的显卡能够畅玩AI?

这是设计师们最关心的话题。



外国硬件社区tomshardware


在45个最新的GPU上

测试了流行的AI图像生成器。
测试了所有RTX GPU的TensorRT性能


对于AMD和Intel GPU,

使用了针对DirectML和OpenVINO的分支。
那么一起来看看测试结果吧!

测试平台

英特尔酷睿 i9-12900K

微星 Pro Z690-A WiFi DDR4

海盗船 2x16GB DDR4-3600 CL16

英睿达 P5 Plus 2TB

酷冷至尊 MWE 1250 V2 Gold

酷冷至尊 PL360 Flux

酷冷至尊 HAF500

Windows 11 专业版 64 位

SD 512X512 性能


(图片来源:Tom's Hardware)

通过最新的调整,RTX 4090 以每秒多于一张图像的速度(每分钟 75 张)快速生成 512x512 Stable Diffusion。

AMD 最快的 GPU RX 7900 XTX 仅达到该性能水平的三分之一左右,每分钟处理 26 个图像。而RX 6950 XT 每分钟输出 6.6 张图像,甚至远远落后于 RX 7600。显然,RDNA 3 中的 AMD AI Matrix 加速器有助于提高该特定工作负载的吞吐量。

英特尔当前最快的 GPU Arc A770 16GB 每分钟可处理 15.4 个图像。它的硬件的理论性能比 RTX 2080 Ti 高很多。因此,Arc GPU 看起来只能管理不到其理论性能的一半,这就是为什么基准测试是衡量实际性能的最重要指标。

虽然各种 GPU 和架构之间存在差异,但性能在很大程度上与理论计算成正比。在我们的测试中,RTX 4090 比 RTX 4080 快 46%,而理论上它的计算性能高出 69%。同样,4080 比 4070 Ti 快 24%,计算能力高出 22%。

较新的架构不一定执行得更快。4080 比 3090 Ti 性能高出 10%,同时计算能力可能高出 20%。但 3090 Ti 还拥有更多的原始内存带宽(1008 GB/s,而 4080 的 717 GB/s),这当然是一个因素。旧的图灵一代也表现出色,较新的 RTX 4070 仅比 RTX 2080 Ti 快 12%,理论上计算量增加了 8%。

SD 768X768 性能


(图片来源:Tom's Hardware)

将分辨率提高到 768x768,Stable Diffusion 需要更多的 VRAM 才能良好运行。内存带宽也变得更加重要。

各种 Nvidia GPU 的排名并没有太大变化,AMD 的 RX 7000 系列在 RX 7800 XT 及以上版本中有一些小提升,而 RX 7600 则略有下降。7600 在 512x512 分辨率下比 7700 XT 慢 36%,但在 768x768 分辨率下则下降到 44%。

上一代 AMD GPU 的表现更为糟糕。RX 6950 XT 每分钟甚至无法渲染两幅图像,而 8GB RX 6650 XT、6600 XT 和 6600 甚至都无法渲染一幅图像。这有点奇怪,因为 RX 7600 在仅有 8GB 内存的情况下仍能正常运行,但可能是其他架构上的差异在起作用。

英特尔的 Arc GPU 在更高分辨率下也失去了优势,Nvidia GPU(尤其是最快的型号)在与竞争对手之间的差距更大了。例如,4090 在处理 512x512 图像时比 Arc A770 16GB 快 4.9 倍,在处理 768x768 图像时则领先 6.4 倍。

测试设置:BATCH SIZES





上面是一些Stable Diffusion生成的图,这些图像以 768x768 的分辨率生成,然后使用SwinIR_4X放大(在“附加”选项卡下),然后进行裁剪和调整大小。

为了进行测试,我们对所有 GPU 都遵循了相同的程序。我们总共生成了 24 张不同的 512x512 和 24 张不同的 768x768 图像,使用相同的“凌乱的房间”提示——short, sweet, to the point。每次运行 24 张图像,分别测试了3x8(三批,每批 8 张并发图像)、4x6、6x4、8x3、12x2 或 24x1,具体取决于 GPU。

我们尽最大努力优化吞吐量,这意味着在很多情况下运行的批次大小要大于 1。有时,限制同时生成多少张图像的因素是显存容量,但计算(和缓存)似乎也是一个因素。举例来说,RTX 4060 Ti 16GB 和 8GB 机型一样,在 6x4 批次下表现最佳,而 4070 在 4x6 批次下表现最佳。

在生成 512x512 图像时,Nvidia 的许多 GPU 在生成每批 8 幅图像(最大批量为 8 幅)的三批图像时表现最佳,不过我们也发现 4x6 或 6x4 在某些 GPU 上的效果略好。AMD 的 RX 7000 系列 GPU 都喜欢 3x8 的批次,而 RX 6000 系列在 Navi 21 上使用 6x4 效果最好,在 Navi 22 上使用 8x3,在 Navi 23 上使用 12x2。英特尔的 Arc GPU 在使用 6x4 时效果都很好,只有 A380 使用 12x2。

对于 768x768 图像,内存和计算要求要高得多。大多数 Nvidia RTX GPU 在使用 6x4 批次时效果最佳,少数情况下使用 8x3 批次。(即使是配备 6GB VRAM 的 RTX 2060,在使用 6x4 批次时也能达到最佳效果)。AMD 的 RX 7000 系列大多数 GPU 也喜欢使用 3x8,不过 RX 7600 需要降低批次大小,运行 6x4。RX 6000 系列只能在 24x1 下运行,一次只能处理单个图像(否则会出现乱码输出),而 8GB RX 66xx 显卡都无法在更高的目标输出下渲染任何内容--你需要在这些 GPU 上选择 Nod.ai 和不同的型号。


AMD 显卡上生成的凌乱房间


英特尔显卡上生成的凌乱房间


英伟达显卡上生成的凌乱房间

我们使用Euler Ancestral 采样方法,50 步(迭代),CFG 等级为 7。由于所有 GPU 都运行来自 Stable Diffusion 的相同 1.5 版本模型,因此生成的图像在内容上通常具有可比性。我们之前注意到,SD2.1 往往会经常生成“凌乱的房间”,而这些房间实际上并不凌乱,有时甚至是卡通化的。SD1.5 似乎也是许多 Stable Diffusion 用户的首选,因为后来的 2.1 模型从训练数据中删除了许多理想的特征。

比较理论 GPU 性能

虽然我们之前主要关注了Stable Diffusion在实际使用中的性能,但我们觉得现在也值得看一下GPU的理论性能。这主要涉及到两个方面:一是GPU的着色器计算能力,二是专门用于加速AI任务的硬件的性能,比如Nvidia的Tensor核心、AMD的AI加速器和Intel的XMX核心(具体用哪个要看情况)。不是所有的GPU都有这些专门的硬件,没有的就会用GPU的着色器来处理。

现在,我们先来看看理论上的GPU性能。有一个叫做“最大理论GPU FP16计算性能”的指标,这个指标对Stable Diffusion很重要。


理论上,Nvidia的Ampere和Ada Lovelace架构在处理FP16计算时,速度和FP32一样快,这都是因为有Tensor核心的帮忙。而AMD和Intel的GPU在处理半精度的FP16计算时,性能是FP32的两倍,Turing GPU也是这样。

这会导致一些有趣的现象。比如,RTX 2080 Ti的FP16着色器计算能力差不多和RTX 3080一样,都是29.8 TFLOPS左右,比RTX 3070 Ti的21.8 TFLOPS要强。如果只看着色器性能的话,AMD的RX 7000系列GPU也很有竞争力。

但是,实际的性能和理论不太一样。因为优化的Stable Diffusion会尽量提高处理速度,这不只是靠GPU着色器就能做到的。这也让我们了解到各种GPU上的Tensor、Matrix和AI核心的重要性。



Nvidia的Tensor核心非常强大,但Stable Diffusion似乎没有充分利用它的Sparsity特点(这可以让计算速度加倍)。所以,要看GPU的性能如何,最好关注第一个图表,那个是不考虑Sparsity的。

有趣的是,理论计算图表 和Stable Diffusion表挺一致的。简单来说,很多Nvidia GPU都符合预期,AMD 7000系列也差不多。但Intel Arc GPU只达到了预期性能的一半左右。这可能是因为测试时用的是2.4 GHz的 boost clock,而不是平时的2.0 GHz的Game Clock。

RX 6000系列GPU表现不太好,可能是因为它们处理FP16计算的方式没有RDNA 3的WMMA指令高效。按理说,RX 6950 XT和RX 6900 XT应该比RX 7600强,但测试结果并不是这样。

目前还不清楚Stable Diffusion还有多少优化的空间。从目前的计算来看,英特尔的GPU吞吐量还有提升的可能。我们也在研究为什么Nvidia的30系列和40系列GPU没有达到预期的性能。

Stable Diffusion这类技术是目前人工智能领域最热门的研究方向之一,普通电脑也能轻松处理这些任务。我们还研究了其他AI应用,比如用Whisper进行语音识别和聊天机器人文本生成,但目前还没有像Stable Diffusion这样广泛应用和优化。

冲啊啊啊啊啊!130W奖池!国内超火3D渲染创作大赛开始报名

玩的就是写实!

UE5风格化漫画着色器解构

手把手教!Houdini中制作云海效果

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6岁男童大渡河边落水母亲救子溺亡:孩子获救,家属起诉多方索赔129万一审被驳回

6岁男童大渡河边落水母亲救子溺亡:孩子获救,家属起诉多方索赔129万一审被驳回

红星新闻
2024-06-19 17:14:19
为什么普京整整24年不去朝鲜?

为什么普京整整24年不去朝鲜?

江平舟
2024-06-19 12:17:42
前行政长官林郑月娥,退休后因被制裁,沦落到只能在香港租房住?

前行政长官林郑月娥,退休后因被制裁,沦落到只能在香港租房住?

史二了
2024-06-18 14:01:44
陈晓陈妍希婚变内幕:女方卑微挽回,疑患抑郁症,做音疗画面曝光

陈晓陈妍希婚变内幕:女方卑微挽回,疑患抑郁症,做音疗画面曝光

古希腊掌管月桂的神
2024-06-19 19:24:48
照片曝光!菲海军特战队员被“兔子”海警断掉手指,已被菲官方授勋

照片曝光!菲海军特战队员被“兔子”海警断掉手指,已被菲官方授勋

不掉线电波
2024-06-18 23:00:53
京剧国家二级女演员被丈夫举报长期出轨,超大尺度聊天记录曝光!

京剧国家二级女演员被丈夫举报长期出轨,超大尺度聊天记录曝光!

兵叔评说
2024-06-19 14:19:48
上海这一夜,袒胸露乳的姚晨和金晨,败给了“全裹”出镜的俞飞鸿

上海这一夜,袒胸露乳的姚晨和金晨,败给了“全裹”出镜的俞飞鸿

秋姐居
2024-06-17 12:17:39
36岁上海男子自爆和20岁贵州女友结婚,7年前支教认识时还是初中生

36岁上海男子自爆和20岁贵州女友结婚,7年前支教认识时还是初中生

可达鸭面面观
2024-06-19 14:19:08
上游新闻探访姜萍老家:其家庭年收入中等,上中专不是缺学费,对口招生上本科几率更大

上游新闻探访姜萍老家:其家庭年收入中等,上中专不是缺学费,对口招生上本科几率更大

上游新闻
2024-06-19 19:12:22
“姜萍连题目都看不懂”,北大硕士赵斌500万对赌,称愿承担后果

“姜萍连题目都看不懂”,北大硕士赵斌500万对赌,称愿承担后果

妍妍教育日记
2024-06-19 15:56:18
余琦被立案调查!老公身份被扒,狗受牵连,前同事曝光其真实人品

余琦被立案调查!老公身份被扒,狗受牵连,前同事曝光其真实人品

六毛朵朵
2024-06-19 12:51:46
高盛:中国正在考虑进行全面的消费税改革

高盛:中国正在考虑进行全面的消费税改革

风向观察
2024-06-19 19:07:10
曝蒙古国反华分子big gee来中国开演唱会,歌词:把中国人像猪一样杀

曝蒙古国反华分子big gee来中国开演唱会,歌词:把中国人像猪一样杀

不掉线电波
2024-06-19 16:53:13
可笑!2024年养老金上调3%,工龄30年养老金3000元只涨90元?

可笑!2024年养老金上调3%,工龄30年养老金3000元只涨90元?

社保精算师
2024-06-19 11:25:04
寺庙住持与女主播发生关系被敲诈案一审宣判:女主播获缓刑,其丈夫被判五年半

寺庙住持与女主播发生关系被敲诈案一审宣判:女主播获缓刑,其丈夫被判五年半

澎湃新闻
2024-06-19 18:14:28
杨毅炮轰姚明!篮协官宣乔帅下课仅1天,他就找到新工作了

杨毅炮轰姚明!篮协官宣乔帅下课仅1天,他就找到新工作了

十点街球体育
2024-06-19 17:05:43
2012年三对高校教师夫妻玩“换妻”游戏,内容不堪入目,结局如何

2012年三对高校教师夫妻玩“换妻”游戏,内容不堪入目,结局如何

阿胡
2024-06-19 14:36:12
世界名画?39岁的C罗开球冲刺画面在国外疯传,球迷:真顶流

世界名画?39岁的C罗开球冲刺画面在国外疯传,球迷:真顶流

侧身凌空斩
2024-06-19 06:39:04
不到20天连打5虎,中纪委官网评:反腐败形势依然严峻复杂

不到20天连打5虎,中纪委官网评:反腐败形势依然严峻复杂

南方都市报
2024-06-19 18:15:07
曾被公开点名通报的马旦曰,落马了

曾被公开点名通报的马旦曰,落马了

政知新媒体
2024-06-19 18:48:16
2024-06-19 23:36:49
CG世界
CG世界
分享国内外优秀CG作品,教程
4846文章数 8471关注度
往期回顾 全部

数码要闻

罗斯・杨称苹果今年第四季度推出 14/16 英寸 M4 MacBook Pro

头条要闻

胖东来"爆改"的永辉超市营业挤满顾客:员工月薪涨千元

头条要闻

胖东来"爆改"的永辉超市营业挤满顾客:员工月薪涨千元

体育要闻

欧洲杯最大的混子,非他莫属

娱乐要闻

黄一鸣“杀疯了” 直播间卖大葱养孩子

财经要闻

深化科创板改革 证监会发布八条措施

科技要闻

618观察:谁为高强度的低价竞争买单?

汽车要闻

双肾格栅变化大/内饰焕新 新一代宝马X3官图发布

态度原创

艺术
数码
亲子
游戏
军事航空

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

数码要闻

容声冰箱闪耀 2024 欧洲杯:以品质领先,为健康养鲜

亲子要闻

别再用这种电蒸锅了,对孩子有健康风险

《猎人:荒野的呼唤》DLC上线 追踪13种野生动物

军事要闻

以色列涉嫌在加沙使用重型炸弹 或多次违反战争法

无障碍浏览 进入关怀版