网易首页 > 网易号 > 正文 申请入驻

NVIDIA Blackwell架构解析:AI技术革新,多方位再进化

0
分享至

英伟达创始人兼首席执行官黄仁勋在CES 2025(国际消费类电子产品展览会)发表了主题演讲,发布基于Blackwell架构的GeForce RTX 50系列消费级显卡。桌面平台首批产品分别为RTX 5090、RTX 5080、RTX 5070 Ti、RTX 5070、以及合规版RTX 5090 D,共有五款。此外,英伟达还带来了面向笔记本电脑的GeForce RTX 50系列移动GPU。

Blackwell架构加入神经渲染

英伟达称,目前对于画面质量的追求已大幅度超越了摩尔定律所能够提供的运算性能,为此加入神经渲染势在必行,这是计算机图形学的下一个时代。通过将神经网络集成到渲染过程中,可以在性能、图像质量和交互性方面取得显著进步,从而提供全新的沉浸式体验。

在这次的Blackwell架构GPU上,新一代Tensor Core添加了对FP4浮点运算精度的支持。FP4是一种较低的量化方法,类似于文件压缩,可以减小模型推理过程中数据存储和计算量大小,提高计算效率,降低该过程对显存的要求。与大多数模型默认使用的FP16相比,FP4使用的显存不到其一半,并使GeForce RTX 50系列GPU的性能相比上一代提升高达2倍。通过利用NVIDIA TensorRT Model Optimizer提供的高级量化方法,这些增益几乎不会影响输出质量。

由于加入了神经渲染,Blackwell架构GPU的SM设计也发生了变化,与Tensor Core的结合变得更加紧密,以便在传统渲染管线中加入AI相关的功能。同时Shader Core也不再区分处理INT32 / FP32以及仅FP32的部分,全部都可以操作INT32 / FP32。通过传统Shader Core与Tensor Core的进一步结合,打造出RTX神经着色器(RTX Neural Shaders),将小型神经网络带入可编程着色器中,应用范围包括辐射缓存、纹理压缩、材质、辐射场等。

The RTX Neural Shaders SDK允许开发者在RTX AI PC上训练他们的游戏数据和着色器代码,并使用Tensor Cores在运行时加速其神经表示和模型权重。在训练过程中,神经游戏数据与传统数据的输出进行比较,并经过多次循环进行优化。开发者可以使用Slang(一种将大型复杂函数拆分为更易处理的小部分的着色语言),以此简化训练过程。

这项突破性技术用于三种应用:RTX神经纹理压缩、RTX神经材质和神经网络辐射缓存(NRC)。RTX神经纹理压缩使用AI在不到一分钟的时间内压缩数千种纹理,在相同的视觉质量下可以节省高达7倍的显存占用;RTX神经材质是使用AI压缩通常保留给离线材质的复杂着色器代码,并且这些材质由多层组成,处理速度可提升5倍;神经网络辐射缓存使用在实时游戏数据上训练的神经网络,能更准确和高效地估计游戏场景中的间接光照,而大幅减少光线追踪的计算量。

在RT Core方面,英伟达主要提升了检测光线、路径与三角形相交的效能,现在检测能够以簇集方式进行,另外也有三角形簇集解压缩引擎。其中新增支持Linear-swept Spheres(LSS),可以减少渲染毛发所需的几何图形数量,并使用球体代替三角形以获得更准确的毛发形状拟合,具有更好的性能和较小的显存占用。

按照英伟达的说法,相比于首次加入RT Core的Turing架构,新一代Blackwell架构光线、路径与三角形相交的检测效率大概提升至原来的8倍,同时相比上一代Ada Lovelace架构,能节省约25%的显存使用率。

考虑到AI在游戏内的应用越来越普遍,如何分配显卡内部的多样化工作成为了新的问题。为此英伟达在Blackwell架构GPU上加入了AI Management Processor,可以根据不同的实际情况调整数据处理的优先权,以提升反映速度,维持运算效率。对于广泛应用的DLSS来说,可以多帧生成提供一致的画面生成时间。

Blackwell架构GPU除了整体设计的提升外,很重要一点是加入了对GDDR7的支持。与现有GDDR6使用的NRZ/PAM2或GDDT6X的PAM4信号编码机制不同,GDDR7采用的是PAM3信号编码机制。NRZ/PAM2每周期提供1位的数据传输,PAM4每周期提供2位的数据传输,而PAM3每两个周期的数据传输为3位。整体而言,能够降低耗电,带宽也得到了再次提升。

英伟达在电源效率上也下了不少功夫,不仅针对笔记本电脑使用的型号,台式机使用的GeForce RTX 50系列显卡也因此受惠。英伟达针对闲置运算单元,在原有基础上加入了电源轨闸控(Rail Gating),可单独微调非频繁操作区域的供电状况。

英伟达表示,Blackwell架构的频率调整速度相比Ada Lovelace架构快了上千倍,进入睡眠状态或者唤醒速度也提升了数个量级。这不仅能节省约50%的能源消耗,而且能更快地迎合运算的需求,带来更好的效能表现。

具备多帧生成功能的DLSS 4

NVIDIA DLSS是一套由GeForce RTX Tensor Core驱动的神经渲染技术,可在提供清晰、高质量图像的同时提升帧率。在新一代Blackwell架构GPU上,引入了DLSS 4,具备多帧生成功能,在每个传统渲染的帧之间生成多达三个额外的帧。

DLSS 4还引入了自2020年发布DLSS 2.0以来对其AI模型的最大升级,DLSS光线重建、DLSS超分辨率和DLAA将由Transformer模型驱动,这是Transformer模型首次在图形领域的实时应用。DLSS Transformer模型通过改进的时间稳定性、减少鬼影以及运动中的更高细节来提升图像质量。

DLSS 3帧生成的AI模型使用游戏数据,如运动矢向量和深度信息,以及来自GeForce RTX 40系列光流加速器的光流场来生成一个额外的帧。这种方式生成多个帧的成本过高,因为每次生成新帧都需要光流加速器和AI模型,并且性能开销会限制GPU,导致输入帧率降低。

DLSS 4多帧生成结合了多项Blackwell架构的硬件技术和DLSS创新,实现了多帧生成。新的帧生成AI模型快了40%,使用的显存减少了30%,并且只需每渲染一帧运行一次即可生成多帧。英伟达通过用一个非常高效的AI模型替换硬件光流加速器来加速光流场的生成,显著降低了生成额外帧的计算成本。

利用Blackwell架构GPU的第五代Tensor Core,AI处理性能提升了最多2.5倍。一旦生成了新的多个帧,它们就会被均匀地安排,以提供流畅的视觉体验。过去DLSS 3帧生成使用基于CPU的帧调度,其变异性可能会随着额外帧的增加而累积,导致每帧之间的帧调度不一致,影响流畅性。

为了解决生成多个帧的复杂性,Blackwell架构GPU使用Flip Metering,将帧率逻辑转移到显示引擎中,使得GPU能够更精确地管理显示时间。同时显示引擎还增强了两倍的像素处理能力,以支持更高的分辨率和刷新率,从而实现带有DLSS 4的Flip Metering。

对于游戏和应用,DLSS 4结合多帧生成、光线重建和超级分辨率技术,将帧率提升至普通渲染的最高8倍,并在从帧生成升级到多帧生成时,进一步提高帧率高达1.7倍,性能提升效果非常地明显。

之前DLSS使用卷积神经网络(CNN)通过分析局部上下文并在连续帧中跟踪这些区域的变化来生成新像素,经过六年的持续改进,已经达到了极限。新的DLSS Transformer模型使用了视觉Transformer变压器,使自注意力机制操作能够评估整个帧中每个像素的相对重要性,并且跨越多个帧。

DLSS Transformer模型采用两倍于CNN模型的参数来实现对场景的更深层次理解,从而生成提供更高稳定性、减少鬼影、运动细节更多以及场景边缘更平滑的像素。在密集的光线追踪内容里,新的DLSS Transformer模型能大幅提升图像质量,在复杂的光照条件下会有更明显的优势,稳定性会加强,重影会减少,闪烁现象也会消失。DLSS光线重建、DLSS超分辨率和DLAA将由Transformer模型驱动,这是Transformer模型首次在图形领域的实时应用,它也将进一步提升RTX 20/30/40系列显卡的DLSS性能体验。预计在未来数年里,图像质量会持续提升。

入手GeForce RTX 50系列显卡的游戏玩家将能在75款游戏和应用中,利用DLSS多帧生成技术实现性能倍增。游戏的帧生成功能在GeForce RTX 50/40系列上也进行了升级,不但提升了性能,还减少了显存的使用。

Reflex 2首次采用Frame Warp技术

过去四年里,NVIDIA Reflex已集成到超过100款游戏中,可以将PC延迟降低50%。在新一代Blackwell架构GPU上,带来了NVIDIA Reflex 2,结合了Reflex低延迟模式和新的Frame Warp技术,通过把最新的鼠标输入指令及时同步给渲染帧,及时更新渲染的游戏帧并在渲染帧被发送到显示器之前获取最新的鼠标信息,通过刷新渲染的游戏帧以进一步减少延迟,将PC延迟进一步降低多达75%。

在电子游戏里,玩家的每个动作都会经过复杂的计算,然后在屏幕上显示,其中的每一步都会增加延迟。来自键盘和鼠标的输入传输给游戏,由CPU进行计算其在游戏中的效果。操作的结果被置于渲染队列中,队列被传输给GPU进行渲染,最后输出到显示器。整个过程大概需要几十毫秒,但卡顿和其他滞后情况会增加延迟。

NVIDIA Reflex 2首次采用了Frame Warp技术,是另一种减少延迟的方法。当一个帧被GPU渲染时,CPU会根据最新鼠标或手柄输入计算工作流中下一帧的视角位置。Frame Warp从CPU采样新的视角位置,然后将GPU刚才渲染的帧扭转到最新的视角位置。在渲染帧被发送到显示器之前,在尽可能最新的时间进行扭转操作,确保屏幕上反映最新鼠标输入。

当Frame Warp转移游戏像素时,图像中会产生缝隙撕裂的空白像素,镜头位置的变化会让游戏场景中显示之前没有渲染的新像素。英伟达开发了一种优化了延迟的预测渲染算法,使用来自先前帧的视角、颜色和深度数据,对这些撕裂的空白像素进行准确的图像修复。玩家可以通过更新的视角看到没有撕裂的渲染帧,并降低了改变游戏内视角位置而产生的延迟。这有助于玩家更好地瞄准目标,更精准地跟踪敌人,提高命中率。

4:2:2 H.264/H265视频编解码支持

Ada Lovelace和之前的GPU架构上,在H.264和H.265视频中提供了对4:2:0色度采样的支持,Blackwell架构则增加了编码和解码4:2:2色度采样视频的能力,这将节省CPU的负担,加快创作速度。视频文件使用YUV颜色格式,与存储红色、绿色和蓝色(RGB)值不同,颜色被存储为亮度(Y)、蓝差色度(U) 和红差色度(V)。

在YUV 4:2:2视频中,完整的亮度值被保留,并且只保留原始色度颜色信息的一半。一个4:2:2压缩的视频帧只需要未压缩的4:4:4视频帧数据量的2/3,但相比4:2:0色度压缩帧提供了两倍的颜色分辨率。这意味着能在保留更多色彩信息的同时还能减少文件大小和带宽需求之间取得了更好的平衡,额外保留的色彩信息对于HDR内容特别有帮助,能提升拍摄和编辑及色彩校正的质量。

Blackwell架构GPU配备了第九代NVENC,支持H.264/H.265 4:2:2编码的8位和10位视频输出。另外由于GeForce RTX 50系列显卡还升级支持DisplayPort 2.1 UHBR20输出,单一通道支持20Gbps带宽,让用户可以体验到令人惊叹的HDR视觉效果、超高分辨率和更流畅的游戏体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
尼日利亚发生大规模绑架事件 超150人被绑架

尼日利亚发生大规模绑架事件 超150人被绑架

财联社
2026-04-05 03:43:07
全力营救F-15飞行员,川普不一样,谁制造了美军神话?

全力营救F-15飞行员,川普不一样,谁制造了美军神话?

移光幻影
2026-04-04 13:26:02
随着拜仁3-2,勒沃库森6-3,美因茨2-1,德甲最新积分榜出炉

随着拜仁3-2,勒沃库森6-3,美因茨2-1,德甲最新积分榜出炉

侧身凌空斩
2026-04-05 00:24:18
伊朗:霍尔木兹海峡收费分5级 年收超千亿美元!

伊朗:霍尔木兹海峡收费分5级 年收超千亿美元!

新浪财经
2026-04-04 13:31:15
四川大学砍掉39个本科专业

四川大学砍掉39个本科专业

第一财经资讯
2026-04-03 20:33:57
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
大结局要来了!伊朗憋了一个月的大招,终于放出来!不是核弹,却比核弹还狠!

大结局要来了!伊朗憋了一个月的大招,终于放出来!不是核弹,却比核弹还狠!

喀秋莎大世界
2026-04-03 22:17:35
火不过半年!网红城市轮番登场又凉凉,到底缺了啥硬实力?

火不过半年!网红城市轮番登场又凉凉,到底缺了啥硬实力?

青眼财经
2026-04-03 23:08:35
台湾老兵带妻子回大陆见原配,苦等50年相谈1小时,原配:无话说

台湾老兵带妻子回大陆见原配,苦等50年相谈1小时,原配:无话说

云霄纪史观
2026-04-03 16:15:36
伊朗布什尔核电站再遭袭,伊朗发动第94波打击;以军称伊朗发射集束弹头导弹,击中以中部多地致住宅受损

伊朗布什尔核电站再遭袭,伊朗发动第94波打击;以军称伊朗发射集束弹头导弹,击中以中部多地致住宅受损

每日经济新闻
2026-04-04 20:41:57
抽签后摩根曾说阿森纳抽到好签,被南安普顿官方“挖坟”

抽签后摩根曾说阿森纳抽到好签,被南安普顿官方“挖坟”

懂球帝
2026-04-05 06:53:42
1985年王景清探监江青,江青淡淡地说了句:李银桥夫妇办了件好事

1985年王景清探监江青,江青淡淡地说了句:李银桥夫妇办了件好事

鉴史录
2026-04-02 01:50:03
上海交通大学,宣布任免

上海交通大学,宣布任免

双一流高校
2026-04-05 00:10:52
霍英东二太冯坚妮95岁寿辰,四世同堂享福寿

霍英东二太冯坚妮95岁寿辰,四世同堂享福寿

风信子的花
2026-04-04 22:29:56
美军伊战以来最落魄的24小时:“攻击鹰”和“疣猪”坠毁,“黑鹰”受伤

美军伊战以来最落魄的24小时:“攻击鹰”和“疣猪”坠毁,“黑鹰”受伤

红星新闻
2026-04-04 13:19:21
比“缺芯”还严重?90%市场被美日垄断,中国连山寨版都造不出!

比“缺芯”还严重?90%市场被美日垄断,中国连山寨版都造不出!

南权先生
2026-04-04 05:15:03
皇马输球元凶找到了!3 大核心集体摆烂,巨星亲手送球队翻车

皇马输球元凶找到了!3 大核心集体摆烂,巨星亲手送球队翻车

奶盖熊本熊
2026-04-05 03:21:05
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
拉锯战触发特殊赛制!王曼昱4-2力克日本削球名将 晋级世界杯四强

拉锯战触发特殊赛制!王曼昱4-2力克日本削球名将 晋级世界杯四强

小徐讲八卦
2026-04-05 06:04:32
2026-04-05 07:20:49
超能网 incentive-icons
超能网
优质创作,价值传播。
44571文章数 78505关注度
往期回顾 全部

数码要闻

好用的剃须刀哪款好?品牌十大排名不同需求精准适配,剃须更舒适

头条要闻

特朗普发布视频宣称“打死多名伊朗军事领导人”

头条要闻

特朗普发布视频宣称“打死多名伊朗军事领导人”

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

时尚
本地
房产
教育
公开课

别再穿大一码了!遮肉根本不是靠宽松

本地新闻

跟着歌声游安徽,听古村回响

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

教育要闻

三角形 垂心存在性 证明过程!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版