英伟达把显存压缩80%的技术藏了3年，游戏厂商终于能松口气|显卡|着色器|core

英伟达把显存压缩80%的技术藏了3年，游戏厂商终于能松口气

2026-04-12 08:33:44　来源: Ping值焦虑

北京举报

分享至

一块12GB显存的显卡跑8K材质包，以前是天方夜谭，现在英伟达说能行。

RTX Neural Texture Compression（神经纹理压缩，以下简称NTC）不是什么新发布的功能，但直到RTX 50系列上市，英伟达才把它从实验室拽进游戏引擎。核心卖点就一句：显存占用砍掉80%，画质损失肉眼难辨。

这相当于把一间仓库的货物塞进一个行李箱，还能保证东西一件不缺。对于被显存焦虑折磨了十年的PC玩家和开发者来说，这个比喻不算夸张。

压缩率96%的魔术：权重+隐变量替代像素

传统纹理压缩像是把高清照片转成JPEG——像素还在，只是换了个更省空间的格式。NTC的做法更激进：它直接扔掉像素，用神经网络的权重和隐变量（latent features）重建画面。

具体流程分三步。训练阶段，英伟达用大量游戏素材喂给一个微型神经网络，让它学习"这张纹理长什么样"。压缩阶段，原始纹理被拆解成两组数据：网络权重（描述重建规则）和隐变量（描述具体特征）。解压阶段，GPU的Tensor Core实时运算，把这两组数据还原成像素。

NTC支持三种运行模式，对应不同的性能与质量权衡。Inference on Load模式在关卡加载时一次性解压所有纹理，适合显存充裕但带宽紧张的场景；Inference on Sample模式在采样瞬间实时解压，显存占用最低但Tensor Core负载最高；Inference on Feedback模式则根据画面反馈动态调整，目前仅支持DirectX 12。

英伟达公布的基准测试显示，4K分辨率下NTC的压缩率可达96%，显存占用从传统BC7格式的273MB骤降至11MB。作为代价，每张纹理需要约1000次神经网络运算——这在RTX 40/50系列的Tensor Core上只是眨眼功夫。

实测数据：RTX 4090解压速度破百万纹理/秒

Tom's Hardware的测试覆盖了从RTX 3060到RTX 5090的多款显卡。测试场景是一个自定义渲染器，循环解压并显示大量4K纹理，测量帧时间和显存占用。

结果呈现出清晰的代际断层。RTX 4090在Inference on Sample模式下每秒可处理超过100万张纹理，帧时间稳定在0.8毫秒以内；同场景下RTX 3060跌至约15万张/秒，帧时间飙升至5毫秒以上，基本不可用。RTX 5080的表现略逊于4090，推测与驱动优化阶段有关。

更关键的是显存曲线的对比。传统BC7格式在加载100张4K纹理后显存占用接近27GB，而NTC模式仅需4.5GB——这还没算上80%压缩率带来的带宽节省。对于8GB显存的"甜品卡"用户来说，这意味着终于能触碰以前想都不敢想的材质包。

画质方面，NTC在多数场景下与未压缩纹理的差异小于1%的像素误差。但在高频细节区域（如金属网格、远距离植被），神经网络重建偶尔会出现轻微模糊。英伟达提供了质量等级调节，开发者可以在压缩率和保真度之间手动权衡。

开发者视角：为什么游戏厂商迟迟不跟进

Alexey Panteleev是英伟达负责NTC的杰出开发技术工程师。他在技术分享中提到了一个关键障碍：内容生产管线的惯性。

「游戏工作室的素材库动辄数十万张纹理，全部重新压缩需要改写整个资源流水线。」Panteleev的原话是，NTC的训练和压缩工具链已经成熟，但集成到Unreal Engine或Unity的官方插件直到2024年底才发布。中小型团队没有精力维护两套管线，这是 adoption 缓慢的主因。

另一个隐性成本是硬件门槛。NTC的实时解压依赖Tensor Core，这意味着GTX 10系列和RTX 20系列（除RTX 2060 Super及以上）被排除在外。对于需要兼顾主机和PC的多平台游戏，支持NTC等于要维护第三套素材版本。

Panteleev的回应很直接：「我们优先考虑的是让技术先跑起来，而不是强迫所有人立刻迁移。」英伟达目前的策略是与几家头部工作室深度合作，在3A大作中验证管线可行性，再逐步向中小开发者开放工具。

神经渲染的拼图：NTC只是第一块

把NTC放在更大的技术图景里看，它属于英伟达力推的"神经渲染"（Neural Rendering）范式。这个范式的核心思想是：用可训练的小型神经网络替代传统着色器中的固定算法。

Cooperative Vectors是硬件层面的关键支撑。这项RTX 50系列首发的新特性，让着色器程序能直接调用Tensor Core进行矩阵运算，而不需要昂贵的数据搬运。NTC的实时性能很大程度上依赖这一架构优化——在RTX 40系列上，同样的解压任务需要更多通用计算资源。

英伟达的路线图显示，神经渲染的下一站是神经辐射场（NeRF）的实时化，以及用AI生成间接光照的路径追踪替代方案。这些技术共享同一套基础设施：Tensor Core加速、着色器内嵌神经网络、压缩后的轻量表示。

一个可能的未来场景是：游戏安装包体积因为NTC缩小60%，8K纹理成为默认配置，而玩家的显卡只需要现在一半的显存。作为交换，GPU的AI算力占比持续提升，传统CUDA Core的角色逐渐边缘化。

这个未来有多近？Panteleev没有给出具体时间表，但提到「2025年会有更多公开演示」。考虑到DLSS从发布到成为行业标配用了约四年，NTC的渗透速度可能类似——前提是主机厂商愿意跟进，而索尼和微软目前对此保持沉默。

当一张8GB显存的显卡能流畅运行带光追的4K游戏时，你会选择升级新卡，还是让老卡再撑一代？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.