英伟达把GPU做到750平方毫米后，DLSS成了唯一出路|显卡|gpu|amd|英特尔|知名企业

英伟达把GPU做到750平方毫米后，DLSS成了唯一出路

2026-03-28 10:52:22　来源: 爬虫饲养员

北京举报

分享至

一块硅片最多能切出858平方毫米的芯片，而RTX 5090的Blackwell芯片已经做到了750平方毫米。这个差距只剩不到13%，相当于在一张A4纸的边缘再塞两行字的空间。

过去30年，显卡性能提升靠三件套：塞更多晶体管、拉高频率、堆功耗。这套打法现在碰到了物理天花板。旗舰显卡的功耗已经逼近家用电路的承载极限，芯片面积也触到了光刻机的"掩模版极限"（reticle limit）。英伟达不能再靠"更大更热"来交作业了，DLSS（深度学习超级采样）从可选功能变成了基础设施——用450瓦的实际功耗，模拟出1000瓦传统渲染才能跑出的画面。

这不是营销话术。技术层面已经发生倒置：神经渲染承担的工作量，已经超过了传统光栅化。换句话说，AI补帧和超分正在干更多的活，而传统管线反而成了辅助。

芯片大到快塞不下了

半导体行业有个冷知识：光刻机投影镜头的有效成像区域是固定的，这个边界就叫掩模版极限。目前最先进的EUV光刻机，单次曝光最大只能覆盖858平方毫米的矩形区域。

RTX 5090的Blackwell芯片面积是750平方毫米，已经用掉了这个上限的87%。英伟达不是不想做得更大，是物理上不允许。再往上，要么冒险用拼接技术把两块芯片缝在一起，要么接受良率暴跌带来的成本灾难。

功耗端的压力同样窒息。RTX 4090的TDP（热设计功耗）是450W，5090据传维持在相近水平，但这已经是单根12VHPWR供电线的极限。普通美国家庭的120V电路，15安培断路器能承载的最大功率是1800瓦，一台旗舰PC双烤就能逼近红线。

更麻烦的是散热。450瓦的热量需要越来越夸张的散热模组，三槽位、四槽位显卡正在成为常态。机箱厂商被迫重新设计风道，电源厂商在推ATX 3.1新标准，这一切都是在给物理极限擦屁股。

英伟达的解法不是硬刚这些限制，而是让AI绕过它们。

DLSS从"甜点"变成"主食"

2019年DLSS刚上线时，玩家社区的评价两极分化。画面糊、延迟高、特定游戏才支持，很多人直接关掉。当时的共识是：能跑原生分辨率就别开DLSS，那是给中端卡救急用的。

五年后的今天，这个逻辑被彻底翻转。DLSS 4带来了多帧生成（Multi Frame Generation），用AI在两帧之间插入三帧，把实际渲染负载压到原来的四分之一。配合Transformer模型的新超分算法，画面质量在某些场景下已经反超原生渲染。

黄仁勋在CES 2025的演讲里打了个比方：「我们不是在渲染像素，而是在计算像素。」这句话的潜台词是，传统图形管线的瓶颈被绕开了。光栅化、着色、后处理这些步骤依然存在，但越来越多的视觉负载被转移到神经网络。

数据层面更直观。Digital Foundry的测试显示，在《赛博朋克2077》全光追模式下，DLSS 4多帧生成让RTX 5090的帧率从30fps飙升到240fps，而实际GPU功耗没有同比例上涨。能效比的提升不是线性的，是指数级的。

这种架构转变的代价是生态锁定。DLSS需要英伟达的Tensor Core和专用AI单元，AMD和Intel的竞品方案（FSR、XeSS）在算法精度和硬件协同上仍有差距。玩家嘴上喊着要开放标准，身体却很诚实地为DLSS买单。

行业被迫接受"作弊式"进步

硬件媒体的评测口径正在微妙转向。过去评价显卡，原生分辨率性能是硬指标；现在越来越多的评测把"DLSS质量"列为默认测试条件。这种转变不是编辑部的偏好，是现实压力下的妥协——不开DLSS，新游戏在4K光追下根本没法玩。

《黑神话：悟空》的PC版就是一个典型案例。游科官方推荐的4K光追配置，明确标注"需开启DLSS/FSR"。纯原生渲染在这个世代的3A游戏里，已经成了一种实验室条件下的存在。

这种变化引发了老玩家的抵触。Reddit硬件板块的常见抱怨是："我花1600美元买显卡，不是为了看AI猜出来的画面。"但抱怨归抱怨，销量数据不讲情怀。RTX 40系和50系的销售占比里，支持DLSS 3/4的高端型号始终占大头。

英伟达的财报侧面印证了这种依赖。游戏业务营收在2024财年Q3同比增长15%，而同期全球PC出货量基本持平。增长从哪里来？客单价提升，而客单价提升的底气正是DLSS带来的代际性能跃迁——哪怕晶体管数量的增长已经放缓。

竞争对手的跟进显得被动。AMD在RDNA 4架构里强化了AI单元，FSR 4终于用上了机器学习超分，但发布时间比DLSS晚了整整六年。Intel的XeSS 2追加了帧生成，可Arc显卡的市场存在感太弱，难以形成生态压力。

神经渲染的占比只会越来越高，这是物理规律决定的，不是商业策略。

开发者端的习惯重塑

游戏引擎的架构也在跟着变。虚幻引擎5.4的Nanite虚拟几何体，原本设计目标是减少LOD（细节层级）的手工管理，现在却和DLSS形成了深度耦合。Nanite生成的海量多边形，靠传统光栅化根本跑不动，必须搭配超分技术才能实用化。

这种耦合带来了新的开发范式。美术团队开始以"DLSS质量模式"为基准调整资产，而不是原生分辨率。一些工作室的内部管线，甚至取消了纯原生画质的测试环节——没人会这么玩，测了也没用。

独立开发者的处境更微妙。小团队没有资源做多平台优化，往往直接采用引擎默认的DLSS集成。结果是游戏在N卡上流畅运行，在A卡和核显上体验断崖式下跌。这种"N卡优先"的隐性偏见，正在重塑PC游戏的硬件门槛。

Steam硬件调查的数据值得玩味。2024年底，RTX 30系及以上显卡占比超过60%，而支持DLSS 3的40系占比已经突破25%。这不是自然换代的速度，是技术代差倒逼的升级潮。玩家可以骂DLSS是"假分辨率"，但钱包投票很诚实。

云游戏和串流服务的兴起，进一步强化了这种趋势。GeForce Now的顶级档位明确宣传"RTX 4080级性能，DLSS 3加持"。云端渲染的边际成本极高，任何能降负载的技术都是刚需。DLSS让英伟达在云服务市场的成本结构，比竞争对手健康得多。

物理极限之后的路线图

芯片制程的演进也在佐证这个判断。台积电N3E工艺相比N5，晶体管密度提升约70%，但功耗降低的幅度远小于此。先进制程的"免费午餐"时代结束了，每代提升都要付出指数级的研发和流片成本。

英伟达的应对是chiplet（芯粒）架构。Blackwell已经尝试了部分模块化设计，但GPU的并行特性让芯粒分割极其困难——延迟敏感的任务跨芯片通信，性能损失难以承受。DLSS在这里又扮演了缓冲角色：帧生成和超分的计算可以相对独立，降低了对单片巨大芯片的依赖。

更激进的路线是神经辐射场（NeRF）和3D高斯溅射，完全绕过传统多边形管线。这些技术目前还在实验室阶段，但英伟达研究院的论文发布频率说明，他们把宝押在了"渲染即推理"的未来。DLSS是这条路上的第一个大规模商业化站点。

玩家社区的分裂会持续。硬核用户追求"原生纯净"，实用主义用户拥抱"能玩就行"，两者的鸿沟在技术迭代中只会加深。但硬件销售的数字不会说谎——当750平方毫米的芯片面积和450瓦功耗成为紧约束，DLSS式的"作弊"就不是选项，而是唯一解。

下一代主机的策略也值得关注。PS5 Pro的PSSR（PlayStation Spectral Super Resolution）明确对标DLSS，微软的次世代Xbox传闻深度集成AI超分。主机厂商的跟进，意味着神经渲染从PC小众技术变成了全平台基础设施。英伟达的先发优势窗口正在收窄，但生态惯性至少能维持两到三个产品周期。

回到那个750平方毫米的数字。它像一堵墙，把"更大即更强"的旧时代挡在了外面。墙后面是什么？英伟达的赌注是：不需要更大的芯片，需要更聪明的算法。这个赌局已经开了五年，筹码是每一代显卡的销量，对手是物理定律本身。

当一块GPU的芯片面积利用率超过87%，当家用电路的功率余量只剩个位数百分比，"暴力堆料"的叙事就走到了尽头。DLSS不是英伟达想不想推的问题，是他们除此之外别无选择。玩家可以讨厌AI生成的像素，但讨厌本身不会改变硅片和电学的基本约束。

下一个问题是：当AMD和Intel的竞品AI技术追赶到可用水平，英伟达的护城河还能维持多久？或者说，当所有厂商都学会"作弊"，这场性能竞赛的新规则会是什么？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.