英伟达芯片快顶到天花板，DLSS 4用450瓦骗过你的眼睛|显卡|gpu|amd|dlss

英伟达芯片快顶到天花板，DLSS 4用450瓦骗过你的眼睛

2026-03-28 10:52:30　来源: 爬虫饲养员

北京举报

分享至

750平方毫米。这是RTX 5090 Blackwell芯片的面积，距离硅晶圆物理极限858平方毫米只剩不到13%的空间。过去30年，GPU厂商靠堆晶体管、拉频率、加功耗就能让性能翻倍，这条铁律在2024年彻底失效。

当芯片大到快切不出来，英伟达选择让AI替你"脑补"画面。

DLSS（深度学习超级采样）4正在做一件听起来像作弊的事：用450瓦的实际功耗，模拟出1000瓦传统渲染才能达成的效果。这不是画质选项里的一个小开关，而是整个GPU架构的逃生通道——当物理极限撞上墙，神经网络成了唯一的出路。

光刻机的物理牢笼

芯片制造有个硬门槛叫"光罩极限"（reticle limit），指单颗芯片在硅晶圆上能占据的最大面积。858平方毫米就是这个数字，超过它，光刻机一次曝光根本拍不全。

RTX 5090的750平方毫米已经贴着红线跳舞。英伟达工程师再激进，也不可能把下一颗旗舰芯片做到900平方毫米——那相当于要求ASML的光刻机突破光学定律。台积电3纳米工艺再精进，晶体管密度提升也追不上游戏对算力的胃口。

功耗墙同样窒息。一块RTX 5090的TGP（总图形功耗）标称575瓦，实际峰值轻松破600。美国家庭标准电路是15安培、120伏，理论上限1800瓦，但安全负载通常按80%计算。这意味着两张旗舰卡并联就能让普通住宅的电路跳闸。数据中心更夸张，英伟达GB200整柜功耗突破100千瓦，机房散热系统的设计难度已经赶上小型核电站。

brute-force（暴力堆料）这条路，走到头了。

神经网络偷换工作量

DLSS 4的核心是多帧生成（Multi Frame Generation）。传统渲染管线里，GPU要实打实计算每一帧的每一个像素。DLSS 4的做法是：让GPU只渲染1/4甚至1/8的实际像素，剩下的交给AI模型"猜"出来。

这听起来像偷工减料，但英伟达的神经网络已经训练了足够多的游戏画面。它知道烟雾怎么扩散、水面怎么反光、角色头发在特定光照下该呈现什么纹理。最终输出到你4K显示器上的画面，有75%到87.5%的像素从未被传统管线真正计算过。

技术文档里有个冰冷的对比：同一场景下，原生4K渲染需要超过1000瓦的等效功耗才能达到DLSS 4质量模式下的流畅度。

更微妙的是工作重心的转移。2024年的高端游戏，神经网络处理的计算量首次超过了传统光栅化。这意味着你花钱买的GPU，大部分硅面积和功耗预算其实喂给了AI推理单元，而非过去那种"老老实实画三角形"的渲染管线。

AMD和Intel不是没看懂这个趋势。FSR（FidelityFX Super Resolution）和XeSS都在跟进超采样技术，但两者的神经网络规模只有DLSS的零头。英伟达从Turing架构开始布局的专用Tensor Core，现在成了护城河——竞争对手可以抄功能，抄不走八年的训练数据和硬件耦合度。

玩家手里的开关，架构里的承重墙

对普通用户来说，DLSS 4仍然是个可选设置。打开游戏，画质选项里勾上"帧生成"，帧数从60跳到120，风扇噪音小一截，显卡温度降十度。很多人以为这只是个"优化插件"。

英伟达的路线图暴露了真实意图。Blackwell架构的SM（流式多处理器）单元里，AI推理的吞吐量设计优先级已经高于传统着色器。下一代架构的泄露信息显示，Tensor Core的物理面积占比还在扩大。DLSS不是外挂，它是新地基。

这种依赖也带来了风险。DLSS 4的多帧生成需要游戏引擎深度配合，延迟控制、运动向量精度、UI元素的抗闪烁处理，任何一个环节掉链子，玩家看到的就是鬼影和撕裂。赛博朋克2077的早期版本里，快速转动视角时，DLSS生成的帧会把霓虹灯招牌拉成彩色面条。

更隐蔽的问题是审美同质化。当所有游戏都经过同一套神经网络过滤，画面风格会不会趋同？英伟达的AI模型有内置的"画质偏好"，它认为清晰的边缘、平滑的渐变、抑制过的噪点是"正确"的。独立游戏开发者精心设计的胶片颗粒感，可能被DLSS当成需要修复的瑕疵抹掉。

行业分叉口：跟还是不跟

主机厂商的处境最尴尬。PlayStation 5和Xbox Series X的定制AMD芯片没有Tensor Core级别的AI单元，它们的超采样方案FSR 3.1纯靠通用计算硬撑，效率和画质都差一截。下一代主机如果继续用AMD方案，可能在神经网络渲染时代彻底掉队。

苹果倒是另一条路。M系列芯片的神经网络引擎（Neural Engine）设计思路与英伟达截然不同——它追求每瓦性能而非绝对峰值，更适合移动设备的功耗约束。但Mac的游戏生态薄弱，这个架构优势暂时只能用在视频剪辑和机器学习领域。

最激进的赌注来自云游戏。Google Stadia的惨败证明，纯串流方案扛不住网络延迟。但如果在云端部署Blackwell级别的GPU，用DLSS 4把渲染负载压到传输带宽能承受的范围内，理论上可以让手机流畅运行4K光追3A大作。英伟达自己的GeForce Now已经在测试这个模式，只是订阅价格还没找到甜蜜点。

硬件评测媒体的评分标准也在被迫改写。过去对比显卡，跑分软件里关掉所有"作弊"功能是默认规则。现在如果禁用DLSS，RTX 5090的实际游戏表现可能不如上代旗舰——这不是性能倒退，是评测框架和真实使用场景脱节。TechPowerUp在2024年底的测试里，首次把"DLSS质量模式下的4K帧率"列为必测项目，引发评论区混战。

老玩家的抵触情绪真实存在。PC硬件社区里有种声音：用AI生成的帧不算"真帧"，和插帧（frame interpolation）一样是对竞技公平性的污染。CS2的职业选手至今拒绝任何超采样技术，哪怕这意味着帧数从400掉到200。对他们而言，输入延迟的每一毫秒都关乎胜负，而DLSS 4的多帧生成会引入额外的渲染队列延迟。

英伟达的回应是技术分层。DLSS 4的"性能模式"和"质量模式"延迟差异可达12毫秒，足够让电竞玩家用脚投票。但单机3A玩家很少感知到这个数字——他们更在意风扇噪音和电费账单。

德国硬件媒体ComputerBase做过测算：按欧洲2024年平均电价计算，一张每天运行4小时的RTX 5090，年度电费差距在DLSS开关之间可达180欧元。这差不多是一张中端显卡的价格。

当物理极限锁死芯片尺寸，当电路承载力逼近住宅安全阈值，DLSS 4成了英伟达维持"每代性能翻倍"营销承诺的唯一工具。它既不是魔法，也不是骗局，而是一场精心计算的替代——用算法效率兑换物理空间，用训练数据兑换晶体管数量。

下一代GPU发布会上的PPT会怎么写？也许不会再有"晶体管数量增长X%"的柱状图，取而代之的是"神经网络参数量"和"生成帧延迟优化"。玩家手里的显卡正在变成某种混合体：一半是传统图形处理器，一半是专用AI推理机。

那个在画质设置里默认勾选的DLSS选项，你上次手动关掉它是什么时候？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.