如果你折腾过本地AI,一定听过这条铁律:显存越大越好,独立显卡是终极梦想。这话不算错——只要模型塞得进去,快显存的显卡确实能啃下不少任务。过去几年,想本地跑更大的模型,买张更大显存的卡就行。
这条路近年悄悄撞墙了。消费级显存停滞在32GB,RTX 5090封顶于此; meanwhile,值得跑的开源模型已经膨胀到数千亿参数。一张32GB的卡,如今连多数真正改变游戏规则的大模型都加载不了。但这类模型并非完全无解——本地AI的有趣进展已经转向另一类机器:统一内存架构跑混合专家模型(MoE)。这套组合让一台相对慢速的机器,能稳稳运行5090完全碰不到的大模型。
![]()
统一内存机器并非全是优点,多数情况下带宽平庸,长输入的提示词处理也更慢。但具体到"跑你能搞到的最大模型"这件事,它表现极好,消费级显卡世界没有能打的。
模型生成输出分两个阶段。第一阶段叫预填充(prefill),模型读取你的提示词,此时计算密集,因为提示词可以并行处理——本质上是对输入做大规模矩阵运算,而非逐token生成。但读取回复的token属于解码阶段,这是内存带宽密集型任务。每个token都要从内存重新读取模型权重,所以生成速度大致等于带宽除以每个token要读取的字节数。每个token读取的权重越少,生成越快。
这个拆分对评估显存需求极其关键:不只是"多少"的问题,还有"多快"。容量用来装下模型,但快速生成需要带宽。独立显卡带宽快,但容量卡得很死;而超过32GB内存的统一内存机器,并不罕见。
统一内存用速度换空间。原理是:CPU和GPU共享一大块连贯内存池,无需跨总线来回拷贝,而非在GPU上焊一小块极速内存。目前三家主流方案,效果大致相近。苹果Silicon走得最远,M3 Ultra Mac Studio做到512GB容量、约800 GB/s带宽。英伟达的GB10芯片——用在DGX Spark和联想ThinkStation PGX里——提供
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.