网易首页 > 网易号 > 正文 申请入驻

NVIDIA DGX Spark实现本地千亿级参数模型推理

0
分享至

前几天,我们在开箱NVIDIA DGX Spark的文章中给出了一个论断,在如今大模型爆发的时代,每个人都应该拥有一台属于自己的AI超算。



从工程实践角度出发,云端算力虽然强大,但其短板同样明显。

具体而言,首先是网络问题。由于云端高度依赖网络传输,在交互过程中,如果有网络时延,最终将影响整体效率;接下来是数据问题,无论处理的是企业数据、个人隐私,还是尚未公开的业务素材,合规性和安全成本。紧接着是经济账,云端算力按时计费的模式或导致用户不断消耗资源,尤其是用户高频次使用模型时,难以保持稳定。

所以,对于NVIDIA DGX Spark这类桌面级超算而言,把算力与数据都留在身边,让开发与验证在本地形成闭环,往往才是效率、合规与成本三者的更优解。

硬件提供了强大的算力基础,而系统则赋予了这台机器真正的灵魂。

NVIDIA为NVIDIA DGX Spark定制了DGX OS,一款基于Ubuntu深度优化的系统。桌面预装的DGX Spark Resources类似工具箱,把NVIDIA面向不同场景的能力集中提供——从大模型推理到多模态训练,从代码生成到数据科学,都能通过对应的NIM微服务快速启用,真正做到了开箱即用





对用户来说,直接的体验就是少走配置路,软硬一体的交付方式,可以让用户把注意力放在生产力上。

我们直接在DGX Spark Resources中选择了Isaac Sim,并在本地部署运行了这款基于NVIDIA Omniverse的机器人仿真平台,整体部署过程非常顺滑,仿真交互与场景加载展现出了极高的流畅度。Isaac Sim对硬件的要求较高且特殊。不仅需要Tensor Core支撑AI相关推理,也需要RT Core支撑光线追踪渲染;同时,物理仿真/解算也依赖其GPU计算能力(CUDA/PhysX路径)。



NVIDIA DGX Spark的流畅表现,验证了其高性能推理引擎的性能,更体现了系统层对“计算-图形-物理”混合模态负载的深度优化。这一软硬耦合的极致调教,也正是其实现真正“开箱即用”的坚实底座。

统一内存+片上协同 将“4路32B”本地推理拉入“稳态区间”

开箱即用解决的是部署门槛,能否在日常高频任务中提供稳定、可预测的吞吐与延迟,还需要通过实测给出答案。

为了测试NVIDIA DGX Spark在更贴近日常的常规应用场景表现,我们首先选择了当前开源社区活跃度极高的主流中等参数模型Qwen3-32B(320亿参数)。

在本地单一模型推理测试中,NVIDIA DGX Spark整次推理任务的总耗时为约60.97秒。其中,模型加载时长约3秒,这意味着在常驻模型或长时间运行场景下,启动的开销对整体体验影响极小。

在生成阶段,NVIDIA DGX Spark生成520token,耗时约60.69秒,对应的实际生成速率为8.57tokens/s。这一数值意味着在本地部署的中等参数规模(32B)模型下,DGX Spark的推理性能已经进入“稳态区间”,不会因短时波动而出现明显抖动。

从体验层面来看,8.57token/s的推理速度恰好处在“人类阅读与交互的舒适区”。无论是代码补全,还是实时对话式交互,这一速度都完全可用,交互延迟不会构成明显干扰。



在评估一台桌面级AI超算的真实能力时,单路推理的测试并不足完全说明问题,更关键的是其在多任务并行条件下的表现。毕竟,在实际工作中,一台本地超算往往同时承担多项任务。

于是,在NVIDIA DGX Spark上,我们进行了4个Qwen3-32B模型的本地并发推理测试。结果显示:模型平均加载时长约5.7秒;提示词阶段单路平均处理时长0.2775秒,对应约60.1tokens/s的平均处理速率;在生成阶段,平均生成时长约62.6秒,生成速率平均稳定在7.5tokens/s。



数据上看,在4个Qwen3-32B模型持续生成文本的条件下,各项指标没有出现明显波动,整体推理过程节奏平稳,这也证明了NVIDIA DGX Spark在中等模型的本地并行推理场景中,能够提供稳定、持续且高度可预测的性能输出。

这一结果首先得益于其128GB LPDDR5x统一内存架构。在4并发场景中,32B参数规模模型的权重、上下文缓存与中间数据均可完整“常驻”于同一物理内存池,避免了多实例运行时常见的显存切分和数据搬运问题。配合256-bit接口与273GB/s的内存带宽,系统能够在多路生成同时进行时,持续向GPU提供稳定的数据吞吐,这是保障生成速率的关键基础。

另一方面,GB10 Grace Blackwell Superchip(后文简称“GB10”)的片上协同设计放大了并发优势。20核的Grace CPU负责提示词预处理、请求调度与系统协同,而Blackwell架构GPU则专注于大规模矩阵计算。两者通过NVLink-C2C建立高带宽、低时延互连,使多路请求在进入GPU推理阶段时的数据交付成本显著降低,从而避免“CPU–GPU”数据交付在并发条件下成为瓶颈,继而让提示词响应能够维持稳定而高效的处理节奏。

生成阶段的稳定表现,也体现出第五代Tensor Core在并发推理中的多流、多批次计算中保持的高效算子执行密度。GPU能在同时处理多路推理负载时,算子执行与内存访问保持良好平衡,使性能曲线呈现出平滑的线性分布。

原生推理加速 让NVIDIA DGX Spark跑起千亿参数模型

32B的模型并不是“终点”。在真实应用中,随着模型逐步向更长上下文、更强推理能力演进,开发者同样关心的,是一台桌面级AI超算在更大参数规模下是否依然具备可用性与工程价值。

所以,我们加测了一个项目,将测试负载提升到了千亿参数级别,利用120B(1200亿)参数的Gpt-oss进一步检验DGX Spark在大模型本地化推理场景中的能力边界。



从整体测试结果上看,模型加载时长为12秒,即便面对千亿以上参数规模,启动开销依旧维持在极低水平,这使得大模型以常驻方式运行成为现实可行的选择。提示词输入74token,处理耗时32.06毫秒,这一阶段几乎不构成可感知的延迟。

真正拉开差距的,是生成阶段。本次测试共生成165token,耗时约4.66秒,对应的实际生成速率达到35.41tokens/s。对于一款在本地运行的120B级模型而言,这已经不只是“可用”,而是足以支撑连续对话、复杂推理乃至交互式应用的实时响应。

整体来看,测试的结果不仅意味着DGX Spark能“装下”千亿级的模型,更能够在实际推理过程中提供高频、低延迟的输出能力。如果放在传统工作站上,这样的效果几乎难以实现。

传统工作站往往依赖系统内存进行“显存交换”,模型参数部分驻留在GPU显存,另一部分滞留在CPU内存中,推理过程中通过PCIe总线不断搬运数据。这种模式下,加载时间与推理延迟都会被显著放大。

而DGX Spark得益于其128GB的统一内存,可以将整个模型一次性完整加载进同一可寻址的内存空间,不需要任何形式的显存交换。这一点在两个关键指标上被明显放大——加载时间和推理速度

值得注意的是,在不同参数规模的测试中,出现了颇具“反直觉”意味的现象。120B参数gpt-oss的推理速度为35tokens/s,显著快于32B参数Qwen3的8.57tokens/s。

一般而言,模型参数规模越大,推理速度理应越慢。但这一结果,恰恰体现出Blackwell架构与GB10芯片的优势所在。

一方面,是对FP4(4-bit Floating Point)的原生支持与加速gpt-oss-120b使用MXFP4量化(主要针对MoE权重),而Blackwell架构的Tensor Core原生支持FP4数据格式的计算指令与执行路径,使该精度推理在硬件层面可获得更高的执行吞吐,从而带来显著的推理加速效果。

另一方面,是MoE(混合专家)架构带来的潜在加成。在单次推理过程中,真正被激活并参与计算的参数量,事实上低于理论参数。当FP4精度下的高吞吐计算路径与MoE的“按需激活”机制叠加时,参数规模与实际计算负载之间的解耦则被进一步放大。

这一原因,或许也预示着,硬件的迭代升级,需要与模型和推理范式同步演进,才能真正转化为可感知的性能跃迁。

而事实上,DGX Spark的意义之一,也正在于此。其实质性地打破了两个长期存在的经验桎梏。——一是“千亿参数模型必须上云”二是“本地运行大规模参数模型须依赖多卡集群”。

跨越“基础生图”到“8K负载” NVIDIA DGX Spark“零降频”

当AI创作走向真实的生产应用场景,核心问题就已经不再是模型能否跑起来,而是不同模态的模型,能否被连续、稳定地串联进同一条“生产管线”。

文本、图像、视频、3D,跨越每个模态,算力形态、显存占用与带宽压力都会发生质变。所以,我们在NVIDIA DGX Spark上搭建并运行完整的多模态创作蓝图(BluePrint)——以FLUX.1为起点完成文本到1080p图像生成,经由超分模型将分辨率暴力拉升至8K,随后接入阿里通义Wan 2.1实现图生视频,再利用腾讯混元3D模型完成二维到三维的维度升级,最终落地Blender进行工业级精修。

从FLUX文生图开始,我们选择在ComfyUI中直接加载标准的FLUX工作流,通过模型加载、提示词输入、分辨率设定、采样器选择、解码与输出的步骤,完整复现普通创作者最常见的生图路径。

运行工作流,生成在1080P分辨率图片时,从设备内存占用看,NVIDIA DGX Spark的显存占用大约维持在一半左右,负载曲线平稳,没有明显的峰值抖动。单张图片生成时间为1分27秒。在FLUX当前的模型体量和计算复杂度下,这已经是相当“顺滑”的体验,更重要的是,全程没有出现任何需要人为干预的异常状态。



真正的考验来自8K分辨率。

8K(7680×4320)并不是简单的分辨率翻倍,其像素规模会直接跃升至4K分辨率的四倍,对显存能力、带宽,以及硬件能力提出了同步、全面的压力。

在不改变工作流结构的前提下,直接切换至8K超分工作流后,NVIDIA DGX Spark在1分30秒就完成了8K图像的生成。在放大查看细节时可以清晰看到,无论是人物皮肤纹理,还是复杂材质的层次过渡,都没有出现糊边、断层或噪点堆积。



从架构层面回看,NVIDIA DGX Spark在8K生图上取得优质表现的原因,在于其大容量、高带宽的LPDDR5X统一内存,使得Diffusion在超大分辨率下产生的中间特征图得以完整驻留。

同时,其GB10芯片的Blackwell架构针对Diffusion与Transformer路径有深度优化的Transformer Engine,通过混合精度与算子级调度优化,使Attention在超大分辨率场景下的实际性能曲线显著趋于平滑,避免了传统架构中随分辨率提升而出现的非线性性能坍塌。

时空“双重奏” NVIDIA DGX Spark让视频不崩、3D不破

完成图片生成后,下一步就是让画面起来。

在这一阶段,利用阿里通义万相Wan2.2图生视频模型,直接将前一阶段生成的8K静态图作为输入,验证其在高信息密度素材下的时序生成稳定性。整体工作流依然保持常规配置,并将输出分辨率设定为1280×720,以模拟现实创作中较为常见的视频生成需求。

与静态图像不同,这一阶段的计算模式已经从单帧扩散,转变为多帧时序Transformer与Diffusion叠加的混合负载。在实测过程中可以看到,NVIDIA DGX Spark的显存占用始终维持在高度可控的区间内,没有出现视频生成模型中常见的“前期平稳、后期突刺”的负载特征。最终完整生成耗时8分40秒。



从结果来看,生成视频的动作衔接自然,镜头运动连续平滑,没有明显的帧间结构性失真。这种稳定性,取决于NVIDIA DGX Spark在长时间连续推理过程中的带宽一致性与算子调度能力。



从架构视角看,由于Wan2.2作为引入了复杂时空注意力机制(Spatio-Temporal Attention)的混合负载,本质上是对显存热稳定性与持续带宽输出能力要求较高。在接近9分钟的持续高负载运行中,始终保持“零降频”的状态,同时显存占用曲线平滑。这也意味着NVIDIA DGX Spark在处理长序列KV Cache时具备充足的热设计功耗(TDP)冗余度。

这一结果也进一步印证,NVIDIA DGX Spark能够成功将算力转化为生产环境下可持续输出的有效算力,从而避免因硬件热节流(Thermal Throttling)导致的帧间时序一致性崩塌——这正是多模态任务中容易被忽视但却“致命”的稳定性底线。

如果说图生视频是负载升级,那2D图像3D化则是维度跃迁。

这一阶段,利用NVIDIA DGX Spark运行腾讯混元3D 2.1模型,直接将已有图片3D化。实测结果显示,NVIDIA DGX Spark用时53秒完成完整的图片3D化生成流程

对生成的3D化模型进行预览时,从结构完整性来看,3D模型没有出现大面积破面或明显的比例失衡,整体几何关系保持稳定。



从推理特性上看,这类图像3D化呈现出不同的负载形态。计算密度较高,但持续时间相对较短,这对GPU的瞬时吞吐能力、内存访问效率,以及算子调度响应速度都非常敏感。

从工程角度看,3D建模本质上是围绕瞬时算力释放能力与内存系统协同效率展开的“闪电战”。模型需要在多视角Diffusion推理与稀疏几何重建(Sparse Geometry Reconstruction)等不同计算阶段之间频繁切换。而NVIDIA DGX Spark能在53秒内完成该过程,则在于其本身高带宽内存支持下,对算子调度、缓存命中与计算并行性的整体优化,有效降低了阶段切换带来的隐性开销。

这种“干脆”的体验,意味着NVIDIA DGX Spark不仅擅长承载长序列、高吞吐的持续负载,在面对计算密度极高、对调度与内存系统高度敏感的“脉冲式推理任务”时,其执行效率同样能够保持在高度可预测的工业级水准。

在本地推理测试中,NVIDIADGX Spark的128GB统一内存与Blackwell架构FP4加速的“组合技”之下,让开发者可以在桌面尺度上,以35tokens/s的速度流畅运行千亿级别的开源模型。这种体验,曾经只存在于数据中心环境。

这背后,或许也是NVIDIA在Post-Training时代将数据中心级推理能力,系统性地延伸到个人计算平台之上的深刻布局。

从多模态创作蓝图(BluePrint)结果上看,NVIDIA DGX Spark的核心优势,在于多分级的BluePrint能够在一台桌面级设备上稳定运行。其GB10的Blackwell架构针对Diffusion与Transformer的硬件级加速,也使显存容量、算力密度与调度效率达成了良好平衡。这对于AI艺术家、游戏开发者、视频创作者、3D设计师等从业者而言,意味着他们可以在不同模态间频繁切换,无需分心管理算力。

NVIDIA DGX Spark的发售也预示着“云端算力本地化”的最后一块拼图基本落定。通过高能效比与统一内存体系,有效打破了以往传统工作站显存碎片化导致的“算力孤岛”,将分散在集群中的异构计算负载无缝折叠到一台桌面设备中,实现了全链路推理对云端I/O延迟的独立性。这一优势,也为创作者带来了真正的“计算主权”。

从生产力视角审视,NVIDIA DGX Spark的推出,也意味着AI生产力从“租赁制”向“内生化”迁移的拐点。

一方面,其彻底消弭了云端不可避免的网络抖动与TTFT(首字延迟),让交互进入了真正的“零感”时代。NVIDIA DGX Spark毫秒级的响应,决定了AI还能是与用户思维同频、甚至预判意图的实时Copilot。

更关键的变革在于“Agent经济学”的逻辑重构。‌Agentic AI的演进之下,由无数Agent组成的自主循环(Loop),需要在智能系统内部进行“推理-反思-搜索-修正”的上百次迭代。在云端上,这是价格昂贵的Token;而在DGX Spark上,这是固定成本下的强大算力。128GB的统一内存为超长Context Window(上下文窗口)和庞大的本地知识库(RAG)提供了物理载体,让开发者可以零边际成本地跑通复杂的思维链(CoT),在本地建立起自动化的生产闭环。

另外,真正的专业壁垒往往隐藏在私密数据中,云端模型永远通用,而个人超算允许用户在本地利用LoRA等技术对千亿级参数模型进行深度微调。用户可以让模型完全适应自有的代码规范、画风、文法,打造真正懂人、且完全忠诚于个人的电子替身

或许,NVIDIA DGX Spark的推出,也是一种新的生产资料形态的转化,其让个人用户首次在本地掌握接近数据中心级别的AI能力,能把“想法”稳定、高效地转化为“可交付成果”。

而在这个能够本地掌握AI生产力的拐点之上,每个人,都应该拥有一台属于自己的AI超算。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
那年我接嫂子回家,路过苞米地她突然对我说:你家香火得靠你了

那年我接嫂子回家,路过苞米地她突然对我说:你家香火得靠你了

云端小院
2026-01-21 10:36:14
村干部为啥扎堆辞职?不是不想干,是真扛不住了!

村干部为啥扎堆辞职?不是不想干,是真扛不住了!

复转这些年
2026-01-21 23:12:39
老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老范谈史
2026-01-05 21:19:06
突发!曼联突袭AC米兰!前切尔西旧将回归稳了?

突发!曼联突袭AC米兰!前切尔西旧将回归稳了?

奶盖熊本熊
2026-01-22 05:49:41
14岁张某某死亡,龙安区联合工作组通报:继母李某某有重大作案嫌疑,已被控制

14岁张某某死亡,龙安区联合工作组通报:继母李某某有重大作案嫌疑,已被控制

新京报政事儿
2026-01-21 22:13:01
罗永浩所持锤子科技713万元股权被冻结

罗永浩所持锤子科技713万元股权被冻结

中新经纬
2026-01-22 10:22:03
新一轮雨雪即将抵达武汉

新一轮雨雪即将抵达武汉

鲁中晨报
2026-01-21 15:11:45
我们聊聊一个新群体——零负债人群。

我们聊聊一个新群体——零负债人群。

流苏晚晴
2026-01-16 17:57:29
田朴珺可能到最后都没想明白,王石只是老了,不是傻了。

田朴珺可能到最后都没想明白,王石只是老了,不是傻了。

随笔视频o
2026-01-21 16:19:12
贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

轩逸阿II
2026-01-20 07:54:29
55年大授衔,国军班长出身的他自报大校,罗荣桓称你想多了

55年大授衔,国军班长出身的他自报大校,罗荣桓称你想多了

万年历史老号
2026-01-19 03:30:30
回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

干史人
2026-01-08 22:47:00
马斯克发文送别,xAI华人联创、Grok主架构师杨格因病退出

马斯克发文送别,xAI华人联创、Grok主架构师杨格因病退出

智东西
2026-01-21 18:38:26
湖南第一庸官,好面子导致政府负债1000亿,为政绩骗刘强东100亿

湖南第一庸官,好面子导致政府负债1000亿,为政绩骗刘强东100亿

芊芊子吟
2026-01-15 10:20:03
河南拟调整分时电价

河南拟调整分时电价

大象新闻
2026-01-21 11:33:03
李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

叨唠
2026-01-22 05:13:32
莲花控股向嫣然天使儿童医院捐赠52万元

莲花控股向嫣然天使儿童医院捐赠52万元

界面新闻
2026-01-22 09:21:52
我结扎10年,42岁妻子突然怀孕,我没闹,亲子鉴定结果让我懵了

我结扎10年,42岁妻子突然怀孕,我没闹,亲子鉴定结果让我懵了

一口娱乐
2026-01-22 00:08:52
欧冠积分榜:阿森纳、拜仁已提前出线,皇马、利物浦同积15分

欧冠积分榜:阿森纳、拜仁已提前出线,皇马、利物浦同积15分

懂球帝
2026-01-22 06:17:20
王菲还是太体面,一招打脸陈光标,谁是真善谁是伪善再也藏不住了

王菲还是太体面,一招打脸陈光标,谁是真善谁是伪善再也藏不住了

木子默
2026-01-21 17:29:07
2026-01-22 11:12:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15603文章数 49686关注度
往期回顾 全部

科技要闻

日系彩电时代“彻底落幕”

头条要闻

张建龙被查 曾回应"三北防护林挡风是否导致雾霾加重"

头条要闻

张建龙被查 曾回应"三北防护林挡风是否导致雾霾加重"

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

股东资格确权存纠纷 前总裁状告申通快递

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

亲子
本地
时尚
教育
公开课

亲子要闻

我没挨收拾给他气够呛

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

缔造仙女梦的人,去了天堂继续缝制星光✨

教育要闻

泪目!云南4年级女孩穿着单衣上学,老师暖心出手,爱心传递

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版