在去年的GTC 2025上,NVIDIA发布了一款迷你小主机,更确切点来说是桌面级AI超算:DGX Spark,它是CES 2025上Project DIGITS的具体实现。虽然这款产品发布得比较早,但是一直等到去年10月,这款产品才正式上市,并在近日来到我们的面前。当然,稍微迟了点也不全是坏事,毕竟在CES 2026上,NVIDIA推出了一系列首日可用的AI性能更新,可以为GeForce RTX、NVIDIA RTX PRO以及NVIDIA DGX Spark等桌面级Blackwell设备带来显著的效率升级。其中,如何有效运用第五代Tensor Cores支持的FP4精度更是这次更新的重点,我们会在下面具体测试。
![]()
规格说明![]()
![]()
![]()
![]()
![]()
DGX Spark的核心便是其NVIDIA GB10 Grace Blackwell超级芯片,它分成S-die和G-die,都基于台积电3nm制程工艺打造,并由先进的2.5D封装工艺合二为一。
![]()
NVIDIA GB10 Grace Blackwell超级芯片
![]()
2.5D封装
S-die包括CPU核心,以及内存控制器、视频输出等子系统,这部分是由联发科设计的。其CPU部分为20核Arm处理器,组成是10个Cortex-X925性能核加上10个Cortex-A725能效核。NVIDIA和联发科在内存子系统这块针对GPU内存流量做了大量的性能建模,保证其性能表现。
![]()
橙色部分是联发科IP核,绿色部分则是NVIDIA IP核
由NVIDIA负责的G-die,也就是GPU部分,它基于Blackwell架构打造,拥有6144个CUDA Core,当然,也少不了第5代Tensor Core和第4代RT Cores,以及视频编解码引擎。如果大伙对于GeForce RTX 50显卡很熟悉的话,我想6144这个数字应该不陌生——GeForce RTX 5070所用的GB205-300也是这个数。
CPU和GPU部分通过NVIDIA NVLink-C2C技术连接。C2C接口总带宽可高达600GB/s。
![]()
内存方面,DGX Spark配置了128GB LPDDR5x-4266统一内存,位宽为256-bit,带宽为273GB/s。这带宽固然跟GDDR7没法比,但128GB能放下的模型显然是更多的——先得想想会不会OOM,再考虑速度问题,您说是不是?
硬盘的话,DGX Spark用的是M.2 2242规格的PCIe 5.0 x4 SSD,容量有1TB和4TB可选,我们手上的这台是4TB的。老实说,光看这内存和硬盘的配置,我都能很清楚地感受到金钱的重量。
![]()
DGX Spark的接口都在背后。它一共有4个USB-C接口,靠近电源键那个是仅用于供电的,剩下3个USB-C则是全功能的,支持数据传输和DP输出,最高支持4K@120Hz。隔壁的则是HDMI 2.1a和10G RJ45电口。
![]()
剩下两个矩形接口是QSFP光口,连接着200G的ConnectX-7智能网卡,这些接口是给DGX Spark堆叠用的。附带一提,从GB10芯片到ConnectX-7之间的连接是PCIe 5.0 x8。
![]()
ConnectX-7智能网卡
![]()
使用PCIe 5.0高速连接
![]()
CES 2026媒体分享会上用于静态展示的两台DGX Spark
最后是功耗,DGX Spark的电源适配器是240W。GB10芯片本身的TDP就只是140W,剩下的100W会分给其他组件比如ConnectX-7、SSD等使用。不过大伙也知道一般不会真的用尽240W就是了,总会留点余量的。
![]()
外观设计
NVIDIA在DGX Spark上面的采取的策略跟显卡是类似的,他们自家会先出一款Founders Edition,然后OEM合作伙伴们又会基于GB10推出各自品牌的系统,比如微星的EdgeXpert、联想的ThinkStation PGX等。而我们收到的这款是本家的DGX Spark Founders Edition,相信大家在上面就已经知道了。
![]()
![]()
![]()
![]()
正如GeForce Founders Edition的独特外观一样,DGX Spark Founders Edition的造型也是非常具有辨识度,单就这个金色的全金属外壳就让人觉得它不简单。它的尺寸为150 x 150 x 50.5mm,介乎于Mac mini(M4和M4 Pro)和Mac Studio(M4 Max)之间,再考虑到它的具体规格,可以说就算是外置电源,NVIDIA也已经把DGX Spark做的足够小巧了。
![]()
我要重点说一下DGX Spark前后的面板:它是实打实的金属材质,是硬的,但看起来又像海绵一样,布满不规则的孔洞,为系统提供气流通道。正因为这种视觉上的“软”和触觉上的“硬”同时展现在一台设备上,所以给人一种非常奇妙的感觉——嘿,这到底怎么做到的?又因为这些孔洞密集而随机,所以可以说每一台DGX Spark在外形上都是独一无二的。
![]()
使用体验和性能测试关于DGX OS
DGX Spark的操作系统名为DGX OS,是NVIDIA在Ubuntu 24.04上修改而来的。因此,它对于熟悉Linux特别是Ubuntu这一系的用户来说,基本上不存在什么上手难度,更何况,NVIDIA已经帮你预装好了驱动,还有Docker、CUDA等一系列开发工具,可以说是开箱即用(当然,第一次启动还是要进行时区、语言等设置就是了)。
![]()
只看表面,确实就是个Ubuntu...
在Linux上,终端总是不离手的。不过DGX OS提供了DGX Dashboard这样一个网页应用,它除了负责性能监控和JupyterLab的管理外,也承担着更新系统的职能。这里不是说“sudo apt update”等命令不能用,而是NVIDIA推荐这种方法,可确保DGX OS的性能最佳化。这里我要多说一句,这里我要多说一句,DGX Dashboard的系统更新是会在安装完后直接重启的,因此别在有活要干的时候点系统更新。
![]()
DGX Dashboard主界面
哦对了,这里多嘴一句:DGX Spark的固件是UEFI,启动时按Esc或者Del键可以进入,里面提供了启动设备顺序、TPM还有安全启动等设置,就跟你常用的x86平台一样。一般来说,日常使用中倒也不用管固件这块的事情,除了系统恢复之外没什么进去的需要。
性能测试
NVIDIA提供了一系列内容丰富且详实的DGX Spark Playbooks,可以帮助各位快速上手DGX Spark,从连接VS Code、安装ComfyUI和vLLM,再到微调模型乃至多机堆叠啥的都有详细的教学。得益于DGX Spark已经预装好了很多开发工具,我们终于可以跳过配置环境这一冗长又无聊的环节,直接照着Playbooks逐步熟悉就好。
![]()
不断更新的DGX Spark Playbooks
在这里我还要大力表扬NVIDIA NGC这个平台,提供了很多方便使用的服务。NGC Catalog可以说是包罗万象,你能在里面找到相当多已经配置好,得到优化的容器和模型,直接拖到DGX Spark上就能用(而且下载速度还很快)。这种软件生态上带来的便利性真的让人觉得很舒服,爽飞了。
![]()
推理框架、开发环境和模型全部为NVIDIA GPU优化
AI创作:ComfyUI文生图、文生视频工作流
还是先来测测大家常用的AI创作工具ComfyUI。关于它是怎么安装的在这里就不多说了,按照Playbooks或者ComfyUI官方文档操作就行。不过在我这里需要重新编译一次comfy-kitchen才能让NVFP4加速生效,也不知道是哪里出了问题。
![]()
可以见到CUDA后端已经启用并支持NVFP4量化
目前你能在Hugging Face或者ModelScope魔塔社区上能找到的FP4生图生视频模型数量还是比较多的,比如FLUX.1、FLUX.2、Z-Image-Turbo、LTX-2等等,有官方提供的量化,也有社区的版本。这次我们的测试会把BF16、FP8和FP4三个版本都下载,看看它们在DGX Spark里有什么区别。
![]()
BF16
![]()
FP8
Z-Image-Turbo是目前相当流行的图像生成模型之一,在极短的步数内可产出高质量的图片。我们测试采用的是ComfyUI官方提供的工作流,分辨率设置是1024 x 1024,步数为8。可见使用了NVFP4量化的模型后,耗时可以说是直接减半,换句话说,BF16或FP8生成一张图的时间,NVFP4能生成两张。如果你要大量出图,DGX Spark和NVFP4能为你节省大量的时间。
![]()
FLUX.2 [klein] 9B Base是来自Black Forest Labs的最新生图模型。和上面一样,我们用了ComfyUI官方提供的工作流,然后切换三个模型测试。因为是base模型,所以我们把步数加到了50,分辨率就还是1024 x 1024不变。这一次,NVFP4的速度仍然是最快的,1分半就能生成一张图。当然,从Ada Lovelace架构开始支持的FP8格式也不赖,只比NVFP4慢5秒。
对了,我们还通过nvtop这个应用查看了GB10在运行以上模型时的功耗情况,在使用BF16模型时,它的功耗最高可以到93-94W。NVFP4模型就还好,倒是没发现超过80W的时候。
![]()
LTX-2就是NVIDIA在CES 2026上演示过的音频视频模型。同样的1280 x 720分辨率,时长5秒,20步,NVFP4量化的模型只用2分钟就生成了一个视频,耗时比FP8少10秒,比BF16少1分钟有多。值得一提的是,由于DGX Spark的统一内存足够大,所以在VAE解码这块特吃显存的部分是能够顶住的。
PEFT体验:FLUX.1 Dreambooth LoRA微调
既然说到了AI创作,那多少也要说一下LoRA微调。由于LoRA模型所需的数据集和计算资源相比于训练整个模型少得多且对基座模型的影响效果明显,它已经成为了AI创作者们风格化工作流中必不可少的一个节点。然而,就算LoRA模型的要求再怎么低,在微调时,整个基座模型还是得放进显存中,接着才能加上训练的消耗——如果不使用一些优化技巧,和降低训练时的参数,可能32GB显存的显卡都够呛。
![]()
不过,看规格你也知道,对于DGX Spark来说,显存完全不是问题。因为DGX Spark Playbooks正好提供了FLUX.1 Dreambooth LoRA微调的指南,所以我这里就直接用它来演示了。说起来,Playbooks里面提供的是脚本和Dockerfile,不得不说这操作还挺...全自动的。在耗费近1小时20分钟,最高97GB显存占用之后,我们得到了一个5.1GB的LoRA,可以让FLUX.1 [dev]生成Toy Jensen——如果不使用LoRA,基座模型并不认识Toy Jensen是谁,同样的种子下面,可能会把这个词当成是一个普通的男人输出。
![]()
有LoRA
![]()
无LoRA,仅基座模型
当然,1小时20分钟和97GB显存占用这些描述并不能很好地表现DGX Spark的优秀。因此我要讨论一下Playbooks提供的训练脚本,里面的参数其实挺激进的,LoRA的rank和alpha都设置成了256。对于一般PC来说,这是个绝对会报错的数值,因此我调整了一下这两个参数,把它变得更“平易近人”一些,变为16,又练了个LoRA出来。
![]()
![]()
rank 16的lora仍然需要耗时1小时多一点,但显存占用“仅”为65GB,比rank 256时少了整整32GB。模型容量也从5.1GB缩到了300MB。但是这也不是我真正想说的东西,我要说的是,更关键的地方在于效果:rank 256的LoRA所生成的Toy Jensen更加贴近数据集中的Toy Jensen,而rank 16的结果多少有点像是另一个人,脸型和发型都不怎么像。
![]()
rank 256 LoRA
![]()
rank 16 LoRA
简单来说,DGX Spark的大内存可以让你在微调参数上更加大胆,从而训练出更贴近数据集的LoRA,让最终生成的图片少点基座模型的味,多点自己想要的风格。
大语言模型推理:vLLM和TensorRT-LLM
在大语言模型中,我们主要会用到主流的vLLM和NVIDIA自家的TensorRT-LLM两个框架。和上面提到的一样,直接在NGC Catalog里面把镜像拉到本地,再写份简单的脚本就可以跑了。另外,vLLM和TensorRT都提供了基准测试套件,这挺好的,我们就直接用它们的结果。如果是日常使用的话,挂个Open WebUI或者Cherry Studio这种前端就行,这里就不展开了。
![]()
vLLM + Open WebUI是非常主流的配置了
在vLLM基准测试中,我们选的是vllm serve测试,也就是把DGX Spark当成是一台推理服务器去测。模型上下文长度设置为4096,提示词为100个,并发数为2、4、8、16、32。没测1并发的原因是单次测试时间太长了,就算是100个提示词也得被硬控20分钟以上——只设置100个提示词也是这个道理,越多耗时越长。
![]()
![]()
可见在同样并发数设置下,NVFP4量化的Qwen3 32B在输出Token吞吐量(Output token throughput)和每Token输出时间(TPOT, Time per Output Token)上都比FP8量化版本的表现更好。
![]()
TensorRT-LLM的设置和vLLM可以说是大同小异,也有serve模式,基准测试参数也是差不多。因为Qwen3 32B FP8目前还没在DGX Spark上获得TensorRT-LLM的支持,所以我们就只跑了NVFP4版本的。不难看出,在TensorRT-LLM这种专为NVIDIA GPU而编写的推理框架上,模型的吞吐量和输出速度显然是表现更好的。
![]()
另外我们还用TensorRT-LLM跑了OpenAI最新的开源模型gpt-oss-120b,它应该是目前单台DGX Spark所能支持的最大模型了。gpt-oss-120b的MoE权重经过MXFP4量化处理,因此它对内存的占用并没有太高,在82GB左右。
![]()
TensorRT-LLM运行gpt-oss-120b时
值得一提的是,TensorRT-LLM并没有像vLLM那样,一开始就把内存吃满到117GB。而是根据模型的参数量动态调整,比如Qwen3 32B FP4时,系统内存约为65 GB,而到了gpt-oss-120b时,占用的内存才会上升到82GB,这是比较好的一点。当然,如果你把DGX SPARK当成是一台推理服务器那样用的话,像vLLM那样的内存预分配策略也没什么问题就是了。
![]()
TensorRT-LLM运行Qwen3 32B FP4时
除了运行以上的模型,NVIDIA还提供了TensorRT Model Optimizer这个工具让你可以把别的模型量化成NVFP4格式,DGX Spark Playbooks中也有对应的内容。
总结
首先要说明一点,你并不能把DGX Spark看作是一台普通的迷你主机,虽然你可以用它浏览网页、看视频,甚至装个Steam玩游戏(我试过,用FEX确实可以做到),但是这些活动并不能体现它的真正价值。装上ComfyUI、拉取vLLM和TensorRT-LLM的Docker镜像,从HuggingFace上肆意下载30B以上的模型,然后运行或微调它们,让它们成为不受网络限制、生成次数无限续杯而且更适合生产的工作帮手才是DGX Spark的正确用途。
![]()
也许会有人问,我现在手机上近有求索D老师,远有谷歌哈基米,就本地运行AI对我来说真的那么重要吗?确实,对于一般用户来说,这些应用是很足够了。但对于注重隐私和数据安全的开发者,需要微调出自己风格LoRA的AI创作者,还有那些需要对AI本身进行研究的工程师等人群来说,DGX Spark就很有价值了。打个比方来说,它算得上AI设备中的多功能瑞士军刀:无论是推理还是进行微调,一般PC能支持的模型是非常有限的,而DGX Spark的128GB统一内存则可以轻松吃下参数量较大的模型,从而为主力机减压;它在速度上固然无法和云端的服务器相比,但可以在投入生产之前作为验证想法,原型测试的平台,以免浪费宝贵的服务器时长。更进一步的说,DGX Spark并不是要取代云端(当然这也不可能),而是和云端形成互补,让整个开发流程的链条更顺滑。
![]()
最后还是惯例:价格讨论。DGX Spark的售价是——32999元!对于个人来说,这个价格门槛确实比较高。毕竟,这是一台专为数据科学和AI开发打造的设备,而不是像显卡这种泛用度更高的组件,说真的,在家里放一台DGX Spark纯当AI服务器这事,对于一般的AI创作爱好者来说还是超纲了。
然而,如果在工作上有AI方面的需要,那DGX Spark比起一般的设备来说又有其优势:3万块出头把CPU、GPU还有现在贵上天的内存硬盘给你包齐了,还多一块智能网卡,多买几台叠起来甚至能跑DeepSeek V3.2(NVFP4量化,394B)这种巨无霸,这真的挺香的。若是换成买同等显存容量的多显卡组工作站,不可否认那throughput和TPOT确实会比DGX Spark要好,但预算肯定刹不住车,就别说显卡了,工作站平台本身就特贵。正如我在前面说到的那样,能不能跑这个问题,有时是排在速度前面的,而DGX Spark就是有限预算内的一个优秀答案。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.