网易首页 > 网易号 > 正文 申请入驻

黄仁勋送马斯克的3万块个人超算,要借Mac Studio才能流畅运行?首批真实体验来了

0
分享至

2000 亿参数、3 万块人民币、128GB 内存,这台被称作「全球最小超算」的机器,真的能让我们在桌面上跑起大模型吗?


▲ 图片来自 x@nvidia

前些天,黄仁勋正式把这台超算送到马斯克手上,而后也亲自去到 OpenAI 总部,送给奥特曼。从 CES 登场到如今落地,这台个人超算终于要来到我们手上。


▲官网发售情况,售价 3999 美元,也提供了华硕、联想、戴尔等七个电脑品牌的发售版本;链接:https://marketplace.nvidia.com/en-us/developer/dgx-spark/

NVIDIA DGX Spark,一台个人 AI 超级计算机,目标用户是科研人员、数据科学家和学生等,为他们提供高性能桌面级 AI 计算能力,帮助他们完成 AI 模型的开发和创新。

听着很强大,但普通人能想到的玩法,无非还是:

  • 本地跑大模型:跟它聊天的内容只留在自己电脑里,绝对安全。
  • 本地搞创作:不受限制地生成图片和视频,告别会员和积分。
  • 打造私人助理:把自己的资料都喂给它,训练一个只懂你的「贾维斯」。


▲ 部分显卡租赁平台显示的 A100 售价为 7元/时

实际上,DXG Spark GB10 Grace Blackwell 超级芯片的能力,或许可以拓展它的应用场景,但是具体能做些什么?又做得怎么样?3 万块的售价,能租 4000 小时的 A100,你真会把它放在桌上跑跑大模型吗?

我们收集了目前网络上关于 DGX Spark 多个详细评测,试图在我们的实际体验之前,带大家看看这台设备,到底值不值 3 万块。

太长不看版:

  1. 性能定位:轻量模型表现出色,1200 亿参数的大模型也能稳稳跑起来。总体水平介于未来的 RTX 5070 和 RTX 5070 Ti 之间。
  2. 最大短板:273 GB/s 内存带宽是限制。算力足够,但数据传输慢。体验就像一个脑子转得飞快但说话结巴的人。
  3. 邪修玩法:用一台 Mac Studio M3 Ultra 来「辅佐」它。DGX Spark 负责快速思考,Mac Studio 负责流畅表达,强行解决「结巴」问题。
  4. 生态丰富:官方提供了超过 20 种开箱即用的玩法,从生成视频到搭建多智能体助手,AI全家桶都给你配齐了。
只比 Mac Mini 强一点点?

话不多说,先看数据。


▲ 每秒处理填充和解码的平均 token 数量,DGX Spark 排在 RTX 5080 后,图片由 ChatGPT 制作

DGX Spark 对比 Mac Mini M4 Pro 还是要强上不少,尤其是在 Prefill 阶段。但是在 Decode 阶段,优势就没有这么明显了。Mac Mini M4 Pro 在 DeepSeek R1 开源模型上的 TPS 能做到 17.8,而 DGX Spark 也才 33.1。

快速做个名词解释,来看看 AI 推理的两个阶段到底是什么

简单来说,当我们在 AI 聊天框里输入问题,模型生成答案的过程可以分为两个关键步骤:

1. Prefill(预填充/阅读理解阶段) AI 拿到我们的问题后,快速阅读和理解你输入的每一个字(即提示词)。 这个阶段处理得越快,我们等待 AI 吐出第一个字的时间就越短,也就是常用来宣传 AI 能力的指标,首字响应时间,TTFT(Time To First Token, TTFT) 越短。


2. Decode(解码/生成答案阶段) 就像 AI 已经想好了答案,开始逐字逐句地打字输出给我们。 决定 AI 打字的速度,也就是我们常说的 TPS(每秒生成词元数)。这个数值越高,我们看到答案完整显示的速度就越快。


Tips:什么是 TPS? TPS 是 Token Per Second(每秒处理词元数)的简称,可以理解为 AI 的工作效率或打字速度。 Prefill 阶段的 TPS: 代表 AI 读懂问题的速度。 Decode 阶段的 TPS: 代表 AI 给我们生成答案的速度。


所以 DGX Spark 在给我们回答时,第一个字很快能出来,但是后续它的打字速度,很慢。要知道,Mac Mini M4 Pro 的价格才 10999 元,24GB 统一内存的版本。

为什么会这样?这项测试是由大模型竞技场的团队 LMSYS,在他们的 SGLang 项目和 Ollama 上,选择上图中六个不同的设备,运行多个开源大语言模型完成的。


▲ SGLang 是由 LMSYS 团队开发的高性能推理框架,FP8、MXFP4、q4_K_M、q8_0 是指大语言模型的量化格式,即对大模型进行压缩,用不同的二进制存储方式

测试的项目包括了 1200 亿参数的本地大模型,也有 80 亿的较小模型,此外 Batch Size 批次大小和 SGLang 与 Ollama 两种框架的差别,都会对 DGX Spark 的表现,产生不同的影响。

例如,评测团队提到,DGX Spark 在批次大小为 1 时,每秒解码的次元数只有 20 个,但是当批次大小设置为 32,每秒解码词元上升到 370。一般说,批次大小设置越大,每次要处理的内容越多,对 GPU 的性能要求越高。

而 DGX Spark 的 AI 能力,根据其所采用的 GB10 Grace Blackwell 芯片架构,以及 1 PFLOP 的稀疏 FP4 张量的性能,定位是在 RTX 5070 和 RTX 5070 Ti 之间。


所以开头那张显示结果的图,其实并不能全面的展示 DGX Spark 的能力,因为它平均了所有模型测试的结果。但不同批次大小的模型推理、以及不同参数的模型,它最终展示出的性能,都会有所不同。

综合来看,DGX Spark 的优点是:

  • 算力强:能处理大批量任务,AI 核心能力在 RTX 5070 级别。
  • 内存大:128GB 的海量内存,让它能轻松运行千亿级别的大模型。


但它的短板,致命且清晰——带宽。

Prefill 阶段拼的是算力(脑子快不快),Decode 阶段拼的则是带宽(嘴巴快不快)。

DGX Spark 的问题就是:脑子(算力)很快,但嘴巴(带宽)跟不上。

打个比方,它的数据通道就像一根细水管:

  • DGX Spark 用的内存是 LPDDR5X(手机和笔记本电脑常用),带宽只有 273 GB/s。
  • 作为对比,高端游戏显卡 RTX 5090 用的 GDDR7 内存,带宽高达 1800 GB/s,那是一根消防水管。

这就是为什么 DGX Spark 在打字阶段(Decode)表现平平的根本原因。

LMSYS 将评测的详细结果放在了 Google 文档中,我们把数据交给 Kimi 智能体,得到了一份详细的可视化报告,原始数据的预览,也可以点击 Kimi 预览报告下载选项获取。


▲ https://www.kimi.com/chat/199e183a-7402-8641-8000-0909324fe3fb

带宽限制?连接一台 Mac Studio 破解

带宽是短板,但已经有更极客的团队,找到了榨干 DGX Spark 全部算力的方法,那就是找一个带宽更快的桌面设备,Mac Studio M3 Ultra,利用其 819 GB/s 的速度,把大模型的推理速度愣是整体提升了 2.8 倍。

拿到两台 DGX Spark 早期访问权限的 EXO Lab,就直接把大模型推理的 Prefill 和 Decode 两个阶段,分别给了 DGX Spark 和 Mac Studio 来承担,这又叫做 PD 分离。


和我们之前介绍的预填充、解码两个阶段一样,一个依赖算力,一个依赖带宽。如上图所示,黄色代表预填充阶段,它决定着 TTFT,首个次元生成时间;而蓝色代表解码阶段,它决定了 TPS,每秒生成的词元数。


▲ EXO Lab 的做法就是将 Decode 交给 Mac Studio。

但 PD 分离的实现也不并不简单,EXO 团队要解决的还有一个问题,如何将 DGX Spark 设备上,预填充阶段生成的内容(KV 缓存),传输到处理解码的设备上。

这部分数据量很大,如果两台设备之间,传输时间太长,甚至可能会抵消性能提升的效果。

EXO 的答案是:流水线式分层计算与传输。DGX Spark 在处理第一层预填充时,计算出的 KV 缓存会立即开始传输给 Mac Studio,而 DGX Spark 则继续进行第二层的预填充工作。


这种分层流水线的方式,能让计算和数据传输的时间完全重叠。最终,当所有层的预填充完成,Mac Studio 已经拿到完整的 KV 缓存,可以立即开始解码。


虽然这套方案,在某种程度上解决了 DGX Spark 带宽限制的问题,提升了 3 倍的速度,但是费用也涨了 3 倍。两台 DGX Spark 和一台 Mac Studio M3 Ultra 的费用,快接近 10 万元人民币。

如果还是用来跑一个本地大模型,未免太过于杀鸡用牛刀。

性能评测之外,还能做些什么

273 GB/s 的带宽,也并不是 DGX Spark 的全部,128GB 的统一内存,用在数据中心级别的 GB10 架构显卡,支持每秒一千万亿次计算(1 Petaflop),以及桌面级设计,都有机会拓展它的应用场景。

我们在 YouTube 上找了一些博主的开箱和上手体验视频,一起看看这台优点和短板都很明显的设备,可以做点什么。

本地 AI 视频生成

生文模型现在基本上都免费使用,但是生视频的模型,大多数都需要充值会员,或者积分制。

博主 BijianBowen 利用 ComfyUI 框架,以及阿里的 Wan 2.2 14B 文本到视频模型,直接根据 DXG Spark 官方的 Playbooks(操作指南),配置了一个视频生成项目。


▲ NVIDIA DGX Spark – 非赞助的评测(与 Strix Halo 对比、优缺点)视频来源:https://youtu.be/Pww8rIzr1pg

在视频生成过程中,他提到即使命令后显示 GPU 的温度已经达到了 60-70 摄氏度,但是听不到一点噪音,风扇转动的声音也没有。


▲大部分博主有提到,DGX Spark 确实比较「安静」,设备拆解相当工整,来自 storagereview.com

除了用在视频生成和图像生成的 ComfyUI 提供了在 DGX Spark 上操作的指南,还有在本地运行大模型的桌面工具 LM Studio,也发布了博客提到支持 DGX Spark。

工具调用,搭建多智能体聊天机器人

Level1Techs 分享了自己用 DGX Spark 并行运行,多个 LLMs 和 VLMs,来实现智能体之间的交互。


▲ 深入探讨英伟达的 DGX Spark,视频来源:https://youtu.be/Lqd2EuJwOuw

得益于 128GB 的大内存,他可以选择 1200 亿参数的 GPT-OSS、67 亿的 DeepSeek-Coder、以及 Qwen3-Embedding-4B 和 Qwen2.5-VL:7B-Instruct 四个模型,来处理不同的任务。

这个项目也是 Nvidia 官方提供的指南,在他们官网,提供了超过 20 种玩法,并且每一种用法,都给出了预计需要的时间,以及详细的步骤。


▲ https://build.nvidia.com/spark

像是搭建一个文本到知识图谱的系统,把非结构化文本文档,转换为结构化知识结点。


视频搜索和摘要总结。


我们在 Reddit 上也发现一些拿到了 DGX Spark 的用户,开启了 AMA(Ask Me Anything) 活动。博主分享了自己的测试结果,同样提到 AI 能力对标 RTX 5070。还有有人问,是否可以运行一波 Karpathy 新推出的 nanochat 项目。


后续应该还会有更多 DGX Spark 的基准测试结果,和更全面的使用指南更新,APPSO 的 DGX Spark 正快马加鞭赶来。


DGX Spark 的存在,看起来更像是 AI 狂飙时代下的一个实验,一台数据中心级算力的桌面机器,试探着我们对本地 AI 的幻想边界。

真正的问题除了 DGX Spark 能不能跑,还有当我们每个人都能拥有一台超算时,我们可以拿它做什么。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着利雅得新月1-1,沙特联最新积分出炉:C罗率队逼近榜首

随着利雅得新月1-1,沙特联最新积分出炉:C罗率队逼近榜首

侧身凌空斩
2026-01-26 04:08:11
决赛双响的小仓幸成来自法政大学,荷甲本季18球的上田绮世也出于此

决赛双响的小仓幸成来自法政大学,荷甲本季18球的上田绮世也出于此

懂球帝
2026-01-25 13:02:20
121%暴力加仓!商业航天唯一真龙觉醒,还是人形机器人隐形冠军?

121%暴力加仓!商业航天唯一真龙觉醒,还是人形机器人隐形冠军?

财报翻译官
2026-01-26 10:00:17
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
女人这两件事,99%不会告诉男人,100%的男人都不知道

女人这两件事,99%不会告诉男人,100%的男人都不知道

青苹果sht
2026-01-20 05:45:59
徒手独攀台北101,是人类对AI模拟一切的最有力反击

徒手独攀台北101,是人类对AI模拟一切的最有力反击

不懂经1人独角兽
2026-01-25 22:38:44
陈秀英:百岁妈妈,因近亲结婚生下3个“猴娃”,50年没出过村子

陈秀英:百岁妈妈,因近亲结婚生下3个“猴娃”,50年没出过村子

雍亲王府
2026-01-25 09:30:03
国家级射击教练获刑10年,多省射击队购买其走私枪支配件?

国家级射击教练获刑10年,多省射击队购买其走私枪支配件?

大风新闻
2026-01-01 19:29:10
172:233!高市早苗重新洗牌,日新首相人选出炉,对华态度不简单

172:233!高市早苗重新洗牌,日新首相人选出炉,对华态度不简单

梁讯
2026-01-25 19:18:01
2点原因!杨鸣坚决辞职,签不来胡金秋前队友,赵继伟无心恋战

2点原因!杨鸣坚决辞职,签不来胡金秋前队友,赵继伟无心恋战

体坛大事记
2026-01-26 11:30:06
犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

老范谈史
2026-01-13 20:15:38
对 “台独” 绝不手软!解放军首次确认,抓捕赖清德不惜一切手段

对 “台独” 绝不手软!解放军首次确认,抓捕赖清德不惜一切手段

荷兰豆爱健康
2026-01-24 15:43:46
2026央视马年春晚进行第二次彩排 观众曝部分节目单

2026央视马年春晚进行第二次彩排 观众曝部分节目单

影像渭南
2026-01-25 20:57:09
鱼的生长周期好像也没多长时间,为啥长江禁渔要长达10年?

鱼的生长周期好像也没多长时间,为啥长江禁渔要长达10年?

向航说
2026-01-18 00:50:03
民进党态度变了,赖清德对大陆称谓发生大变化?释放的信号不简单

民进党态度变了,赖清德对大陆称谓发生大变化?释放的信号不简单

DS北风
2026-01-25 22:10:13
火葬场烧尸人:见惯了生离死别,最喜欢年轻漂亮的女尸

火葬场烧尸人:见惯了生离死别,最喜欢年轻漂亮的女尸

吴学华看天下
2024-06-26 12:43:21
国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

回旋镖
2026-01-01 21:00:24
尼克松访华,外媒评论打白旗到北京,毛主席得知立即作出两项决定

尼克松访华,外媒评论打白旗到北京,毛主席得知立即作出两项决定

历史龙元阁
2026-01-26 11:15:06
听闻林彪坠机身亡,远在台湾的老蒋为何老泪纵横?私人医生这样说

听闻林彪坠机身亡,远在台湾的老蒋为何老泪纵横?私人医生这样说

楚风说历史
2026-01-26 08:55:02
联合国突然宣布要“离家出走”,加速搬离纽约!

联合国突然宣布要“离家出走”,加速搬离纽约!

荆楚寰宇文枢
2026-01-25 23:02:39
2026-01-26 11:56:49
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38345文章数 2600735关注度
往期回顾 全部

数码要闻

谨防“背刺”:消息称苹果M6 Pro/Max版MacBook Pro年末发布

头条要闻

40岁假肢舞者诞下四胎 因汶川地震痛失女儿、双腿截肢

头条要闻

40岁假肢舞者诞下四胎 因汶川地震痛失女儿、双腿截肢

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被实名举报代孕、插足婚姻

财经要闻

从美式斩杀线看中国社会的制度韧性构建

科技要闻

印奇再上牌桌,阶跃融资50亿

汽车要闻

双门双座+纯电后驱 全新smart精灵#2原型概念车4月首发

态度原创

手机
数码
健康
公开课
军事航空

手机要闻

首款性能Ultra旗舰来了!iQOO 15 Ultra定档2月4日

数码要闻

苹果调整MacBook Pro更新路线图,今年或将迎两次产品迭代

耳石脱落为何让人天旋地转+恶心?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委代总统称遭美威胁:马杜罗已死

无障碍浏览 进入关怀版