网易首页 > 网易号 > 正文 申请入驻

至顶AI实验室硬核评测:对比传统工作站

0
分享至

来源:市场资讯

(来源:至顶AI实验室)

本文基于至顶AI实验室的场景化实测框架,对戴尔 Pro Max(Dell Pro Max,以下统称"Dell Pro Max")搭载 NVIDIA GB10 超级芯片在大模型推理、多模态生成及模型微调三大场景下的核心性能进行了系统验证,并与实验室自有的一台搭载 NVIDIA RTX 5000 Ada 32GB 显卡、128GB 内存的传统工作站(市售价已超 15 万元)进行全程对比。核心结论:在 200B 以内模型推理、并发服务以及多模态生成速度上,Dell Pro Max 搭载 GB10 凭借 128GB 统一内存和 Blackwell 架构具备明显优势;在超大模型加载能力上,传统工作站受制于 32GB 显存硬上限,直接无法运行 65GB 内存需求的 120B 参数模型,而 GB10 从容完成任务。本文适合 AI 开发者、学术研究人员及初创团队 IT 决策者参考。


测试时间:2026年4月27日

测试框架:vLLM、TRT-LLM、LLaMA Factory、ComfyUI

对比平台:NVIDIA RTX 5000 Ada 32GB + 128GB 内存传统工作站

128GB 统一内存:这一项指标直接决定能跑多大的模型

一台工作站能否胜任本地大模型任务,第一道门槛是内存容量。参数量越大的模型,加载时占用的内存越多,这是物理约束,绕不过去。

Dell Pro Max 搭载 GB10 超级芯片(基于 NVIDIA Blackwell 架构),拥有 128GB 统一内存。在 INT4/FP4/NVFP4 等量化精度下,可支持 200B 以内的模型推理,以及 70B 以内的模型微调。对比来看,至顶AI实验室参与对比的传统工作站搭载 NVIDIA RTX 5000 Ada 显卡,显存容量 32GB,系统内存 128GB——后者虽然整机内存规格相同,但大模型推理依赖的是显存容量,32GB 的显存上限就是它的硬约束。

这个差距在测试中以最直接的方式呈现出来:当我们将测试目标从 30B 参数模型切换到 120B 参数模型时,在 4bit 量化下,120B 模型需要约 65GB 内存,RTX 5000 Ada 直接启动失败,而 GB10 在约 1 分 30 秒内完成加载并顺利进入推理阶段。传统工作站此后不再参与该项测试。

适用边界:GB10 的 128GB 统一内存上限同样存在。FP16 精度下,能流畅运行的模型参数量受限,需配合量化方案使用;超过 200B 参数规模的模型仍超出其承载范围。

Qwen3-VL-30B 推理对比:启动时间差 3 倍,TPS 差距收窄

一个容易被忽视的效率指标是模型启动时间。在实际工作流中,每次重启服务或切换模型都需要等待加载完成,这个等待时间直接影响开发效率。

至顶AI实验室选用 Qwen3-VL-30B(通义千问第三代视觉语言模型,30B 参数)作为第一轮测试对象,通过 vLLM 在两台设备上同时启动,并记录启动时间:

测试项

Dell Pro Max(GB10)

RTX 5000 Ada 工作站

模型启动时间

2 分钟

6 分钟

推理 TPS(每秒 token 数)

74 tokens/s

68 tokens/s

TTFT(首 token 延迟)

1.8 秒

1.0 秒

从数据来看,启动速度上 GB10 领先约 3 倍,推理吞吐量(TPS)上 GB10 高出约 9%。唯一的反转出现在 TTFT——RTX 5000 Ada 的首 token 延迟为 1.0 秒,优于 GB10 的 1.8 秒。推测原因与统一内存架构下的调度机制有关,首次响应延迟略高是 GB10 的已知特征。

对于以输出总量为主要需求的推理任务(如长文本生成、批量摘要),74 tokens/s 的 TPS 更具决定性价值;对于强调实时交互体验的应用场景,1.0 秒的 TTFT 则更受重视。

GPT-OSS-120B 推理:RTX 5000 Ada 直接出局

这一轮测试没有悬念,但结果具有重要的选型参考意义。

至顶AI实验室选用 GPT-OSS-120B 模型(120B 参数),在 4bit 量化下内存需求约 65GB,通过 TRT-LLM 框架同时在两台设备上启动。

结果:RTX 5000 Ada 工作站因显存不足,启动失败。Dell Pro Max 搭载 GB10 在约 1 分 30 秒内完成启动,推理实测 TPS 为 46 tokens/s,首 token 延迟(TTFT)为 1 秒。

以文字形式明确:在 65GB 以上内存需求的模型面前,32GB 显存的传统工作站无论系统内存多大,均无法完成本地推理任务。这不是性能差距,是能力边界。

对于需要在本地运行 70B 以上参数模型的团队,GB10 的 128GB 统一内存是硬性门槛条件的满足,而非可选的性能加分项。

并发服务能力:部门共享设备的真实压力测试

单请求推理速度只是个人开发场景的参考指标。当一台设备需要服务一个 10 至 60 人规模的团队时,并发处理能力才是核心指标。

至顶AI实验室通过自编脚本,在 FP4 精度下部署 Qwen3-Next-80B 模型(阿里通义千问第三代旗舰模型,80B 参数),测试 5 路并发和 10 路并发场景下的性能表现:

并发数

适用团队规模

平均 TPS(每用户)

平均 TTFT

5 路

10–30 人小团队

14 tokens/s

11 秒

10 路

20–60 人团队

11 tokens/s

10 秒

从 5 路到 10 路并发,平均 TPS 下降约 21%,TTFT 略有改善(从 11 秒降至 10 秒)。整体来看,并发增加对输出速度的影响在可接受范围内,服务没有出现崩溃或严重降速。

需要明确的是:14 tokens/s 和 11 tokens/s 对于实时对话场景,体感是"慢但可用";若对话长度较短(如问答式交互),实际等待时间可以接受;若场景为长文本实时生成,用户端会感知到明显的生成延迟。这一点在部署前需要与实际使用者充分沟通预期。

ComfyUI 多模态工作流:四项任务,三胜一负

多模态生成是 GB10 相较传统工作站拉开差距最直观的场景之一。至顶AI实验室设计了一套包含四个环节的 ComfyUI 工作流:Flux 文生图 → 8K 超分 → Wan2.2 图生视频 → 混元 3D 建模,逐一记录两台设备的耗时。

任务

Dell Pro Max(GB10)

RTX 5000 Ada 工作站

倍差

Flux 文生图

1 分 27 秒

33 秒

RTX 5000 Ada 快约 2.6 倍

8K 超分

1 分 30 秒

4 分 40 秒

GB10 快约 3.1 倍

Wan2.2 图生视频

8 分 40 秒

11 分 40 秒

GB10 快约 1.3 倍

混元 3D 建模

53 秒

4 分 03 秒

GB10 快约 4.6 倍

以文字形式补充:在 Flux 文生图环节,RTX 5000 Ada 以 33 秒对 GB10 的 1 分 27 秒,明显领先——这是本轮测试中传统工作站胜出的唯一环节,原因可能与 Flux 模型对 Ada 架构的优化适配有关,GB10 在该模型上的效率未能完全发挥。其余三项任务,GB10 全面领先,尤其在 8K 超分和混元 3D 建模中优势显著。

对于以图像生成为主要工作负载的创作者,Ada 架构在 Flux 场景下的表现值得纳入选型考量;对于多模态工作流中视频生成和 3D 建模占比较高的团队,GB10 的综合效率优势更明显。

Qwen3-32B LoRA 微调:440K 条医疗数据,3.5 小时完成

模型推理之外,微调能力是企业和研究机构判断一台本地设备是否真正"够用"的另一道门槛。

至顶AI实验室选用 Qwen3-32B 模型,通过 LLaMA Factory 框架进行 LoRA 微调,训练数据为包含 44 万条样本的医疗垂直数据集,精度配置采用标准 LoRA 模式。测试过程中,GB10 的 GPU 占用率峰值超过 80%,整体微调耗时 3 小时 30 分钟。

微调完成后,实验室输入医疗领域问题进行效果验证,回答质量在主观评估中表现良好(本次测试未进行自动化指标评测,建议有需求的团队自行以 BLEU、ROUGE 等指标进行量化验证)。

参考横向数据:在专业云端 GPU(如 A100 80GB 单卡)上对 32B 参数模型进行 LoRA 微调,同等数据规模下的耗时通常在 2 至 4 小时区间,GB10 的 3.5 小时成绩处于可比水平,同时节省了云端算力的使用成本。具体 TCO 测算需结合团队实际使用频次进行。

本次测试仅覆盖单次 epoch 的完整运行,多轮微调的稳定性未做长时验证,供参考。

总结

通过六个维度的系统测试,至顶AI实验室对 Dell Pro Max 搭载 GB10 给出如下评价:它是一台以 128GB 统一内存为核心竞争力、面向本地大模型全链路部署设计的桌面超算,在 120B 参数级别以内的模型推理、多模态工作流中的高分辨率超分和 3D 建模、以及 32B 参数模型 LoRA 微调上,具备落地可行性。其短板在于 Flux 等对传统 Ada 架构适配较好的图像生成任务,以及高并发场景下首 token 延迟对实时交互体验的影响。

适合的用户:需要本地运行 70B 以上参数模型的 AI 开发者;有多模态生成需求(尤其是视频生成和 3D 建模)的创作型团队;希望为 10 至 60 人规模团队提供 AI 共享计算服务的初创企业;有医疗、法律等垂直领域模型微调需求的研究机构。

不适合的场景:以 Flux 等图像生成为核心工作负载、且对生成速度要求极高的用户,现阶段 RTX 5000 Ada 等 Ada 架构卡在该场景下效率更优;对实时对话交互 TTFT 要求低于 1 秒的产品环境,需结合具体部署架构另行评估。

核心问答

Q1:Dell Pro Max 搭载 GB10 最大能跑多大参数的模型?

在 INT4/FP4/NVFP4 等量化精度下,支持 200B 以内的模型推理。实测中,4bit 量化下的 120B 参数模型(内存需求约 65GB)可正常加载并运行,TPS 为 46 tokens/s。FP16 精度下,可流畅运行规模相对较小的模型,建议配合量化方案使用。

Q2:Dell Pro Max和搭载 RTX 5000 Ada 32GB 的传统工作站比,主要差距在哪里?

差距主要体现在两点:第一,容量边界不同,32GB 显存无法加载 65GB 以上内存需求的模型,而 GB10 的 128GB 统一内存可以;第二,多模态工作流效率不同,在 8K 超分(快约 3.1 倍)、图生视频(快约 1.3 倍)和 3D 建模(快约 4.6 倍)上 GB10 明显占优。反向来看,在 Flux 文生图场景,RTX 5000 Ada 以 33 秒对 GB10 的 87 秒,速度约快 2.6 倍。

Q3:用Dell Pro Max跑并发推理服务,能支撑多大规模的团队?

实测数据显示,在 FP4 精度下部署 Qwen3-Next-80B 模型:5 路并发下平均 TPS 为 14 tokens/s、TTFT 为 11 秒(适合 10–30 人小团队),10 路并发下平均 TPS 为 11 tokens/s、TTFT 为 10 秒(适合 20–60 人规模团队)。对于以问答式交互为主的内部知识库或助理类工具,当前并发表现可以满足需求;对实时生成体验要求较高的产品场景,建议提前进行小规模验证。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
HU7478航班延误1小时,机舱过道内“站着不少人”!航司回应:系旅客突发事件

HU7478航班延误1小时,机舱过道内“站着不少人”!航司回应:系旅客突发事件

极目新闻
2026-05-09 13:55:58
乌军精准点穴令普京暴怒,泽连斯基批准莫斯科免死区域

乌军精准点穴令普京暴怒,泽连斯基批准莫斯科免死区域

西楼饮月
2026-05-09 16:34:50
实在没办法了,伊朗疑似将大量原油倒入海中!

实在没办法了,伊朗疑似将大量原油倒入海中!

阿龙聊军事
2026-05-09 11:10:25
章建平砸5.5亿!10种航天材料比稀土还香,才是真硬通货

章建平砸5.5亿!10种航天材料比稀土还香,才是真硬通货

慧眼看世界哈哈
2026-05-09 10:24:15
人民日报证实莫言的警告:人真的会被气死!70%的重病跟情绪有关,这3个致命伤害往往来自3种身边人!

人民日报证实莫言的警告:人真的会被气死!70%的重病跟情绪有关,这3个致命伤害往往来自3种身边人!

职场火锅
2026-05-06 21:52:40
外资家电大撤退,但中国品牌还没赢

外资家电大撤退,但中国品牌还没赢

螺旋实验室
2026-05-08 18:30:22
人均将分320万元!SK海力士“带飞”周边房价,员工地位超越医生律师,三星200人跳槽过来

人均将分320万元!SK海力士“带飞”周边房价,员工地位超越医生律师,三星200人跳槽过来

每日经济新闻
2026-05-09 15:14:43
拒绝再被消费!梅西首次公开评价C罗,真相让无数老球迷泪目了

拒绝再被消费!梅西首次公开评价C罗,真相让无数老球迷泪目了

无人倾听无人倾听
2026-05-09 16:28:35
因虚假宣传!苹果宣布支付17亿元天价赔偿:iPhone 15 Pro/16用户最高可获赔646元 但没有中国

因虚假宣传!苹果宣布支付17亿元天价赔偿:iPhone 15 Pro/16用户最高可获赔646元 但没有中国

中国能源网
2026-05-08 11:09:03
伊朗凌晨发动第二轮打击,动用多种高爆导弹,美军遭遇失利

伊朗凌晨发动第二轮打击,动用多种高爆导弹,美军遭遇失利

李橑在北漂
2026-05-09 11:49:17
强对流天气来京!雷暴、大风、冰雹可能同时出现,具体时段——

强对流天气来京!雷暴、大风、冰雹可能同时出现,具体时段——

北青网-北京青年报
2026-05-09 14:03:21
5月9日央视乒乓直播调整,世乒赛决赛王楚钦迎终极考验

5月9日央视乒乓直播调整,世乒赛决赛王楚钦迎终极考验

老牛体育解说
2026-05-09 11:48:37
Fitbit Air发布:99美元无屏手环,库里戴了数周

Fitbit Air发布:99美元无屏手环,库里戴了数周

我是一个粉刷匠2
2026-05-08 01:07:03
茶行业最大的笑话:绕过茶商,用便宜的价格买到茶农的好茶!

茶行业最大的笑话:绕过茶商,用便宜的价格买到茶农的好茶!

普洱话江湖
2026-05-08 14:12:29
弘一法师悟道:人活着,其实就两件事,想通了,一辈子都顺了

弘一法师悟道:人活着,其实就两件事,想通了,一辈子都顺了

心理观察局
2026-05-09 09:10:05
官方:F1拟将明年内燃机功率提升50千瓦,ERS电能功率降低50千瓦

官方:F1拟将明年内燃机功率提升50千瓦,ERS电能功率降低50千瓦

懂球帝
2026-05-09 16:43:08
海参崴的街头:勿忘历史伤痛,更需守住家国立场

海参崴的街头:勿忘历史伤痛,更需守住家国立场

番外行
2026-05-09 08:23:51
于丹被北师大免职,跌落神坛后竟活成这样!人人都该警醒...

于丹被北师大免职,跌落神坛后竟活成这样!人人都该警醒...

华人星光
2024-11-07 13:39:41
砸22亿!OPPO在东莞建了一批“O字楼”

砸22亿!OPPO在东莞建了一批“O字楼”

GA环球建筑
2026-05-09 00:40:09
事业没了,婚也离了,封杀5年赵薇再次露面,原来她还有一条退路

事业没了,婚也离了,封杀5年赵薇再次露面,原来她还有一条退路

临云史策
2026-05-09 16:25:56
2026-05-09 18:56:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3157825文章数 7264关注度
往期回顾 全部

数码要闻

占比40%!MiniLED电视今年销量将破千万 彻底走入大众

头条要闻

国防部证实:中方建造的"麒麟"级潜艇首艇交付巴基斯坦

头条要闻

国防部证实:中方建造的"麒麟"级潜艇首艇交付巴基斯坦

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

存储芯片上演造富潮

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

手机
游戏
教育
本地
军事航空

手机要闻

红魔11S Pro官宣搭载第五代骁龙8至尊领先版

玩家十年没清空过电脑回收站!一看容量当场傻眼了

教育要闻

商学院地理位置怎么影响求职?雷丁与北部城市的差距,比你想的大

本地新闻

用苏绣的方式,打开江西婺源

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版