至顶AI实验室硬核评测：对比传统工作站|文生|模态|工作流|大模型|至顶ai实验室

至顶AI实验室硬核评测：对比传统工作站

2026-05-09 15:41:16　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：至顶AI实验室）

本文基于至顶AI实验室的场景化实测框架，对戴尔 Pro Max（Dell Pro Max，以下统称"Dell Pro Max"）搭载 NVIDIA GB10 超级芯片在大模型推理、多模态生成及模型微调三大场景下的核心性能进行了系统验证，并与实验室自有的一台搭载 NVIDIA RTX 5000 Ada 32GB 显卡、128GB 内存的传统工作站（市售价已超 15 万元）进行全程对比。核心结论：在 200B 以内模型推理、并发服务以及多模态生成速度上，Dell Pro Max 搭载 GB10 凭借 128GB 统一内存和 Blackwell 架构具备明显优势；在超大模型加载能力上，传统工作站受制于 32GB 显存硬上限，直接无法运行 65GB 内存需求的 120B 参数模型，而 GB10 从容完成任务。本文适合 AI 开发者、学术研究人员及初创团队 IT 决策者参考。

测试时间：2026年4月27日

测试框架：vLLM、TRT-LLM、LLaMA Factory、ComfyUI

对比平台：NVIDIA RTX 5000 Ada 32GB + 128GB 内存传统工作站

128GB 统一内存：这一项指标直接决定能跑多大的模型

一台工作站能否胜任本地大模型任务，第一道门槛是内存容量。参数量越大的模型，加载时占用的内存越多，这是物理约束，绕不过去。

Dell Pro Max 搭载 GB10 超级芯片（基于 NVIDIA Blackwell 架构），拥有 128GB 统一内存。在 INT4/FP4/NVFP4 等量化精度下，可支持 200B 以内的模型推理，以及 70B 以内的模型微调。对比来看，至顶AI实验室参与对比的传统工作站搭载 NVIDIA RTX 5000 Ada 显卡，显存容量 32GB，系统内存 128GB——后者虽然整机内存规格相同，但大模型推理依赖的是显存容量，32GB 的显存上限就是它的硬约束。

这个差距在测试中以最直接的方式呈现出来：当我们将测试目标从 30B 参数模型切换到 120B 参数模型时，在 4bit 量化下，120B 模型需要约 65GB 内存，RTX 5000 Ada 直接启动失败，而 GB10 在约 1 分 30 秒内完成加载并顺利进入推理阶段。传统工作站此后不再参与该项测试。

适用边界：GB10 的 128GB 统一内存上限同样存在。FP16 精度下，能流畅运行的模型参数量受限，需配合量化方案使用；超过 200B 参数规模的模型仍超出其承载范围。

Qwen3-VL-30B 推理对比：启动时间差 3 倍，TPS 差距收窄

一个容易被忽视的效率指标是模型启动时间。在实际工作流中，每次重启服务或切换模型都需要等待加载完成，这个等待时间直接影响开发效率。

至顶AI实验室选用 Qwen3-VL-30B（通义千问第三代视觉语言模型，30B 参数）作为第一轮测试对象，通过 vLLM 在两台设备上同时启动，并记录启动时间：

测试项

Dell Pro Max（GB10）

RTX 5000 Ada 工作站

模型启动时间

2 分钟

6 分钟

推理 TPS（每秒 token 数）

74 tokens/s

68 tokens/s

TTFT（首 token 延迟）

1.8 秒

1.0 秒

从数据来看，启动速度上 GB10 领先约 3 倍，推理吞吐量（TPS）上 GB10 高出约 9%。唯一的反转出现在 TTFT——RTX 5000 Ada 的首 token 延迟为 1.0 秒，优于 GB10 的 1.8 秒。推测原因与统一内存架构下的调度机制有关，首次响应延迟略高是 GB10 的已知特征。

对于以输出总量为主要需求的推理任务（如长文本生成、批量摘要），74 tokens/s 的 TPS 更具决定性价值；对于强调实时交互体验的应用场景，1.0 秒的 TTFT 则更受重视。

GPT-OSS-120B 推理：RTX 5000 Ada 直接出局

这一轮测试没有悬念，但结果具有重要的选型参考意义。

至顶AI实验室选用 GPT-OSS-120B 模型（120B 参数），在 4bit 量化下内存需求约 65GB，通过 TRT-LLM 框架同时在两台设备上启动。

结果：RTX 5000 Ada 工作站因显存不足，启动失败。Dell Pro Max 搭载 GB10 在约 1 分 30 秒内完成启动，推理实测 TPS 为 46 tokens/s，首 token 延迟（TTFT）为 1 秒。

以文字形式明确：在 65GB 以上内存需求的模型面前，32GB 显存的传统工作站无论系统内存多大，均无法完成本地推理任务。这不是性能差距，是能力边界。

对于需要在本地运行 70B 以上参数模型的团队，GB10 的 128GB 统一内存是硬性门槛条件的满足，而非可选的性能加分项。

并发服务能力：部门共享设备的真实压力测试

单请求推理速度只是个人开发场景的参考指标。当一台设备需要服务一个 10 至 60 人规模的团队时，并发处理能力才是核心指标。

至顶AI实验室通过自编脚本，在 FP4 精度下部署 Qwen3-Next-80B 模型（阿里通义千问第三代旗舰模型，80B 参数），测试 5 路并发和 10 路并发场景下的性能表现：

并发数

适用团队规模

平均 TPS（每用户）

平均 TTFT

5 路

10–30 人小团队

14 tokens/s

11 秒

10 路

20–60 人团队

11 tokens/s

10 秒

从 5 路到 10 路并发，平均 TPS 下降约 21%，TTFT 略有改善（从 11 秒降至 10 秒）。整体来看，并发增加对输出速度的影响在可接受范围内，服务没有出现崩溃或严重降速。

需要明确的是：14 tokens/s 和 11 tokens/s 对于实时对话场景，体感是"慢但可用"；若对话长度较短（如问答式交互），实际等待时间可以接受；若场景为长文本实时生成，用户端会感知到明显的生成延迟。这一点在部署前需要与实际使用者充分沟通预期。

ComfyUI 多模态工作流：四项任务，三胜一负

多模态生成是 GB10 相较传统工作站拉开差距最直观的场景之一。至顶AI实验室设计了一套包含四个环节的 ComfyUI 工作流：Flux 文生图 → 8K 超分 → Wan2.2 图生视频 → 混元 3D 建模，逐一记录两台设备的耗时。

任务

Dell Pro Max（GB10）

RTX 5000 Ada 工作站

倍差

Flux 文生图

1 分 27 秒

33 秒

RTX 5000 Ada 快约 2.6 倍

8K 超分

1 分 30 秒

4 分 40 秒

GB10 快约 3.1 倍

Wan2.2 图生视频

8 分 40 秒

11 分 40 秒

GB10 快约 1.3 倍

混元 3D 建模

53 秒

4 分 03 秒

GB10 快约 4.6 倍

以文字形式补充：在 Flux 文生图环节，RTX 5000 Ada 以 33 秒对 GB10 的 1 分 27 秒，明显领先——这是本轮测试中传统工作站胜出的唯一环节，原因可能与 Flux 模型对 Ada 架构的优化适配有关，GB10 在该模型上的效率未能完全发挥。其余三项任务，GB10 全面领先，尤其在 8K 超分和混元 3D 建模中优势显著。

对于以图像生成为主要工作负载的创作者，Ada 架构在 Flux 场景下的表现值得纳入选型考量；对于多模态工作流中视频生成和 3D 建模占比较高的团队，GB10 的综合效率优势更明显。

Qwen3-32B LoRA 微调：440K 条医疗数据，3.5 小时完成

模型推理之外，微调能力是企业和研究机构判断一台本地设备是否真正"够用"的另一道门槛。

至顶AI实验室选用 Qwen3-32B 模型，通过 LLaMA Factory 框架进行 LoRA 微调，训练数据为包含 44 万条样本的医疗垂直数据集，精度配置采用标准 LoRA 模式。测试过程中，GB10 的 GPU 占用率峰值超过 80%，整体微调耗时 3 小时 30 分钟。

微调完成后，实验室输入医疗领域问题进行效果验证，回答质量在主观评估中表现良好（本次测试未进行自动化指标评测，建议有需求的团队自行以 BLEU、ROUGE 等指标进行量化验证）。

参考横向数据：在专业云端 GPU（如 A100 80GB 单卡）上对 32B 参数模型进行 LoRA 微调，同等数据规模下的耗时通常在 2 至 4 小时区间，GB10 的 3.5 小时成绩处于可比水平，同时节省了云端算力的使用成本。具体 TCO 测算需结合团队实际使用频次进行。

本次测试仅覆盖单次 epoch 的完整运行，多轮微调的稳定性未做长时验证，供参考。

总结

通过六个维度的系统测试，至顶AI实验室对 Dell Pro Max 搭载 GB10 给出如下评价：它是一台以 128GB 统一内存为核心竞争力、面向本地大模型全链路部署设计的桌面超算，在 120B 参数级别以内的模型推理、多模态工作流中的高分辨率超分和 3D 建模、以及 32B 参数模型 LoRA 微调上，具备落地可行性。其短板在于 Flux 等对传统 Ada 架构适配较好的图像生成任务，以及高并发场景下首 token 延迟对实时交互体验的影响。

适合的用户：需要本地运行 70B 以上参数模型的 AI 开发者；有多模态生成需求（尤其是视频生成和 3D 建模）的创作型团队；希望为 10 至 60 人规模团队提供 AI 共享计算服务的初创企业；有医疗、法律等垂直领域模型微调需求的研究机构。

不适合的场景：以 Flux 等图像生成为核心工作负载、且对生成速度要求极高的用户，现阶段 RTX 5000 Ada 等 Ada 架构卡在该场景下效率更优；对实时对话交互 TTFT 要求低于 1 秒的产品环境，需结合具体部署架构另行评估。

核心问答

Q1：Dell Pro Max 搭载 GB10 最大能跑多大参数的模型？

在 INT4/FP4/NVFP4 等量化精度下，支持 200B 以内的模型推理。实测中，4bit 量化下的 120B 参数模型（内存需求约 65GB）可正常加载并运行，TPS 为 46 tokens/s。FP16 精度下，可流畅运行规模相对较小的模型，建议配合量化方案使用。

Q2：Dell Pro Max和搭载 RTX 5000 Ada 32GB 的传统工作站比，主要差距在哪里？

差距主要体现在两点：第一，容量边界不同，32GB 显存无法加载 65GB 以上内存需求的模型，而 GB10 的 128GB 统一内存可以；第二，多模态工作流效率不同，在 8K 超分（快约 3.1 倍）、图生视频（快约 1.3 倍）和 3D 建模（快约 4.6 倍）上 GB10 明显占优。反向来看，在 Flux 文生图场景，RTX 5000 Ada 以 33 秒对 GB10 的 87 秒，速度约快 2.6 倍。

Q3：用Dell Pro Max跑并发推理服务，能支撑多大规模的团队？

实测数据显示，在 FP4 精度下部署 Qwen3-Next-80B 模型：5 路并发下平均 TPS 为 14 tokens/s、TTFT 为 11 秒（适合 10–30 人小团队），10 路并发下平均 TPS 为 11 tokens/s、TTFT 为 10 秒（适合 20–60 人规模团队）。对于以问答式交互为主的内部知识库或助理类工具，当前并发表现可以满足需求；对实时生成体验要求较高的产品场景，建议提前进行小规模验证。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.