网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V4-Flash 本地部署,2 x H20(96GB版本),性能简测

0
分享至

继续看看 V4,本文看下 DeepSeek-V4-Flash 本地部署

我的设备

  • CPU :Intel Xeon Platinum 8457C

  • 内存 :480 GiB

  • GPU :2 x NVIDIA H20,单卡显存 96 GB

  • 驱动版本:580.126.09

  • CUDA 版本:13.0

  • 系统盘:100G

  • 数据盘:1T

1、模型下载

模型文件 160GB

国内网络,模型下载

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash
2、vLLM Docker 镜像准备

安装vllm-nightly我从没有成功过,只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

3、启动脚本

大家也看到了,即便是 Flash,能跑得起的设备也很少,AMD 全军覆没

看了几个 issues,消费级英伟达显卡也都不配

上面的启动脚本我的 2xH20 自然也不配,启动 N 次,都是 OOM


不断试错之后,实际使用的脚本:

docker run -d \
--name vllm-deepseek-v4-flash \
--restart unless-stopped \
--gpus all \
--privileged \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models:ro \
-e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
vllm/vllm-openai:deepseekv4-cu129 \
/models/DeepSeek-V4-Flash \
--trust-remote-code \
--kv-cache-dtype fp8 \
--block-size 256 \
--enable-expert-parallel \
--data-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 7000 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 \
--enable-auto-tool-choice \
--enforce-eager

模型默认 max seq len1048576,完全搞不动,所以我这里 --max-model-len 只设 7K


启动正常,几个日志关键信息分享一下:

1、模型原始 Safetensors 权重文件高达 148.66 GiB(EXT4 文件系统显示的 size),但在启用 FP8 量化 和 Expert Parallelism(EP) 后,单个 Worker 进程(Rank)加载的权重被压缩到了 77.6 GiB

2、扣除权重和系统预留后,只剩下了约 9.29 GiB 用于缓存

3、并发能力,日志显示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。这意味着在长文本(7k tokens)情况下,系统仅能支持约 3.72 个并发请求

4、模型总共有 256 个专家,通过并行配置,每个 Worker 维护 128 个。这样做既利用了多卡的算力,又分摊了专家权重的显存压力

5、日志显示 Using DeepSeek's fp8_ds_mla KV cacheformat。这是 DeepSeek 的“独门绝技”,通过低秩压缩技术(Multi-head Latent Attention),在 FP8 模式下极大地缓解了内存带宽压力(扩展阅读:)

6、日志还可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等内核的编译

7、启动速度:整个引擎初始化(Profile + Cache 创建 + Warmup)耗时约 233 秒。对于这种规模的模型,这个速度表现尚可,大部分时间花在了 DeepGEMM warmup(2 分 36 秒)


性能情况

效果就别追求了,看看性能


平均生成速度 8.33!!!遥遥领先的卡吗?

哦哦,不对是 H20

难以置信,要知道我测试

关闭思考

查了一下 DeepSeek API 文档,可以关闭思考


写了一个脚本再测、,对比思考与非思考下性能,各跑 10 次取平均,同样的 prompt,max_tokens=1024

结果如下:


再见,浪费了宝贵的几个小时!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马上评|2G、3G退网是趋势,但别忘了等一等老人

马上评|2G、3G退网是趋势,但别忘了等一等老人

澎湃新闻
2026-07-05 15:08:30
柬埔寨园区关押2100名国内大学生?媒体突然辟谣,网友质疑不断!

柬埔寨园区关押2100名国内大学生?媒体突然辟谣,网友质疑不断!

眼光很亮
2026-07-05 10:25:24
0-3!皇马大将送助攻,世界杯首支8强球队诞生,摩洛哥静候法国

0-3!皇马大将送助攻,世界杯首支8强球队诞生,摩洛哥静候法国

我的护球最独特
2026-07-05 03:06:31
中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

细说职场
2026-07-04 21:41:53
最新:俄罗斯领土别尔哥罗德遭受战争以来最大规模打击!

最新:俄罗斯领土别尔哥罗德遭受战争以来最大规模打击!

项鹏飞
2026-07-05 22:00:11
踢完世界杯马上踢中超!本届世界杯唯一一个现役中超球员已火速回归

踢完世界杯马上踢中超!本届世界杯唯一一个现役中超球员已火速回归

新浪财经
2026-07-05 22:04:44
中国田径彻底爆发?严子怡创PB纪录后,链球新人在钻石联赛夺冠

中国田径彻底爆发?严子怡创PB纪录后,链球新人在钻石联赛夺冠

里芃芃体育
2026-07-06 00:30:04
重磅:乌克兰摧毁圣彼得堡石油港口!喷发百米火球

重磅:乌克兰摧毁圣彼得堡石油港口!喷发百米火球

项鹏飞
2026-07-05 21:43:52
最后一舞?每体:C罗姐姐暗示他世界杯后退出国家队

最后一舞?每体:C罗姐姐暗示他世界杯后退出国家队

懂球帝
2026-07-05 20:10:29
特朗普:伊朗举国哀悼哈梅内伊,我很震惊,“我还以为伊朗人不喜欢他”,美国不会在葬礼期间发动攻击

特朗普:伊朗举国哀悼哈梅内伊,我很震惊,“我还以为伊朗人不喜欢他”,美国不会在葬礼期间发动攻击

大风新闻
2026-07-05 14:18:04
第二个许家印!广州首富栽了!世界500强竟是假的,千亿帝国清零

第二个许家印!广州首富栽了!世界500强竟是假的,千亿帝国清零

乐天闲聊
2026-07-05 20:04:36
扛不住了?日本通告全球,决不允许中国对日本二次管控制裁

扛不住了?日本通告全球,决不允许中国对日本二次管控制裁

像风走了八万里不问归期
2026-07-05 18:55:55
仅带队踢了2场世界杯!57岁名帅宣布辞职:球队8人兴奋剂检测异常

仅带队踢了2场世界杯!57岁名帅宣布辞职:球队8人兴奋剂检测异常

风过乡
2026-07-05 05:40:25
贪污上亿,假慈善,身体出问题?54岁的韩红到底动了谁的蛋糕?

贪污上亿,假慈善,身体出问题?54岁的韩红到底动了谁的蛋糕?

曹莽看世界
2026-07-04 10:36:07
《我不是药神》上映8周年,原型陆勇:曾吃药“一年吃掉一套房”,抗癌24年将在10月尝试停药

《我不是药神》上映8周年,原型陆勇:曾吃药“一年吃掉一套房”,抗癌24年将在10月尝试停药

极目新闻
2026-07-05 09:49:18
压着打!中国队3-0掀翻澳大利亚升到第一名,徐正鹏2助攻太出色

压着打!中国队3-0掀翻澳大利亚升到第一名,徐正鹏2助攻太出色

何老师呀
2026-07-05 22:01:48
快讯!台北市长蒋万安正式宣布了!

快讯!台北市长蒋万安正式宣布了!

故事终将光明磊落
2026-07-05 13:57:32
德天空:红牛集团要求德国足协支付补偿,才会放行克洛普

德天空:红牛集团要求德国足协支付补偿,才会放行克洛普

懂球帝
2026-07-05 22:29:07
【特稿】伊朗人高呼“复仇” 特朗普称“全是假哭”遭驳斥

【特稿】伊朗人高呼“复仇” 特朗普称“全是假哭”遭驳斥

新华社
2026-07-05 14:46:03
劳塔罗和娇妻近照,年少成名,世界杯作用关键,超模妻子很美

劳塔罗和娇妻近照,年少成名,世界杯作用关键,超模妻子很美

大西体育
2026-07-05 23:17:08
2026-07-06 03:00:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3455文章数 11172关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

四川深夜连发3次超4级地震 居民外出躲避回屋再遇地震

头条要闻

四川深夜连发3次超4级地震 居民外出躲避回屋再遇地震

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
亲子
手机
公开课
军事航空

教育要闻

“六大”之后,这所四星高中绝对是最优选择!

亲子要闻

工程车爱游泳

手机要闻

2026下半年换机方向定了:大屏手机要火,华米OV耀聚齐了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京与特朗普通话85分钟 细节公布

无障碍浏览 进入关怀版