网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V4-Flash 本地部署,2 x H20(96GB版本),性能简测

0
分享至

继续看看 V4,本文看下 DeepSeek-V4-Flash 本地部署

我的设备

  • CPU :Intel Xeon Platinum 8457C

  • 内存 :480 GiB

  • GPU :2 x NVIDIA H20,单卡显存 96 GB

  • 驱动版本:580.126.09

  • CUDA 版本:13.0

  • 系统盘:100G

  • 数据盘:1T

1、模型下载

模型文件 160GB

国内网络,模型下载

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash
2、vLLM Docker 镜像准备

安装vllm-nightly我从没有成功过,只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

3、启动脚本

大家也看到了,即便是 Flash,能跑得起的设备也很少,AMD 全军覆没

看了几个 issues,消费级英伟达显卡也都不配

上面的启动脚本我的 2xH20 自然也不配,启动 N 次,都是 OOM


不断试错之后,实际使用的脚本:

docker run -d \
--name vllm-deepseek-v4-flash \
--restart unless-stopped \
--gpus all \
--privileged \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models:ro \
-e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
vllm/vllm-openai:deepseekv4-cu129 \
/models/DeepSeek-V4-Flash \
--trust-remote-code \
--kv-cache-dtype fp8 \
--block-size 256 \
--enable-expert-parallel \
--data-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 7000 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 \
--enable-auto-tool-choice \
--enforce-eager

模型默认 max seq len1048576,完全搞不动,所以我这里 --max-model-len 只设 7K


启动正常,几个日志关键信息分享一下:

1、模型原始 Safetensors 权重文件高达 148.66 GiB(EXT4 文件系统显示的 size),但在启用 FP8 量化 和 Expert Parallelism(EP) 后,单个 Worker 进程(Rank)加载的权重被压缩到了 77.6 GiB

2、扣除权重和系统预留后,只剩下了约 9.29 GiB 用于缓存

3、并发能力,日志显示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。这意味着在长文本(7k tokens)情况下,系统仅能支持约 3.72 个并发请求

4、模型总共有 256 个专家,通过并行配置,每个 Worker 维护 128 个。这样做既利用了多卡的算力,又分摊了专家权重的显存压力

5、日志显示 Using DeepSeek's fp8_ds_mla KV cacheformat。这是 DeepSeek 的“独门绝技”,通过低秩压缩技术(Multi-head Latent Attention),在 FP8 模式下极大地缓解了内存带宽压力(扩展阅读:)

6、日志还可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等内核的编译

7、启动速度:整个引擎初始化(Profile + Cache 创建 + Warmup)耗时约 233 秒。对于这种规模的模型,这个速度表现尚可,大部分时间花在了 DeepGEMM warmup(2 分 36 秒)


性能情况

效果就别追求了,看看性能


平均生成速度 8.33!!!遥遥领先的卡吗?

哦哦,不对是 H20

难以置信,要知道我测试

关闭思考

查了一下 DeepSeek API 文档,可以关闭思考


写了一个脚本再测、,对比思考与非思考下性能,各跑 10 次取平均,同样的 prompt,max_tokens=1024

结果如下:


再见,浪费了宝贵的几个小时!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
81岁知名港星病逝!曾被誉为“港剧第一贵妇”,与谢贤张国荣合作

81岁知名港星病逝!曾被誉为“港剧第一贵妇”,与谢贤张国荣合作

另子维爱读史
2026-06-25 21:44:42
江青警卫回忆:虽没有抱过外孙,却不是没有感情,跪求主席救李讷

江青警卫回忆:虽没有抱过外孙,却不是没有感情,跪求主席救李讷

纪实文录
2025-06-25 16:39:32
14个娃欧洲夺冠,足协装死,70岁大佬开法拉利接机:太解气了

14个娃欧洲夺冠,足协装死,70岁大佬开法拉利接机:太解气了

做一个合格的吃瓜群众
2026-06-25 19:38:49
继女从国外回来,李国庆亲自下厨,结果饼糊了一家人笑翻了

继女从国外回来,李国庆亲自下厨,结果饼糊了一家人笑翻了

落雪听梅a
2026-06-18 20:07:01
陈冲回到上海,并不是因为混不下去,而是有人没有理解到她的价值

陈冲回到上海,并不是因为混不下去,而是有人没有理解到她的价值

TVB的四小花
2026-06-26 01:50:00
信息量大!贝克汉姆长子被全面骂翻

信息量大!贝克汉姆长子被全面骂翻

这里是美国
2026-06-25 18:31:03
最佳血压是多少?医生建议:过了71岁以后,血压最好保持这标准

最佳血压是多少?医生建议:过了71岁以后,血压最好保持这标准

叙说医疗健康
2026-06-15 08:00:49
德黑兰的扳手:为何让人讨厌

德黑兰的扳手:为何让人讨厌

民间胡扯老哥
2026-06-18 06:32:28
刻意钻空子!印度游客在秦岭禁火区烧烤,外籍游客有特权?

刻意钻空子!印度游客在秦岭禁火区烧烤,外籍游客有特权?

行者聊官
2026-06-23 18:42:05
博主:离别之际,刘彬彬说“05年来山东,21年的青春结束了”

博主:离别之际,刘彬彬说“05年来山东,21年的青春结束了”

懂球帝
2026-06-25 08:52:30
莫斯科遇袭四天,俄军彻底被激怒:大桥炸断,战争拐点真的来了?

莫斯科遇袭四天,俄军彻底被激怒:大桥炸断,战争拐点真的来了?

音乐时光的娱乐
2026-06-25 12:13:37
老胡这次彻底刷新了坏的下限!

老胡这次彻底刷新了坏的下限!

胖胖说他不胖
2026-06-08 11:50:14
人到晚年,一定要在还能走动时,把这五件事办了,一旦卧床就晚了

人到晚年,一定要在还能走动时,把这五件事办了,一旦卧床就晚了

王二哥老搞笑
2026-06-21 09:50:17
只有200多头!安徽茶农山里发现一只,出生仅仅几天

只有200多头!安徽茶农山里发现一只,出生仅仅几天

万象硬核本尊
2026-06-25 18:32:04
人民日报都看不下去了!教师什么时候成了“上街巡逻队”?

人民日报都看不下去了!教师什么时候成了“上街巡逻队”?

教师吧
2026-06-23 14:39:06
五十多岁都不放过?61岁女星自曝潜规则后,发现陪玩陪睡只是皮毛

五十多岁都不放过?61岁女星自曝潜规则后,发现陪玩陪睡只是皮毛

TVB的四小花
2026-06-24 15:19:30
震惊!37岁女子向男友发婚嫁清单,各项开支总额高达273.4888万元

震惊!37岁女子向男友发婚嫁清单,各项开支总额高达273.4888万元

火山詩话
2026-06-24 05:29:08
三球换里德:森林狼和黄蜂谁更癫?!

三球换里德:森林狼和黄蜂谁更癫?!

张佳玮写字的地方
2026-06-26 01:39:27
前苏格兰球员:若球队真的晋级,只会继续放大现在尴尬的样子

前苏格兰球员:若球队真的晋级,只会继续放大现在尴尬的样子

懂球帝
2026-06-25 11:20:32
人狂必有祸!官方终于出手,张桂梅太无辜,但何止她一人受害

人狂必有祸!官方终于出手,张桂梅太无辜,但何止她一人受害

阿心文史
2026-06-25 07:26:00
2026-06-26 04:32:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3441文章数 11167关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

游戏
家居
房产
健康
军事航空

R星官宣《GTA6》开启预购!官网现已开放购买入口

家居要闻

绿意盎然 自然之境

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

医生如何快速诊断脑梗和脑出血?

军事要闻

特朗普:现在到了关注朝鲜问题的时候了

无障碍浏览 进入关怀版