网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V4-Flash 本地部署,2 x H20(96GB版本),性能简测

0
分享至

继续看看 V4,本文看下 DeepSeek-V4-Flash 本地部署

我的设备

  • CPU :Intel Xeon Platinum 8457C

  • 内存 :480 GiB

  • GPU :2 x NVIDIA H20,单卡显存 96 GB

  • 驱动版本:580.126.09

  • CUDA 版本:13.0

  • 系统盘:100G

  • 数据盘:1T

1、模型下载

模型文件 160GB

国内网络,模型下载

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash
2、vLLM Docker 镜像准备

安装vllm-nightly我从没有成功过,只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

3、启动脚本

大家也看到了,即便是 Flash,能跑得起的设备也很少,AMD 全军覆没

看了几个 issues,消费级英伟达显卡也都不配

上面的启动脚本我的 2xH20 自然也不配,启动 N 次,都是 OOM


不断试错之后,实际使用的脚本:

docker run -d \
--name vllm-deepseek-v4-flash \
--restart unless-stopped \
--gpus all \
--privileged \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models:ro \
-e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
vllm/vllm-openai:deepseekv4-cu129 \
/models/DeepSeek-V4-Flash \
--trust-remote-code \
--kv-cache-dtype fp8 \
--block-size 256 \
--enable-expert-parallel \
--data-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 7000 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 \
--enable-auto-tool-choice \
--enforce-eager

模型默认 max seq len1048576,完全搞不动,所以我这里 --max-model-len 只设 7K


启动正常,几个日志关键信息分享一下:

1、模型原始 Safetensors 权重文件高达 148.66 GiB(EXT4 文件系统显示的 size),但在启用 FP8 量化 和 Expert Parallelism(EP) 后,单个 Worker 进程(Rank)加载的权重被压缩到了 77.6 GiB

2、扣除权重和系统预留后,只剩下了约 9.29 GiB 用于缓存

3、并发能力,日志显示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。这意味着在长文本(7k tokens)情况下,系统仅能支持约 3.72 个并发请求

4、模型总共有 256 个专家,通过并行配置,每个 Worker 维护 128 个。这样做既利用了多卡的算力,又分摊了专家权重的显存压力

5、日志显示 Using DeepSeek's fp8_ds_mla KV cacheformat。这是 DeepSeek 的“独门绝技”,通过低秩压缩技术(Multi-head Latent Attention),在 FP8 模式下极大地缓解了内存带宽压力(扩展阅读:)

6、日志还可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等内核的编译

7、启动速度:整个引擎初始化(Profile + Cache 创建 + Warmup)耗时约 233 秒。对于这种规模的模型,这个速度表现尚可,大部分时间花在了 DeepGEMM warmup(2 分 36 秒)


性能情况

效果就别追求了,看看性能


平均生成速度 8.33!!!遥遥领先的卡吗?

哦哦,不对是 H20

难以置信,要知道我测试

关闭思考

查了一下 DeepSeek API 文档,可以关闭思考


写了一个脚本再测、,对比思考与非思考下性能,各跑 10 次取平均,同样的 prompt,max_tokens=1024

结果如下:


再见,浪费了宝贵的几个小时!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
六月有惊喜,七月有好运,八月有大财的三大星座

六月有惊喜,七月有好运,八月有大财的三大星座

朗威谈星座
2026-07-03 16:12:03
乌克兰清理红军村方向俄军!俄称占领科斯蒂安蒂尼夫卡遭打脸

乌克兰清理红军村方向俄军!俄称占领科斯蒂安蒂尼夫卡遭打脸

项鹏飞
2026-07-04 20:53:23
列治文沉船上全是华人青年!6死4伤!3米巨浪、没穿救生衣、坏掉的侧门…

列治文沉船上全是华人青年!6死4伤!3米巨浪、没穿救生衣、坏掉的侧门…

起喜电影
2026-07-04 08:18:45
继广湛高铁之后,成渝高铁可能是又一个被大巴逼得降价的线路

继广湛高铁之后,成渝高铁可能是又一个被大巴逼得降价的线路

柏铭锐谈
2026-07-04 00:03:24
定了!下半年起,宽带费、有线电视费全面大洗牌!家家都能省钱

定了!下半年起,宽带费、有线电视费全面大洗牌!家家都能省钱

林子说事
2026-06-18 19:58:33
从银行辞职,嫁百亿富豪,丈夫破产后,她在上海开艾灸馆维持体面

从银行辞职,嫁百亿富豪,丈夫破产后,她在上海开艾灸馆维持体面

胡一舸南游y
2026-07-02 17:35:56
“騃女痴男”的“騃”不读āi,正确读音是什么?

“騃女痴男”的“騃”不读āi,正确读音是什么?

语丝纪
2026-07-04 22:45:51
杨宇霆被枪决,心腹事后道:他留下一句话,道出看错张学良的原因

杨宇霆被枪决,心腹事后道:他留下一句话,道出看错张学良的原因

磊子讲史
2026-06-01 16:37:07
点球战制胜!埃及总分5-3澳大利亚进世界杯16强 亚足联9队全出局

点球战制胜!埃及总分5-3澳大利亚进世界杯16强 亚足联9队全出局

我爱英超
2026-07-04 04:59:11
央视犯罪剧《悬案》开播!看完3集,我断言:这部剧又要火向全国

央视犯罪剧《悬案》开播!看完3集,我断言:这部剧又要火向全国

乡野小珥
2026-07-04 00:51:39
王金平深夜发声亮出三大立场,台海和平才是民心所向

王金平深夜发声亮出三大立场,台海和平才是民心所向

果妈聊娱乐
2026-07-03 17:03:38
炸裂!捐精有多乱,双方直接在宾馆完成怀孕过程,一次八百到几万

炸裂!捐精有多乱,双方直接在宾馆完成怀孕过程,一次八百到几万

就一点
2026-06-02 15:45:51
80后的离婚率真的太吓人了!

80后的离婚率真的太吓人了!

微微热评
2026-06-22 05:58:58
二十分钟少打一人硬扛70分钟!泰山拼尽全力,教练调整拖垮全队

二十分钟少打一人硬扛70分钟!泰山拼尽全力,教练调整拖垮全队

体坛小鹏
2026-07-04 22:01:38
全世界都没想到,伊朗没打赢翻身仗,却替中国废掉美国最狠王牌

全世界都没想到,伊朗没打赢翻身仗,却替中国废掉美国最狠王牌

陈莓特色体育解说
2026-06-30 13:30:31
“挂了快一年,从200多万降到160万,心一横,卖了。”房东割肉离场,杭州“老破小”价格回到十年前

“挂了快一年,从200多万降到160万,心一横,卖了。”房东割肉离场,杭州“老破小”价格回到十年前

都市快报橙柿互动
2026-07-04 09:57:12
梅西头撞对手膝盖额头肿起大包,带伤鏖战加时!球迷:这是神的角

梅西头撞对手膝盖额头肿起大包,带伤鏖战加时!球迷:这是神的角

听我说球
2026-07-04 09:52:51
东南大学博士学位授予仪式一男生求婚!女友强行登台动作,引争议

东南大学博士学位授予仪式一男生求婚!女友强行登台动作,引争议

火山詩话
2026-07-04 06:27:35
C5!“巴威”已达超强台风级!登陆华东概率依然较大!或直奔浙江

C5!“巴威”已达超强台风级!登陆华东概率依然较大!或直奔浙江

声情专递
2026-07-04 10:19:05
大家都在等HyperOS 4,小米却先推3.3版本,小米17已开启内测

大家都在等HyperOS 4,小米却先推3.3版本,小米17已开启内测

小8说科技
2026-07-03 20:47:38
2026-07-04 23:23:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3454文章数 11170关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

一家三口新疆自驾游突遇山洪 母子避险被冲走失联多日

头条要闻

一家三口新疆自驾游突遇山洪 母子避险被冲走失联多日

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

房产
家居
艺术
时尚
数码

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

家居要闻

传奇筑 日常诗

艺术要闻

风格独特,美国具象画家Alan Feltus

别再说"露肩衣服 "难驾驭!看看这几组日常穿搭,大方有回头率

数码要闻

中国空调在欧洲卖爆 多品牌正加急补货

无障碍浏览 进入关怀版