网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V4-Flash 本地部署,2 x H20(96GB版本),性能简测

0
分享至

继续看看 V4,本文看下 DeepSeek-V4-Flash 本地部署

我的设备

  • CPU :Intel Xeon Platinum 8457C

  • 内存 :480 GiB

  • GPU :2 x NVIDIA H20,单卡显存 96 GB

  • 驱动版本:580.126.09

  • CUDA 版本:13.0

  • 系统盘:100G

  • 数据盘:1T

1、模型下载

模型文件 160GB

国内网络,模型下载

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash
2、vLLM Docker 镜像准备

安装vllm-nightly我从没有成功过,只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

3、启动脚本

大家也看到了,即便是 Flash,能跑得起的设备也很少,AMD 全军覆没

看了几个 issues,消费级英伟达显卡也都不配

上面的启动脚本我的 2xH20 自然也不配,启动 N 次,都是 OOM


不断试错之后,实际使用的脚本:

docker run -d \
--name vllm-deepseek-v4-flash \
--restart unless-stopped \
--gpus all \
--privileged \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models:ro \
-e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
vllm/vllm-openai:deepseekv4-cu129 \
/models/DeepSeek-V4-Flash \
--trust-remote-code \
--kv-cache-dtype fp8 \
--block-size 256 \
--enable-expert-parallel \
--data-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 7000 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 \
--enable-auto-tool-choice \
--enforce-eager

模型默认 max seq len1048576,完全搞不动,所以我这里 --max-model-len 只设 7K


启动正常,几个日志关键信息分享一下:

1、模型原始 Safetensors 权重文件高达 148.66 GiB(EXT4 文件系统显示的 size),但在启用 FP8 量化 和 Expert Parallelism(EP) 后,单个 Worker 进程(Rank)加载的权重被压缩到了 77.6 GiB

2、扣除权重和系统预留后,只剩下了约 9.29 GiB 用于缓存

3、并发能力,日志显示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。这意味着在长文本(7k tokens)情况下,系统仅能支持约 3.72 个并发请求

4、模型总共有 256 个专家,通过并行配置,每个 Worker 维护 128 个。这样做既利用了多卡的算力,又分摊了专家权重的显存压力

5、日志显示 Using DeepSeek's fp8_ds_mla KV cacheformat。这是 DeepSeek 的“独门绝技”,通过低秩压缩技术(Multi-head Latent Attention),在 FP8 模式下极大地缓解了内存带宽压力(扩展阅读:)

6、日志还可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等内核的编译

7、启动速度:整个引擎初始化(Profile + Cache 创建 + Warmup)耗时约 233 秒。对于这种规模的模型,这个速度表现尚可,大部分时间花在了 DeepGEMM warmup(2 分 36 秒)


性能情况

效果就别追求了,看看性能


平均生成速度 8.33!!!遥遥领先的卡吗?

哦哦,不对是 H20

难以置信,要知道我测试

关闭思考

查了一下 DeepSeek API 文档,可以关闭思考


写了一个脚本再测、,对比思考与非思考下性能,各跑 10 次取平均,同样的 prompt,max_tokens=1024

结果如下:


再见,浪费了宝贵的几个小时!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
近1800条质疑!清华博士发言“在西部奉献”,原来是入职西安交大

近1800条质疑!清华博士发言“在西部奉献”,原来是入职西安交大

火山詩话
2026-06-24 05:02:06
结婚八年三个孩子疑似非亲生 当事人:起诉离婚,法院已受理

结婚八年三个孩子疑似非亲生 当事人:起诉离婚,法院已受理

封面新闻
2026-06-23 15:44:06
美以伊最新局势:伊朗总统称若无导弹伊朗早被美以夷为平地,就像加沙;特朗普称致力于达成公平协议;以色列曾密送星链试图颠覆伊朗政权

美以伊最新局势:伊朗总统称若无导弹伊朗早被美以夷为平地,就像加沙;特朗普称致力于达成公平协议;以色列曾密送星链试图颠覆伊朗政权

都市快报橙柿互动
2026-06-24 07:01:43
联合国调查委员会:以色列在加沙故意针对儿童实施种族灭绝行为

联合国调查委员会:以色列在加沙故意针对儿童实施种族灭绝行为

西游日记
2026-06-23 20:03:28
独家对话“纸尿裤风波”第一爆料人王东鉴:如果我错了,道歉、赔偿甚至坐牢,都接受

独家对话“纸尿裤风波”第一爆料人王东鉴:如果我错了,道歉、赔偿甚至坐牢,都接受

每日经济新闻
2026-06-24 00:49:27
交通执法人员被举报“违规收受礼品”,官方通报

交通执法人员被举报“违规收受礼品”,官方通报

澎湃新闻
2026-06-23 23:14:08
中央气象台发布暴雨、强对流、台风预警,云南、广西等地局部地区有大暴雨

中央气象台发布暴雨、强对流、台风预警,云南、广西等地局部地区有大暴雨

界面新闻
2026-06-24 06:53:04
奇才状元签选迪班萨:队史第7位状元 联手浓眉特雷杨组三巨头

奇才状元签选迪班萨:队史第7位状元 联手浓眉特雷杨组三巨头

醉卧浮生
2026-06-24 08:31:47
曾被云南镇雄县公安局原副局长举报伪造、篡改笔录,涉事办案人员已不再担任县信访局局长职务

曾被云南镇雄县公安局原副局长举报伪造、篡改笔录,涉事办案人员已不再担任县信访局局长职务

大风新闻
2026-06-23 11:32:12
挑事?C罗双响后被问梅西2场5球!生气扭头就走:我才不在乎他呢

挑事?C罗双响后被问梅西2场5球!生气扭头就走:我才不在乎他呢

我爱英超
2026-06-24 05:13:42
袁咏仪回应儿子进娱乐圈:我没看到他的天分!其与张智霖之子身高超1米8,帅气五官酷似爸妈

袁咏仪回应儿子进娱乐圈:我没看到他的天分!其与张智霖之子身高超1米8,帅气五官酷似爸妈

新浪财经
2026-06-23 19:09:28
我们吃饱饭才几年,这么多人就没一个对手看得上

我们吃饱饭才几年,这么多人就没一个对手看得上

担扑
2026-06-21 14:32:26
北京一位空姐嫁给了打工仔,婚后一年,她才得知丈夫真实身份

北京一位空姐嫁给了打工仔,婚后一年,她才得知丈夫真实身份

千秋文化
2026-06-21 19:49:55
巴萨脸都被打肿!8000 万水货世界杯现形 愚蠢操作差点坑死英格兰

巴萨脸都被打肿!8000 万水货世界杯现形 愚蠢操作差点坑死英格兰

奶盖熊本熊
2026-06-24 06:33:47
妈妈参加婚礼,突然发现新娘是自己,激动得像个小女孩……网友:幸福感溢出屏幕

妈妈参加婚礼,突然发现新娘是自己,激动得像个小女孩……网友:幸福感溢出屏幕

环球网资讯
2026-06-23 16:46:38
世界杯官方“点名”马宁,释放三个强烈信号,范志毅那番话说得对

世界杯官方“点名”马宁,释放三个强烈信号,范志毅那番话说得对

阿薎美食
2026-06-24 06:55:53
周冬雨回应“演话剧不背台词”:导演跟我说不用背台词,舞台上可以随意发挥;此前其出演话剧《文城》被指不背台词、对着剧本还读错

周冬雨回应“演话剧不背台词”:导演跟我说不用背台词,舞台上可以随意发挥;此前其出演话剧《文城》被指不背台词、对着剧本还读错

极目新闻
2026-06-23 09:41:38
2026年世界杯美国根本不靠门票赚钱,这套玩法我们很难复制

2026年世界杯美国根本不靠门票赚钱,这套玩法我们很难复制

老特有话说
2026-06-23 14:08:03
Shams:被做筹码交易字母哥失败后,杰伦-布朗与绿军的关系已变得紧张

Shams:被做筹码交易字母哥失败后,杰伦-布朗与绿军的关系已变得紧张

懂球帝
2026-06-24 01:02:09
运城“13岁女孩称遭男子强奸,警方不予立案” 女孩亲述:我不同意,想打他但不敢……

运城“13岁女孩称遭男子强奸,警方不予立案” 女孩亲述:我不同意,想打他但不敢……

大风新闻
2026-06-23 17:03:12
2026-06-24 09:12:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3438文章数 11167关注度
往期回顾 全部

科技要闻

国产超算时隔九年再度登顶全球

头条要闻

内塔尼亚胡:执政30年 没服过任何一个美国总统

头条要闻

内塔尼亚胡:执政30年 没服过任何一个美国总统

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

健康
游戏
房产
旅游
艺术

同样是中风,急救方向竟完全相反?

宫本茂认为塞尔达迷宫并不是很有趣 玩家不爱玩?

房产要闻

洞察新局|预算不变 居住升级 2026广州置业成本观察

旅游要闻

日本不欢迎中国游客?

艺术要闻

何红舟 2026年5月人物写生新作

无障碍浏览 进入关怀版