网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V4-Flash 本地部署,2 x H20(96GB版本),性能简测

0
分享至

继续看看 V4,本文看下 DeepSeek-V4-Flash 本地部署

我的设备

  • CPU :Intel Xeon Platinum 8457C

  • 内存 :480 GiB

  • GPU :2 x NVIDIA H20,单卡显存 96 GB

  • 驱动版本:580.126.09

  • CUDA 版本:13.0

  • 系统盘:100G

  • 数据盘:1T

1、模型下载

模型文件 160GB

国内网络,模型下载

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash
2、vLLM Docker 镜像准备

安装vllm-nightly我从没有成功过,只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

3、启动脚本

大家也看到了,即便是 Flash,能跑得起的设备也很少,AMD 全军覆没

看了几个 issues,消费级英伟达显卡也都不配

上面的启动脚本我的 2xH20 自然也不配,启动 N 次,都是 OOM


不断试错之后,实际使用的脚本:

docker run -d \
--name vllm-deepseek-v4-flash \
--restart unless-stopped \
--gpus all \
--privileged \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models:ro \
-e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
vllm/vllm-openai:deepseekv4-cu129 \
/models/DeepSeek-V4-Flash \
--trust-remote-code \
--kv-cache-dtype fp8 \
--block-size 256 \
--enable-expert-parallel \
--data-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 7000 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 \
--enable-auto-tool-choice \
--enforce-eager

模型默认 max seq len1048576,完全搞不动,所以我这里 --max-model-len 只设 7K


启动正常,几个日志关键信息分享一下:

1、模型原始 Safetensors 权重文件高达 148.66 GiB(EXT4 文件系统显示的 size),但在启用 FP8 量化 和 Expert Parallelism(EP) 后,单个 Worker 进程(Rank)加载的权重被压缩到了 77.6 GiB

2、扣除权重和系统预留后,只剩下了约 9.29 GiB 用于缓存

3、并发能力,日志显示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。这意味着在长文本(7k tokens)情况下,系统仅能支持约 3.72 个并发请求

4、模型总共有 256 个专家,通过并行配置,每个 Worker 维护 128 个。这样做既利用了多卡的算力,又分摊了专家权重的显存压力

5、日志显示 Using DeepSeek's fp8_ds_mla KV cacheformat。这是 DeepSeek 的“独门绝技”,通过低秩压缩技术(Multi-head Latent Attention),在 FP8 模式下极大地缓解了内存带宽压力(扩展阅读:)

6、日志还可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等内核的编译

7、启动速度:整个引擎初始化(Profile + Cache 创建 + Warmup)耗时约 233 秒。对于这种规模的模型,这个速度表现尚可,大部分时间花在了 DeepGEMM warmup(2 分 36 秒)


性能情况

效果就别追求了,看看性能


平均生成速度 8.33!!!遥遥领先的卡吗?

哦哦,不对是 H20

难以置信,要知道我测试

关闭思考

查了一下 DeepSeek API 文档,可以关闭思考


写了一个脚本再测、,对比思考与非思考下性能,各跑 10 次取平均,同样的 prompt,max_tokens=1024

结果如下:


再见,浪费了宝贵的几个小时!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郭斌发文阴阳王励勤,说乒协没打招呼就动了他那块地盘。 不是因为他说自己亏本经营替国乒兜底。

郭斌发文阴阳王励勤,说乒协没打招呼就动了他那块地盘。 不是因为他说自己亏本经营替国乒兜底。

乒乓网国球汇
2026-06-23 02:31:09
字母哥还不够!热火三方交易方案曝光,迎回詹姆斯父子组三巨头

字母哥还不够!热火三方交易方案曝光,迎回詹姆斯父子组三巨头

夜白侃球
2026-06-27 21:39:47
女孩查分721,当晚选择坠楼自杀,警方检查手机短信,发现实情

女孩查分721,当晚选择坠楼自杀,警方检查手机短信,发现实情

罪案洞察者
2025-07-16 10:48:38
川大和港理工研究发现:一个地方经济越落后,女生自拍P图越厉害

川大和港理工研究发现:一个地方经济越落后,女生自拍P图越厉害

必记本
2026-06-12 14:03:52
内存大涨价,玩家用DDR1平台成功运行Win11系统

内存大涨价,玩家用DDR1平台成功运行Win11系统

IT之家
2026-06-28 12:25:11
倒查13年,央企国企慌了!招投标大数据监管,建筑行业变天了

倒查13年,央企国企慌了!招投标大数据监管,建筑行业变天了

职场资深秘书
2026-06-28 22:30:22
罗德里戈观战葡萄牙比赛,并和B席合影:我们现在是队友了

罗德里戈观战葡萄牙比赛,并和B席合影:我们现在是队友了

懂球帝
2026-06-28 18:58:13
世界杯主帅薪资曝光:巴西主帅卡洛・安切洛蒂年薪 7755 万元居首

世界杯主帅薪资曝光:巴西主帅卡洛・安切洛蒂年薪 7755 万元居首

宝哥精彩赛事
2026-06-28 19:56:13
外埠车比京牌多4小时禁行,明天起限行规则有哪些变化?

外埠车比京牌多4小时禁行,明天起限行规则有哪些变化?

起喜电影
2026-06-28 15:37:00
凯恩18球升至欧洲球员大赛进球榜第三,仅次于C罗和克洛泽

凯恩18球升至欧洲球员大赛进球榜第三,仅次于C罗和克洛泽

懂球帝
2026-06-28 06:43:11
广州打网约车闹大了,预估43元结账149元,司机端基础车费才38元

广州打网约车闹大了,预估43元结账149元,司机端基础车费才38元

小虎新车推荐员
2026-06-28 15:43:02
你敢信吗?一个美国安插在中国潜伏了多年的间谍头子,居然是他

你敢信吗?一个美国安插在中国潜伏了多年的间谍头子,居然是他

无情有思ss
2026-06-06 02:21:10
新闻联播几乎没人看了,你知道是什么原因吗?真实原因大曝光

新闻联播几乎没人看了,你知道是什么原因吗?真实原因大曝光

文史达观
2024-07-17 13:26:12
创始人不喝自家产品?东鹏特饮报警

创始人不喝自家产品?东鹏特饮报警

中国新闻周刊
2026-06-27 22:05:17
在设计院,性能力才是第一生产力

在设计院,性能力才是第一生产力

黯泉
2025-07-06 21:54:56
黄一鸣多个账号被封,像个泼妇一样当街叫骂,男友可能也要离开她

黄一鸣多个账号被封,像个泼妇一样当街叫骂,男友可能也要离开她

汉史趣闻
2026-06-26 09:45:37
阿根廷将帅谈佛得角队:难缠、强大……

阿根廷将帅谈佛得角队:难缠、强大……

澎湃新闻
2026-06-28 17:44:16
越南,已经主动从中国的经济巨舰上跳船了!

越南,已经主动从中国的经济巨舰上跳船了!

回京历史梦
2026-06-22 18:43:18
41岁C罗3轮小组赛全首发!孙继海:就算葡萄牙夺冠 也不是他带领的

41岁C罗3轮小组赛全首发!孙继海:就算葡萄牙夺冠 也不是他带领的

风过乡
2026-06-28 06:59:28
中美俄人均智商差距太大:美国99.74,俄罗斯103.16,中国多少?

中美俄人均智商差距太大:美国99.74,俄罗斯103.16,中国多少?

蜉蝣说
2026-06-27 17:14:15
2026-06-29 03:12:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3445文章数 11168关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱,我只服梁文锋

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

本地
亲子
时尚
教育
公开课

本地新闻

世界杯球迷节:比球赛更好玩的派对

亲子要闻

肠道真菌菌群紊乱增加儿童过敏风险

夏天裙子不用买多,建议入手一条蓝裙子,清爽高级又耐看

教育要闻

入学就“锁定”事业编!“振兴龙江”计划,毕业直接就业

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版