网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V4-Flash 本地部署,2 x H20(96GB版本),性能简测

0
分享至

继续看看 V4,本文看下 DeepSeek-V4-Flash 本地部署

我的设备

  • CPU :Intel Xeon Platinum 8457C

  • 内存 :480 GiB

  • GPU :2 x NVIDIA H20,单卡显存 96 GB

  • 驱动版本:580.126.09

  • CUDA 版本:13.0

  • 系统盘:100G

  • 数据盘:1T

1、模型下载

模型文件 160GB

国内网络,模型下载

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash
2、vLLM Docker 镜像准备

安装vllm-nightly我从没有成功过,只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

3、启动脚本

大家也看到了,即便是 Flash,能跑得起的设备也很少,AMD 全军覆没

看了几个 issues,消费级英伟达显卡也都不配

上面的启动脚本我的 2xH20 自然也不配,启动 N 次,都是 OOM


不断试错之后,实际使用的脚本:

docker run -d \
--name vllm-deepseek-v4-flash \
--restart unless-stopped \
--gpus all \
--privileged \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models:ro \
-e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
vllm/vllm-openai:deepseekv4-cu129 \
/models/DeepSeek-V4-Flash \
--trust-remote-code \
--kv-cache-dtype fp8 \
--block-size 256 \
--enable-expert-parallel \
--data-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 7000 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 \
--enable-auto-tool-choice \
--enforce-eager

模型默认 max seq len1048576,完全搞不动,所以我这里 --max-model-len 只设 7K


启动正常,几个日志关键信息分享一下:

1、模型原始 Safetensors 权重文件高达 148.66 GiB(EXT4 文件系统显示的 size),但在启用 FP8 量化 和 Expert Parallelism(EP) 后,单个 Worker 进程(Rank)加载的权重被压缩到了 77.6 GiB

2、扣除权重和系统预留后,只剩下了约 9.29 GiB 用于缓存

3、并发能力,日志显示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。这意味着在长文本(7k tokens)情况下,系统仅能支持约 3.72 个并发请求

4、模型总共有 256 个专家,通过并行配置,每个 Worker 维护 128 个。这样做既利用了多卡的算力,又分摊了专家权重的显存压力

5、日志显示 Using DeepSeek's fp8_ds_mla KV cacheformat。这是 DeepSeek 的“独门绝技”,通过低秩压缩技术(Multi-head Latent Attention),在 FP8 模式下极大地缓解了内存带宽压力(扩展阅读:)

6、日志还可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等内核的编译

7、启动速度:整个引擎初始化(Profile + Cache 创建 + Warmup)耗时约 233 秒。对于这种规模的模型,这个速度表现尚可,大部分时间花在了 DeepGEMM warmup(2 分 36 秒)


性能情况

效果就别追求了,看看性能


平均生成速度 8.33!!!遥遥领先的卡吗?

哦哦,不对是 H20

难以置信,要知道我测试

关闭思考

查了一下 DeepSeek API 文档,可以关闭思考


写了一个脚本再测、,对比思考与非思考下性能,各跑 10 次取平均,同样的 prompt,max_tokens=1024

结果如下:


再见,浪费了宝贵的几个小时!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被淘汰仅2天,65岁德国足球传奇下场炮轰,失败主要是因为女人?

被淘汰仅2天,65岁德国足球传奇下场炮轰,失败主要是因为女人?

青梅侃史啊
2026-07-03 09:48:36
油车预计多长时间会被完全淘汰?看网友评论 :引起万千共鸣

油车预计多长时间会被完全淘汰?看网友评论 :引起万千共鸣

曹莽看世界
2026-07-01 13:54:12
“同花顺崩了”上热搜!最新回应:目前已经恢复,具体原因正在排查中

“同花顺崩了”上热搜!最新回应:目前已经恢复,具体原因正在排查中

中新经纬
2026-07-03 11:36:13
西安赛格商场坠亡事件,看得人后背发凉

西安赛格商场坠亡事件,看得人后背发凉

葱哥说
2026-07-02 22:06:49
网络惊问:庞大的地方债务,最后到底由谁买单?评论区炸锅

网络惊问:庞大的地方债务,最后到底由谁买单?评论区炸锅

慧翔百科
2026-07-03 08:37:10
40国出席伊朗国葬,中方贵客到场,莫迪不敢去,美以还敢暗杀吗?

40国出席伊朗国葬,中方贵客到场,莫迪不敢去,美以还敢暗杀吗?

荷兰豆爱健康
2026-07-03 12:48:48
妻子打断婆婆4根肋骨,男子承认妻子多次动手但情有可原:母亲找了新老伴不带娃,要么就给钱补贴;姐姐:母亲苦了一辈子,支持她的决定

妻子打断婆婆4根肋骨,男子承认妻子多次动手但情有可原:母亲找了新老伴不带娃,要么就给钱补贴;姐姐:母亲苦了一辈子,支持她的决定

芒果都市
2026-07-03 17:52:13
西安赛格发声:严某经营十载负债累累,闭店结清店员工资次日轻生

西安赛格发声:严某经营十载负债累累,闭店结清店员工资次日轻生

Mr王的饭后茶
2026-07-02 22:48:39
成品油价迎年内最大跌幅,加满一箱油少花37.5元

成品油价迎年内最大跌幅,加满一箱油少花37.5元

界面新闻
2026-07-03 15:01:05
FIFA官方证实克罗地亚绝平球无效 球员承认:我头发蹭球+确实越位

FIFA官方证实克罗地亚绝平球无效 球员承认:我头发蹭球+确实越位

我爱英超
2026-07-03 12:12:42
国乒女单冠军1-3爆冷出局,孙颖莎0-2落后,王皓点醒王楚钦

国乒女单冠军1-3爆冷出局,孙颖莎0-2落后,王皓点醒王楚钦

老牛体育解说
2026-07-03 06:51:04
今晚能否出线?FIBA晒B组形势:中国击败日本且韩国战胜中国台北

今晚能否出线?FIBA晒B组形势:中国击败日本且韩国战胜中国台北

狼叔评论
2026-07-03 17:06:46
中国反兴奋剂中心:游泳运动员王子铭构成兴奋剂违规

中国反兴奋剂中心:游泳运动员王子铭构成兴奋剂违规

界面新闻
2026-07-03 20:10:58
89%餐品门店现做!上海试点带火全国:申城连锁餐饮推“透明菜单”,把知情权还给食客

89%餐品门店现做!上海试点带火全国:申城连锁餐饮推“透明菜单”,把知情权还给食客

纵相新闻
2026-07-03 17:44:15
俄发出最终警告,不撤军就屠城!锆石击穿基辅,乌克兰迎生死夜

俄发出最终警告,不撤军就屠城!锆石击穿基辅,乌克兰迎生死夜

青青衫书生
2026-07-03 15:15:06
韩红全面回应各大传闻:基金会高管年薪60万,采购苹果电脑和相机

韩红全面回应各大传闻:基金会高管年薪60万,采购苹果电脑和相机

眼光很亮
2026-07-03 07:30:03
驾校彻底凉凉!高考后为啥无人学车,不是孩子懒,是00后太清醒

驾校彻底凉凉!高考后为啥无人学车,不是孩子懒,是00后太清醒

生活魔术专家
2026-07-02 19:40:55
60年代,冯巩在幼儿园的照片,人家这长相,小时候都不怕丢

60年代,冯巩在幼儿园的照片,人家这长相,小时候都不怕丢

喜文多见01
2026-05-10 07:00:29
海军上校方明在执行飞行训练任务时牺牲,被评定为烈士,安徽省合肥市庐江县以最高礼仪举行告别仪式

海军上校方明在执行飞行训练任务时牺牲,被评定为烈士,安徽省合肥市庐江县以最高礼仪举行告别仪式

极目新闻
2026-07-03 15:16:01
鸿蒙落选“央采”真相:多CPU兼容这道坎还没过

鸿蒙落选“央采”真相:多CPU兼容这道坎还没过

穿透
2026-07-03 12:14:22
2026-07-03 20:35:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3451文章数 11169关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

清华教授举报蒋方舟"论文造假" 人大仍未公布调查结论

头条要闻

清华教授举报蒋方舟"论文造假" 人大仍未公布调查结论

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

艺术
本地
时尚
健康
公开课

艺术要闻

被雍正痛骂后,李卫写出一幅“绝美检讨书”,网友评:胜过书法专家!

本地新闻

国内足球之旅?这座小城给你高分答案

A-Lin已经这样了,徐佳莹你怎么睡得着!

听说少吃点能抗衰老?专家讲解!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版