网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V4-Flash 本地部署,2 x H20(96GB版本),性能简测

0
分享至

继续看看 V4,本文看下 DeepSeek-V4-Flash 本地部署

我的设备

  • CPU :Intel Xeon Platinum 8457C

  • 内存 :480 GiB

  • GPU :2 x NVIDIA H20,单卡显存 96 GB

  • 驱动版本:580.126.09

  • CUDA 版本:13.0

  • 系统盘:100G

  • 数据盘:1T

1、模型下载

模型文件 160GB

国内网络,模型下载

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash
2、vLLM Docker 镜像准备

安装vllm-nightly我从没有成功过,只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

3、启动脚本

大家也看到了,即便是 Flash,能跑得起的设备也很少,AMD 全军覆没

看了几个 issues,消费级英伟达显卡也都不配

上面的启动脚本我的 2xH20 自然也不配,启动 N 次,都是 OOM


不断试错之后,实际使用的脚本:

docker run -d \
--name vllm-deepseek-v4-flash \
--restart unless-stopped \
--gpus all \
--privileged \
--ipc=host \
-p 8000:8000 \
-v /data/models:/models:ro \
-e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
vllm/vllm-openai:deepseekv4-cu129 \
/models/DeepSeek-V4-Flash \
--trust-remote-code \
--kv-cache-dtype fp8 \
--block-size 256 \
--enable-expert-parallel \
--data-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 7000 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 \
--enable-auto-tool-choice \
--enforce-eager

模型默认 max seq len1048576,完全搞不动,所以我这里 --max-model-len 只设 7K


启动正常,几个日志关键信息分享一下:

1、模型原始 Safetensors 权重文件高达 148.66 GiB(EXT4 文件系统显示的 size),但在启用 FP8 量化 和 Expert Parallelism(EP) 后,单个 Worker 进程(Rank)加载的权重被压缩到了 77.6 GiB

2、扣除权重和系统预留后,只剩下了约 9.29 GiB 用于缓存

3、并发能力,日志显示 Maximum concurrency for 7,000 tokens perrequest: 3.72x。这意味着在长文本(7k tokens)情况下,系统仅能支持约 3.72 个并发请求

4、模型总共有 256 个专家,通过并行配置,每个 Worker 维护 128 个。这样做既利用了多卡的算力,又分摊了专家权重的显存压力

5、日志显示 Using DeepSeek's fp8_ds_mla KV cacheformat。这是 DeepSeek 的“独门绝技”,通过低秩压缩技术(Multi-head Latent Attention),在 FP8 模式下极大地缓解了内存带宽压力(扩展阅读:)

6、日志还可以看到 TileLang 完成了 mhc_pre_big_fuse_tilelang 等内核的编译

7、启动速度:整个引擎初始化(Profile + Cache 创建 + Warmup)耗时约 233 秒。对于这种规模的模型,这个速度表现尚可,大部分时间花在了 DeepGEMM warmup(2 分 36 秒)


性能情况

效果就别追求了,看看性能


平均生成速度 8.33!!!遥遥领先的卡吗?

哦哦,不对是 H20

难以置信,要知道我测试

关闭思考

查了一下 DeepSeek API 文档,可以关闭思考


写了一个脚本再测、,对比思考与非思考下性能,各跑 10 次取平均,同样的 prompt,max_tokens=1024

结果如下:


再见,浪费了宝贵的几个小时!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
首席记者谈首季经济·就业篇|新业态新赛道催生新职业新岗位

首席记者谈首季经济·就业篇|新业态新赛道催生新职业新岗位

新华社
2026-04-24 21:21:45
73岁天赐父亲诉说太辛苦,大女儿来家里带妹妹,太暖心了

73岁天赐父亲诉说太辛苦,大女儿来家里带妹妹,太暖心了

童叔不飙车
2026-04-19 11:09:23
中美俄一个师配多少战机?美100架,俄80架,中国是多少呢?

中美俄一个师配多少战机?美100架,俄80架,中国是多少呢?

月光作笺a
2026-04-25 22:43:47
杭州一男子假装房东骗取500元定金,被抓前还在问AI:有没有违法,该怎么办

杭州一男子假装房东骗取500元定金,被抓前还在问AI:有没有违法,该怎么办

环球网资讯
2026-04-26 08:08:13
朝鲜战争期间:美军原来已接近击败中国,却碰上中国决死的指挥官

朝鲜战争期间:美军原来已接近击败中国,却碰上中国决死的指挥官

马蹄烫嘴说美食
2026-04-25 17:06:17
富保罗:湖人应做所有事确保老詹留队 季后赛表现催湖人续约

富保罗:湖人应做所有事确保老詹留队 季后赛表现催湖人续约

仰卧撑FTUer
2026-04-26 10:25:08
志愿军不喝咖啡,从美军缴获的咖啡却大有用途,首长:你们真奢侈

志愿军不喝咖啡,从美军缴获的咖啡却大有用途,首长:你们真奢侈

元哥说历史
2026-04-26 13:00:03
李斌回应乐道L90“背刺老车主”:“直接现金补偿”诉求,公司当期将面临数亿元亏损

李斌回应乐道L90“背刺老车主”:“直接现金补偿”诉求,公司当期将面临数亿元亏损

驱动中国
2026-04-23 18:56:09
足坛两大狠人!阿什拉夫与旺达传绯闻,伊卡尔迪再成笑柄?

足坛两大狠人!阿什拉夫与旺达传绯闻,伊卡尔迪再成笑柄?

罗氏八卦
2026-04-25 18:00:03
特斯拉客服回应“FSD将于5月1日在中国上线”:不实

特斯拉客服回应“FSD将于5月1日在中国上线”:不实

IT之家
2026-04-25 11:29:10
中央5台直播乒乓球时间表:4月25日CCTV5转播国乒!附乒坛动态

中央5台直播乒乓球时间表:4月25日CCTV5转播国乒!附乒坛动态

林子说事
2026-04-25 17:48:24
我怀上二胎后,留守在老家,突然发现12岁的女儿身上有些异常

我怀上二胎后,留守在老家,突然发现12岁的女儿身上有些异常

秀秀情感课堂
2026-04-20 18:05:03
天津4-2 赢球不可怕 可怕的是于根伟赛后一席话 两三个人都拼到抽筋

天津4-2 赢球不可怕 可怕的是于根伟赛后一席话 两三个人都拼到抽筋

刘哥谈体育
2026-04-26 03:12:41
《歌手2026》来了,看到阵容名单后,难掩激动泪水,期待的都来了

《歌手2026》来了,看到阵容名单后,难掩激动泪水,期待的都来了

星宿影视鸭
2026-04-23 18:19:24
遭袁立指控风波后,人民日报揭张国立真实现状,有一点他一直没变

遭袁立指控风波后,人民日报揭张国立真实现状,有一点他一直没变

暖心萌阿菇凉
2026-04-26 12:36:54
陈毅接管上海却镇不住场子,陈赓推荐了一个人,让他彻底放下了心

陈毅接管上海却镇不住场子,陈赓推荐了一个人,让他彻底放下了心

老谢谈史
2026-04-23 05:24:38
特朗普成功躲过第五次刺杀!万斯的预言应验了

特朗普成功躲过第五次刺杀!万斯的预言应验了

木蹊说
2026-04-26 11:52:04
绝了!中国1500公里凝聚态电池,直接让全球汽车圈震动

绝了!中国1500公里凝聚态电池,直接让全球汽车圈震动

芭比衣橱
2026-04-25 12:18:09
江疏影海外产子风波升级,遭正房儿子当众羞辱?王传君的话应验了

江疏影海外产子风波升级,遭正房儿子当众羞辱?王传君的话应验了

阿讯说天下
2026-04-26 08:18:08
Intel回应游戏性能糟糕:软件优化导致CPU性能30%被浪费!AMD一招解决

Intel回应游戏性能糟糕:软件优化导致CPU性能30%被浪费!AMD一招解决

快科技
2026-04-26 11:52:18
2026-04-26 13:39:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3351文章数 11139关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

白宫枪手系教师兼游戏开发者 曾向哈里斯总统竞选捐款

头条要闻

白宫枪手系教师兼游戏开发者 曾向哈里斯总统竞选捐款

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

家居
手机
房产
健康
军事航空

家居要闻

自然肌理 温润美学

手机要闻

iPhone 17 Pro Max重回榜首,W16周单品Top30分析

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

干细胞如何让烧烫伤皮肤"再生"?

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版