网易首页 > 网易号 > 正文 申请入驻

DeepSeek 8B 极限测试,200 Tokens每秒,眼球跟不上了

0
分享至

大家好,我是 Ai 学习的老章

开始之前,先感受一下 200 Tokens/s 的速度,未加速,眼球完全跟不上其生成速度。

前文中说到,我在测试 llama.cpp 时发现其并发十分拉垮,虽然单个请求生成速度飞起,并发一上来速度就断崖式下降了。

究其原因是 lama.cpp 并未针对张量并行(Tensor Parallelism)与批推理(Batch Inference)进行优化,也大概率永远不会支持张量并行。所以只有在进行 LLM 的部分或全部 CPU 卸载时,才应该使用 llama.cpp。多 GPU 配置下,vLLM、SGLang 等引擎还是最佳选择。

事实上,我之前多篇文章介绍大模型本地部署时都是用的。

前文中我提到的作者说:张量并行将模型每一层的计算分布到多块 GPU 上,与其在单块 GPU 上完成整个矩阵乘法,不如把运算切分,让每块 GPU 只处理一部分工作量,这样每块 GPU 就能同时运行不同层中的不同部分,使结果以指数级速度计算出来。

对这一点,我有点怀疑,本文我们就测试一下单卡、2 卡、4 卡情况下性能测试结果。

测试模型是我最喜欢的,在中实测过,上下文不做限制,默认是 128K,24GB 显存的 4090 跑不起来,2 张卡可以,最大推理速度 90Tonken/s。

测试显卡是 H200,单卡 141GB 显存

测试工具是

单卡运行

启动脚本:

直接吃掉了 126GB 显存,果然,不设限制,它会奔着打满显存空间去,这个可以通过设置 –gpu-memory-utilization 来限制。

性能测试结果:

50并发,平均TPS 83

100 并发情况下,每秒可以处理 47 个请求,平均生成速度 49 Tokens/s

2 卡并行

双卡并行,启动和上面一样,只是指定了 2 张卡,设置了--tensor-parallel-size 2

每张卡都吃掉了 126GB 显存

性能测试结果:

单并发从 142 提升到 172

50并发,平均TPS从单卡83提升到91

100 并发情况下,每秒可以处理 47 个请求,平均生成速度 50Tokens/s,没有显著提升

4 卡并行

--tensor-parallel-size 4

实际上,我 GPU 4 和 5 上我部署的还有其他模型

性能测试结果:

单并发从 172 进一步提升到 208

50并发,平均TPS提升到94

100 并发情况下,每秒可以处理 48 个请求,平均生成速度 50Tokens/s,也没有显著提升

8 卡并行,我没有再测试,但是我其他卡上的模型已经占满了显存,也不方便 stop

我用 Gemini 画了一幅柱状图对比看不同并行下 TPS 情况

总结来看

大模型本地部署时使用张量并行,确实可以提升单并发 TPS,但随着并发请求增加,提升并不明显。但是比起 llama.cpp 的多并发 TPS 断崖下降,确实优秀无比了。

最后再推荐一个我正在学习的课程

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
绝色美人艾梅柏:曾经迷倒德普和马斯克,如今带着3个娃“隐居”

绝色美人艾梅柏:曾经迷倒德普和马斯克,如今带着3个娃“隐居”

小书生吃瓜
2026-05-02 22:22:47
分析:火箭队G6输湖人队,负全责的3名球员

分析:火箭队G6输湖人队,负全责的3名球员

好火子
2026-05-02 23:45:52
尿酸危机,席卷中国

尿酸危机,席卷中国

DT商业观察
2026-04-29 11:59:38
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
影帝这么矮小!五一假期梁朝伟现身南京,身高与随性穿搭引发热议

影帝这么矮小!五一假期梁朝伟现身南京,身高与随性穿搭引发热议

火山詩话
2026-05-02 08:30:27
医生直言:体检报告这5项指标正常,身体基本上无大碍,建议了解

医生直言:体检报告这5项指标正常,身体基本上无大碍,建议了解

熊猫医学社
2026-04-03 11:35:03
伊朗撑不住了?新方案罕见做出重大让步

伊朗撑不住了?新方案罕见做出重大让步

凤眼论
2026-05-02 12:30:40
五种废品价格暴涨!提醒老人千万别乱扔,扔了就是白扔钱!

五种废品价格暴涨!提醒老人千万别乱扔,扔了就是白扔钱!

爱下厨的阿酾
2026-05-02 14:11:39
刘维伟:杨瀚森去NBA后球队内线吃紧,心有不甘但这是体育的魅力

刘维伟:杨瀚森去NBA后球队内线吃紧,心有不甘但这是体育的魅力

懂球帝
2026-05-02 22:55:09
NPC“小黄鱼”部分互动形式引争议,景区致歉:立即整改

NPC“小黄鱼”部分互动形式引争议,景区致歉:立即整改

界面新闻
2026-05-02 14:27:10
堕落!中国男足21岁天才表现失常,关键期难堪重用,邵佳一失望了

堕落!中国男足21岁天才表现失常,关键期难堪重用,邵佳一失望了

国足风云
2026-05-02 21:09:34
是否支持弹劾赖清德?8.6万名台湾网友参与投票,结果一面倒

是否支持弹劾赖清德?8.6万名台湾网友参与投票,结果一面倒

海峡导报社
2026-05-01 21:56:06
郑丽文官宣,即将访美!大陆的回应绝了,国民党高层是时候清醒了

郑丽文官宣,即将访美!大陆的回应绝了,国民党高层是时候清醒了

心本来就不大
2026-05-02 23:02:21
量子物理学重大进展!物理学家首次测量到了电子的'形状'

量子物理学重大进展!物理学家首次测量到了电子的'形状'

瓦伦西亚月亮
2026-05-02 06:23:18
不准中国买伊朗石油,不到24小时,伊外长致电中国,中方斩钉截铁

不准中国买伊朗石油,不到24小时,伊外长致电中国,中方斩钉截铁

潋滟晴方DAY
2026-05-02 13:45:56
李亚鹏香港慈善晚会请了30家公司,只获得336万元善款,王菲力挺

李亚鹏香港慈善晚会请了30家公司,只获得336万元善款,王菲力挺

椰黄娱乐
2026-05-02 12:22:54
上海一女子因丈夫是竞争公司总经理被开除,当事人:公司没有任何合法解除事由,法院:公司违法解除劳动合同,赔偿69万元

上海一女子因丈夫是竞争公司总经理被开除,当事人:公司没有任何合法解除事由,法院:公司违法解除劳动合同,赔偿69万元

都市快报橙柿互动
2026-05-02 17:36:58
5月1日起正式执行!微信、支付宝迎4大巨变,事关每个人的钱袋子

5月1日起正式执行!微信、支付宝迎4大巨变,事关每个人的钱袋子

侃故事的阿庆
2026-05-01 14:56:18
第21次尤伯杯决赛!王祉怡逆转,陈雨菲横扫,国羽3-0日本队

第21次尤伯杯决赛!王祉怡逆转,陈雨菲横扫,国羽3-0日本队

全景体育V
2026-05-02 19:32:26
跟着苏军打德军,跟着德军打美军,跟着美军打志愿军,被活捉了!

跟着苏军打德军,跟着德军打美军,跟着美军打志愿军,被活捉了!

墨策史
2026-05-02 22:57:07
2026-05-03 01:07:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3365文章数 11144关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

媒体:美国突然"翻脸" 对欧洲连打"三拳"一气呵成

头条要闻

媒体:美国突然"翻脸" 对欧洲连打"三拳"一气呵成

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

房产
艺术
旅游
手机
公开课

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

艺术要闻

看!海夫兰笔下的美女,令人惊艳的艺术之美!

旅游要闻

长图丨岁月遗珠!山西2800余座古戏台等你“看戏”

手机要闻

拯救者手机Y70新一代本月发布!骁龙8 Gen5+2K屏 功耗比友商1.5K还低

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版