网易首页 > 网易号 > 正文 申请入驻

不要再用Ollama,不要再用llama.cpp

0
分享至


大家好,我是 Ai 学习的老章

最近在测试 llama.cpp 这个推理引擎的表现,主要是启动 GGUF 格式的量化大模型比较方便

启动确实方便,但是性能测试结果却很不理想

单并发极快,速度飞起,并发数上来之后平均 TPS 断崖式下降


我的启动脚本中是设置了并发相关参数的


搜了一下了 Reddit 的 LocalLLaMA 社区,发现很多吐槽


llama.cpp 项目 issue 还有吐槽


看了一个博主的文章《# Stop Wasting Your Multi-GPU Setup With llama.cpp》[1]

作者地下室里的常驻 AI 服务器——一台配备 14 张 RTX 3090 GPU 和 336GB VRAM 的专用 AI 服务器,在此设备上做过大量测试。


省流:lama.cpp 并未针对张量并行(Tensor Parallelism)与批推理(Batch Inference)进行优化。只有在进行 LLM 的部分或全部 CPU 卸载时,你才应该使用 llama.cpp。但在多 GPU 配置下,需要经过优化的批推理与 Tensor Parallelism,此时 vLLM 或 ExLlamaV2 等才是正确选择。也不要使用 Ollama,它只是 llama.cpp 的一个封装,干的就是设置环境变量、蹩脚地计算显存拆分和卸载。如果你只有一块 GPU,只想跑点基础模型做做聊天,那它还行;但凡超出这个范围,就不值得用了。

llama.cpp[2] 是一个支持多种模型架构和硬件平台的推理引擎。然而,它不支持批处理推理,因此一次处理多个请求时并不理想。它主要与 GGUF 量化格式配合使用,在单次请求场景下性能尚可,但也就仅此而已。唯一真正推荐使用 llama.cpp 的情况是:当你的 GPU 显存(VRAM)不足,需要将部分模型权重卸载到 CPU 内存(RAM)时。

它是目前最流行的推理引擎。围绕它的开源社区非常活跃,通常能很快支持新模型和新架构,尤其因为它支持 CPU 卸载,对更广泛的用户群体而言也极易上手。遗憾的是,llama.cpp 并不支持、也大概率永远不会支持张量并行(Tensor Parallelism)[3] 因为大多数人不会像我一样把几千美元砸在快速贬值的资产上[4]

作者的 AI 服务器配备了 512 GB 高性能 DDR4 3200 3DS RDIMM 内存,可提供 CPU 架构所支持的最大内存带宽。配合 AMD Epyc Milan 7713 CPU,仅通过 CPU 卸载就能够在 DeepSeek v2.5 236B BF16 模型上实现每秒约 1 个 token。

但是

利用 14x GPU AI 服务器中的 8 块 GPU,仅通过 GPU 卸载,服务器在处理 Llama 3.1 70B BF16 时,通过 vLLM 使用张量并行的批量推理,可达到每秒约 800 个 token,同时处理 50 个异步请求。

这是为什么呢?

从宏观上看,张量并行将模型每一层的计算分布到多块 GPU 上。与其在单块 GPU 上完成整个矩阵乘法,不如把运算切分,让每块 GPU 只处理一部分工作量,这样每块 GPU 就能同时运行不同层中的不同部分,使结果以指数级速度计算出来。

张量并行对多 GPU 配置至关重要——经验法则是 TP 喜欢 2^n,因此下面运行模型时用了 8×GPU——而在对系统进行压力测试时,并行也比串行更合适。当你试图用 llama.cpp 让 LLMs 彼此对话时,引擎会把这些 GPU 拖慢,让它们一个接一个地排队等待。

下图作者运行的一个脚本:50 个异步请求,每个请求约 2k tokens,总共耗时 2 分 29 秒,使用的是 vLLM 运行 Llama 3.1 70B BF16。如果改用 INT8 量化或更低精度,速度会快得多;再加上投机解码和/或嵌入模型,速度还会进一步提升。这一切都离不开 vLLM 利用张量并行实现的批推理。


作者还测试了 vLLM、Aphrodite、Sglang、TensorRT-LLM、ExLlamaV2 和 LMDeploy 等支持张量并行的推理引擎。其中 ExLlamaV2[5] 它是一款仅 GPU 的推理引擎,ExLlamaV2 带来了独一无二的 EXL2 量化格式,如今已被多款推理引擎采纳,因为它在显存利用率上的优势巨大。

参考资料

Stop Wasting Your Multi-GPU Setup With llama.cpp: https://www.ahmadosman.com/blog/do-not-use-llama-cpp-or-ollama-on-multi-gpus-setups-use-vllm-or-exllamav2/

llama.cpp: https://github.com/ggerganov/llama.cpp

并不支持、也大概率永远不会支持张量并行(Tensor Parallelism): https://github.com/ggerganov/llama.cpp/issues/9086#issuecomment-2578645269

把几千美元砸在快速贬值的资产上: https://x.com/TheAhmadOsman/status/1869841392924762168

[5]

ExLlamaV2: https://github.com/turboderp/exllamav2

最后推荐一个我正在学习的课程


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宣布了!交易达成!你好,NBA榜眼秀!

宣布了!交易达成!你好,NBA榜眼秀!

篮球实战宝典
2026-02-21 15:49:36
大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

大龄剩女崩溃的瞬间是什么时候?网友:多年的舔狗突然结婚

夜深爱杂谈
2026-01-20 18:56:34
5年3.03亿!文班亚马面临续约,能否达成指定新秀条款?

5年3.03亿!文班亚马面临续约,能否达成指定新秀条款?

篮球实录
2026-02-21 16:39:41
英国教授:四大文明古国中,印度和埃及还在,为何却只承认中国?

英国教授:四大文明古国中,印度和埃及还在,为何却只承认中国?

优趣纪史记
2026-02-08 13:26:29
别被马斯克忽悠了!星链撑不起人类通讯,中国通信基建才是底气

别被马斯克忽悠了!星链撑不起人类通讯,中国通信基建才是底气

像梦一场a
2026-02-13 20:20:26
征服中年女人,无需套路:两颗真心,一生相守

征服中年女人,无需套路:两颗真心,一生相守

青苹果sht
2025-11-04 06:10:40
7名中国游客贝加尔湖遇难,目击者发声:车两三分钟就沉了;有旅行社“贝加尔湖冬日游”人均16888元起

7名中国游客贝加尔湖遇难,目击者发声:车两三分钟就沉了;有旅行社“贝加尔湖冬日游”人均16888元起

极目新闻
2026-02-20 23:13:15
“京圈恶少”王烁:睡遍娱乐圈女星,殴打继母王艳,枪指刘涛老公

“京圈恶少”王烁:睡遍娱乐圈女星,殴打继母王艳,枪指刘涛老公

翰飞观事
2026-02-19 21:59:48
毛主席见到贺子珍哥哥,得知其行政待遇八级,大怒道:这是瞎胡闹

毛主席见到贺子珍哥哥,得知其行政待遇八级,大怒道:这是瞎胡闹

南书房
2026-02-17 11:35:05
曾4次阴阳中国!31岁乌克兰名将0-2崩溃丢冠 主动拥抱美国富豪女

曾4次阴阳中国!31岁乌克兰名将0-2崩溃丢冠 主动拥抱美国富豪女

风过乡
2026-02-22 08:37:53
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
枪决前的最后一张照片

枪决前的最后一张照片

熊倌儿
2026-02-13 22:36:21
正月初五晴天霹雳!广东网友哭诉,工作的酒楼3月开启7天无薪轮休

正月初五晴天霹雳!广东网友哭诉,工作的酒楼3月开启7天无薪轮休

火山詩话
2026-02-22 08:53:44
扶老人被索赔22万?资深律师:初中生担责有据!

扶老人被索赔22万?资深律师:初中生担责有据!

闪电新闻
2026-02-21 10:15:27
患罕见病小伙打顺风车回家 司机36.6公里路程只收29.94元 还自费给其购买新行李箱

患罕见病小伙打顺风车回家 司机36.6公里路程只收29.94元 还自费给其购买新行李箱

闪电新闻
2026-02-21 16:55:38
被央视怒批、洋相百出、腹中空空,这几位“绝望的文盲”凭啥能火

被央视怒批、洋相百出、腹中空空,这几位“绝望的文盲”凭啥能火

娱说瑜悦
2025-12-13 12:24:22
姚晨带儿女回老家探亲过年,丢掉妈妈的过期药品被“骂”了3天,中途还得防着我妈偷捡回来

姚晨带儿女回老家探亲过年,丢掉妈妈的过期药品被“骂”了3天,中途还得防着我妈偷捡回来

大象新闻
2026-02-21 13:44:11
章含之的前夫洪君彦有多帅?1950 年 18 岁的他在大学留影,气质出众

章含之的前夫洪君彦有多帅?1950 年 18 岁的他在大学留影,气质出众

小影的娱乐
2026-02-22 04:13:32
父亲葬礼收了近4万份子钱!山东网友哭诉,没有一个是因自己来的

父亲葬礼收了近4万份子钱!山东网友哭诉,没有一个是因自己来的

火山詩话
2026-02-21 11:45:52
你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

带你感受人间冷暖
2026-02-16 01:10:39
2026-02-22 10:11:00
机器学习与Python社区 incentive-icons
机器学习与Python社区
机器学习算法与Python
3248文章数 11088关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

河北"巧克力钓鱼大爷"因病去世享年75岁 家属发声

头条要闻

河北"巧克力钓鱼大爷"因病去世享年75岁 家属发声

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

黄晓明澳门赌博输十几亿 本人亲自回应

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

健康
游戏
旅游
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

《FF7重制版》使用钥匙卡非盈利考量 而是唯一选择

旅游要闻

五台山景区明火已被扑灭 未造成人员伤亡

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

硬核揭秘!福建舰“一马当先”底气何在

无障碍浏览 进入关怀版