网易首页 > 网易号 > 正文 申请入驻

不要再用Ollama,不要再用llama.cpp

0
分享至

大家好,我是 Ai 学习的老章

最近在测试 llama.cpp 这个推理引擎的表现,主要是启动 GGUF 格式的量化大模型比较方便

启动确实方便,但是性能测试结果却很不理想

单并发极快,速度飞起,并发数上来之后平均 TPS 断崖式下降

我的启动脚本中是设置了并发相关参数的

搜了一下了 Reddit 的 LocalLLaMA 社区,发现很多吐槽

llama.cpp 项目 issue 还有吐槽

看了一个博主的文章《# Stop Wasting Your Multi-GPU Setup With llama.cpp》[1]

作者地下室里的常驻 AI 服务器——一台配备 14 张 RTX 3090 GPU 和 336GB VRAM 的专用 AI 服务器,在此设备上做过大量测试。

省流:lama.cpp 并未针对张量并行(Tensor Parallelism)与批推理(Batch Inference)进行优化。只有在进行 LLM 的部分或全部 CPU 卸载时,你才应该使用 llama.cpp。但在多 GPU 配置下,需要经过优化的批推理与 Tensor Parallelism,此时 vLLM 或 ExLlamaV2 等才是正确选择。也不要使用 Ollama,它只是 llama.cpp 的一个封装,干的就是设置环境变量、蹩脚地计算显存拆分和卸载。如果你只有一块 GPU,只想跑点基础模型做做聊天,那它还行;但凡超出这个范围,就不值得用了。

llama.cpp[2] 是一个支持多种模型架构和硬件平台的推理引擎。然而,它不支持批处理推理,因此一次处理多个请求时并不理想。它主要与 GGUF 量化格式配合使用,在单次请求场景下性能尚可,但也就仅此而已。唯一真正推荐使用 llama.cpp 的情况是:当你的 GPU 显存(VRAM)不足,需要将部分模型权重卸载到 CPU 内存(RAM)时。

它是目前最流行的推理引擎。围绕它的开源社区非常活跃,通常能很快支持新模型和新架构,尤其因为它支持 CPU 卸载,对更广泛的用户群体而言也极易上手。遗憾的是,llama.cpp 并不支持、也大概率永远不会支持张量并行(Tensor Parallelism)[3] 因为大多数人不会像我一样把几千美元砸在快速贬值的资产上[4]

作者的 AI 服务器配备了 512 GB 高性能 DDR4 3200 3DS RDIMM 内存,可提供 CPU 架构所支持的最大内存带宽。配合 AMD Epyc Milan 7713 CPU,仅通过 CPU 卸载就能够在 DeepSeek v2.5 236B BF16 模型上实现每秒约 1 个 token。

但是

利用 14x GPU AI 服务器中的 8 块 GPU,仅通过 GPU 卸载,服务器在处理 Llama 3.1 70B BF16 时,通过 vLLM 使用张量并行的批量推理,可达到每秒约 800 个 token,同时处理 50 个异步请求。

这是为什么呢?

从宏观上看,张量并行将模型每一层的计算分布到多块 GPU 上。与其在单块 GPU 上完成整个矩阵乘法,不如把运算切分,让每块 GPU 只处理一部分工作量,这样每块 GPU 就能同时运行不同层中的不同部分,使结果以指数级速度计算出来。

张量并行对多 GPU 配置至关重要——经验法则是 TP 喜欢 2^n,因此下面运行模型时用了 8×GPU——而在对系统进行压力测试时,并行也比串行更合适。当你试图用 llama.cpp 让 LLMs 彼此对话时,引擎会把这些 GPU 拖慢,让它们一个接一个地排队等待。

下图作者运行的一个脚本:50 个异步请求,每个请求约 2k tokens,总共耗时 2 分 29 秒,使用的是 vLLM 运行 Llama 3.1 70B BF16。如果改用 INT8 量化或更低精度,速度会快得多;再加上投机解码和/或嵌入模型,速度还会进一步提升。这一切都离不开 vLLM 利用张量并行实现的批推理。

作者还测试了 vLLM、Aphrodite、Sglang、TensorRT-LLM、ExLlamaV2 和 LMDeploy 等支持张量并行的推理引擎。其中 ExLlamaV2[5] 它是一款仅 GPU 的推理引擎,ExLlamaV2 带来了独一无二的 EXL2 量化格式,如今已被多款推理引擎采纳,因为它在显存利用率上的优势巨大。

参考资料

Stop Wasting Your Multi-GPU Setup With llama.cpp: https://www.ahmadosman.com/blog/do-not-use-llama-cpp-or-ollama-on-multi-gpus-setups-use-vllm-or-exllamav2/

llama.cpp: https://github.com/ggerganov/llama.cpp

并不支持、也大概率永远不会支持张量并行(Tensor Parallelism): https://github.com/ggerganov/llama.cpp/issues/9086#issuecomment-2578645269

把几千美元砸在快速贬值的资产上: https://x.com/TheAhmadOsman/status/1869841392924762168

[5]

ExLlamaV2: https://github.com/turboderp/exllamav2

最后推荐一个我正在学习的课程

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿迪达斯发布ADIZERO史上最轻竞速跑鞋ADIZERO ADIOS PRO EVO 3

阿迪达斯发布ADIZERO史上最轻竞速跑鞋ADIZERO ADIOS PRO EVO 3

跑步侠
2026-04-24 16:30:39
河南男子在县城买下127平房子,4年后回来结婚,打开房门他愣住了

河南男子在县城买下127平房子,4年后回来结婚,打开房门他愣住了

民间精选故事汇
2025-02-01 11:20:02
白宫记协晚宴枪手被控试图刺杀特朗普

白宫记协晚宴枪手被控试图刺杀特朗普

新华社
2026-04-28 02:36:04
3月销量仅606台,魏牌蓝山被长城 “放弃” 了?

3月销量仅606台,魏牌蓝山被长城 “放弃” 了?

玩车专家1
2026-04-27 20:50:38
55岁鲁豫与小19岁男友同居后变样,如今她容光焕发显年轻

55岁鲁豫与小19岁男友同居后变样,如今她容光焕发显年轻

喜欢历史的阿繁
2026-04-28 01:45:43
配钥匙2元起、雨伞和拉链3元起……为了楼下一个摊子,杭州女孩不愿搬离老小区

配钥匙2元起、雨伞和拉链3元起……为了楼下一个摊子,杭州女孩不愿搬离老小区

都市快报橙柿互动
2026-04-26 13:09:15
太瘆人!男子晒小区电梯图,网友调侃豪华火化炉,评论区毛骨悚然

太瘆人!男子晒小区电梯图,网友调侃豪华火化炉,评论区毛骨悚然

谭谈社会
2026-04-23 01:58:02
和王励勤是黄金搭档,如今定居上海是大学副院长,一家三口很幸福

和王励勤是黄金搭档,如今定居上海是大学副院长,一家三口很幸福

林轻吟
2026-04-27 14:31:47
一线民警手握查询权限,却把公民银行卡信息当商品卖

一线民警手握查询权限,却把公民银行卡信息当商品卖

网络易不易
2026-04-27 12:04:17
海南发现一山头长得像毛主席,孔令华跪地流泪,连李讷都感慨太像

海南发现一山头长得像毛主席,孔令华跪地流泪,连李讷都感慨太像

浩渺青史
2026-04-27 16:28:48
打起来了,以军不宣而战;内塔尼亚胡迎来劲敌,或被关进大牢!

打起来了,以军不宣而战;内塔尼亚胡迎来劲敌,或被关进大牢!

说历史的老牢
2026-04-27 23:23:31
央企全面换国产芯片,表面是央企在换电脑,实际上是在换国运。

央企全面换国产芯片,表面是央企在换电脑,实际上是在换国运。

荆楚寰宇文枢
2026-04-27 23:09:16
张檬儿子周岁宴排面拉满,爸爸全程温柔抱哄,被全家宠成小宝贝

张檬儿子周岁宴排面拉满,爸爸全程温柔抱哄,被全家宠成小宝贝

小椰的奶奶
2026-04-27 06:51:53
6.58万起的2026款MG4:把两厢纯电的底裤都卷没了

6.58万起的2026款MG4:把两厢纯电的底裤都卷没了

AM车镜
2026-04-25 16:24:56
Claude全程完成“谈判和交易”,Anthropic在上周五悄悄“试水”了电商

Claude全程完成“谈判和交易”,Anthropic在上周五悄悄“试水”了电商

华尔街见闻官方
2026-04-27 08:18:20
女星魏笑官宣已在成都领证结婚!好友赵露思全程陪同见证,发文:我会一直一直保护你的幸福,就像当时保护我的你

女星魏笑官宣已在成都领证结婚!好友赵露思全程陪同见证,发文:我会一直一直保护你的幸福,就像当时保护我的你

扬子晚报
2026-04-26 17:53:23
麦当劳,把天津网红路牌做成了挪车牌

麦当劳,把天津网红路牌做成了挪车牌

设计癖
2026-04-27 19:24:55
窦靖童和宋妍霏巴黎被偶遇,留着寸头很帅气,两人在一起很久了

窦靖童和宋妍霏巴黎被偶遇,留着寸头很帅气,两人在一起很久了

老好人的愤怒
2026-04-27 08:07:21
国内将逐步淘汰白内障手术?做完人就瞎了?医生告诉你真相

国内将逐步淘汰白内障手术?做完人就瞎了?医生告诉你真相

健康之光
2026-03-12 13:55:08
洗完澡千万不要顺手洗内裤,提醒:这2个清洗误区,很多人都犯了

洗完澡千万不要顺手洗内裤,提醒:这2个清洗误区,很多人都犯了

白话电影院
2026-04-12 13:13:58
2026-04-28 03:27:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3355文章数 11139关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

头条要闻

坐在特朗普身边亲历枪击案的女记者 身份非常不一般

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

数码
旅游
本地
时尚
公开课

数码要闻

6K/3K双模切换!三星这款显示器什么水平?

旅游要闻

不止看花 京津冀春日游花样翻新

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

丝巾的10种系法,爱美的女人必看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版