大家好,我是 Ai 学习的老章
vLLM和SGLang是大模型领域最著名、热度最高的两个推理引擎,也都是 DeepSeek 推荐使用的推理引擎。
vLLM 45.3K 星标
项目:https://github.com/vllm-project/vllm
文档:docs.vllm.ai
SGLang 13.4K 星标
项目:https://github.com/sgl-project/sglang
文档:docs.sglang.ai/
纯个人感受,我还是比较喜欢 vLLM,之前多次用 vLLM 引擎部署过大模型:
说回标题,vLLM 前几天发了一个性能更新的推,测试了在 8x H200 上,vLLM 在 DeepSeek V3/R1 模型的吞吐量方面领先,还期待与 DeepSeek 的推理引擎开源计划合作,实现进一步的提升。
这里面有两个点
一是它配图中对比了不同场景下与 SGLang 和 TensorRT 这两个推理引擎的对比数据,vLLM 短进短出情况下遥遥领先,后面几个场景中 SGLang 甚至被 TensorRT 超越
二是它期待的与 DeeSeek 的开源合作,这是前几天 DeepSeek [[2025-04-19-刚刚,DeepSeek 宣布,准备开源推理引擎]] 中说到其开源引擎是基于 vllm 魔改,准备开源
然后 SGLang 直接回应了这条,并置顶了回复:我们对比了 vLLM 0.8.4 和 SGLang 0.4.5.post1 的离线性能。基准测试结果表明,SGLang 在所有情况下都优于 vLLM,大多数情况下领先约 10%,最大领先幅度为 38%。
也有网友表示,可以轻松调整 SGLang,使其性能比 vLLM 高出 23%。
lmsysorg 联合创始人 Lianmin Zheng 亲自下场,表示 vLLM 发布的基准测试结果存在明显的误导性,SGLang 官方可以测出比 vLLM 更好的结果。并生成这已经不是 vLLM 第一次分享误导性信息,应该考虑删除这篇帖子以维护声誉。
然后 vLLM 连续发布了两个测试结果,表示没有发布误导性的结果,它可以通过精确的命令和环境重现。
Lianmin Zheng 说vLLM后续这两张图中 TRT - LLM 结果在 ShareGPT 上比之前快两倍,在 1k - in - 2k - out 上比之前快 1.6 倍,SGLang 也是如此,这恰好证明了之前的结果存在误导性。
话说,类似测试、打脸、再测试属实没什么意义。各家的推理引擎都在不断进行各种优化,即便是同一版本的模型,各家进行测试时,本身就更倾向于对自家引擎的各种参数设置上多加权衡,而对竞争对手的引擎的参数可能考虑就没有那么多了。
这一波,我站SGLang,vLLM自己测试可以,在某个版本上提升多少随便怎么吹都可以,没必要拉上SGLang和TensorRT。
最后,我建议两家别吵了,同时建议大家感受一下我最近在用的 Xinferece v 1.5,它直接支持了vllm、sglang、llama.cpp、transformers、MLX等推理引擎,还提供了可视化界面管理各种大模型。
配置与使用方式详见文档:https://inference.readthedocs.io/zh-cn/latest/models/virtualenv.html
更新指南
pip:pip install 'xinference==1.5.0'
Docker:拉取最新版本即可,也可以直接在镜像内用 pip 更新。
️ 功能增强
Gradio 聊天界面支持展示思考过程(需打开“解析思维过程”)
Vision 模型支持 min/max_pixels 控制输入分辨率
模型下载支持进度显示与取消
⚙️ 默认并发数设置为 CPU 核心数
支持 InternVL3 的 AWQ 推理
️ 默认使用最新版 xllamacpp 引擎
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.