LMDeploy(由InternLM团队开发的高效推理引擎)迎来v0.7.3版本,带来多项重磅升级!本次更新不仅新增了对Qwen3、Qwen3MoE、DeepSeekV2、Llama4等热门模型的支持,还在Ascend NPU上优化了8bit 量化推理(W8A8),并大幅提升MOE(混合专家)模型的推理效率!
核心更新亮点
1.新模型支持
•Qwen3 & Qwen3MoE:通义千问最新开源模型,MoE 架构性能更强!
•DeepSeekV2:深度求索的高效大模型,推理速度再升级!
•Llama4:Meta 新一代开源模型,LMDeploy 率先适配!
2.⚡ Ascend NPU 优化
• 支持W8A8 低精度推理,显著降低显存占用!
•QwenVL2.5支持Graph 模式,推理速度更快!
•MOE 模型优化,Ascend 平台性能提升!
3.功能增强
•交互式 API支持
spaces_between_special_tokens,优化特殊 token 处理。•动态端口检测,避免端口冲突问题。
•Dynamo 模式修复,提升 PyTorch 兼容性。
4.Bug 修复
• 修复finish_reason返回错误问题。
• 优化MLP 激活计算,减少显存占用。
• 修复Qwen3MoE 配置解析问题。
特性
LMDeployOllamaVLLM模型支持
✅ Qwen3/DeepSeekV2/Llama4
✅ Llama/Gemma
✅ Llama/Mistral
推理优化
Ascend NPU + W8A8 + MOE
❌ 依赖 CPU/GPU 原生推理
✅ PagedAttention + vLLM 引擎
低精度支持
✅ 8bit/4bit 量化
❌ 仅 FP16/FP32
✅ 8bit 量化
部署灵活性
✅ 支持 Triton/HTTP API
✅ 本地 CLI 工具
✅ FastAPI + OpenAI 兼容
性能对比
⚡Ascend 优化,MOE 加速
适合轻量级本地推理
⚡ 适合高吞吐 GPU 推理
结论:
•LMDeploy在国产芯片(Ascend)优化和MOE 模型支持上优势明显,适合企业级部署。
•Ollama适合个人开发者快速体验模型,但功能较简单。
•VLLM在GPU 高并发推理上表现优秀,但缺少 NPU 支持。
pip install lmdeploy==0.7.3或参考官方文档:https://github.com/InternLM/lmdeploy
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.