网易首页 > 网易号 > 正文 申请入驻

lmdeploy v0.7.3 震撼发布!支持 Qwen3/DeepSeekV2/Llama4,性能碾压 Ollama/VLLM

0
分享至

LMDeploy(由InternLM团队开发的高效推理引擎)迎来v0.7.3版本,带来多项重磅升级!本次更新不仅新增了对Qwen3、Qwen3MoE、DeepSeekV2、Llama4等热门模型的支持,还在Ascend NPU上优化了8bit 量化推理(W8A8),并大幅提升MOE(混合专家)模型的推理效率!

核心更新亮点

  1. 1.新模型支持

  • Qwen3 & Qwen3MoE:通义千问最新开源模型,MoE 架构性能更强!

  • DeepSeekV2:深度求索的高效大模型,推理速度再升级!

  • Llama4:Meta 新一代开源模型,LMDeploy 率先适配!

2.⚡ Ascend NPU 优化

  • • 支持W8A8 低精度推理,显著降低显存占用!

  • QwenVL2.5支持Graph 模式,推理速度更快!

  • MOE 模型优化,Ascend 平台性能提升!

3.功能增强

  • 交互式 API支持spaces_between_special_tokens,优化特殊 token 处理。

  • 动态端口检测,避免端口冲突问题。

  • Dynamo 模式修复,提升 PyTorch 兼容性。

4.Bug 修复

  • • 修复finish_reason返回错误问题。

  • • 优化MLP 激活计算,减少显存占用。

  • • 修复Qwen3MoE 配置解析问题。

LMDeploy vs. Ollama vs. VLLM:谁更强?

特性

LMDeployOllamaVLLM模型支持

✅ Qwen3/DeepSeekV2/Llama4

✅ Llama/Gemma

✅ Llama/Mistral

推理优化

Ascend NPU + W8A8 + MOE

❌ 依赖 CPU/GPU 原生推理

✅ PagedAttention + vLLM 引擎

低精度支持

✅ 8bit/4bit 量化

❌ 仅 FP16/FP32

✅ 8bit 量化

部署灵活性

✅ 支持 Triton/HTTP API

✅ 本地 CLI 工具

✅ FastAPI + OpenAI 兼容

性能对比

Ascend 优化,MOE 加速

适合轻量级本地推理

⚡ 适合高吞吐 GPU 推理

结论

  • LMDeploy国产芯片(Ascend)优化MOE 模型支持上优势明显,适合企业级部署。

  • Ollama适合个人开发者快速体验模型,但功能较简单。

  • VLLMGPU 高并发推理上表现优秀,但缺少 NPU 支持。

如何体验?

pip install lmdeploy==0.7.3

或参考官方文档:https://github.com/InternLM/lmdeploy

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧冠:纽卡3-2胜,托纳利乔林顿闪击建功,总比分9-3晋级

欧冠:纽卡3-2胜,托纳利乔林顿闪击建功,总比分9-3晋级

吴紒爱体育
2026-02-25 06:17:52
难怪用3选秀签换祖巴茨!步行者另有所图,添头近3战13+7完美拼图

难怪用3选秀签换祖巴茨!步行者另有所图,添头近3战13+7完美拼图

你的篮球频道
2026-02-24 14:56:04
“活下来的是我”:贝加尔湖幸存父亲说女儿的手他没能抓住

“活下来的是我”:贝加尔湖幸存父亲说女儿的手他没能抓住

林子说事
2026-02-25 01:28:59
墨西哥防长:缴获贩毒集团使用的武器约80%来自美国

墨西哥防长:缴获贩毒集团使用的武器约80%来自美国

财联社
2026-02-24 00:40:05
江苏一家人均1万6去贝加尔湖看蓝冰,为省200块全家遇难

江苏一家人均1万6去贝加尔湖看蓝冰,为省200块全家遇难

王晓爱体彩
2026-02-24 06:13:59
广东省2026年独生子女奖励:发放标准、所需材料!建议收藏!

广东省2026年独生子女奖励:发放标准、所需材料!建议收藏!

虎哥闲聊
2026-02-24 10:45:21
日本女子冰壶队长因酷似孙燕姿在冬奥走红!社媒低调全是比赛照

日本女子冰壶队长因酷似孙燕姿在冬奥走红!社媒低调全是比赛照

Emily说个球
2026-02-22 23:39:17
光通信、CPO彻底火了!这2只龙头走出7倍行情!

光通信、CPO彻底火了!这2只龙头走出7倍行情!

证券市场周刊
2026-02-24 20:20:18
平山打女孩后续:母亲再度发声,打人者有势力,女孩现状令人担忧

平山打女孩后续:母亲再度发声,打人者有势力,女孩现状令人担忧

离离言几许
2026-02-24 14:01:15
死于220年,神化到2026年

死于220年,神化到2026年

最爱历史
2026-02-23 18:22:55
浙江一废弃矿坑因《飞驰人生3》爆火,有人开车几小时去“挖宝”,当地紧急关闭

浙江一废弃矿坑因《飞驰人生3》爆火,有人开车几小时去“挖宝”,当地紧急关闭

上观新闻
2026-02-25 07:08:08
一路走好!2026春节刚结束,已有5位名人去世,个个死因令人惋惜

一路走好!2026春节刚结束,已有5位名人去世,个个死因令人惋惜

小徐讲八卦
2026-02-25 07:00:47
为啥浙江人做生意那么厉害?网友:能赚钱的就不可能发出来

为啥浙江人做生意那么厉害?网友:能赚钱的就不可能发出来

解读热点事件
2026-02-23 12:38:39
42岁曲婉婷现状,面相越来越西方化,住小公寓穿起球毛衣账号被封

42岁曲婉婷现状,面相越来越西方化,住小公寓穿起球毛衣账号被封

削桐作琴
2026-02-23 22:00:18
河南母亲收9.9万彩礼嫁智残女儿引争议,到底是母爱还是甩包袱呢

河南母亲收9.9万彩礼嫁智残女儿引争议,到底是母爱还是甩包袱呢

牛牛叨史
2025-11-24 14:50:05
1991年,张学良去纽约前女友家住了90多天,至死不再联系

1991年,张学良去纽约前女友家住了90多天,至死不再联系

近史谈
2026-02-24 21:35:57
新加坡大满贯赛:8强对阵出炉!国乒独苗3:0大获全胜,冲击冠军

新加坡大满贯赛:8强对阵出炉!国乒独苗3:0大获全胜,冲击冠军

国乒二三事
2026-02-24 09:40:55
河南19岁男大学生连续一年熬夜,导致严重脱发几乎秃顶:找女朋友都受影响!

河南19岁男大学生连续一年熬夜,导致严重脱发几乎秃顶:找女朋友都受影响!

大象新闻
2026-02-24 16:44:03
日本玩家170元买NS2、PS5!神级薅羊毛惊呆网友

日本玩家170元买NS2、PS5!神级薅羊毛惊呆网友

游民星空
2026-02-24 22:12:13
国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

国际乒联终身主席怒了!樊振东打不打奥运会?应该我们自己说了算

梦史
2026-01-19 14:16:23
2026-02-25 07:51:00
moonfdd incentive-icons
moonfdd
福大大架构师每日一题
1135文章数 58关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

北京独生女被男友打残:他隐瞒有儿子 想把户口上我家

头条要闻

北京独生女被男友打残:他隐瞒有儿子 想把户口上我家

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

游戏
家居
艺术
旅游
军事航空

《怪物猎人物语3:命运双龙》制作团队专访:更RPG一点"/> 主站 商城 论坛 自运营 登录 注册 《怪物猎人物语3:命运双龙》制作团队专访:更RPG一...

家居要闻

本真栖居 爱暖伴流年

艺术要闻

高剑父写梅,笔走龙蛇

旅游要闻

春节假期,青海湖景区接待游客6.03万人次

军事要闻

俄乌冲突四周年:和平谈判希望渺茫

无障碍浏览 进入关怀版