网易首页 > 网易号 > 正文 申请入驻

华为昇腾推理对决:开源vLLM vs 官方MindIE,数据说话「Qwen与DeepSeek推理实测」

0
分享至

在昇腾 NPU 上进行大模型推理,长期以来都是 国内开发者面临的一项挑战 。虽然华为官方提供了 性能表现良好的 MindIE 推理引擎 ,并原生支持 Atlas 800 A2 系列和 Atlas 300i Duo(昇腾 910B 和 310P),但其 使用门槛较高,环境配置复杂 ,限制了非官方团队在实际项目中部署和调试的效率。

开源社区也在积极推进对昇腾 NPU 的支持。尤其值得关注的是,近段时间 昇腾联合 vLLM 社区推出了 vLLM Ascend 插件 ,实现了对 Atlas 800 A2 系列的支持(预计在 2025 年 Q3 支持 Atlas 300i Duo)。其 开源生态活跃,发展势头迅猛,逐步成为昇腾推理生态中不可忽视的一股力量 。

为了 系统地评估 vLLM Ascend 与 MindIE 在实际推理场景中的性能差异 ,本文将从单卡推理、多卡并行、多并发处理等维度展开对比测试。实验基于 开源模型服务平台 GPUStack 进行,在保证复现性和易用性的前提下,快速完成部署与测试。

GPUStackhttps://github.com/gpustack/gpustack是目前对昇腾 NPU 支持最完善的开源模型服务平台。 它开箱即用地 集成了 MindIE、vLLM(vLLM Ascend)、llama-box (llama.cpp)等多个后端,避免了用户在部署过程中反复踩坑和冗长的环境配置流程。平台原生支持昇腾上的多种模型类型,包括 大语言模型、多模态模型、文本嵌入模型、重排序模型和 图像生成模型等,同时也 兼容昇腾的多机多卡推理场景,其中 vLLM 和 llama-box 已实现多机分布式推理支持,MindIE 分布式功能也在开发计划中 。

以下是 GPUStack 官方的特性介绍:

  • 广泛的 GPU 兼容性 :无缝支持 Apple Mac、Windows PC 和 Linux 服务器上各种供应商(NVIDIA、AMD、Apple、昇腾、海光、摩尔线程、天数智芯)的 GPU。

  • 广泛的模型支持 :支持各种模型,包括大语言模型 LLM、多模态 VLM、图像模型、语音模型、文本嵌入模型和重排序模型。

  • 灵活的推理后端 :支持与 llama-box(llama.cpp 和 stable-diffusion.cpp)、vox-box、vLLM 和 Ascend MindIE 等多种推理后端的灵活集成。

  • 多版本后端支持 :同时运行推理后端的多个版本,以满足不同模型的不同运行依赖。

  • 分布式推理 :支持单机和多机多卡并行推理,包括跨供应商和运行环境的异构 GPU。

  • 可扩展的 GPU 架构 :通过向基础设施添加更多 GPU 或节点轻松进行扩展。

  • 强大的模型稳定性 :通过自动故障恢复、多实例冗余和推理请求的负载平衡确保高可用性。

  • 智能部署评估 :自动评估模型资源需求、后端和架构兼容性、操作系统兼容性以及其他与部署相关的因素。

  • 自动调度 :根据可用资源动态分配模型。

  • 轻量级 Python 包 :最小依赖性和低操作开销。

  • OpenAI 兼容 API :完全兼容 OpenAI 的 API 规范,实现无缝迁移和快速适配。

  • 用户和 API 密钥管理 :简化用户和 API 密钥的管理。

  • 实时 GPU 监控 :实时跟踪 GPU 性能和利用率。

  • 令牌和速率指标 :监控 Token 使用情况和 API 请求速率。

调试昇腾设备在实际操作中远比 NVIDIA 环境复杂,尤其在依赖项编译、推理引擎集成等方面常常阻碍开发流程。 GPUStack 的意义在于有效屏蔽部署过程中的环境复杂性 ,为开发者提供一个 统一、稳定的推理平台 ,大幅降低了在昇腾设备上开展模型部署和推理的门槛。

此外,GPUStack 还内置了模型对比功能,支持在统一的测试环境下 直观对比 MindIE 和 vLLM Ascend 的推理表现 ,为后续选型和优化提供直接的数据支持。因此,我们将在 GPUStack 上 系统测试两种推理后端的性能表现 。

快速安装 GPUStack

首先,参考 GPUStack 官方文档完成安装(https://docs.gpustack.ai/latest/installation/ascend-cann/online-installation/)。本文采用容器化部署方式,在昇腾 910B 服务器上, 根据文档要求完成对应版本的 NPU 驱动和 Docker 运行时的安装后,通过 Docker 启动 GPUStack 服务 。

在本次实验中,我们挂载了 /dev/davinci0 至 /dev/davinci3 共 四张 NPU 卡 ,具体挂载方式可根据实际设备资源灵活调整。在运行时通过 --port 9090 指定管理界面的访问端口(使用 Atlas 300i Duo 的用户,可以参照安装文档选择对应的 310P 镜像,vLLM Ascend 暂不支持 310P):

docker run -d --name gpustack \     --restart=unless-stopped \    

    --device /dev/davinci0 \    

    --device /dev/davinci1 \    

    --device /dev/davinci2 \    

    --device /dev/davinci3 \    

    --device /dev/davinci_manager \    

    --device /dev/devmm_svm \    

    --device /dev/hisi_hdc \    

    -v /usr/local/dcmi:/usr/local/dcmi \    

    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \    

    -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \    

    -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \    

     -v /etc/ascend_install.info:/etc/ascend_install.info \    

    --network=host \    

    --ipc=host \    

    -v gpustack-data:/var/lib/gpustack \    

    crpi-thyzhdzt86bexebt.cn-hangzhou.personal.cr.aliyuncs.com/gpustack_ai/gpustack:v0.6.2-npu \     

    --port 9090

查看容器日志确认 GPUStack 是否正常运行(需要注意的是,昇腾 NPU 默认不支持设备在多个容器间共享使用,如果已有其他容器占用 NPU 设备(已挂载 /dev/davinci*),将导致 GPUStack 无法正常使用 NPU。在此情况下,需先停止占用 NPU 的其他容器,释放设备资源):

docker logs -f gpustack

若容器日志显示服务启动正常,使用以下命令获取 GPUStack 控制台的初始登录密码:

docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password

在浏览器中通过服务器 IP 和自定义的 9090 端口访问 GPUStack 控制台(http://YOUR_HOST_IP:9090),使用默认用户名 admin 和上一步获取的初始密码登录。登录 GPUStack 后,在资源菜单即可查看识别到的 NPU 资源 :

GPUStack 也支持添加更多 Worker 节点构建异构推理集群。由于本文聚焦单机性能对比,相关集群部署内容不作展开,感兴趣的读者可参考前文提到的官方安装文档获取详细说明。

部署模型

GPUStack 支持从 Hugging Face 、 ModelScope 和 本地路径 部署模型,国内网络推荐从 ModelScope 部署。在 GPUStack UI,选择 模型 - 部署模型 - ModelScope 部署模型。

从 ModelScope 分别部署以下模型,并分别选择 MindIE 和 vLLM 后端,部署不同后端的模型服务。由于 MindIE 和 vLLM 后端默认的独占显存参数设置,当前资源不足以运行所有模型,本文将根据需要灵活停止和启动不同的模型进行测试。

GPUStack 提供了智能计算模型资源需求和分配资源的自动化调度功能,对于 7B 模型和 14B 模型,默认仅会分配单卡。如果想强制分配更多的卡数量:

  • 对于 vLLM 后端,可以设置 --tensor-parallel-size=2 或手动选择 2 卡来分配 2 块 NPU

  • 对于 MindIE 后端,可以手动选择 2 卡来分配 2 块 NPU

完成后,模型运行如下所示(注:根据所需,停止和启动不同模型进行测试):

测试 DeepSeek-R1-Distill-Qwen-7B(单卡)

  1. 在 试验场-对话-多模型对比 ,分别选择两种后端运行的 DeepSeek-R1-Distill-Qwen-7B 模型进行对比测试;

  2. 切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;

  3. 更换 MindIE 运行的模型测试 6 并发请求。


本文基于 GPUStack 的能力进行性能对比测试,更深入的性能测试可以使用 EvalScope 等工具进行。

以下为 DeepSeek R1 Distill Qwen 7B 模型在昇腾 910B 上的推理性能数据对比:

单并发 vLLM Ascend 对比 MindIE

6 并发 MindIE 性能数据

6 并发 vLLM Ascend 性能数据

测试 DeepSeek-R1-Distill-Qwen-7B(双卡并行)

  1. 在 模型 ,分别选择两种后端运行的 DeepSeek-R1-Distill-Qwen-7B 模型,修改配置分配 2 卡并重建生效;

  2. 在 试验场-对话-多模型对比 ,分别选择两种后端运行的 DeepSeek-R1-Distill-Qwen-7B 模型进行对比测试;

  3. 切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;

  4. 更换 MindIE 运行的模型测试 6 并发请求。

以下为 DeepSeek R1 Distill Qwen 7B 模型在双卡昇腾 910B 上的推理性能数据对比:

单并发 vLLM Ascend 对比 MindIE

6 并发 MindIE 性能数据

6 并发 vLLM Ascend 性能数据

测试 Qwen3-14B(单卡)

  1. 在 试验场-对话-多模型对比 ,分别选择两种后端运行的 DeepSeek-R1-Distill-Qwen-14B 模型进行对比测试;

  2. 切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;

  3. 更换 MindIE 运行的模型测试 6 并发请求。

以下为 DeepSeek R1 Distill Qwen 14B 模型在单卡昇腾 910B 上的推理性能数据对比:

单并发 vLLM Ascend 对比 MindIE

6 并发 MindIE 性能数据

6 并发 vLLM Ascend 性能数据

测试 Qwen3-14B(双卡并行)

  1. 在 模型 ,分别选择两种后端运行的 DeepSeek-R1-Distill-Qwen-14B 模型,修改配置分配 2 卡并重建生效;

  2. 在 试验场-对话-多模型对比 ,分别选择两种后端运行的 DeepSeek-R1-Distill-Qwen-14B 模型进行对比测试;

  3. 切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;

  4. 更换 MindIE 运行的模型测试 6 并发请求。

以下为 DeepSeek R1 Distill Qwen 14B 模型在双卡昇腾 910B 上的推理性能数据对比:

单并发 vLLM Ascend 对比 MindIE

6 并发 MindIE 性能数据

6 并发 vLLM Ascend 性能数据

测试 DeepSeek-R1-Distill-Qwen-32B(双卡并行)

  1. 在 试验场-对话-多模型对比 ,分别选择两种后端运行的 DeepSeek-R1-Distill-Qwen-32B 模型进行对比测试;

  2. 切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;

  3. 更换 MindIE 运行的模型测试 6 并发请求。

以下为 DeepSeek R1 Distill Qwen 32B 模型在双卡昇腾 910B 上的推理性能数据对比:

单并发 vLLM Ascend 对比 MindIE

6 并发 MindIE 性能数据

6 并发 vLLM Ascend 性能数据

测试 Qwen3-32B(双卡并行)

  1. 在 试验场-对话-多模型对比 ,分别选择两种后端运行的 Qwen3-32B 模型进行对比测试;

  2. 切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;

  3. 更换 MindIE 运行的模型测试 6 并发请求。

以下为 Qwen3 32B 模型在双卡昇腾 910B 上的推理性能数据对比:

单并发 vLLM Ascend 对比 MindIE

6 并发 MindIE 性能数据

6 并发 vLLM Ascend 性能数据

数据汇总分析

将以上测试数据进行汇总得出下表:

根据以上性能数据分析,可以得出以下结论:

1.中小模型单卡部署场景下,vLLM 在延迟和吞吐方面表现更优

以单卡部署的 DeepSeek R1 7B 和 Qwen3 14B 为例,vLLM 在 TTFT(首 token 延迟)方面普遍低于 MindIE,部分模型在吞吐上也略有提升,显示出其在延迟敏感型应用中具有一定优势。

2.高并发场景下,vLLM 展现出良好的扩展性

在多并发测试中,vLLM 能够在保持较低延迟的同时实现与 MindIE 相当甚至略高的吞吐表现,说明其在并发请求调度和资源利用方面具备一定优势。

3.多卡部署场景中,MindIE 在性能上更具优势

在双卡部署的多种模型测试中,MindIE 在吞吐率方面显著优于 vLLM,TPOT 延迟也表现更优。这一差距主要源于 MindIE 对图模式和融合算子的优化支持,而当前 vLLM Ascend 仍处于单算子模式,尚未充分释放多卡性能。随着社区计划发布 vLLM Ascend 0.9,该瓶颈有望得到改善。

4.总体来看,两者在不同部署场景下各有优势

vLLM 目前更适用于单卡可运行的小型模型、延迟敏感和交互式应用场景;而 MindIE 更适合追求吞吐效率的大模型多卡部署。实际选型应结合业务需求、资源条件和生态支持情况综合判断。

总结

从本文的实验结果来看,当前 vLLM Ascend 的推理性能已初具规模 ,尽管在多卡并行等场景下仍存在一定差距,但其作为开源项目的发展潜力不可忽视。伴随社区与厂商的持续协作, 性能的进一步突破值得期待 。

值得强调的是,推理性能只是衡量生态成熟度的一个维度。 易用性、可维护性、社区活跃度,以及对新的模型、新的加速技术的支持能力,都是构建国产 AI 推理生态不可或缺的要素 。vLLM Ascend 正是这样一个探索的开端,也为更多开发者提供了参与昇腾生态建设的可能。

在本次测试过程中,为了更高效地在昇腾硬件上部署 vLLM Ascend 和 MindIE 推理服务,作者采用了开源模型服务平台 GPUStack。该平台已适配昇腾、海光等多种国产 GPU 架构,有效简化了 vLLM Ascend 和 MindIE 的部署和配置流程,显著减少了环境配置的时间成本,使测试工作得以专注于模型本身的表现与分析。

作为一个 面向异构 GPU 生态的开源 MaaS 平台 ,GPUStack 的定位在于为模型推理、微调等场景和硬件适配之间提供稳定中间层。目前已有摩尔线程、天数智芯、寒武纪等厂商基于该平台进行了适配。未来, 期待有更多国产 GPU 厂商加入,共同推动更统一、更高效的开源 AI 基础设施。 如果你也关注国产 AI 基础设施平台的发展,不妨为该项目https://github.com/gpustack/gpustack点一个 star,关注后续适配进展,或参与生态共建。

国产 AI 算力生态的成长不应仅依赖封闭的官方路径, 更需要开放、共享、协作的开发模式 。从 MindIE 到 vLLM,从底层驱动到模型服务平台,每一个环节的开源努力,都是对自主可控技术路线的真实推动。

未来,我们期待更多项目以开放的姿态汇聚在一起,共同构建真正具备竞争力的国产 AI 基础设施体系。

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普下令开火拦船:美军击穿伊朗货船机舱,直接登船接管

特朗普下令开火拦船:美军击穿伊朗货船机舱,直接登船接管

桂系007
2026-04-20 05:10:26
研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

黯泉
2026-04-01 17:28:39
谁敢买伊朗石油,美国就要动手,中方一句话,直接灭了特朗普威风

谁敢买伊朗石油,美国就要动手,中方一句话,直接灭了特朗普威风

芳芳历史烩
2026-04-19 06:30:55
方媛晒照庆祝结婚九周年,吃的东西高级看不懂,水晶灯却很接地气

方媛晒照庆祝结婚九周年,吃的东西高级看不懂,水晶灯却很接地气

情感大头说说
2026-04-19 16:57:51
“一个针头给15人采血”浙江宣传为何又默不作声?

“一个针头给15人采血”浙江宣传为何又默不作声?

清哲木观察
2026-04-19 11:14:52
滴滴、高德、T3等多家平台签字:每单抽成不超过27%,超过部分要返还给司机

滴滴、高德、T3等多家平台签字:每单抽成不超过27%,超过部分要返还给司机

网约车观察室
2026-04-18 09:53:23
台湾回归新方案浮出水面:国民党若同意,解放军或无需动武

台湾回归新方案浮出水面:国民党若同意,解放军或无需动武

今墨缘
2026-04-19 20:18:55
韩国KF21量产机成功首飞,双座型仅次于歼20S

韩国KF21量产机成功首飞,双座型仅次于歼20S

三叔的装备空间
2026-04-17 12:10:39
中南医院院长被查,曾吹嘘自己老婆被他器重的人,肠子都悔青了

中南医院院长被查,曾吹嘘自己老婆被他器重的人,肠子都悔青了

江山挥笔
2026-04-19 15:03:25
黑龙江省人民政府人事任免

黑龙江省人民政府人事任免

上观新闻
2026-04-20 06:48:04
黎姿普吉岛过复活节,大方穿泳装秀身材,54岁的少女感藏不住

黎姿普吉岛过复活节,大方穿泳装秀身材,54岁的少女感藏不住

吃青菜长高
2026-04-18 06:59:11
国台办宣布给金门、马祖通水电气桥,金门县副县长李文良立刻表态

国台办宣布给金门、马祖通水电气桥,金门县副县长李文良立刻表态

阿七说史
2026-04-19 05:10:07
广东男篮VS山西,开球时间敲定,杜锋要给老板赚钱,门票能挣多少

广东男篮VS山西,开球时间敲定,杜锋要给老板赚钱,门票能挣多少

体育大学僧
2026-04-19 10:20:29
市民反映成都温江一道路大货车经常抢道超速,当地回应将加强管理

市民反映成都温江一道路大货车经常抢道超速,当地回应将加强管理

澎湃新闻
2026-04-20 07:52:29
潜伏在中国高层的大间谍,遍布军界政界,简直令人唏嘘

潜伏在中国高层的大间谍,遍布军界政界,简直令人唏嘘

咸説历史
2026-04-14 14:21:44
江苏一出租车司机发现“上班搭子”突然电话不接消息不回、车一直停在路边,果断报警!救回同事一命

江苏一出租车司机发现“上班搭子”突然电话不接消息不回、车一直停在路边,果断报警!救回同事一命

台州交通广播
2026-04-20 06:39:30
长治商场女子坠楼后续:知情人曝现场细节,商场次日营业惹争议

长治商场女子坠楼后续:知情人曝现场细节,商场次日营业惹争议

奇思妙想草叶君
2026-04-19 23:35:25
牡丹江男子拽住跳楼女友整整五分钟,力竭松手女方坠亡,法院判了

牡丹江男子拽住跳楼女友整整五分钟,力竭松手女方坠亡,法院判了

奇思妙想草叶君
2026-04-18 12:15:59
蓝要员主动退出,李乾龙出手显效!连胜文出手,喊话傅崐萁有深意

蓝要员主动退出,李乾龙出手显效!连胜文出手,喊话傅崐萁有深意

观星赏月
2026-04-19 17:31:46
英媒:山东舰航母,进入船坞,2条电磁弹射器,可能有多大?

英媒:山东舰航母,进入船坞,2条电磁弹射器,可能有多大?

万里繁华
2026-04-19 15:45:33
2026-04-20 09:51:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1036文章数 397关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

媒体:日本近期一系列危险动作挑衅中国 中国需警惕

头条要闻

媒体:日本近期一系列危险动作挑衅中国 中国需警惕

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

月之暗面IPO迷局

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

本地
房产
数码
时尚
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

数码要闻

内存供应短缺迫使苹果推迟新Mac Studio与触控屏MacBook Pro发布

今年最流行的衣服竟然是它?高级又气质!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版