全新开源 Qwen3-Next：MoE 架构在 NVIDIA 平台实现高精度与推理加速|内存|moe|qwen|客户端节点|nvidia

全新开源 Qwen3-Next：MoE 架构在 NVIDIA 平台实现高精度与推理加速

分享至

随着 AI 模型规模不断扩大且处理的文本序列越来越长，效率变得与规模同样重要。

为展示未来趋势，阿里巴巴发布了[1] 两款新开源模型 —— Qwen3-Next 80B-A3B-Thinking 与 Qwen3-Next 80B-A3B-Instruct，为研究者和开发者社区提供对新型混合专家模型 (MoE) 架构的预览。

Qwen3-Next-80B-A3B-Thinking 现已在 nvidia.cn/ai 平台上线，开发者可通过用户界面直接测试其先进的推理能力。

nvidia.cn/ai 上的 Qwen3-Next-80B-A3B-Thinking 演示，请点击链接观看视频：「链接」

这两个 Qwen3-Next 模型所采用的新架构针对长上下文长度（输入 Token 达到 26 万以上）和大规模参数的效率进行了优化。每个模型总参数规模达 800 亿，但凭借其稀疏 MoE 结构，每个 Token 仅激活 30 亿参数，从而以小模型的效率实现了大模型的强大性能。MoE 模块包含 512 个路由专家和 1 个共享专家，每个 Token 激活 10 个专家。

像 Qwen3-Next 这类需在 512 个专家间传送请求的 MoE 模型，其性能高度依赖 GPU 间通信。Blackwell 第五代 NVLink 提供 1.8TB/s 的 GPU 直连带宽，这种高速网络架构能大幅降低专家传送过程中的延迟，直接提高 AI 工厂的推理速度和 Token 吞吐量。

该模型分为 48 层，每 4 层 Transformer Layer 采用一次分组查询注意力机制 (GQA)，其余三层则使用新型线性注意力机制。大语言模型 (LLM) 通过注意力层解析输入序列中的每个 Token 并赋予权重。当前的软件栈没有针对 Mamba2 等新型架构的预优化基础组件，也没有实现针对不同注意力机制以固定频率切换的融合技术。

图 1. Transformer 如何解析输入序列并为其分配权重

为实现处理长上下文输入的能力，模型采用了 NVIDIA Research 与 MIT 研发的 Gated Delta Networks[2]。该技术通过优化序列处理，使模型能够高效处理超长文本而不偏离或遗忘关键信息。这使模型能够高效处理极长序列，且内存与计算资源消耗几乎与序列长度呈线性增长关系。

除上述架构创新外，该模型还可在 NVIDIA Hopper 和 Blackwell 平台上运行以提高推理性能。NVIDIA 灵活的 CUDA 编程架构既支持传统 Transformer 模型的全注意力层和 Mamba2 模型中的线性注意力层，又便于探索新方法。借助 NVIDIA Transformer 引擎 (TE) 等库，Qwen3-Next 等模型在训练和推理阶段均能在减少内存占用的情况下提高性能。在 NVIDIA 平台上运行时，Qwen3-Next 模型采用的混合方法可显著提升效率，为 AI 工厂提高 Token 生成量与收入创造条件。

图 2. 模型 48 层结构示意图

NVIDIA 与开源框架 SGLang 和 vLLM 合作，共同帮助社区部署模型并将这两个模型打包为 NVIDIA NIM。开发者可以根据需要，通过企业级软件容器来使用先进的开源模型。

使用 SGLang 部署

使用 SGLang 服务框架部署模型的用户可参考以下指令。更多信息和配置选项详见 SGLang 文档：

https://docs.sglang.ai/basic_usage/qwen3.html

python3 -m sglang.launch_server --model   Qwen/Qwen3-Next-80B-A3B-Instruct --tp 4

使用 vLLM 部署

使用 vLLM 服务框架部署模型的用户可参考以下多 GPU 启动的基础指令。更多信息详见 vLLM Qwen3-Next 使用指南：

https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3-Next.html

uv venvsource .venv/bin/activateuv pip install vllm --extra-index-url   https://wheels.vllm.ai/nightlyvllm serve Qwen/Qwen3-Next-80B-A3B-Instruct \\    --tensor-parallel-size 4 \\    --served-model-name qwen3-next

使用 NVIDIA NIM 进行生产就绪部署

企业开发者可通过 nvidia.cn/ai 中 NVIDIA 托管的 NIM 端点，体验 Qwen3-Next-80B-A3B 及其他 Qwen 模型。

基于开源 AI 的强大力量

新的混合 MoE 架构 Qwen3-Next 推动了效率和推理能力的边界，标志着社区的重要进步。将这些模型开源，赋予全球的研究人员和开发者以此尝试、构建和加速创新的能力。在 NVIDIA，我们通过分享如用于 AI 生命周期管理的 NeMo、Nemotron 大语言模型 (LLM) 以及 Cosmos 世界基础模型 (WFMs)，践行对开源的承诺。我们与社区共同协作，推动 AI 的发展。通过这些努力，确保未来的 AI 模型不仅更加强大，同时也更加开放、透明和协作。

立即开始

在 Open Router 上体验：Qwen3-Next-80B-A3B-Thinking 和 Qwen3-Next-80B-A3B-Instruct，或者从 Hugging Face 下载：Qwen3-Next-80B-A3B-Thinking 和 Qwen3-Next-80B-A3B-Instruct。

引用

[1] 开源模型：

https://qwenlm.github.io/blog/qwen3_next/

[2] Gated Delta Networks:

https://arxiv.org/pdf/2412.06464

作者

Anu Srivastava

NVIDIA 高级技术市场经理，专注于 NVIDIA 标杆性 AI 模型合作。她与重要合作伙伴和基金会合作，为开源开发者生态系统提供 NVIDIA 加速平台支持。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.