网易首页 > 网易号 > 正文 申请入驻

全新开源 Qwen3-Next:MoE 架构在 NVIDIA 平台实现高精度与推理加速

0
分享至

随着 AI 模型规模不断扩大且处理的文本序列越来越长,效率变得与规模同样重要。

为展示未来趋势,阿里巴巴发布了[1] 两款新开源模型 —— Qwen3-Next 80B-A3B-Thinking 与 Qwen3-Next 80B-A3B-Instruct,为研究者和开发者社区提供对新型混合专家模型 (MoE) 架构的预览。

Qwen3-Next-80B-A3B-Thinking 现已在 nvidia.cn/ai 平台上线,开发者可通过用户界面直接测试其先进的推理能力。

nvidia.cn/ai 上的 Qwen3-Next-80B-A3B-Thinking 演示,请点击链接观看视频:「链接」

这两个 Qwen3-Next 模型所采用的新架构针对长上下文长度(输入 Token 达到 26 万以上)和大规模参数的效率进行了优化。每个模型总参数规模达 800 亿,但凭借其稀疏 MoE 结构,每个 Token 仅激活 30 亿参数,从而以小模型的效率实现了大模型的强大性能。MoE 模块包含 512 个路由专家和 1 个共享专家,每个 Token 激活 10 个专家。

像 Qwen3-Next 这类需在 512 个专家间传送请求的 MoE 模型,其性能高度依赖 GPU 间通信。Blackwell 第五代 NVLink 提供 1.8TB/s 的 GPU 直连带宽,这种高速网络架构能大幅降低专家传送过程中的延迟,直接提高 AI 工厂的推理速度和 Token 吞吐量。

该模型分为 48 层,每 4 层 Transformer Layer 采用一次分组查询注意力机制 (GQA),其余三层则使用新型线性注意力机制。大语言模型 (LLM) 通过注意力层解析输入序列中的每个 Token 并赋予权重。当前的软件栈没有针对 Mamba2 等新型架构的预优化基础组件,也没有实现针对不同注意力机制以固定频率切换的融合技术。

图 1. Transformer 如何解析输入序列并为其分配权重

为实现处理长上下文输入的能力,模型采用了 NVIDIA Research 与 MIT 研发的 Gated Delta Networks[2]。该技术通过优化序列处理,使模型能够高效处理超长文本而不偏离或遗忘关键信息。这使模型能够高效处理极长序列,且内存与计算资源消耗几乎与序列长度呈线性增长关系。

除上述架构创新外,该模型还可在 NVIDIA Hopper 和 Blackwell 平台上运行以提高推理性能。NVIDIA 灵活的 CUDA 编程架构既支持传统 Transformer 模型的全注意力层和 Mamba2 模型中的线性注意力层,又便于探索新方法。借助 NVIDIA Transformer 引擎 (TE) 等库,Qwen3-Next 等模型在训练和推理阶段均能在减少内存占用的情况下提高性能。在 NVIDIA 平台上运行时,Qwen3-Next 模型采用的混合方法可显著提升效率,为 AI 工厂提高 Token 生成量与收入创造条件。

图 2. 模型 48 层结构示意图

NVIDIA 与开源框架 SGLang 和 vLLM 合作,共同帮助社区部署模型并将这两个模型打包为 NVIDIA NIM。开发者可以根据需要,通过企业级软件容器来使用先进的开源模型。

使用 SGLang 部署

使用 SGLang 服务框架部署模型的用户可参考以下指令。更多信息和配置选项详见 SGLang 文档:

https://docs.sglang.ai/basic_usage/qwen3.html

python3 -m sglang.launch_server --model   Qwen/Qwen3-Next-80B-A3B-Instruct --tp 4

使用 vLLM 部署

使用 vLLM 服务框架部署模型的用户可参考以下多 GPU 启动的基础指令。更多信息详见 vLLM Qwen3-Next 使用指南:

https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3-Next.html

uv venvsource .venv/bin/activateuv pip install vllm --extra-index-url   https://wheels.vllm.ai/nightlyvllm serve Qwen/Qwen3-Next-80B-A3B-Instruct \\    --tensor-parallel-size 4 \\    --served-model-name qwen3-next

使用 NVIDIA NIM 进行生产就绪部署

企业开发者可通过 nvidia.cn/ai 中 NVIDIA 托管的 NIM 端点,体验 Qwen3-Next-80B-A3B 及其他 Qwen 模型。

基于开源 AI 的强大力量

新的混合 MoE 架构 Qwen3-Next 推动了效率和推理能力的边界,标志着社区的重要进步。将这些模型开源,赋予全球的研究人员和开发者以此尝试、构建和加速创新的能力。在 NVIDIA,我们通过分享如用于 AI 生命周期管理的 NeMoNemotron 大语言模型 (LLM) 以及 Cosmos 世界基础模型 (WFMs),践行对开源的承诺。我们与社区共同协作,推动 AI 的发展。通过这些努力,确保未来的 AI 模型不仅更加强大,同时也更加开放、透明和协作。

立即开始

在 Open Router 上体验:Qwen3-Next-80B-A3B-Thinking 和 Qwen3-Next-80B-A3B-Instruct,或者从 Hugging Face 下载:Qwen3-Next-80B-A3B-Thinking 和 Qwen3-Next-80B-A3B-Instruct。

引用

[1] 开源模型:

https://qwenlm.github.io/blog/qwen3_next/

[2] Gated Delta Networks:

https://arxiv.org/pdf/2412.06464

作者

Anu Srivastava

NVIDIA 高级技术市场经理,专注于 NVIDIA 标杆性 AI 模型合作。她与重要合作伙伴和基金会合作,为开源开发者生态系统提供 NVIDIA 加速平台支持。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度彻底沸腾了!

印度彻底沸腾了!

回京历史梦
2026-05-30 18:44:55
油管五常的“中国镜像”:为什么韩、越、印度看到中国视频就失控

油管五常的“中国镜像”:为什么韩、越、印度看到中国视频就失控

民间胡扯老哥
2026-05-25 11:19:05
辽宁省辽阳市委原常委梅福春被开除党籍:违规拥有非上市公司股份

辽宁省辽阳市委原常委梅福春被开除党籍:违规拥有非上市公司股份

界面新闻
2026-05-29 20:10:34
一粒中国“芯” 三代追梦人

一粒中国“芯” 三代追梦人

金台资讯
2026-05-30 08:12:48
49岁男子猝死,每天雷打不动吃降压药,医生直言:犯了5个错误

49岁男子猝死,每天雷打不动吃降压药,医生直言:犯了5个错误

鬼菜生活
2026-05-30 20:34:07
中国决定暂停出口!全球供应链崩溃,价格暴涨,最大输家是德国

中国决定暂停出口!全球供应链崩溃,价格暴涨,最大输家是德国

小正说娱乐
2026-05-30 11:44:36
心理学:永远不要在儿女面前,随口说出这两句话,会毁掉孩子一生

心理学:永远不要在儿女面前,随口说出这两句话,会毁掉孩子一生

心理观察局
2026-05-30 07:08:20
不打了!顶薪后卫退出抢七!雷霆1换4交易方案曝光

不打了!顶薪后卫退出抢七!雷霆1换4交易方案曝光

篮球实战宝典
2026-05-30 15:21:51
浙江广厦拒绝3连败!全力战胜上海队,孙铭徽触底反弹,央视直播

浙江广厦拒绝3连败!全力战胜上海队,孙铭徽触底反弹,央视直播

体坛瞎白话
2026-05-30 12:27:35
我跟48岁女邻居开玩笑说娶她,第二天她28岁女儿拿着户口本找上门

我跟48岁女邻居开玩笑说娶她,第二天她28岁女儿拿着户口本找上门

千秋文化
2026-05-30 20:05:32
散户股民坐稳扶好了,下周一,周二两天,行情或将重演20年戏码!

散户股民坐稳扶好了,下周一,周二两天,行情或将重演20年戏码!

云鹏叙事
2026-05-30 16:07:32
郝劭文回台湾定居原因曝光,直播带货曾月赚近亿元,会赚更会做人

郝劭文回台湾定居原因曝光,直播带货曾月赚近亿元,会赚更会做人

以茶带书
2026-05-29 15:26:31
我59岁才顿悟一个道理:如果别人请客不想去,千万别傻傻地回“有事去不了,下次再约”,高情商的人这样回应

我59岁才顿悟一个道理:如果别人请客不想去,千万别傻傻地回“有事去不了,下次再约”,高情商的人这样回应

心理观察局
2026-05-13 09:07:23
利物浦脸都绿了!刚炒掉的冠军主帅,转头被欧洲豪门抢着当救世主

利物浦脸都绿了!刚炒掉的冠军主帅,转头被欧洲豪门抢着当救世主

澜归序
2026-05-31 02:44:49
历史不会重演,但会惊人相似:中国楼市极大可能重走2015年老路?

历史不会重演,但会惊人相似:中国楼市极大可能重走2015年老路?

专业聊房君
2026-05-29 08:37:43
这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

川渝视觉
2026-05-27 22:29:45
“丑的不能再丑了!”女子吐槽中学女生流行发型,比鲶鱼须还恶心

“丑的不能再丑了!”女子吐槽中学女生流行发型,比鲶鱼须还恶心

林林先生
2026-05-30 08:20:03
华为前高管怒喷“韬定律”造假?别急着站队,这事儿没那么简单

华为前高管怒喷“韬定律”造假?别急着站队,这事儿没那么简单

粤语音乐喷泉
2026-05-30 19:53:32
黑哨单丹奥再次1/2哨吹死泰山队,拜合拉木逃红,宿茂臻吃到黄牌

黑哨单丹奥再次1/2哨吹死泰山队,拜合拉木逃红,宿茂臻吃到黄牌

呀古铜
2026-05-31 00:18:52
苹果五款新品曝光,6 月 9 日正式发布!

苹果五款新品曝光,6 月 9 日正式发布!

XCiOS俱乐部
2026-05-30 20:40:52
2026-05-31 05:32:49
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3533文章数 1453关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

体育要闻

巴黎再度捧起欧冠奖杯 枪手众将黯然神伤

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

家居
亲子
艺术
旅游
手机

家居要闻

云栖 舒展如流云

亲子要闻

来一次说走就走,开启宝宝人生首次远行,去见不一样的风景

艺术要闻

非洲超级地标!全球最大足球场,持续推进!

旅游要闻

伊利亮相2026“跟着品牌去旅行”对接交流活动 以工业文旅融合彰显中国品牌力量

手机要闻

REDMI K90至尊版入网?K90单品激活破200万

无障碍浏览 进入关怀版