白山云上线Qwen3-Next-80B-A3B双模型！|推理|基准|预训练|qwen|注意力机制

白山云上线Qwen3-Next-80B-A3B双模型！

2025-09-16 16:30:38　来源: 白山云科技

北京举报

分享至

近日，阿里通义千问发布下一代基础模型架构Qwen3-Next，并开源了基于该架构的Qwen3-Next-80B-A3B系列模型，包含指令版Qwen3-Next-80B-A3B-Instruct和思维版Qwen3-Next-80B-A3B-Thinking，指令版擅长理解和执行指令，思考版擅长多步推理和深度思考。

白山云科技旗下边缘算力云平台“白山智算”（

http://ai.baishan.com/website/model-api

）已第一时间上线这两款模型，用户可通过简单易用的API调用方式迅速体验Qwen3-Next架构带来的“更极致的训练和推理性价比”。

据官方介绍，Qwen3-Next相比Qwen3的MoE模型结构进行了以下核心改进，进一步提升了模型在长上下文和大规模总参数下的训练和推理效率：

混合注意力机制

用75%的Gated DeltaNet（线性注意力）和25%的Gated Attention（门控注意力）的组合替换标准注意力，兼顾效率与精度，长文本处理更稳更快。

高稀疏度MoE结构

模型总参数量达800亿，但每个推理步骤仅激活约30亿参数。相比Qwen3-MoE的128个总专家和8个路由专家，Qwen3-Next扩展到了512总专家，10路由专家与1共享专家的组合，在不牺牲效果的前提下最大化资源利用率。

训练稳定性友好设计

包括零中心化和权重衰减LayerNorm等技术，以及其他增强稳定性以实现鲁棒的预训练和后训练。

多Token预测（MTP）机制

提升预训练模型性能并加速推理，Qwen3-Next特别优化了MTP多步推理性能，通过训练推理一致的多步训练，进一步提高了实用场景下的投机采样（Speculative Decoding）接受率。

多项评测基准上的结果表明，Qwen3-Next-80B-A3B-Instruct与Qwen3-235B-A22B-Instruct-2507表现相当，同时在256K超长上下文处理任务中展现出显著优势；Qwen3-Next-80B-A3B-Thinking在复杂推理任务上表现卓越，不仅优于预训练成本更高的Qwen3-30B-A3B-Thinking-2507与Qwen3-32B-Thinking，更在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。

指令模型测试基准

思维模型测试基准

白山云MaaS服务

提供边缘极速AI体验！

白山云大模型API服务提供预构建、开箱即用的LLM服务，只需一行代码用户即可完成模型切换与集成。基于白山全球边缘云架构进行就近推理，能够为用户带来＜300ms的超低延时推理体验。

目前，平台已上架DeepSeek系列、通义千问系列、ChatGLM系列等多款大模型，并提供部分免费模型。开发者可在白山边缘算力云平台上对比选择各类模型，以更简单易用、灵活高效的API调用方式迅速开启AI创新之旅。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.