近日,阿里通义千问发布下一代基础模型架构Qwen3-Next,并开源了基于该架构的Qwen3-Next-80B-A3B系列模型,包含指令版Qwen3-Next-80B-A3B-Instruct和思维版Qwen3-Next-80B-A3B-Thinking,指令版擅长理解和执行指令,思考版擅长多步推理和深度思考。
白山云科技旗下边缘算力云平台“白山智算”(
http://ai.baishan.com/website/model-api)已第一时间上线这两款模型,用户可通过简单易用的API调用方式迅速体验Qwen3-Next架构带来的“更极致的训练和推理性价比”。
据官方介绍,Qwen3-Next相比Qwen3的MoE模型结构进行了以下核心改进,进一步提升了模型在长上下文和大规模总参数下的训练和推理效率:
混合注意力机制
用75%的Gated DeltaNet(线性注意力)和25%的Gated Attention(门控注意力)的组合替换标准注意力,兼顾效率与精度,长文本处理更稳更快。
高稀疏度MoE结构
模型总参数量达800亿,但每个推理步骤仅激活约30亿参数。相比Qwen3-MoE的128个总专家和8个路由专家,Qwen3-Next扩展到了512总专家,10路由专家与1共享专家的组合,在不牺牲效果的前提下最大化资源利用率。
训练稳定性友好设计
包括零中心化和权重衰减LayerNorm等技术,以及其他增强稳定性以实现鲁棒的预训练和后训练。
多Token预测(MTP)机制
提升预训练模型性能并加速推理,Qwen3-Next特别优化了MTP多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的投机采样(Speculative Decoding)接受率。
多项评测基准上的结果表明,Qwen3-Next-80B-A3B-Instruct与Qwen3-235B-A22B-Instruct-2507表现相当,同时在256K超长上下文处理任务中展现出显著优势;Qwen3-Next-80B-A3B-Thinking在复杂推理任务上表现卓越,不仅优于预训练成本更高的Qwen3-30B-A3B-Thinking-2507与Qwen3-32B-Thinking,更在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。
指令模型测试基准
思维模型测试基准
白山云MaaS服务
提供边缘极速AI体验!
白山云大模型API服务提供预构建、开箱即用的LLM服务,只需一行代码用户即可完成模型切换与集成。基于白山全球边缘云架构进行就近推理,能够为用户带来<300ms的超低延时推理体验。
目前,平台已上架DeepSeek系列、通义千问系列、ChatGLM系列等多款大模型,并提供部分免费模型。开发者可在白山边缘算力云平台上对比选择各类模型,以更简单易用、灵活高效的API调用方式迅速开启AI创新之旅。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.