阿里开源全新MoE架构Qwen3-Next，是不是在适配它的自研芯片|英伟达|上下文|qwen|moe架构|大语言模型|阿里巴巴集团

阿里开源全新MoE架构Qwen3-Next，是不是在适配它的自研芯片

2025-09-13 00:45:24　来源: 未尽研究

上海举报

分享至

就在市场传闻阿里已经开始使用自研芯片训练AI模型时，阿里推出了其下一代模型的雏形Qwen3-Next。

阿里巴巴正式开源的两款模型，分别是Qwen3-Next-80B-A3B的指令（Insctruct）模型和推理（Thinking）模型。两者在在大多数标准化基准测试中，接近阿里旗下旗舰模型Qwen3-235B-A22B系列对应最新模型。相当于在总参数规模下降2/3，激活参数规模下降5/6的前提下，输出大致相当的结果。

这不是一次常规的模型迭代。通义千问大模型负责人林俊旸自称为“大胆”。它尝试用极致稀疏MoE，低成本扩展模型的智能涌现的上限；迈出了高度复杂的混合注意力（Hybrid Attention）的一大步，既高效又精准地扩展上下文长度。

这背后是阿里通义千问团队对大模型技术趋势的两大预判，即未来将主要依赖总参数规模和上下文长度的扩展。总参数规模越大，模型潜在能力和智能涌现上限越高；上下文长度越长，模型的记忆能力和持续交互能力也随之增强。

在一片阿里开始使用自研芯片训练模型的传闻中，阿里并没有透露它用什么芯片训练出来的。而软硬件之间的高效协调适配，降低token成本，已经成为定制芯片（ASIC）的趋势。

据科技媒体Information报道，阿里的Zhenwu处理器今年已经投入实用，性能略优于英伟达的A100，目前主要用于较小模型的训练。

随着稠密模型参数规模接近万亿，继续扩展变得愈发昂贵。受限于先进芯片供给，中国开源模型阵营普遍转向稀疏专家模型，以实现知识容量与计算成本的解耦。而且，通义千问团队发现，增加总专家数量往往可以持续降低训练损失。因此，通过压缩每次激活参数规模的占比，就可以尽可能地扩展总参数规模；当然，实现它仍然需要非常多的技术创新，包括更精准的路由策略。

Qwen3-Next要比之前的Qwen3-MoE稀疏得多。Qwen3-MoE拥有128个专家模型和8个路由专家，Qwen3-Next则扩展到了512个总专家，10路由专家与1共享专家的组合。同行最近发布的Kimi-K2模型，也实现了384 个专家激活8个的配置。

Qwen3-Next系列的总参数规模不会止步于800亿。在GPT时代之前，阿里巴巴就尝试过万亿参数级稀疏模型；近期又预览了1万亿参数规模的Qwen3-Max-Preview。本次Qwen3-Next的预训练仅使用了15T tokens，相比Qwen3的36T tokens显著减少。可以将其看作一次对现有技术的“中试”，为未来工程优化后的“量产”版本奠定基础。真正的“Qwen 3.5”将提供更多可选配置，在相同硬件和工作负载条件下，不同的总参数规模与激活参数规模组合将影响模型部署成本，并在推理阶段决定成本、速度与性能的权衡空间。

上下文长度是另一个关键维度。目前Qwen3-Next系列原生支持262k上下文长度，并可扩展至百万tokens。理论上，上下文越长越好。然而，作为Transformer的核心创新，大模型与生成式AI的基础，标准自注意力机制在长序列下的计算复杂度呈二次增长：在预填充（prefill）阶段主要体现为算力需求的急剧增加，而在解码（decode）阶段则受内存带宽限制成为瓶颈。

这也是为什么中国开源大模型普遍将自注意力机制的优化作为重点。DeepSeek提出了潜在多头注意力（MLA），尝试减少内存占用；MiniMax的闪电注意力（Lightning Attention）则是线性注意力（Linear Attention）的变体，旨在降低算力消耗；月之暗面的MoBA，事实上是基于块（Block）的稀疏注意力（Sparse Attention）。这些优化路线虽各具特色，但并不适用于所有任务，尤其在需要高精度和复杂推理的场景下仍存在局限。

混合注意力正成为下一代大模型中被广泛关注的重点探索方向。几个月前，MiniMax-01架构负责人在采访中承认，完全的线性注意力在长上下文里准确“找回”关键信息的能力并不好。MiniMax判断，未来将属于混合注意力机制，M1就是该公司对此的初步验证；英伟达的Nemotron-H同样如此。

目前，Qwen3-Next迈出的步子最大，75%采用线性注意力，25%保留标准注意力。线性注意力的Gated DeltaNet用于长程信息扫描，并可及时清除无关历史信息；阿里自研的Gated Attention则专注捕获关键局部信息。这一比例显示，每一项改进都是整套混合注意力机制的核心，而非点缀。在发布前，通义千问团队已对线性注意力进行了约一年的持续探索，用林俊旸的话说，期间经历了“大量试错”。

越是稀疏的模型，越是难以训练。此前，Meta在Llama 4中首次尝试引入MoE架构就遇到挫折。针对这一挑战，通义千问团队设计了多项训练优化措施，确保训练过程的稳定性。同时，Qwen3-Next原生集成了多token预测（MTP）技术，有效提升了解码阶段的推理速度。

Qwen3-Next终将向各类应用场景落地。未来，硬件定制、软硬件协同以及工作负载优化，仍是在实践中提升AI体验的关键路径。英伟达为上下文处理专门定制了Rubin CPX芯片，阿里巴巴自研芯片与新模型架构之间的协同，也是令人兴奋的关注点。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.