就在市场传闻阿里已经开始使用自研芯片训练AI模型时,阿里推出了其下一代模型的雏形Qwen3-Next。
阿里巴巴正式开源的两款模型,分别是Qwen3-Next-80B-A3B的指令(Insctruct)模型和推理(Thinking)模型。两者在在大多数标准化基准测试中,接近阿里旗下旗舰模型Qwen3-235B-A22B系列对应最新模型。相当于在总参数规模下降2/3,激活参数规模下降5/6的前提下,输出大致相当的结果。
这不是一次常规的模型迭代。通义千问大模型负责人林俊旸自称为“大胆”。它尝试用极致稀疏MoE,低成本扩展模型的智能涌现的上限;迈出了高度复杂的混合注意力(Hybrid Attention)的一大步,既高效又精准地扩展上下文长度。
这背后是阿里通义千问团队对大模型技术趋势的两大预判,即未来将主要依赖总参数规模和上下文长度的扩展。总参数规模越大,模型潜在能力和智能涌现上限越高;上下文长度越长,模型的记忆能力和持续交互能力也随之增强。
在一片阿里开始使用自研芯片训练模型的传闻中,阿里并没有透露它用什么芯片训练出来的。而软硬件之间的高效协调适配,降低token成本,已经成为定制芯片(ASIC)的趋势。
据科技媒体Information报道,阿里的Zhenwu处理器今年已经投入实用,性能略优于英伟达的A100,目前主要用于较小模型的训练。
随着稠密模型参数规模接近万亿,继续扩展变得愈发昂贵。受限于先进芯片供给,中国开源模型阵营普遍转向稀疏专家模型,以实现知识容量与计算成本的解耦。而且,通义千问团队发现,增加总专家数量往往可以持续降低训练损失。因此,通过压缩每次激活参数规模的占比,就可以尽可能地扩展总参数规模;当然,实现它仍然需要非常多的技术创新,包括更精准的路由策略。
Qwen3-Next要比之前的Qwen3-MoE稀疏得多。Qwen3-MoE拥有128个专家模型和8个路由专家,Qwen3-Next则扩展到了512个总专家,10路由专家与1共享专家的组合。同行最近发布的Kimi-K2模型,也实现了384 个专家激活8个的配置。
Qwen3-Next系列的总参数规模不会止步于800亿。在GPT时代之前,阿里巴巴就尝试过万亿参数级稀疏模型;近期又预览了1万亿参数规模的Qwen3-Max-Preview。本次Qwen3-Next的预训练仅使用了15T tokens,相比Qwen3的36T tokens显著减少。可以将其看作一次对现有技术的“中试”,为未来工程优化后的“量产”版本奠定基础。真正的“Qwen 3.5”将提供更多可选配置,在相同硬件和工作负载条件下,不同的总参数规模与激活参数规模组合将影响模型部署成本,并在推理阶段决定成本、速度与性能的权衡空间。
上下文长度是另一个关键维度。目前Qwen3-Next系列原生支持262k上下文长度,并可扩展至百万tokens。理论上,上下文越长越好。然而,作为Transformer的核心创新,大模型与生成式AI的基础,标准自注意力机制在长序列下的计算复杂度呈二次增长:在预填充(prefill)阶段主要体现为算力需求的急剧增加,而在解码(decode)阶段则受内存带宽限制成为瓶颈。
这也是为什么中国开源大模型普遍将自注意力机制的优化作为重点。DeepSeek提出了潜在多头注意力(MLA),尝试减少内存占用;MiniMax的闪电注意力(Lightning Attention)则是线性注意力(Linear Attention)的变体,旨在降低算力消耗;月之暗面的MoBA,事实上是基于块(Block)的稀疏注意力(Sparse Attention)。这些优化路线虽各具特色,但并不适用于所有任务,尤其在需要高精度和复杂推理的场景下仍存在局限。
混合注意力正成为下一代大模型中被广泛关注的重点探索方向。几个月前,MiniMax-01架构负责人在采访中承认,完全的线性注意力在长上下文里准确“找回”关键信息的能力并不好。MiniMax判断,未来将属于混合注意力机制,M1就是该公司对此的初步验证;英伟达的Nemotron-H同样如此。
目前,Qwen3-Next迈出的步子最大,75%采用线性注意力,25%保留标准注意力。线性注意力的Gated DeltaNet用于长程信息扫描,并可及时清除无关历史信息;阿里自研的Gated Attention则专注捕获关键局部信息。这一比例显示,每一项改进都是整套混合注意力机制的核心,而非点缀。在发布前,通义千问团队已对线性注意力进行了约一年的持续探索,用林俊旸的话说,期间经历了“大量试错”。
越是稀疏的模型,越是难以训练。此前,Meta在Llama 4中首次尝试引入MoE架构就遇到挫折。针对这一挑战,通义千问团队设计了多项训练优化措施,确保训练过程的稳定性。同时,Qwen3-Next原生集成了多token预测(MTP)技术,有效提升了解码阶段的推理速度。
Qwen3-Next终将向各类应用场景落地。未来,硬件定制、软硬件协同以及工作负载优化,仍是在实践中提升AI体验的关键路径。英伟达为上下文处理专门定制了Rubin CPX芯片,阿里巴巴自研芯片与新模型架构之间的协同,也是令人兴奋的关注点。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.