网易首页 > 网易号 > 正文 申请入驻

阿里开源全新MoE架构Qwen3-Next,是不是在适配它的自研芯片

0
分享至

就在市场传闻阿里已经开始使用自研芯片训练AI模型时,阿里推出了其下一代模型的雏形Qwen3-Next。

阿里巴巴正式开源的两款模型,分别是Qwen3-Next-80B-A3B的指令(Insctruct)模型和推理(Thinking)模型。两者在在大多数标准化基准测试中,接近阿里旗下旗舰模型Qwen3-235B-A22B系列对应最新模型。相当于在总参数规模下降2/3,激活参数规模下降5/6的前提下,输出大致相当的结果。

这不是一次常规的模型迭代。通义千问大模型负责人林俊旸自称为“大胆”。它尝试用极致稀疏MoE,低成本扩展模型的智能涌现的上限;迈出了高度复杂的混合注意力(Hybrid Attention)的一大步,既高效又精准地扩展上下文长度。


这背后是阿里通义千问团队对大模型技术趋势的两大预判,即未来将主要依赖总参数规模和上下文长度的扩展。总参数规模越大,模型潜在能力和智能涌现上限越高;上下文长度越长,模型的记忆能力和持续交互能力也随之增强。

在一片阿里开始使用自研芯片训练模型的传闻中,阿里并没有透露它用什么芯片训练出来的。而软硬件之间的高效协调适配,降低token成本,已经成为定制芯片(ASIC)的趋势。

据科技媒体Information报道,阿里的Zhenwu处理器今年已经投入实用,性能略优于英伟达的A100,目前主要用于较小模型的训练。

随着稠密模型参数规模接近万亿,继续扩展变得愈发昂贵。受限于先进芯片供给,中国开源模型阵营普遍转向稀疏专家模型,以实现知识容量与计算成本的解耦。而且,通义千问团队发现,增加总专家数量往往可以持续降低训练损失。因此,通过压缩每次激活参数规模的占比,就可以尽可能地扩展总参数规模;当然,实现它仍然需要非常多的技术创新,包括更精准的路由策略。

Qwen3-Next要比之前的Qwen3-MoE稀疏得多。Qwen3-MoE拥有128个专家模型和8个路由专家,Qwen3-Next则扩展到了512个总专家,10路由专家与1共享专家的组合。同行最近发布的Kimi-K2模型,也实现了384 个专家激活8个的配置。

Qwen3-Next系列的总参数规模不会止步于800亿。在GPT时代之前,阿里巴巴就尝试过万亿参数级稀疏模型;近期又预览了1万亿参数规模的Qwen3-Max-Preview。本次Qwen3-Next的预训练仅使用了15T tokens,相比Qwen3的36T tokens显著减少。可以将其看作一次对现有技术的“中试”,为未来工程优化后的“量产”版本奠定基础。真正的“Qwen 3.5”将提供更多可选配置,在相同硬件和工作负载条件下,不同的总参数规模与激活参数规模组合将影响模型部署成本,并在推理阶段决定成本、速度与性能的权衡空间。

上下文长度是另一个关键维度。目前Qwen3-Next系列原生支持262k上下文长度,并可扩展至百万tokens。理论上,上下文越长越好。然而,作为Transformer的核心创新,大模型与生成式AI的基础,标准自注意力机制在长序列下的计算复杂度呈二次增长:在预填充(prefill)阶段主要体现为算力需求的急剧增加,而在解码(decode)阶段则受内存带宽限制成为瓶颈。

这也是为什么中国开源大模型普遍将自注意力机制的优化作为重点。DeepSeek提出了潜在多头注意力(MLA),尝试减少内存占用;MiniMax的闪电注意力(Lightning Attention)则是线性注意力(Linear Attention)的变体,旨在降低算力消耗;月之暗面的MoBA,事实上是基于块(Block)的稀疏注意力(Sparse Attention)。这些优化路线虽各具特色,但并不适用于所有任务,尤其在需要高精度和复杂推理的场景下仍存在局限。

混合注意力正成为下一代大模型中被广泛关注的重点探索方向。几个月前,MiniMax-01架构负责人在采访中承认,完全的线性注意力在长上下文里准确“找回”关键信息的能力并不好。MiniMax判断,未来将属于混合注意力机制,M1就是该公司对此的初步验证;英伟达的Nemotron-H同样如此。


目前,Qwen3-Next迈出的步子最大,75%采用线性注意力,25%保留标准注意力。线性注意力的Gated DeltaNet用于长程信息扫描,并可及时清除无关历史信息;阿里自研的Gated Attention则专注捕获关键局部信息。这一比例显示,每一项改进都是整套混合注意力机制的核心,而非点缀。在发布前,通义千问团队已对线性注意力进行了约一年的持续探索,用林俊旸的话说,期间经历了“大量试错”。

越是稀疏的模型,越是难以训练。此前,Meta在Llama 4中首次尝试引入MoE架构就遇到挫折。针对这一挑战,通义千问团队设计了多项训练优化措施,确保训练过程的稳定性。同时,Qwen3-Next原生集成了多token预测(MTP)技术,有效提升了解码阶段的推理速度。

Qwen3-Next终将向各类应用场景落地。未来,硬件定制、软硬件协同以及工作负载优化,仍是在实践中提升AI体验的关键路径。英伟达为上下文处理专门定制了Rubin CPX芯片,阿里巴巴自研芯片与新模型架构之间的协同,也是令人兴奋的关注点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南一地预制菜园区加速改名

河南一地预制菜园区加速改名

第一财经资讯
2025-09-15 17:41:36
成都大雨海昌路积水淹到市民小腿肚,目前已恢复畅通

成都大雨海昌路积水淹到市民小腿肚,目前已恢复畅通

封面新闻
2025-09-16 13:16:06
江苏一县政协副主席,任上被查

江苏一县政协副主席,任上被查

扬子晚报
2025-09-15 17:19:44
莫言:女人接近男人,不过图这两样东西,那她也不缺一个祖宗供着

莫言:女人接近男人,不过图这两样东西,那她也不缺一个祖宗供着

诗词中国
2025-09-04 17:56:45
赵丽颖直播0互动被骂!网友:钱赚够不装了,不想播别接代言

赵丽颖直播0互动被骂!网友:钱赚够不装了,不想播别接代言

八卦南风
2025-09-15 21:10:03
杭州女子散步时踩到氢氟酸中毒身亡,官方:事发地为征迁区域,正调查溶液源头

杭州女子散步时踩到氢氟酸中毒身亡,官方:事发地为征迁区域,正调查溶液源头

极目新闻
2025-09-16 11:28:56
金正恩:让朝鲜人民每天都能吃到肉!

金正恩:让朝鲜人民每天都能吃到肉!

微微热评
2025-09-16 11:34:57
当年工人阶级说下岗就下岗,为什么现在多余的老师不能下岗?

当年工人阶级说下岗就下岗,为什么现在多余的老师不能下岗?

李老师讲最真教育
2025-09-15 21:19:53
林志颖妻子晒180大儿子,首次回应10年不让Kimi露脸,不是长得丑

林志颖妻子晒180大儿子,首次回应10年不让Kimi露脸,不是长得丑

心静物娱
2025-09-16 11:28:03
17号台风准备,18号台风随后,冷空气南下,7省暴雨局地大暴雨

17号台风准备,18号台风随后,冷空气南下,7省暴雨局地大暴雨

老牛讲
2025-09-16 11:07:22
罗永浩公开担心自己可能失踪,继续闹下去可能性很大

罗永浩公开担心自己可能失踪,继续闹下去可能性很大

深度财线
2025-09-15 22:18:55
队记:爱德华兹上赛季结束后坦承自己跟东契奇和亚历山大有很大差距

队记:爱德华兹上赛季结束后坦承自己跟东契奇和亚历山大有很大差距

懂球帝
2025-09-16 09:39:15
地铁小哥用一根牙签救了大爷25万,网友:这波反诈操作绝了!

地铁小哥用一根牙签救了大爷25万,网友:这波反诈操作绝了!

周道社会百态
2025-09-16 10:17:58
王欣瑜:我们对阵意大利不是占优势的那方,心态其实会更轻松

王欣瑜:我们对阵意大利不是占优势的那方,心态其实会更轻松

懂球帝
2025-09-16 11:05:10
湖南学生自带餐具打饭被拒:连饿3天,官方介入,校长回应惹众怒

湖南学生自带餐具打饭被拒:连饿3天,官方介入,校长回应惹众怒

奇思妙想草叶君
2025-09-14 13:26:36
热搜爆了!西贝道歉,10月1日前全国门店调整!于东来:希望不要毁了西贝

热搜爆了!西贝道歉,10月1日前全国门店调整!于东来:希望不要毁了西贝

中国基金报
2025-09-15 14:05:40
“秦始皇遣使采药昆仑石刻”最新进展:国家文物局认定为秦代石刻

“秦始皇遣使采药昆仑石刻”最新进展:国家文物局认定为秦代石刻

封面新闻
2025-09-15 12:32:15
英媒:通勤距离多达80公里,瓦尔迪的住所选择引发争议

英媒:通勤距离多达80公里,瓦尔迪的住所选择引发争议

雷速体育
2025-09-16 09:36:11
辛芷蕾终遭反噬:面对梁婷的5000字檄文,她真认怂假偿还

辛芷蕾终遭反噬:面对梁婷的5000字檄文,她真认怂假偿还

光影新天地
2025-09-15 21:20:10
3轮2球1助攻!皇马青训捡到宝,1000万欧白菜价,天赋顶级颜值高

3轮2球1助攻!皇马青训捡到宝,1000万欧白菜价,天赋顶级颜值高

阿泰希特
2025-09-16 10:11:36
2025-09-16 13:32:49
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
196文章数 41关注度
往期回顾 全部

科技要闻

理想i6定档9月26日发布,定位纯电五座SUV

头条要闻

印度要再买114架"阵风" 巴总统猛然晒出一张歼10照片

头条要闻

印度要再买114架"阵风" 巴总统猛然晒出一张歼10照片

体育要闻

乌姆蒂蒂,为世界杯冠军赔上职业生涯

娱乐要闻

宋祖英事业巅峰隐退?李谷一道破原因

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

优质智能体验/1.5T增程 别克至境L7正式亮相

态度原创

家居
艺术
本地
健康
军事航空

家居要闻

江南秘境 理想生活模样

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

内分泌科专家破解身高八大谣言

军事要闻

以军夜间大规模空袭加沙城 坦克已入城

无障碍浏览 进入关怀版