网易首页 > 网易号 > 正文 申请入驻

阿里深夜干了件大事,成本暴降90%!

0
分享至

智东西9月12日报道,今天凌晨,阿里通义实验室正式发布下一代基础模型架构Qwen3-Next,并训练了基于该架构的Qwen3-Next-80B-A3B-Base模型,该模型拥有800亿个参数仅激活30亿个参数。

Base模型在Qwen3预训练数据的子集15T tokens上进行,仅需Qwen3-32B 9.3%的GPU计算资源,针对超过32k的上下文,推理吞吐量可达到Qwen3-32B的10倍以上。

同时,基于Base模型,阿里开源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思维模型(Thinking),模型支持原生262144个token上下文长度,可扩展至1010000个token。

其中,Qwen3-Next-80B-A3B-Instruct仅支持指令(非思考)模式,其输出中不生成块;Qwen3-Next-80B-A3B-Thinking仅支持思考模式,为了强制模型进行思考,默认聊天模板自动包含。

指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当,思维模型优于谷歌闭源模型Gemini-2.5-Flash-Thinking。

▲指令模型测试基准

▲思维模型测试基准

在架构升级方面,相比阿里4月底的Qwen3 MoE模型,新增了混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多Token预测(MTP)机制等。

新模型已在魔搭社区和HuggingFace开源,开发者们也可通过Qwen Chat免费体验或阿里云百炼、NVIDIA API Catalog体验Qwen3-Next。

开发者在Qwen的X评论区称赞其新增的多Token预测(MTP)机制,称这是最令人印象深刻的部分。

Qwen Chat地址:https://chat.qwen.ai

Hugging Face:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d

魔搭社区:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a

阿里云百炼:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3

一、指令模型接近235B旗舰模型,推理模型超Gemini-2.5

Qwen3-Next模型支持原生262144个token上下文长度,可扩展至1010000个token

总的来看在性能方面,指令模型接近阿里参数规模235B的旗舰模型,思维模型表现优于Gemini-2.5-Flash-Thinking

其基座模型为Qwen3-Next-80B-A3B-Base,仅使用1/10的Non-Embedding激活参数,在大多数基准测试中,性能表现与Qwen3-32B-Base相近。但其总训练成本为Qwen3-32B-Base的10%不到,并且对于超过32K上下文的推理吞吐是Qwen3-32B的10倍以上

得益于其新的混合模型架构,Qwen3-Next在推理效率方面,与Qwen3-32B相比,Qwen3-Next-80B-A3B在预填充(prefill)阶段,在4k tokens的上下文长度下,吞吐量接近前者的7倍,当上下文长度超过32k时,吞吐提升达到10倍以上。

在解码(decode)阶段,该模型在4k上下文下实现近4倍的吞吐提升,在超过32k的长上下文场景中能保持10倍以上的吞吐优势。

具体来看,其指令模型表现优于Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并取得了几乎与参数规模更大的Qwen3-235B-A22B-Instruct-2507模型相近的结果。

只有在面向大模型的综合性评测基准、高难度数学推理基准AIME25中,指令模型的表现略逊色于Qwen3-235B-A22B-Instruct-2507,在编程、复杂问答与长对话的评测中表现更好。

Qwen3-Next-80B-A3B-Instruct在RULER上所有长度的表现明显优于层数相同、注意力层数更多的Qwen3-30B-A3B-Instruct-2507,甚至在256k范围内都超过了层数更多的Qwen3-235B-A22B-Instruct-2507。

思维模型的表现优于预训练成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全面超过了谷歌的闭源模型Gemini-2.5-Flash-Thinking,并在部分指标上接近阿里最新旗舰模型Qwen3-235B-A22B-Thinking-2507。

二、混合注意力、MoE、稳定优化、多Token预测加持

研究人员在博客中提到,Qwen3-Next是针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计。

Qwen3-Next采用的是Qwen3 36T预训练语料的一个均匀采样子集,包含15T tokens。其训练所消耗的GPU Hours不到Qwen3-30A-3B的80%;与Qwen3-32B相比,仅需9.3%的GPU计算资源,即可实现更优的模型性能。

这一模型结构相较其4月底推出的Qwen3的MoE模型,新增了多种新技术并进行了核心改进,包括混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多Token预测(MTP)机制等。

混合注意力机制:用Gated DeltaNet(线性注意力)和Gated Attention(门控注意力)的组合替换标准注意力,实现超长上下文长度的有效上下文建模。

研究人员发现Gated DeltaNet相比常用的滑动窗口注意力(Sliding Window Attention)和Mamba2有更强的上下文学习能力, 并在3:1的混合比例下,即75%层使用Gated DeltaNet,25%层保留标准注意力,能一致超过超越单一架构,实现性能与效率的双重优化。

同时在保留的标准注意力中,研究人员进一步引入多项增强设计,包括沿用先前工作的输出门控机制,缓解注意力中的低秩问题,将单个注意力头维度从128扩展至256,仅对注意力头前25%的位置维度添加旋转位置编码,提高长度外推效果。

高稀疏度混合专家(MoE):在MoE层中实现极低的激活比率,大幅减少每个token的FLOPs,同时保留模型容量。研究人员的实验表明,在使用全局负载均衡后,当激活专家固定时,持续增加专家总参数可带来训练loss的稳定下降。

此前,Qwen3系列的MoE专家激活比约为1比16,Qwen3-Next实现了1比50的激活比。

稳定性优化:包括零中心化和权重衰减layernorm等技术,以及其他增强稳定性以实现鲁棒的预训练和后训练。研究人员发现,注意力输出门控机制能消除注意力池与极大激活等现象,保证模型各部分的数值稳定。

多Token预测(MTP):提升预训练模型性能并加速推理,Qwen3-Next特别优化了MTP多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的Speculative Decoding接受率。

结语:3B激活参数对标旗舰模型!阿里凭架构创新为模型降本提速Qwen3-Next的突破点在于同时实现了大规模参数容量、低激活开销、长上下文处理与并行推理加速。此外结合注意力机制、MoE设计等方面的多项架构创新,阿里通义此次实现仅激活3B参数模型就能对标规模更大模型的性能,使得模型在性能与效率之间找到更佳平衡点,同时为降低模型训练、推理成本提供了有效路径。
研究人员在博客提到,未来他们将持续优化这一架构并开发Qwen3.5。与此同时近期阿里通义已经推出数个不同领域的模型,如超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等。随着其多领域模型的持续落地与开源,阿里通义在开源社区的技术影响力正逐步增强。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
神级补强!魔笛挂靴赴皇马辅佐穆帅,专治银河战舰更衣室内乱!

神级补强!魔笛挂靴赴皇马辅佐穆帅,专治银河战舰更衣室内乱!

田先生篮球
2026-06-02 09:23:02
逆境屠龙!中国老将党毅飞九段强势逆转,力克韩国第一人申真谞!

逆境屠龙!中国老将党毅飞九段强势逆转,力克韩国第一人申真谞!

L76号
2026-06-03 07:59:14
强降雨来袭!天津连续4天有雨!局地大雨+9级短时大风+冰雹今日抵津!明显时段在···

强降雨来袭!天津连续4天有雨!局地大雨+9级短时大风+冰雹今日抵津!明显时段在···

天津生活通
2026-06-03 10:30:24
上海为何把最贵的空间,留给了普通人?

上海为何把最贵的空间,留给了普通人?

城市研究室
2026-06-02 15:37:16
西决抢七刷爆社媒!20亿人围观,G1也破19亿,这热度太离谱了?

西决抢七刷爆社媒!20亿人围观,G1也破19亿,这热度太离谱了?

有态度的体育小白
2026-06-03 09:51:07
中午通知被裁员,我收拾东西离开,下午领导要交接项目却找不到人

中午通知被裁员,我收拾东西离开,下午领导要交接项目却找不到人

云端小院
2026-06-03 06:26:24
欧盟出台史上最强硬移民政策

欧盟出台史上最强硬移民政策

参考消息
2026-06-02 21:36:05
魏宗万家庭情况:妻子是教师,大女儿非亲生,小女儿没有做演员

魏宗万家庭情况:妻子是教师,大女儿非亲生,小女儿没有做演员

叨唠
2026-06-03 02:58:18
宋庆龄说,人民英雄永垂不朽!其实就是毛泽东主席自己的墓志铭。

宋庆龄说,人民英雄永垂不朽!其实就是毛泽东主席自己的墓志铭。

混沌录
2026-06-02 11:16:11
76岁的万科创始人王石,最近彻底成了全网焦点。

76岁的万科创始人王石,最近彻底成了全网焦点。

梦录的西方史话
2026-04-23 14:36:39
完爆埃德森!曼联锁定 8000 万英超铁腰!3500 万新援直接打替补

完爆埃德森!曼联锁定 8000 万英超铁腰!3500 万新援直接打替补

澜归序
2026-06-03 06:39:15
奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

背包旅行
2026-05-28 18:04:35
两江新区卫健委书记、主任刘雪梅一行调研两江新区人民医院医共体基层医疗机构工作

两江新区卫健委书记、主任刘雪梅一行调研两江新区人民医院医共体基层医疗机构工作

娱乐的宅急便
2026-06-02 18:53:39
4游客合伙白嫖潮汕火锅,正脸曝光网友:面相不骗人

4游客合伙白嫖潮汕火锅,正脸曝光网友:面相不骗人

坠入二次元的海洋
2026-06-02 18:29:56
这是中国的最强杀招,让美国无解的超级王炸!

这是中国的最强杀招,让美国无解的超级王炸!

一个坏土豆
2026-06-01 19:58:16
广厦男篮战胜上海男篮,弃用孙铭徽正确,赛后听听王博怎么说

广厦男篮战胜上海男篮,弃用孙铭徽正确,赛后听听王博怎么说

寒律
2026-06-03 00:04:23
女大学生穿红裙拍毕业照片,被批“太无知”,普通人试错机会很少

女大学生穿红裙拍毕业照片,被批“太无知”,普通人试错机会很少

泽泽先生
2026-05-17 18:29:29
黄仁勋从口袋掏出RTX Spark,PC行业的“iPhone时刻”来了

黄仁勋从口袋掏出RTX Spark,PC行业的“iPhone时刻”来了

新京报
2026-06-02 12:16:41
随着卢卡库破门+2-0完胜世界第11,比利时连续12场保持不败

随着卢卡库破门+2-0完胜世界第11,比利时连续12场保持不败

侧身凌空斩
2026-06-03 02:06:50
老人精通一绝技,四年拿下二十六女,背后真相令人震惊

老人精通一绝技,四年拿下二十六女,背后真相令人震惊

雾岛夜话
2025-06-02 17:30:56
2026-06-03 11:08:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11960文章数 117090关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

房产
数码
本地
健康
公开课

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

数码要闻

小米烟感卫士2开售:双发射光源传感器防误报,售149元

本地新闻

用剪纸的方式,打开江苏扬州

违规干细胞应用,暗藏致命隐患!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版