网易首页 > 网易号 > 正文 申请入驻

阿里深夜干了件大事,成本暴降90%!

0
分享至


智东西
作者 程茜
编辑 心缘

智东西9月12日报道,今天凌晨,阿里通义实验室正式发布下一代基础模型架构Qwen3-Next,并训练了基于该架构的Qwen3-Next-80B-A3B-Base模型,该模型拥有800亿个参数仅激活30亿个参数。


Base模型在Qwen3预训练数据的子集15T tokens上进行,仅需Qwen3-32B 9.3%的GPU计算资源,针对超过32k的上下文,推理吞吐量可达到Qwen3-32B的10倍以上。

同时,基于Base模型,阿里开源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思维模型(Thinking),模型支持原生262144个token上下文长度,可扩展至1010000个token。


其中,Qwen3-Next-80B-A3B-Instruct仅支持指令(非思考)模式,其输出中不生成块;Qwen3-Next-80B-A3B-Thinking仅支持思考模式,为了强制模型进行思考,默认聊天模板自动包含。

指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当,思维模型优于谷歌闭源模型Gemini-2.5-Flash-Thinking。


▲指令模型测试基准


▲思维模型测试基准

在架构升级方面,相比阿里4月底的Qwen3 MoE模型,新增了混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多Token预测(MTP)机制等。

新模型已在魔搭社区和HuggingFace开源,开发者们也可通过Qwen Chat免费体验或阿里云百炼、NVIDIA API Catalog体验Qwen3-Next。

开发者在Qwen的X评论区称赞其新增的多Token预测(MTP)机制,称这是最令人印象深刻的部分。



Qwen Chat地址:https://chat.qwen.ai

Hugging Face:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d

魔搭社区:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a

阿里云百炼:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3

一、指令模型接近235B旗舰模型,推理模型超Gemini-2.5

Qwen3-Next模型支持原生262144个token上下文长度,可扩展至1010000个token

总的来看在性能方面,指令模型接近阿里参数规模235B的旗舰模型,思维模型表现优于Gemini-2.5-Flash-Thinking

其基座模型为Qwen3-Next-80B-A3B-Base,仅使用1/10的Non-Embedding激活参数,在大多数基准测试中,性能表现与Qwen3-32B-Base相近。但其总训练成本为Qwen3-32B-Base的10%不到,并且对于超过32K上下文的推理吞吐是Qwen3-32B的10倍以上


得益于其新的混合模型架构,Qwen3-Next在推理效率方面,与Qwen3-32B相比,Qwen3-Next-80B-A3B在预填充(prefill)阶段,在4k tokens的上下文长度下,吞吐量接近前者的7倍,当上下文长度超过32k时,吞吐提升达到10倍以上。


在解码(decode)阶段,该模型在4k上下文下实现近4倍的吞吐提升,在超过32k的长上下文场景中能保持10倍以上的吞吐优势。


具体来看,其指令模型表现优于Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并取得了几乎与参数规模更大的Qwen3-235B-A22B-Instruct-2507模型相近的结果。

只有在面向大模型的综合性评测基准、高难度数学推理基准AIME25中,指令模型的表现略逊色于Qwen3-235B-A22B-Instruct-2507,在编程、复杂问答与长对话的评测中表现更好。


Qwen3-Next-80B-A3B-Instruct在RULER上所有长度的表现明显优于层数相同、注意力层数更多的Qwen3-30B-A3B-Instruct-2507,甚至在256k范围内都超过了层数更多的Qwen3-235B-A22B-Instruct-2507。


思维模型的表现优于预训练成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全面超过了谷歌的闭源模型Gemini-2.5-Flash-Thinking,并在部分指标上接近阿里最新旗舰模型Qwen3-235B-A22B-Thinking-2507。


二、混合注意力、MoE、稳定优化、多Token预测加持

研究人员在博客中提到,Qwen3-Next是针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计。

Qwen3-Next采用的是Qwen3 36T预训练语料的一个均匀采样子集,包含15T tokens。其训练所消耗的GPU Hours不到Qwen3-30A-3B的80%;与Qwen3-32B相比,仅需9.3%的GPU计算资源,即可实现更优的模型性能。

这一模型结构相较其4月底推出的Qwen3的MoE模型,新增了多种新技术并进行了核心改进,包括混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多Token预测(MTP)机制等。


混合注意力机制:用Gated DeltaNet(线性注意力)和Gated Attention(门控注意力)的组合替换标准注意力,实现超长上下文长度的有效上下文建模。

研究人员发现Gated DeltaNet相比常用的滑动窗口注意力(Sliding Window Attention)和Mamba2有更强的上下文学习能力, 并在3:1的混合比例下,即75%层使用Gated DeltaNet,25%层保留标准注意力,能一致超过超越单一架构,实现性能与效率的双重优化。

同时在保留的标准注意力中,研究人员进一步引入多项增强设计,包括沿用先前工作的输出门控机制,缓解注意力中的低秩问题,将单个注意力头维度从128扩展至256,仅对注意力头前25%的位置维度添加旋转位置编码,提高长度外推效果。

高稀疏度混合专家(MoE):在MoE层中实现极低的激活比率,大幅减少每个token的FLOPs,同时保留模型容量。研究人员的实验表明,在使用全局负载均衡后,当激活专家固定时,持续增加专家总参数可带来训练loss的稳定下降。

此前,Qwen3系列的MoE专家激活比约为1比16,Qwen3-Next实现了1比50的激活比。

稳定性优化:包括零中心化和权重衰减layernorm等技术,以及其他增强稳定性以实现鲁棒的预训练和后训练。研究人员发现,注意力输出门控机制能消除注意力池与极大激活等现象,保证模型各部分的数值稳定。

多Token预测(MTP):提升预训练模型性能并加速推理,Qwen3-Next特别优化了MTP多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的Speculative Decoding接受率。

结语:3B激活参数对标旗舰模型!阿里凭架构创新为模型降本提速Qwen3-Next的突破点在于同时实现了大规模参数容量、低激活开销、长上下文处理与并行推理加速。此外结合注意力机制、MoE设计等方面的多项架构创新,阿里通义此次实现仅激活3B参数模型就能对标规模更大模型的性能,使得模型在性能与效率之间找到更佳平衡点,同时为降低模型训练、推理成本提供了有效路径。
研究人员在博客提到,未来他们将持续优化这一架构并开发Qwen3.5。与此同时近期阿里通义已经推出数个不同领域的模型,如超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等。随着其多领域模型的持续落地与开源,阿里通义在开源社区的技术影响力正逐步增强。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国乒混双辉煌被彻底终结,背后离不开王励勤的战略调整:拔苗助长

国乒混双辉煌被彻底终结,背后离不开王励勤的战略调整:拔苗助长

杨哥乒乓
2026-02-25 23:17:41
连爆大冷世界第4与第5赵心童2-4憾负,8强对阵及赛程出炉中国德比

连爆大冷世界第4与第5赵心童2-4憾负,8强对阵及赛程出炉中国德比

求球不落谛
2026-02-27 06:32:28
马斯克要在太空建数据中心 黄仁勋:没有空气流动 唯一办法是建造巨大的散热板

马斯克要在太空建数据中心 黄仁勋:没有空气流动 唯一办法是建造巨大的散热板

快科技
2026-02-26 11:09:06
依法从严治军:多名军队人大代表被罢免,原因清晰明确

依法从严治军:多名军队人大代表被罢免,原因清晰明确

雪中风车
2026-02-26 23:14:11
受权发布|全国人民代表大会常务委员会公告  〔十四届〕第十六号

受权发布|全国人民代表大会常务委员会公告  〔十四届〕第十六号

新华社
2026-02-26 20:31:09
独生子女家庭一定要立遗嘱,而且遗嘱里一定要“加上这3句话”

独生子女家庭一定要立遗嘱,而且遗嘱里一定要“加上这3句话”

娱乐圈见解说
2026-02-26 19:40:20
警惕!凡是微信里有钱的、绑银行卡的,今后要多注意了

警惕!凡是微信里有钱的、绑银行卡的,今后要多注意了

冷峻视角下的世界
2026-02-26 22:06:04
中领馆提醒: 18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

中领馆提醒: 18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

闪电新闻
2026-02-26 12:46:48
比尔·盖茨曾出轨的2名俄罗斯女性身份曝光:一人为桥牌选手,吐槽“盖茨牌技没预想的好”,爱泼斯坦曾为其付学费;一人为核物理学家

比尔·盖茨曾出轨的2名俄罗斯女性身份曝光:一人为桥牌选手,吐槽“盖茨牌技没预想的好”,爱泼斯坦曾为其付学费;一人为核物理学家

大风新闻
2026-02-26 16:54:05
对比《供应商行为准则》:苹果165页涵盖方方面面,华为仅7页全是官话

对比《供应商行为准则》:苹果165页涵盖方方面面,华为仅7页全是官话

爆角追踪
2026-02-26 13:51:08
中国第一巨人鲍喜顺,不顾医生劝告非要生子,现在儿子长到多高?

中国第一巨人鲍喜顺,不顾医生劝告非要生子,现在儿子长到多高?

她时尚丫
2026-02-26 22:01:22
输球又输人!随着日本男篮惨遭中国逆转,不得不承认的四大事实!

输球又输人!随着日本男篮惨遭中国逆转,不得不承认的四大事实!

田先生篮球
2026-02-26 21:51:17
概率六千万分之一!新疆24岁产妇在武汉诞下“一兄四妹”五胞胎

概率六千万分之一!新疆24岁产妇在武汉诞下“一兄四妹”五胞胎

互联网大观
2026-02-26 19:28:11
网约车司机行驶中突发疾病昏迷,车上有乘客,“撞路边停下” 平台:已不幸离世,将做好关怀工作

网约车司机行驶中突发疾病昏迷,车上有乘客,“撞路边停下” 平台:已不幸离世,将做好关怀工作

红星新闻
2026-02-26 19:49:31
安踏给谷爱凌做的这身龙袍,直接把耐克、阿迪的团队看傻了!

安踏给谷爱凌做的这身龙袍,直接把耐克、阿迪的团队看傻了!

达文西看世界
2026-02-26 19:41:39
不满俄运动员正常参赛,六个国家宣布抵制米兰冬残奥会开幕式

不满俄运动员正常参赛,六个国家宣布抵制米兰冬残奥会开幕式

懂球帝
2026-02-26 22:20:11
抵达中国不到24小时,默茨拿下大单,还没启程的特朗普,只能眼红

抵达中国不到24小时,默茨拿下大单,还没启程的特朗普,只能眼红

东极妙严
2026-02-26 17:58:13
“预订三亚民宿8499元被毁约”后续:拟罚款35万,吊销营业执照

“预订三亚民宿8499元被毁约”后续:拟罚款35万,吊销营业执照

界面新闻
2026-02-26 18:36:33
王楚钦赛后直言:对阵林德是一场丑陋的胜利,面对张禹珍又是恶战

王楚钦赛后直言:对阵林德是一场丑陋的胜利,面对张禹珍又是恶战

乒谈
2026-02-26 23:18:09
不是胡金秋!不是赵继伟!日本主帅盛赞中国1小将,是未来核心

不是胡金秋!不是赵继伟!日本主帅盛赞中国1小将,是未来核心

老吴说体育
2026-02-27 00:04:13
2026-02-27 07:19:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11263文章数 116982关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

美国政府对外交官下令:开始行动

头条要闻

美国政府对外交官下令:开始行动

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利,不惑于内外

态度原创

房产
艺术
本地
公开课
军事航空

房产要闻

2.2万/m²起!三亚主城性价比标杆 海垦·桃花源实景现房春节被疯抢

艺术要闻

紫气东来,好运一整年!

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美政府给新伊核协议设限内容遭披露

无障碍浏览 进入关怀版