网易首页 > 网易号 > 正文 申请入驻

实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

Qwen下一代模型架构,抢先来袭!

Qwen3-Next发布,Qwen团队负责人林俊旸说,这就是Qwen3.5的抢先预览版



基于Qwen3-Next,团队先开源了Qwen3-Next-80B-A3B-Base。

模型参数80B,但训练成本连Qwen3-32B的十分之一都不到,并且在32 k以上的上下文推理吞吐能达到后者的十倍以上



基于这一模型,团队接连出手,同步开发并发布了两大新模型:

  • Qwen3-Next-80B-A3B-Instruct:在256K超长上下文处理任务中展现出显著优势。
  • Qwen3-Next-80B-A3B-Thinking:在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。

网友表示,这更新频率令人震惊。



话不多说,赶紧来看看新模型有哪些改进吧。

4大重要改进

Qwen3-Next的核心改进有4方面:

  • 混合注意力机制
  • 高稀疏度MoE结构
  • 稳定性优化
  • 多token预测机制

混合注意力机制

线性注意力在长上下文处理中效率很高,但召回能力有限,而标准注意力计算开销大、推理效率低,单独使用均存在局限。

为此,Qwen团队引入Gated DeltaNet,其在上下文学习能力上优于常用的滑动窗口注意力和Mamba2,并在采用3:1的混合策略(75%层使用 Gated DeltaNet,25%层保留标准注意力)时,兼顾性能与效率。

同时,在保留的标准注意力层中,他们进一步引入了多项优化设计:

1、延续先前工作的输出门控机制,以缓解注意力中的低秩问题;

2、将单个注意力头的维度从128扩展至256;

3、仅对注意力头前25%的维度加入旋转位置编码,以增强长序列外推能力。



高稀疏度MoE结构

Qwen3-Next采用高稀疏度的MoE架构,总参数量达800亿,但每次推理仅激活约30亿参数。

相比Qwen3-MoE的128个总专家和8个路由专家,Qwen3-Next 扩展到512个总专家,并采用10路由专家加1共享专家的组合设计,在保证性能的前提下最大化资源利用率。

训练稳定性优化

在Qwen3-Next中,团队为进一步提高模型稳定性,采用了Zero-Centered RMSNorm,并在此基础上,对norm weight施加weight decay,以避免权重无界增长。

不仅如此,他们还在初始化时归一化了MoE router的参数,确保每个expert在训练早期都能被无偏地选中,减小初始化对实验结果的扰动。

多token预测机制

Qwen3-Next引入了原生Multi-Token Prediction(MTP) 机制,不仅获得了Speculative Decoding接受率较高的MTP模块,还提升了模型主干的整体性能。

此外,它还对MTP的多步推理进行了专项优化,即通过训练推理一致的多步策略,进一步提高了在实际应用场景下Speculative Decoding的接受率。

快10倍,但便宜10倍

接下来,让我们一起看看新模型表现如何。

首先,Qwen3-Next使用了Qwen3 36T预训练语料的均匀采样子集,仅包含15T tokens。



其训练所需的GPU Hours不到 Qwen3-30A-3B的80%,相比 Qwen3-32B,仅需9.3%的GPU计算资源就能取得更优性能

不仅如此,得益于创新的混合模型架构,Qwen3-Next在推理效率上也表现突出。

与Qwen3-32B相比,Qwen3-Next-80B-A3B在预填充(prefill)阶段就展现出卓越的吞吐能力:

在4k tokens的上下文长度下,吞吐量接近前者的7倍;当上下文长度超过32k时,吞吐提升更是达到10倍以上



在解码(decode)阶段,该模型同样高效。4k上下文吞吐量提升约4倍,长上下文(32k+)场景中仍可保持超过10倍的吞吐优势。



基于Qwen3-Next,Qwen团队首先训练了Qwen3-Next-80B-A3B-Base模型。

该模型仅使用十分之一的Non-Embedding激活参数,就已在大多数基准测试中超越Qwen3-32B-Base,并显著优于Qwen3-30B-A3B,展现出出色的效率与性能优势。



基于Qwen3-Next-80B-A3B-Base的优异表现,团队进一步开发并发布了Qwen3-Next-80B-A3B-InstructQwen3-Next-80B-A3B-Thinking

Qwen3-Next-80B-A3B-Instruct

首先,Qwen3-Next-80B-A3B-Instruct的表现显著优于 Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并在多数指标上接近Qwen3-235B-A22B-Instruct-2507。



除此之外,在RULER测试中,无论上下文长度如何,Qwen3-Next-80B-A3B-Instruct 的表现均超过了层数相同但注意力层更多的Qwen3-30B-A3B-Instruct-2507。



甚至在256 k范围内也优于层数更多的Qwen3-235B-A22B-Instruct-2507,充分体现了Gated DeltaNet与Gated Attention混合模型在长文本处理场景下的优势。

Qwen3-Next-80B-A3B-Thinking

再来看Qwen3-Next-80B-A3B-Thinking,其表现也相当不错。

在多项基准测试中都超过了闭源模型Gemini-2.5-Flash-Thinking,并在部分指标上接近Qwen最新的旗舰模型 Qwen3-235B-A22B-Thinking-2507。



推理能力相当可以

接下来让我们实测一下Qwen3-Next-80B-A3B的推理能力。

使用Qwen Chat网页,一上来就给它扔一道AIME数学竞赛题试试:



由于Qwen3-Next-80B-A3B支持多模态,这里我们可以直接上传图片。



几乎瞬间,模型就开始飞快地列出了详细解题思路和计算过程,最终得到的答案“588”与AIME标准答案完全吻合。



小试牛刀之后,接下来进入编程环节。

  • 用p5js创建一个可直接玩的扫雷游戏。

代码成功运行后,我们也简单试玩了一下,流畅度还可以(doge)。

就是谁能解释一下为什么这个游戏背景是大红色,还没有网格线???



还有网友奇思妙想,用它生成了天气卡片。



不过,看到这个更新时,网友开心之余还是忍不住吐槽:

  • 名字实在太复杂了。



目前,新模型已在魔搭社区和抱抱脸开源,大家可通过Qwen Chat免费体验,也可直接调用阿里云百炼平台提供的API服务。

魔搭社区直通车:https://t.co/mld9lp8QjK
抱抱脸直通车:https://t.co/zHHNBB2l5X
Qwen Chat直通车:https://t.co/V7RmqMaVNZ
阿里云API直通车:https://t.co/RdmUF5m6JA

参考链接:
[1]https://x.com/Alibaba_Qwen/status/1966197643904000262
[2]https://x.com/JustinLin610/status/1966199996728156167
[3]https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震撼!混乱、滥J、肮脏、卖Y…“牢A”揭露女留学生丑陋秘辛

震撼!混乱、滥J、肮脏、卖Y…“牢A”揭露女留学生丑陋秘辛

魔都囡
2026-01-21 08:30:18
餐饮界的“败家子”:4年输光百亿帝国,兜里竟然拿不出1块钱?

餐饮界的“败家子”:4年输光百亿帝国,兜里竟然拿不出1块钱?

青眼财经
2026-01-20 22:07:03
广东最大方舱医院旧址17.8亿挂牌拍卖,总投资261亿元

广东最大方舱医院旧址17.8亿挂牌拍卖,总投资261亿元

南方都市报
2026-01-21 11:14:12
跌破800万!现在生孩子,未来一定上大学、还是本科!你考虑生吗?

跌破800万!现在生孩子,未来一定上大学、还是本科!你考虑生吗?

小e教育
2026-01-20 18:52:18
越南一家中资企业,进口国内啤酒仓库被查,3000多箱被认定为来源不明的商品

越南一家中资企业,进口国内啤酒仓库被查,3000多箱被认定为来源不明的商品

越南语学习平台
2026-01-21 10:35:56
敢拦就开战?美国给“台独”递刀,中方:公海销毁没商量

敢拦就开战?美国给“台独”递刀,中方:公海销毁没商量

华山穹剑
2026-01-19 21:32:59
男子无偿献血2.2万毫升,持优待卡到指定景区旅游被告知不免票,当事人起诉要求退还50元门票

男子无偿献血2.2万毫升,持优待卡到指定景区旅游被告知不免票,当事人起诉要求退还50元门票

扬子晚报
2026-01-21 09:56:22
日本U23主帅:球员们经受住了考验,用任何阵容出战我们都能赢球

日本U23主帅:球员们经受住了考验,用任何阵容出战我们都能赢球

懂球帝
2026-01-21 11:43:35
越野跑山进入全球化时代,品牌如何入局?

越野跑山进入全球化时代,品牌如何入局?

懒熊体育
2024-10-17 09:36:36
谁能看出这是什么车?违停车遇上扫雪机作业成了这模样;网友:车主将收获一台“哥斯拉”

谁能看出这是什么车?违停车遇上扫雪机作业成了这模样;网友:车主将收获一台“哥斯拉”

极目新闻
2026-01-21 18:18:19
著名京剧演员孙彩虹逝世,曾参演并担任87版《红楼梦》剧务

著名京剧演员孙彩虹逝世,曾参演并担任87版《红楼梦》剧务

澎湃新闻
2026-01-21 15:55:20
斩杀线太狠了!揭秘:父母死了,国外定居的子女都不肯回参加葬礼

斩杀线太狠了!揭秘:父母死了,国外定居的子女都不肯回参加葬礼

火山诗话
2026-01-21 08:32:35
刘浩帆:对面7号赛前说踢我们3-0,3-0时我问他“你说话啊”

刘浩帆:对面7号赛前说踢我们3-0,3-0时我问他“你说话啊”

懂球帝
2026-01-21 10:07:11
山东省纪委监委网站通报:2人被查,1人系主动投案

山东省纪委监委网站通报:2人被查,1人系主动投案

齐鲁壹点
2026-01-21 17:13:13
人去楼空、资金链断裂!又一平台暴雷,老板疑跑路,有人刚充上万

人去楼空、资金链断裂!又一平台暴雷,老板疑跑路,有人刚充上万

品牌观察官
2026-01-20 17:53:37
低于-10℃!有冰冻!江苏升温时间定了

低于-10℃!有冰冻!江苏升温时间定了

南通攻略
2026-01-21 09:51:06
62岁男子行凶致邻居1死1伤,庭上拒绝悔罪赔偿还称“后悔未杀全家”,检方认为其不具有从轻量刑情节

62岁男子行凶致邻居1死1伤,庭上拒绝悔罪赔偿还称“后悔未杀全家”,检方认为其不具有从轻量刑情节

极目新闻
2026-01-21 16:09:26
赵露思在海南摆摊卖蛋烘糕,曾称未来愿摆摊谋生

赵露思在海南摆摊卖蛋烘糕,曾称未来愿摆摊谋生

深圳晚报
2026-01-21 14:41:54
李亚鹏房东回应来了!大反转看傻全网!

李亚鹏房东回应来了!大反转看傻全网!

广告创意
2026-01-19 18:23:10
让“吹哨人”敢吹哨!谨以此文致敬罗永浩

让“吹哨人”敢吹哨!谨以此文致敬罗永浩

社会日日鲜
2026-01-21 09:17:54
2026-01-21 18:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12044文章数 176360关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

欧盟被指有意将中企排除出欧洲移动通信网络 中方回应

头条要闻

欧盟被指有意将中企排除出欧洲移动通信网络 中方回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

西贝估值100亿?最新融资约13亿元

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

本地
教育
手机
艺术
军事航空

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

教育要闻

规则有了,但落实不了,该怎么办?

手机要闻

iPhone17全系国内激活破1700万,Pro Max机型激活超785万台

艺术要闻

一百多年前的中国,太雄伟震撼了!

军事要闻

特朗普:对美国的真正威胁是联合国和北约

无障碍浏览 进入关怀版