网易首页 > 网易号 > 正文 申请入驻

一刀砍掉90%训练成本!Qwen3-Next用1/10算力练成「长文推理利器」

0
分享至


新智元报道

编辑:倾倾

【新智元导读】开源炸场!Qwen3-Next 80B,每次仅激活约3B;训练成本约1/10,32K以上长文本吞吐提升约10倍,原生256K。这才是开源最想看的答案。

AI狂飙,闭源大模型坚信「越大越强」、「大就是好」。

但一只80B的开源「小钢炮」却给了另一个答案:Qwen3-Next。

它用极稀疏MoE与混合注意力,把单次激活压到≈3B,训练成本约1/10、32K+长上下文、推理吞吐≈10×,在多项推理与长文场景逼近甚至反超闭源竞品。

小体量、低成本,却能硬刚巨头——这才是开源最想看的答案。

80B小体量,凭什么挑战235B巨头?


Qwen3-Next的混合架构。采用Gated DeltaNet+Gated Attention的混合注意力与高稀疏MoE,并通过zero-centered与weight-decayed LayerNorm等稳定化手段,提升大规模训练稳定性

极致稀疏MoE:512专家只激活3B

闭源大模型的常见逻辑是「越大越强」:参数从百亿到千亿一路狂飙,成本和门槛也被推到极高。

但Qwen3-Next给出了另一种答案——它只有80B总参数,却通过极致稀疏的MoE 架构,把「小体量」贯彻到了极致。

采用极稀疏MoE(1:50):512专家中每个token仅激活10个专家+1个共享专家,激活参数≈3B(约3.75%)

这种「按需激活」的设计,不仅让计算资源利用率最大化,也在官方评测中跑出了接近235B旗舰模型的表现。


Qwen3-Next-80B-A3B-Base在多项任务中表现超越32B,接近235B,展现出极高的性价比

Qwen3-Next用更小的规模,撕开了闭源巨头的防线,证明了「不是越大才越强」,而是越聪明才越强。

混合注意力:效率与召回的平衡

在注意力机制上,Qwen3-Next采用了75%Gated DeltaNet+25%标准Attention的混合方案。

前者负责提升长文本处理的效率,后者保证全局信息的召回,再加上输出门控和部分旋转位置编码,既能处理超长上下文,又能维持强大的in-context学习能力。

这套设计让它在复杂推理任务中,不仅超过了自家更高成本的30B、32B模型,还在多个基准测试中超越了闭源Gemini-2.5-Flash-Thinking

更让人惊讶的是,部分关键指标已经接近Qwen3-235B-Thinking,尤其在256k超长上下文场景下,优势被进一步放大,成为开源阵营少见的「长文推理利器」。

稳定性优化:不怕大规模训练翻车

稀疏架构的难题一直是训练不稳。

Qwen3-Next在这一点上做了多重改造:

采用zero-centered与weight-decayed LayerNorm等稳定化手段,并在MoE Router上做归一化与初始化改进,保证高稀疏与RL后训阶段的稳态收敛

在MoE router初始化时进行归一化,让各个专家在早期训练阶段就能公平参与。

结果是,模型在scaling up时依然能稳步收敛。

省钱更省心:效率才是杀手锏

Qwen3-Next并不是靠堆算力取胜。

它只使用了Qwen3语料的15T tokens子集,训练所需GPU资源甚至不到Qwen3-32B的9.3%


在4K场景也有可观提升,而在 32K+ 长上下文下提升最为显著(约10×)。



训练更省,推理更快,这让「性价比」三个字,不再是宣传口号,而是能落到实处的硬指标。

原生MTP:快得有理由

效率的提升并不是凭空出现。

Qwen3-Next把Multi-Token Prediction原生集成进模型主干,一次前向就能预测多个token。

再结合多步一致训练,大幅提升了speculative decoding的接受率。

这意味着模型不仅能生成得更快,而且在长文本场景下依旧保持稳定。

换句话说,速度背后有机制,性能提升也能持久复现。

后训练见真章:Instruct与Thinking双线作战

如果说Base模型证明了Qwen3-Next的基本实力,那么Instruct和Thinking模型则展示了它在后训练阶段的全面爆发。

在Instruct模型上,Qwen3-Next-80B-A3B-Instruct的表现已经逼近Qwen3-235B Instruct,在部分任务上甚至反超。


无论是SuperGPQA、AIME25,还是Arena-Hard v2,都能看到80B模型与235B旗鼓相当,明显领先于Qwen3-30B、32B系列。

在对于长文本处理的对比下尤为突出,在RULER测试的256k上下文范围内,它甚至超过了235B,验证了混合架构在超长场景下的优势。


而在Thinking模型上,Qwen3-Next-80B-A3B-Thinking的突破更为亮眼。

在复杂推理任务中,不仅优于自家更高成本的30B、32B模型,Thinking版在多个基准上超过Gemini-2.5-Flash-Thinking:例如 IME25 87.8 vs 72.0、HMMT25 73.9 vs 64.2、LiveBench 76.6 vs 74.3、LiveCodeBench v6 68.7 vs 61.2、Arena-Hard v2 62.3 vs 56.7。


换句话说,开源社区第一次在推理能力上真正追上了闭源巨头,并在部分场景中完成了反超。


官方在X的发布中也给出了核心口径:80B总参但单token仅激活3B;训练约10×更省、在32K+上下文推理约10×更快。

长文稳定、综合均衡,网友:真香!

如果说Qwen3-Next的骨骼是极稀疏MoE与混合注意力,那它的「肌肉」就体现在长文本和综合基准里的硬指标。

原生256K的上下文不是纸面参数,在官方RULER测试中,Qwen3-Next-80B-A3B-Instruct在256K点位拿到约93.5%的准确率,全区间平均约91.8%。


也就是说,它不仅能「装下」超长材料,还能在长度翻倍之后依然保持理解力和稳定性,不是那种越长越糊的模型。

再看综合能力。放进自家旗舰和竞品横向比,Qwen3-Next给出的答卷同样惊喜:在Arena-Hard v2里拿到82.7分,已经和235B旗舰处于同一梯队;

LiveBench这样的综合评测上,它更是以75.8的成绩追平甚至略超235B。

LiveCodeBench v6上,它干脆以小博大,80B模型的56.6分超过了235B的51.8



当然,在更吃知识冗余的数学/常识任务上,它与235B仍有半步差距,但考虑到成本对比,这已是一笔「稳赚」的交换。

除了官方成绩单,社区也有第一波体验者。

有网友实测发现,Qwen3-Next在生成长文时,版式会有一定波动,同一个prompt多次跑出的页面排版不尽相同,需要靠更严格的提示去约束稳定性;

在处理长代码时表现强势,一次性能吐出上千行逻辑,但在「整理网页信息」这样的场景里,模型偶尔会「偷懒」,直接把片段抄过来而不是生成完整逻辑。


尽管如此,这位网友最后还是下了结论

100B以内的模型已经够打,等到A100B+级别的新版本量产,会更值得期待。

百万Token之外,还有Qwen3.5

Qwen3-Next 并不是终点。

它原生支持26万token的上下文,在实际测试中,通过YaRN技术已经可以稳定扩展到百万级

这意味着,无论是整本书的理解,还是跨月的长周期对话,都已经不再是实验室里的概念,而是真正可落地的能力。

更重要的是,团队已经在筹备Qwen3.5

在Qwen3-Next打下的架构基础上,未来的版本将进一步强化智能水平和生产力表现。

对研究者和开发者来说,这不仅是一代模型的更新,更是开源社区与闭源巨头竞争的加速信号。

从80B小体量撕开235B的防线,到百万级上下文的突破,再到即将到来的Qwen3.5,Qwen系列正在不断刷新行业对性价比和可能性的认知。

参考资料:

https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag

https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct

https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking

https://www.reddit.com/r/LocalLLaMA/comments/1nefmzr/qwen_released_qwen3next80ba3b_the_future_of/

https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list

https://x.com/Alibaba_Qwen/status/1966197643904000262

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沙俄最想割,但是却一直没割走的一块土地,你们知道是哪里吗

沙俄最想割,但是却一直没割走的一块土地,你们知道是哪里吗

凡人侃史
2025-11-15 23:13:23
善恶终有报!连娶三徒弟,毁掉奥运冠军前途的金炜,终究难逃"反噬"

善恶终有报!连娶三徒弟,毁掉奥运冠军前途的金炜,终究难逃"反噬"

小熊侃史
2025-11-14 00:05:51
无耻到家!居然有人给陈志洗白?

无耻到家!居然有人给陈志洗白?

吃瓜盟主
2025-11-15 15:36:01
2-0,拉什福德精确制导,凯恩无敌双响炮,英格兰豪取世预赛8连胜

2-0,拉什福德精确制导,凯恩无敌双响炮,英格兰豪取世预赛8连胜

侧身凌空斩
2025-11-17 06:32:22
杜兰特怒砍35+5+6统治末节+加时,小瓦三节25分,末节+加时赛7中0

杜兰特怒砍35+5+6统治末节+加时,小瓦三节25分,末节+加时赛7中0

体坛野秀才
2025-11-17 11:30:45
郭家一条狗引发的纠纷,愣是被身为政协委员的赵某晖作成大新闻

郭家一条狗引发的纠纷,愣是被身为政协委员的赵某晖作成大新闻

七月生活情感驿站
2025-11-16 22:50:36
仅播2小时热度破18000,全网0差评,观众:千万别吃饭的时候看

仅播2小时热度破18000,全网0差评,观众:千万别吃饭的时候看

卷史
2025-11-16 20:08:12
41+37!19秒9分!登哥燃尽了!梦回mvb!鲈鱼什么时候下课?

41+37!19秒9分!登哥燃尽了!梦回mvb!鲈鱼什么时候下课?

贵圈真乱
2025-11-17 11:11:21
夺舍换心都不靠谱,真相还看李嘉诚!

夺舍换心都不靠谱,真相还看李嘉诚!

BenSir本色说
2025-11-14 22:40:16
6国外援候命,高市通知全球,对华打响第二枪,解放军被逼上硬菜

6国外援候命,高市通知全球,对华打响第二枪,解放军被逼上硬菜

桑启红原
2025-11-15 16:03:29
深圳一男子发烧硬扛,竟双目失明!

深圳一男子发烧硬扛,竟双目失明!

深圳晚报
2025-11-16 17:26:47
截至17日早7点,全运会金牌榜,广东日入3金已追上山东,辽宁第12

截至17日早7点,全运会金牌榜,广东日入3金已追上山东,辽宁第12

萌兰聊个球
2025-11-17 07:46:19
又轰41+9+6,东契奇创21世纪最佳!湖人10战8胜一口气迎3个小惊喜

又轰41+9+6,东契奇创21世纪最佳!湖人10战8胜一口气迎3个小惊喜

锅子篮球
2025-11-16 12:38:02
炮决张成泽绝密真相:拍三俗影片 与金正恩枪战 只为一个女人!

炮决张成泽绝密真相:拍三俗影片 与金正恩枪战 只为一个女人!

贰文
2023-12-09 22:30:08
狗咬人事件再升级!李律师爆料,申家申倩才是最冷静、最明智的人

狗咬人事件再升级!李律师爆料,申家申倩才是最冷静、最明智的人

火山诗话
2025-11-16 13:29:59
上海藏着五万日本人:不旅游只扎根!一旦开战,后果不堪设想

上海藏着五万日本人:不旅游只扎根!一旦开战,后果不堪设想

萧栝记录风土人情
2025-11-17 09:38:54
为什么西方国家都不喜欢中国?英国专家:中国有一个“老问题”

为什么西方国家都不喜欢中国?英国专家:中国有一个“老问题”

博览历史
2025-11-16 11:45:03
杜兰特35分6助,火箭迎四连胜!申京30+13+8,乌度卡该考虑变阵

杜兰特35分6助,火箭迎四连胜!申京30+13+8,乌度卡该考虑变阵

老梁体育漫谈
2025-11-17 11:11:36
安德玛为何宁愿多花9500万,也要终止与库里12年的合作?

安德玛为何宁愿多花9500万,也要终止与库里12年的合作?

体育产业独立评论
2025-11-14 22:24:08
曾医生回原单位上班,视频拍摄者已曝光,事发原因是为了副院长

曾医生回原单位上班,视频拍摄者已曝光,事发原因是为了副院长

平老师666
2025-11-13 20:51:40
2025-11-17 11:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13883文章数 66254关注度
往期回顾 全部

科技要闻

营销话术反噬信任,雷军不该只是一怒了之

头条要闻

退伍特种兵参加荒野求生30天后退赛:动物吓跑没法打猎

头条要闻

退伍特种兵参加荒野求生30天后退赛:动物吓跑没法打猎

体育要闻

3年没踢球,他想完成“史上最难”的复出

娱乐要闻

二次封后的宋佳凭什么狂妄?

财经要闻

疯狂的"吸金村":村民大肆盗采地下水

汽车要闻

荣威M7+豆包大模型 用车机AI策划说车视频怎么样?

态度原创

旅游
艺术
家居
亲子
军事航空

旅游要闻

彩林与飞雪同框!四川旺苍盐井峡“一键换装”迎今冬首场降雪

艺术要闻

这雪景,太美了!

家居要闻

回廊通道 强化空间秩序

亲子要闻

哥哥教糖糖学习,糖糖不认真学还告状

军事要闻

海军四川舰顺利完成首次航行试验

无障碍浏览 进入关怀版