网易首页 > 网易号 > 正文 申请入驻

阿里开源 Qwen3 系列“混合”推理模型,据称全面超越 Llama 4

0
分享至

备受关注的Qwen3 终于来了。

此前就陆续有消息宣称阿里将于4 月更新其 Qwen 系列模型,终于,在四月的最后两天,阿里巴巴 Qwen Team 对外发布了其 Qwen 系列大型语言模型的新成员——Qwen3。

此次发布的Qwen3 系列涵盖了从小型到超大型的多个模型,旨在满足不同应用场景下的需求。其中,最吸引人眼球的当属旗舰模型Qwen3-235B-A22B。这是一款采用 MoE(Mixture of Experts, 混合专家)架构的大模型,拥有 2350 亿总参数量,在推理时激活其中的 220 亿参数。

除了旗舰模型,Qwen Team 还同时开源了另一款 MoE 模型Qwen3-30B-A3B。该模型总参数量约为 300 亿,激活参数量为 30 亿。官方资料显示,这款模型的激活参数量仅为 Qwen 团队另一款模型 QwQ-32B 的 10%,但在性能上却表现更优。这使得 Qwen3-30B-A3B 在需要高效推理和本地部署的场景下非常具有优势,例如本地编程。

此外,Qwen3 系列还包含六款传统的 Dense(密集)架构模型,参数规模从 0.6B 到 32B 不等,具体包括:Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B 和 Qwen3-32B。这些 Dense 模型采用了更传统的架构,所有参数在推理时都会参与计算。Qwen Team 对这些模型的权重也进行了全面开源。


图丨模型参数(来源:Qwen)

基准测试结果显示,Qwen3 系列的表现相当亮眼。

尽管参数量相对较小,但旗舰模型Qwen3-235B-A22B 在代码生成与理解、数学推理、通用能力等关键领域,与 DeepSeek-R1、o1、o3-mini、Grok-3 以及 Google 的 Gemini-2.5-Pro 等顶级模型不相上下甚至有所超越。最重要的是,在各项评估中,它都用不到一半的参数量实现了对直接竞争对手 LLaMA-4-Maverick 的全面超越。


图丨基准测试结果(来源:Qwen)

小型MoE 模型Qwen3-30B-A3B的表现同样出色。尽管其激活参数量仅为 30 亿,但在 ArenaHard、LiveCodeBench 等多项测试中,其性能不仅超越了参数量更大的 Qwen2.5-72B-Instruct 模型,还在某些项目上接近或超过了 GPT-4o。甚至参数量相当小的Qwen3-4B,也能在部分基准测试中匹敌或超越参数量远大于它的 Qwen2.5-72B-Instruct。

此外,和Gemini 2.5 Flash 一样,Qwen 3 系列最大的亮点是引入了思考/非思考这两种可切换的思考模式,这种设计允许用户根据任务需求,在推理深度(可能带来更高质量的答案)和响应速度(效率更高)之间进行权衡。官方称之为“思考预算”(Thinking Budget)控制。

Qwen 团队的数据显示,模型的性能提升与分配的计算推理预算(以 K tokens 为单位衡量)直接相关,并且展现出可扩展且平滑的性能曲线。这意味着用户可以通过调整预算,在成本效益和推理质量之间找到最佳平衡点。


(来源:Qwen)

在实际使用中,用户可以通过API 调用时的参数(如 enable_thinking=True/False)来控制默认模式。而且,Qwen3 还支持在多轮对话中通过在用户输入中添加特定指令(如 /think 或 /no_think)来动态切换当前轮次的思考模式,模型会遵循最近的指令。

Qwen3 的另一个亮点是,在多语言方面做出了重大改善,官方宣布其支持多达119 种语言和方言。这覆盖了全球主要的语系,包括:


图丨Qwen 3 支持的语言(来源:Qwen)

除了基础的语言理解和生成能力,现代大型语言模型在执行复杂任务、与外部工具交互(即Agent 能力)以及编写和理解代码方面的能力也日益受到重视。Qwen3 在这些方面也进行了重点优化。

官方表示,Qwen3 模型的 Agent 能力和代码能力得到了显著提升,并且加强了对 MCP(Model Context Protocol)的支持,使得 Qwen 3 能更有效地参与到多智能体协作的场景中。

另外值得一提的是,据 Qwen 团队研究员郑楚杰透露,Qwen3 还有一些未在模型卡中透露出的有趣特性,或许能为研究和产品开辟出一些新的空间,值得我们期待一下。


图丨相关推文(来源:X)

在训练方面,Qwen 3 使用了约 36 万亿个 token 进行预训练,几乎是 Qwen2.5(18 万亿 token)的两倍。团队不仅从网络收集数据,还从 PDF 文档中提取信息,并利用 Qwen2.5-VL(Vision Language,视觉语言)和 Qwen2.5 改善提取内容质量。为增加数学和代码数据,团队还利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个领域专家模型合成数据。

预训练过程分为三个阶段:首先在超过30 万亿个 token 上进行基础预训练;其次增加知识密集型数据比例并额外训练 5 万亿个 token;最后使用高质量长上下文数据将上下文长度扩展到 32K token。

模型架构的改进也是Qwen3 性能提升的关键因素之一。官方提到,由于模型架构的改进、训练数据的增加以及更有效的训练方法,Qwen3 的 Dense 基础模型在整体性能上已经能与参数量更多的 Qwen2.5 基础模型相媲美。例如,Qwen3 的 1.7B 到 32B 的 Dense 模型分别能达到 Qwen2.5 的 3B 到 72B Base 模型的水平。对于 MoE 模型,在仅使用约 10% 激活参数的情况下,就能达到与 Qwen2.5 Dense 基础模型相似的性能,显著节省了训练和推理成本。


图丨基准测试结果(来源:Qwen)

后训练部分,对于Qwen3-235B-A22B 等旗舰模型,训练从基础模型出发,经历了与 DeepSeek- R1 比较类似的四个步骤:

1.长思维链冷启动 (Long-CoT Cold Start):使用多样化的长思维链数据对模型进行微调,覆盖数学、代码、逻辑推理和 STEM(科学、技术、工程、数学)等领域,旨在为模型注入基础的推理能力。

2.长思维链强化学习 (Long-CoT Reasoning RL):进行大规模强化学习(Reinforcement Learning, RL),利用基于规则的奖励来增强模型的探索和钻研能力。

3.思维模式融合 (Thinking Mode Fusion):将包含长思维链数据和常用指令微调数据的混合数据集用于模型微调,目的是将非思考模式无缝整合到思考模式中,确保推理能力和快速响应能力的结合。

4.通用强化学习 (General RL):在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用任务领域应用强化学习,进一步增强模型的通用能力并纠正不良行为。

对于更小的轻量级模型,则是由强模型进行蒸馏。流程图显示,这种蒸馏过程利用了经过复杂四阶段训练的前沿模型作为“教师模型”,将其能力迁移到参数量较小的“学生模型”上(这也解释了轻量级模型能在相对较小规模下继承强大性能的原因)。


图丨后训练流程(来源:Qwen)

目前,模型权重已上架Hugging Face、ModelScope、Kaggle 等平台。对于生产环境部署,推荐使用 SGLang、vLLM 等框架。同时,Ollama、LMStudio、llama.cpp 等本地工具也提供了支持。官方还提供了详细的 Python 代码示例。

参考资料:

1. https://qwenlm.github.io/zh/blog/qwen3/

排版:溪树

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
艾滋病感染人数新增130万!携带者难辨,遇到“3种人”建议远离

艾滋病感染人数新增130万!携带者难辨,遇到“3种人”建议远离

39健康网
2025-06-13 18:30:45
两性关系:夫妻过了70岁,哪怕感情再好,也要留心这5件事

两性关系:夫妻过了70岁,哪怕感情再好,也要留心这5件事

四象八卦
2025-06-10 02:43:16
韦东奕幼儿园毕业照首曝光,别的孩子看镜头,唯独韦神侧身看远方

韦东奕幼儿园毕业照首曝光,别的孩子看镜头,唯独韦神侧身看远方

深析古今
2025-06-14 08:21:30
西安查处5家医院

西安查处5家医院

西安观察
2025-06-15 23:32:25
气功大师王林行骗30年,除了擅长开光,还会和女星阴阳双修的绝活

气功大师王林行骗30年,除了擅长开光,还会和女星阴阳双修的绝活

野史留根
2023-09-07 20:16:21
巴基斯坦战胜印度的后遗症:美国给400亿,俄国给钢厂,中国给歼35

巴基斯坦战胜印度的后遗症:美国给400亿,俄国给钢厂,中国给歼35

泠泠说史
2025-06-10 10:42:24
国内首针!47岁京东副总裁蔡磊与渐冻症抗争6年后,终于迎来希望

国内首针!47岁京东副总裁蔡磊与渐冻症抗争6年后,终于迎来希望

小嵩
2025-06-14 08:49:51
你要这样穿,你的男朋友夜夜变狼人

你要这样穿,你的男朋友夜夜变狼人

阿废冷眼观察所
2025-06-15 16:56:57
警方是如何通过实验复现确定自杀结论的

警方是如何通过实验复现确定自杀结论的

阿司匹林42195米
2025-06-15 12:20:18
为什么说惹谁都不要惹打暑假工的大学生?网友:有点心疼资本家了

为什么说惹谁都不要惹打暑假工的大学生?网友:有点心疼资本家了

解读热点事件
2025-06-15 00:05:03
菜场买菜时,这6样东西最好别买,基本都是假的,买了就是上当,快告诉家人

菜场买菜时,这6样东西最好别买,基本都是假的,买了就是上当,快告诉家人

农夫也疯狂
2025-06-15 11:14:14
一旦爆发大型战争,中国必须死保这八座城市,将无人再与我国抗衡

一旦爆发大型战争,中国必须死保这八座城市,将无人再与我国抗衡

爱竞彩的小周
2025-06-14 17:51:45
一种可能让你老得快的饮料,很多人天天都在喝!还可能脱发

一种可能让你老得快的饮料,很多人天天都在喝!还可能脱发

大象新闻
2025-06-15 14:38:13
哈梅内伊声明:要彻底摧毁以色列政权!伊朗向以方向发射约150枚导弹!伊军称击落以战机并逮捕飞行员

哈梅内伊声明:要彻底摧毁以色列政权!伊朗向以方向发射约150枚导弹!伊军称击落以战机并逮捕飞行员

每日经济新闻
2025-06-14 06:41:13
莫言:一个家庭,如果老公挣不了大钱,妻子不要去和老公闹,只要学会做这3件事,好日子都在后头!

莫言:一个家庭,如果老公挣不了大钱,妻子不要去和老公闹,只要学会做这3件事,好日子都在后头!

LULU生活家
2025-06-15 18:01:01
37岁梅西失绝杀!著名足球解说詹俊叹息不已:进了就太经典了

37岁梅西失绝杀!著名足球解说詹俊叹息不已:进了就太经典了

侧身凌空斩
2025-06-15 11:26:53
扛不住啊扛不住!谷爱凌,身材竟然这么饱满性感!

扛不住啊扛不住!谷爱凌,身材竟然这么饱满性感!

云端书馆
2025-05-12 10:00:12
吉雪萍拍全家福,富豪老公罕见露面,三个儿子都随妈,女儿已去世

吉雪萍拍全家福,富豪老公罕见露面,三个儿子都随妈,女儿已去世

麦大人
2025-06-15 11:48:43
普京表态后,上合组织准备出手,侵略伊朗的代价,以色列无处躲藏

普京表态后,上合组织准备出手,侵略伊朗的代价,以色列无处躲藏

虎哥闲聊
2025-06-15 18:15:19
馆长宣布直播结束,向大陆作出承诺,民进党爆发内讧,赖清德要慌

馆长宣布直播结束,向大陆作出承诺,民进党爆发内讧,赖清德要慌

猎火照狼山
2025-06-15 22:01:42
2025-06-16 06:15:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15297文章数 513784关注度
往期回顾 全部

科技要闻

华为Pura80系列首销:不再严重缺货

头条要闻

以伊导弹互袭三天 位于两国之间的约旦和伊拉克遭殃

头条要闻

以伊导弹互袭三天 位于两国之间的约旦和伊拉克遭殃

体育要闻

裁判可以喷,但也从步行者自身找找问题?

娱乐要闻

朱丹重男轻女惹争议!让弟弟吃鸡腿惹怒网友

财经要闻

以伊冲突持续升级,对全球市场影响多大

汽车要闻

一汽丰田bZ5:试图掀桌的“合资新力量”王牌

态度原创

游戏
手机
本地
公开课
军事航空

革命性的起点:外媒称这7款PS游戏彻底改变游戏行业

手机要闻

罗巍建议荣耀400系列手机用户不贴镜头膜:影响拍照效果,还会导致杂音

本地新闻

最近的打工人,都在熬夜看这剧逐帧学习职场小技巧

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗最高领袖高级顾问沙姆哈尼 因伤势过重离世

无障碍浏览 进入关怀版