网易首页 > 网易号 > 正文 申请入驻

阿里Qwen3问鼎开源王座!8款模型全面开放,最大杯全方位超越R1

0
分享至

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

千呼万唤,Qwen3终于来了!

一口气上新8大模型,通通开源。

旗舰模型Qwen3-235B-A22B全方位超越R1、o1、o3-mini,最大杯稠密模型也以32B参数量达到了可观水平。

小尺寸模型的表现也同样亮眼,Qwen3-4B在数学、代码能力上“以小博大”,和比自身大10倍模型水平相当。

本系列一共包括2个MoE模型和6个稠密模型。

  • 小MoE模型Qwen3-30B-A3B
  • MoE模型Qwen3-235B-A22B

  • Qwen3-32B
  • Qwen3-14B
  • Qwen3-8B
  • Qwen3-4B
  • Qwen3-1.7B
  • Qwen3-0.6B

它们均在Apache 2.0许可下开源。

经过后训练的模型,例如Qwen3-30B-A3B,以及它们的预训练基座模型(如 Qwen3-30B-A3B-Base),现已在 Hugging Face、ModelScope和Kaggle等平台上开放使用。

对于部署,Qwen团队推荐使用SGLang和vLLM等框架;而对于本地使用,则推荐Ollama、LMStudio、MLX、llama.cpp和KTransformers等。

网友:让开源再次伟大!

现在,在Qwen Chat(网页版)和通义APP中均能试用Qwen3。

值得一提的是,Qwen3还增强了对MCP的支持,具备更强的与环境交互的能力。

轻松破解7米甘蔗过2米门

Qwen3系列的亮点包括代码、数学能力,并提出了思考/非思考模式切换,提供更具性价比的模型体验。

思考模式下,模型会逐步推理;非思考模式提供更快速、近乎即时的响应。

比如“7米长的甘蔗如何通过2米高1米宽的门?” 的问题,Qwen3-235B-A22B知道可以通过倾斜一定角度让甘蔗过门。

非思考模式等待了2秒左右即开始作答,思考模式则消耗了38912个token进行逐步推理。

36万亿token预训练

所以Qwen3如何而来?

首先在数据上,Qwen3预训练使用的数据约是Qwen2.5的2倍,达到36万亿token,涵盖119种语言和方言。

并使用Qwen2.5处理数据。用Qwen2.5-VL提取PDF中的文本,在用Qwen2.5改进质量。数学和代码方面,则利用Qwen2.5-Math和Qwen2.5-Coder来合成包括教科书、问答对以及代码片段等多种形式的数据。

其次在预训练方面,共分为3个阶段。

在第一阶段(S1),模型在超过30万亿个 token 上进行了预训练,上下文长度为4Ktoken。这一阶段为模型提供了基本的语言技能和通用知识。

在第二阶段(S2),通过增加知识密集型数据(如 STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的5万亿个 token 上进行了预训练。

在最后阶段,使用高质量的长上下文数据将上下文长度扩展到 32K token,确保模型能够有效地处理更长的输入。

由于模型架构的改进、训练数据的增加以及更有效的训练方法,Qwen3 Dense基础模型的整体性能与参数更多的Qwen2.5基础模型相当。

例如,Qwen3-1.7B/4B/8B/14B/32B-Base分别与 Qwen2.5-3B/7B/14B/32B/72B-Base表现相当。特别是在 STEM、编码和推理等领域,Qwen3 Dense基础模型的表现甚至超过了更大规模的Qwen2.5模型。

对于Qwen3 MoE基础模型,它们在仅使用10%激活参数的情况下达到了与 Qwen2.5 Dense 基础模型相似的性能。这带来了训练和推理成本的显著节省。

最后在后训练方面。共分为4个阶段:

(1)长思维链冷启动
(2)长思维链强化学习
(3)思维模式融合
(4)通用强化学习

第一阶段使用长思维链数据对模型进行微调,涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领域,增强模型基本推理能力。

第二阶段进行大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力。

第三阶段在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,将非思考模式整合到思考模型中。

第四阶段则在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域的任务上应用了强化学习,以进一步增强模型的通用能力并纠正不良行为。

在博客中,Qwen团队表示,Qwen3的发布和开源将极大地推动大型基础模型的研究与开发。

我们的目标是为全球的研究人员、开发者和组织赋能,帮助他们利用这些前沿模型构建创新解决方案。

更多细节可查看:

[1]Blog: https://qwenlm.github.io/blog/qwen3/

[2]GitHub: https://github.com/QwenLM/Qwen3

[3]Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

[4]ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

体验方式:

https://chat.qwen.ai/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东宏远今日早报!杜锋深夜发声,陈家政效仿徐昕,徐杰状态回升

广东宏远今日早报!杜锋深夜发声,陈家政效仿徐昕,徐杰状态回升

多特体育说
2026-03-26 10:17:08
46 岁张柏芝三亚生图流出,肚子上的软肉,打了整个内娱的脸

46 岁张柏芝三亚生图流出,肚子上的软肉,打了整个内娱的脸

橙星文娱
2026-03-26 13:40:27
3大冷门!上季亚军狂输32分!夺冠热门输20分,前总冠军惨败42分

3大冷门!上季亚军狂输32分!夺冠热门输20分,前总冠军惨败42分

老吴说体育
2026-03-26 00:26:35
美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

南权先生
2026-03-25 15:28:41
俞灏明现身广州永庆坊,生图疤痕明显脸肿涨,手上戒指甜翻网友

俞灏明现身广州永庆坊,生图疤痕明显脸肿涨,手上戒指甜翻网友

洲洲影视娱评
2026-03-26 19:05:28
炸锅!北约最高司令当众认怂:乌军爱国者战力吊打美军

炸锅!北约最高司令当众认怂:乌军爱国者战力吊打美军

老马拉车莫少装
2026-03-26 20:01:46
2025年湖南省常住人口减少47万人,出生人口连续九年下降

2025年湖南省常住人口减少47万人,出生人口连续九年下降

何亚福
2026-03-26 18:42:00
河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

网络易不易
2026-03-26 14:05:04
泽连斯基曝惊天内幕:美国逼乌克兰弃顿巴斯,换一纸安全保证

泽连斯基曝惊天内幕:美国逼乌克兰弃顿巴斯,换一纸安全保证

老马拉车莫少装
2026-03-26 21:17:40
真要走了?5首轮豪赌!火箭再梭哈,杜兰特+字母哥?

真要走了?5首轮豪赌!火箭再梭哈,杜兰特+字母哥?

篮球盛世
2026-03-25 22:25:51
京沪蓉之后,第四座“双机场”城市,来了

京沪蓉之后,第四座“双机场”城市,来了

西部城市
2026-03-25 21:43:15
泡泡史诗级暴跌!榜一大哥单日亏千万,省大努力半年,却创出最大亏损

泡泡史诗级暴跌!榜一大哥单日亏千万,省大努力半年,却创出最大亏损

金石随笔
2026-03-26 00:09:28
江苏拟建一条过江通道,或将再破“世界纪录”

江苏拟建一条过江通道,或将再破“世界纪录”

水泥土的搞笑
2026-03-26 14:04:59
中国首创!打一针降血脂基因治疗获突破

中国首创!打一针降血脂基因治疗获突破

医学界
2026-03-26 19:17:50
公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

小怪吃美食
2026-03-24 17:29:52
张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

星星没有你亮
2026-03-26 18:26:16
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
冬去春来:徐胜利因祸得福遇贵人!庄庄终于看清沈冉冉的真面目

冬去春来:徐胜利因祸得福遇贵人!庄庄终于看清沈冉冉的真面目

怂熊剧场
2026-03-26 09:33:08
篮网一口气选的五个首轮秀,现在都怎么样了?

篮网一口气选的五个首轮秀,现在都怎么样了?

只关于篮球
2026-03-26 12:34:23
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
2026-03-26 22:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
艺术
数码
本地
公开课

亲子要闻

你好,我是馒头,快开门!

艺术要闻

哪一座桥不是风景?

数码要闻

iQOO Z11x发布:LCD党的护眼神机 1499元起

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版