网易首页 > 网易号 > 正文 申请入驻

阿里通义 Qwen3 上线 ,开源大军再添一名猛将

0
分享至

Qwen这波,能处。

作者丨洪雨欣

编辑丨陈彩娴

4月29日,通义App与通义网页版全面上线阿里新一代通义千问开源模型 Qwen3。用户可以第一时间在通义 App 和网页版中的专属智能体 “千问大模型”,以及主对话页面,体验到最强开源模型的智能能力。

Qwen3 一经发布便登顶全球最强开源模型,包含 8 款不同尺寸,均为全新的“混合推理模型”,智能水平大幅提升的同时也更省算力。

其中,旗舰模型 Qwen3-235B-A22B 是一款混合专家(MoE)模型,该模型创下所有国产模型及全球开源模型的性能新高。在代码、数学、通用能力等基准测试中,Qwen3-235B-A22B 展现出多项具有竞争力的数据,直逼 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型。

除此之外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹。而 Qwen3-32B是一款稠密(Dense)模型,部署成本低、稳定高效,是企业部署首选。

通义还开源了两个 MoE 模型的权重:一个是拥有 2350 多亿总参数和 220 多亿激活参数的 Qwen3-235B-A22B,一个是拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型 Qwen3-30B-A3B。此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。

目前, Qwen3-30B-A3B等经过后训练的模型已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。用户可在 Qwen Chat 网页版 (chat.qwen.ai) 和通义 APP 中试用 Qwen3。

1

深思考,多语言

Qwen3 支持两种思考模式:

  • 深入思考:在这种模式中,模型会逐步推理,经过深思熟虑后给出最终答案,非常适合需要深入思考的复杂问题。

  • 快速思考:在这种模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

用户可以根据具体任务控制模型进行“思考”的程度,复杂的问题可以通过深入思考来解决,而简单的问题则可以通过快速作答。

值得关注的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力,让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

除了多种思考模式,Qwen3 模型还支持多语言功能,涵盖了 119 种语言和方言。

X上网友也纷纷给出好评!

网友表示,Qwen 3 能快能慢,答案精准。对于编码,它运行良好。对于数学,它保持平静。对于语言,它非常真实。

“开源模型已经很久没有这么好了。”

2

预训练,后训练

Qwen3 预训练实现了三重升级:

第一重,数据增强。预训练语料规模达36万亿token,是Qwen2.5的2倍,覆盖119种语言。通义通过多源数据构建了强大的数据集:

1. 网络数据+PDF文档提取(Qwen2.5-VL处理)

2. 专家模型合成数学/代码数据(Qwen2.5-Math/Coder生成教材/问答/代码)

第二重,阶段训练。预训练过程分为三个阶段:

1. S1基础训练:30万亿token(上下文长度为4K token),建立基础能力

2. S2知识强化:5万亿token,提升STEM/编程/推理数据占比

3. S3长文本适应:32K token上下文训练,优化长文本处理

第三重,性能突破。

  • Dense模型:小参数量对标 Qwen2.5(如1.7B≈3B),STEM/编程/推理能力反超 Qwen2.5

  • MoE模型:使用10%激活参数达到Qwen2.5 Dense水平,训练推理成本大幅降低

后训练方面,通义实施了一个四阶段的训练流程:

1. 长思维链冷启动:涵盖数学、代码、逻辑推理和 STEM 问题等多种任务和领域,配备基本推理能力

2. 长思维链强化学习:大规模强化学习,基于规则的奖励增强模型的探索和钻研能力

3. 思维模式融合:整合非思考模式,确保推理和快速响应能力无缝结合

4. 通用强化学习:应用强化学习于指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域,增强模型的通用能力并纠正不良行为

3

Qwen3使用演示

首先来看 Hugging Face transformers 中使用 Qwen3-30B-A3B 的标准示例:

要禁用思考模式,只需对参数 enable_thinking 进行如下修改:

可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4来创建一个与 OpenAI API 兼容的 API endpoint:

若要禁用思考模式,可以通过移除参数 --reasoning-parser(以及 --enable-reasoning)。

如果用于本地开发,可以通过运行简单的命令 ollama run qwen3:30b-a3b 来使用 ollama 与模型进行交互,也可以使用 LMStudio 或者 llama.cpp 以及 ktransformers 等代码库进行本地开发。

还有一种软切换机制,允许用户在 enable_thinking=True 时动态控制模型的行为,只需在用户提示或系统消息中添加 /think 和 /no_think,就可以逐轮切换模型的思考模式:

Qwen3 在工具调用方面同样表现出色。Qwen-Agent 内部封装了工具调用模板和工具调用解析器,降低代码复杂性:

今年1月份千问发布Qwen2.5-Max,性能比肩DeepSeek V3、GPT-4和Claude-3.5-Sonnet。短短三个月又迎来 Qwen3,阿里在AGI这条路上又完成了一个里程碑。此次的亮点旨在"双模推理"技术——允许用户在深度推理的思考模式与及时响应的非思考模式间自由切换,并提供计算资源动态分配接口,为不同场景需求提供精准算力支持。

未来,通义团队计划从扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等方面提升模型性能,从训练模型的时代,慢慢过渡到训练 Agent 的时代。

参考资料:https://mp.weixin.qq.com/s/OvobsCPW0IwxeSm8pljv-A

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3连败暴击!揪心!陈熠能破桥本魔咒吗?

3连败暴击!揪心!陈熠能破桥本魔咒吗?

卿子书
2026-02-23 11:31:18
林子祥叶倩文越南过年,满头白发超时髦,紧牵无血缘孙女太好磕

林子祥叶倩文越南过年,满头白发超时髦,紧牵无血缘孙女太好磕

一窥究竟
2026-02-23 05:37:45
后续!摔倒被扶反索赔22万大妈认怂撤诉 女孩母亲再发声 事恐没完

后续!摔倒被扶反索赔22万大妈认怂撤诉 女孩母亲再发声 事恐没完

离离言几许
2026-02-22 11:08:04
刚刚,全线大涨!中国资产,爆发!

刚刚,全线大涨!中国资产,爆发!

券商中国
2026-02-23 10:50:07
果然,中国拒绝后,土耳其立马变脸,比亚迪宣布:中国不再吃亏

果然,中国拒绝后,土耳其立马变脸,比亚迪宣布:中国不再吃亏

说故事的阿袭
2026-02-22 23:04:59
谷爱凌太耀眼!金色发带闪耀领奖台,解说员:中国女人天生就很强

谷爱凌太耀眼!金色发带闪耀领奖台,解说员:中国女人天生就很强

奥拜尔
2026-02-22 19:33:26
42岁王濛再破天花板!退役12年,再次让李琰和整个冰坛“沉默”了

42岁王濛再破天花板!退役12年,再次让李琰和整个冰坛“沉默”了

翰飞观事
2026-02-16 11:29:39
42岁小尼新疆家宴曝光!8道菜不见一片绿叶菜太真实!

42岁小尼新疆家宴曝光!8道菜不见一片绿叶菜太真实!

东方不败然多多
2026-02-22 15:32:45
皇马知道吗?皇马国内官方代理发动态,声称赫伊森为辱华道歉!

皇马知道吗?皇马国内官方代理发动态,声称赫伊森为辱华道歉!

氧气是个地铁
2026-02-23 12:04:05
明朝“最懒”的对联:上联和下联一字不差,却成千古绝对流传至今

明朝“最懒”的对联:上联和下联一字不差,却成千古绝对流传至今

铭记历史呀
2026-02-03 16:11:20
炸穿王室遮羞布!安德鲁塌房没完,女王隐秘操作被扒,体面碎一地

炸穿王室遮羞布!安德鲁塌房没完,女王隐秘操作被扒,体面碎一地

匹夫来搞笑
2026-02-22 09:44:09
体制内有以下副业,纪委不会查!

体制内有以下副业,纪委不会查!

微法官
2026-02-23 08:24:43
球员锦标赛:赵心童10:7夺冠,肖国栋直播聊八卦,已欠我两顿饭

球员锦标赛:赵心童10:7夺冠,肖国栋直播聊八卦,已欠我两顿饭

林子说事
2026-02-23 07:43:47
皇马大清洗!弗洛伦蒂诺下死令,这位球员谁要谁领走

皇马大清洗!弗洛伦蒂诺下死令,这位球员谁要谁领走

奶盖熊本熊
2026-02-23 03:52:11
布朗:詹姆斯在我第一场首发过后,就和我说我能成为全明星

布朗:詹姆斯在我第一场首发过后,就和我说我能成为全明星

懂球帝
2026-02-23 12:15:06
外国人涌入中国后破防了!哭着想留下,我们习惯的日常竟是奢侈品

外国人涌入中国后破防了!哭着想留下,我们习惯的日常竟是奢侈品

娱乐圈的笔娱君
2026-02-22 10:25:54
1比4惨败!张本美和遇新克星,旧仇未报又添新恨

1比4惨败!张本美和遇新克星,旧仇未报又添新恨

卿子书
2026-02-23 11:18:26
袁世凯虽然争议颇多,却有一个闻名世界的孙子,为中国奋斗了一生

袁世凯虽然争议颇多,却有一个闻名世界的孙子,为中国奋斗了一生

云霄纪史观
2026-01-12 13:22:42
西部暗流!马刺悄然达标40胜20负硬指标,巴恩斯直言已着眼季后赛

西部暗流!马刺悄然达标40胜20负硬指标,巴恩斯直言已着眼季后赛

大眼瞄世界
2026-02-23 10:17:27
她带弟弟进入娱乐圈,没想到如今自己无人问津,弟弟却红透半边天

她带弟弟进入娱乐圈,没想到如今自己无人问津,弟弟却红透半边天

夜里的海风
2026-02-23 07:01:52
2026-02-23 12:27:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7090文章数 20731关注度
往期回顾 全部

科技要闻

腾讯字节,“火拼”漫剧

头条要闻

海湖庄园被击毙男子身份确认:21岁美国人 曾发布画作

头条要闻

海湖庄园被击毙男子身份确认:21岁美国人 曾发布画作

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

结婚五金迈入10万大关 年轻人结婚更难了

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

健康
教育
亲子
手机
军事航空

转头就晕的耳石症,能开车上班吗?

教育要闻

福耀科技大学,揭牌首个境外机构

亲子要闻

自从有了俩双胞胎,我这家庭地位直线下降啊

手机要闻

OPPO Find N6专属礼盒曝光,含磁吸支架、保护壳、卡包等

军事要闻

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

无障碍浏览 进入关怀版