网易首页 > 网易号 > 正文 申请入驻

阿里通义 Qwen3 上线 ,开源大军再添一名猛将

0
分享至

Qwen这波,能处。

作者丨洪雨欣

编辑丨陈彩娴

4月29日,通义App与通义网页版全面上线阿里新一代通义千问开源模型 Qwen3。用户可以第一时间在通义 App 和网页版中的专属智能体 “千问大模型”,以及主对话页面,体验到最强开源模型的智能能力。

Qwen3 一经发布便登顶全球最强开源模型,包含 8 款不同尺寸,均为全新的“混合推理模型”,智能水平大幅提升的同时也更省算力。

其中,旗舰模型 Qwen3-235B-A22B 是一款混合专家(MoE)模型,该模型创下所有国产模型及全球开源模型的性能新高。在代码、数学、通用能力等基准测试中,Qwen3-235B-A22B 展现出多项具有竞争力的数据,直逼 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型。

除此之外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹。而 Qwen3-32B是一款稠密(Dense)模型,部署成本低、稳定高效,是企业部署首选。

通义还开源了两个 MoE 模型的权重:一个是拥有 2350 多亿总参数和 220 多亿激活参数的 Qwen3-235B-A22B,一个是拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型 Qwen3-30B-A3B。此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。

目前, Qwen3-30B-A3B等经过后训练的模型已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。用户可在 Qwen Chat 网页版 (chat.qwen.ai) 和通义 APP 中试用 Qwen3。

1

深思考,多语言

Qwen3 支持两种思考模式:

  • 深入思考:在这种模式中,模型会逐步推理,经过深思熟虑后给出最终答案,非常适合需要深入思考的复杂问题。

  • 快速思考:在这种模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

用户可以根据具体任务控制模型进行“思考”的程度,复杂的问题可以通过深入思考来解决,而简单的问题则可以通过快速作答。

值得关注的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力,让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

除了多种思考模式,Qwen3 模型还支持多语言功能,涵盖了 119 种语言和方言。

X上网友也纷纷给出好评!

网友表示,Qwen 3 能快能慢,答案精准。对于编码,它运行良好。对于数学,它保持平静。对于语言,它非常真实。

“开源模型已经很久没有这么好了。”

2

预训练,后训练

Qwen3 预训练实现了三重升级:

第一重,数据增强。预训练语料规模达36万亿token,是Qwen2.5的2倍,覆盖119种语言。通义通过多源数据构建了强大的数据集:

1. 网络数据+PDF文档提取(Qwen2.5-VL处理)

2. 专家模型合成数学/代码数据(Qwen2.5-Math/Coder生成教材/问答/代码)

第二重,阶段训练。预训练过程分为三个阶段:

1. S1基础训练:30万亿token(上下文长度为4K token),建立基础能力

2. S2知识强化:5万亿token,提升STEM/编程/推理数据占比

3. S3长文本适应:32K token上下文训练,优化长文本处理

第三重,性能突破。

  • Dense模型:小参数量对标 Qwen2.5(如1.7B≈3B),STEM/编程/推理能力反超 Qwen2.5

  • MoE模型:使用10%激活参数达到Qwen2.5 Dense水平,训练推理成本大幅降低

后训练方面,通义实施了一个四阶段的训练流程:

1. 长思维链冷启动:涵盖数学、代码、逻辑推理和 STEM 问题等多种任务和领域,配备基本推理能力

2. 长思维链强化学习:大规模强化学习,基于规则的奖励增强模型的探索和钻研能力

3. 思维模式融合:整合非思考模式,确保推理和快速响应能力无缝结合

4. 通用强化学习:应用强化学习于指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域,增强模型的通用能力并纠正不良行为

3

Qwen3使用演示

首先来看 Hugging Face transformers 中使用 Qwen3-30B-A3B 的标准示例:

要禁用思考模式,只需对参数 enable_thinking 进行如下修改:

可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4来创建一个与 OpenAI API 兼容的 API endpoint:

若要禁用思考模式,可以通过移除参数 --reasoning-parser(以及 --enable-reasoning)。

如果用于本地开发,可以通过运行简单的命令 ollama run qwen3:30b-a3b 来使用 ollama 与模型进行交互,也可以使用 LMStudio 或者 llama.cpp 以及 ktransformers 等代码库进行本地开发。

还有一种软切换机制,允许用户在 enable_thinking=True 时动态控制模型的行为,只需在用户提示或系统消息中添加 /think 和 /no_think,就可以逐轮切换模型的思考模式:

Qwen3 在工具调用方面同样表现出色。Qwen-Agent 内部封装了工具调用模板和工具调用解析器,降低代码复杂性:

今年1月份千问发布Qwen2.5-Max,性能比肩DeepSeek V3、GPT-4和Claude-3.5-Sonnet。短短三个月又迎来 Qwen3,阿里在AGI这条路上又完成了一个里程碑。此次的亮点旨在"双模推理"技术——允许用户在深度推理的思考模式与及时响应的非思考模式间自由切换,并提供计算资源动态分配接口,为不同场景需求提供精准算力支持。

未来,通义团队计划从扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等方面提升模型性能,从训练模型的时代,慢慢过渡到训练 Agent 的时代。

参考资料:https://mp.weixin.qq.com/s/OvobsCPW0IwxeSm8pljv-A

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央定调,公务员退休3选1,提前退、正常退和工龄30年退,怎么选

中央定调,公务员退休3选1,提前退、正常退和工龄30年退,怎么选

寻墨阁
2025-09-30 11:10:12
瑞士政府冻结马杜罗及其亲信在瑞士的资产

瑞士政府冻结马杜罗及其亲信在瑞士的资产

财联社
2026-01-05 19:27:07
记者:李圣龙要去海港B队,每个U21队都有4个超龄名额

记者:李圣龙要去海港B队,每个U21队都有4个超龄名额

懂球帝
2026-01-06 21:37:09
年关:重逢时间的褶皱

年关:重逢时间的褶皱

疾跑的小蜗牛
2026-01-06 22:50:19
广东3消息!朱芳雨正式上诉,徐杰脚踝伤势加重,奎因官方喜讯

广东3消息!朱芳雨正式上诉,徐杰脚踝伤势加重,奎因官方喜讯

多特体育说
2026-01-06 22:43:17
国际奥委会如今怕是后悔莫及了,当年对北京申奥时的种种苛刻要求

国际奥委会如今怕是后悔莫及了,当年对北京申奥时的种种苛刻要求

百态人间
2026-01-03 16:50:30
曝山东泰山敲定外籍中卫!媒体人质疑:别是比洛佩斯还大的笑话

曝山东泰山敲定外籍中卫!媒体人质疑:别是比洛佩斯还大的笑话

奥拜尔
2026-01-06 19:57:25
蓝军红魔主帅下课两重天 马雷斯卡放弃1400万镑 阿莫林拿1200万欧

蓝军红魔主帅下课两重天 马雷斯卡放弃1400万镑 阿莫林拿1200万欧

智道足球
2026-01-06 08:42:17
美菲已用实际行动证明:一旦开战,中国航母根本无法通过巴士海峡

美菲已用实际行动证明:一旦开战,中国航母根本无法通过巴士海峡

超喜欢我
2025-12-10 08:16:21
中日破裂,这是53年来对日最强硬的外交表态!

中日破裂,这是53年来对日最强硬的外交表态!

见闻致
2025-11-15 21:21:56
笑不活!为什么男生秋裤前面有开口,内裤却没有?评论区好热闹

笑不活!为什么男生秋裤前面有开口,内裤却没有?评论区好热闹

有趣的火烈鸟
2025-12-19 12:46:11
福建20岁女网红流落柬埔寨街头,毒品检测呈阳性;其父亲称女儿近期有望回家,手续办完自己过去接

福建20岁女网红流落柬埔寨街头,毒品检测呈阳性;其父亲称女儿近期有望回家,手续办完自己过去接

大风新闻
2026-01-06 14:08:04
刘亦菲在家玩自拍!不料被镜子“出卖”了,网友直呼:好女人啊!

刘亦菲在家玩自拍!不料被镜子“出卖”了,网友直呼:好女人啊!

小欣欣聊体育
2025-12-18 20:44:37
医生建议:过了70的老人,宁可牙齿缺失,也别在这几种状态去镶牙

医生建议:过了70的老人,宁可牙齿缺失,也别在这几种状态去镶牙

岐黄传人孙大夫
2026-01-04 09:54:44
居然黄了!铁西万象汇也太“卷”了吧?

居然黄了!铁西万象汇也太“卷”了吧?

沈阳公交网小林
2026-01-07 00:10:14
长久的男女关系,大多做到了“三个字”

长久的男女关系,大多做到了“三个字”

叶飞飞情感屋
2026-01-05 17:51:59
中产家庭一次冲动购房,几年后生活返贫,存款清零只剩房贷

中产家庭一次冲动购房,几年后生活返贫,存款清零只剩房贷

晓艾故事汇
2025-11-05 17:19:17
中方要美放人不到24小时,特朗普不许中国反抗,否则对华加关税?

中方要美放人不到24小时,特朗普不许中国反抗,否则对华加关税?

蔡蔡说史
2026-01-05 19:47:33
日媒高度盛赞中国:二战后难见如此世界主导者,中国正在改变世界

日媒高度盛赞中国:二战后难见如此世界主导者,中国正在改变世界

慕名而来只为你
2026-01-06 21:53:28
医保新规落地!职工居民医保统一执行,电子处方买药不用跑医院

医保新规落地!职工居民医保统一执行,电子处方买药不用跑医院

老特有话说
2026-01-07 00:05:03
2026-01-07 05:03:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7030文章数 20720关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

俄罗斯发表关于委内瑞拉局势的声明

头条要闻

俄罗斯发表关于委内瑞拉局势的声明

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

2026年央视春晚彩排照曝光!

财经要闻

50万亿存款"洪流"将至 四大去向引关注

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

旅游
房产
艺术
时尚
军事航空

旅游要闻

定制宫灯扮靓景山

房产要闻

爆发!三亚开年超千亩城更计划曝光,香港城砸下100亿!

艺术要闻

2026马年赵孟頫高清集字春联大放送,收藏备用!

冬天,“大衣”是中年女人的穿搭刚需,这样搭配时髦提气质

军事要闻

美称对“占领”委内瑞拉保留选择权

无障碍浏览 进入关怀版