网易首页 > 网易号 > 正文 申请入驻

阿里通义 Qwen3 上线 ,开源大军再添一名猛将

0
分享至

4月29日,通义App与通义网页版全面上线阿里新一代通义千问开源模型 Qwen3。用户可以第一时间在通义App和网页版中的专属智能体“千问大模型”,以及主对话页面,体验到最强开源模型的智能能力。

Qwen3一经发布便登顶全球最强开源模型,包含8款不同尺寸,均为全新的“混合推理模型”,智能水平大幅提升的同时也更省算力。

其中,旗舰模型Qwen3-235B-A22B是一款混合专家(MoE)模型,该模型创下所有国产模型及全球开源模型的性能新高。在代码、数学、通用能力等基准测试中,Qwen3-235B-A22B 展现出多项具有竞争力的数据,直逼 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型。

除此之外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹。而 Qwen3-32B是一款稠密(Dense)模型,部署成本低、稳定高效,是企业部署首选。

通义还开源了两个 MoE 模型的权重:一个是拥有 2350 多亿总参数和 220 多亿激活参数的 Qwen3-235B-A22B,一个是拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型 Qwen3-30B-A3B。此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。

目前, Qwen3-30B-A3B等经过后训练的模型已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。用户可在 Qwen Chat 网页版 (chat.qwen.ai) 和通义 APP 中试用 Qwen3。

深思考,多语言

Qwen3 支持两种思考模式:

深入思考:在这种模式中,模型会逐步推理,经过深思熟虑后给出最终答案,非常适合需要深入思考的复杂问题。

快速思考:在这种模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

用户可以根据具体任务控制模型进行“思考”的程度,复杂的问题可以通过深入思考来解决,而简单的问题则可以通过快速作答。

值得关注的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力,让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

除了多种思考模式,Qwen3 模型还支持多语言功能,涵盖了 119 种语言和方言。

X上网友也纷纷给出好评!

网友表示,Qwen 3 能快能慢,答案精准。对于编码,它运行良好。对于数学,它保持平静。对于语言,它非常真实。

“开源模型已经很久没有这么好了。”

预训练,后训练

Qwen3 预训练实现了三重升级:

第一重,数据增强。预训练语料规模达36万亿token,是Qwen2.5的2倍,覆盖119种语言。通义通过多源数据构建了强大的数据集:

网络数据+PDF文档提取(Qwen2.5-VL处理)

专家模型合成数学/代码数据(Qwen2.5-Math/Coder生成教材/问答/代码)

第二重,阶段训练。预训练过程分为三个阶段:

S1基础训练:30万亿token(上下文长度为4K token),建立基础能力

S2知识强化:5万亿token,提升STEM/编程/推理数据占比

S3长文本适应:32K token上下文训练,优化长文本处理

第三重,性能突破。

Dense模型:小参数量对标 Qwen2.5(如1.7B≈3B),STEM/编程/推理能力反超 Qwen2.5

MoE模型:使用10%激活参数达到Qwen2.5 Dense水平,训练推理成本大幅降低

后训练方面,通义实施了一个四阶段的训练流程:

长思维链冷启动:涵盖数学、代码、逻辑推理和 STEM 问题等多种任务和领域,配备基本推理能力

长思维链强化学习:大规模强化学习,基于规则的奖励增强模型的探索和钻研能力

思维模式融合:整合非思考模式,确保推理和快速响应能力无缝结合

通用强化学习:应用强化学习于指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域,增强模型的通用能力并纠正不良行为

Qwen3使用演示

首先来看 Hugging Face transformers 中使用 Qwen3-30B-A3B 的标准示例:

要禁用思考模式,只需对参数 enable_thinking 进行如下修改:

可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4来创建一个与 OpenAI API 兼容的 API endpoint:

若要禁用思考模式,可以通过移除参数 --reasoning-parser(以及 --enable-reasoning)。

如果用于本地开发,可以通过运行简单的命令 ollama run qwen3:30b-a3b 来使用 ollama 与模型进行交互,也可以使用 LMStudio 或者 llama.cpp 以及 ktransformers 等代码库进行本地开发。

还有一种软切换机制,允许用户在 enable_thinking=True 时动态控制模型的行为,只需在用户提示或系统消息中添加 /think 和 /no_think,就可以逐轮切换模型的思考模式:

Qwen3 在工具调用方面同样表现出色。Qwen-Agent 内部封装了工具调用模板和工具调用解析器,降低代码复杂性:

今年1月份千问发布Qwen2.5-Max,性能比肩DeepSeek V3、GPT-4和Claude-3.5-Sonnet。短短三个月又迎来Qwen3,阿里在AGI这条路上又完成了一个里程碑。此次的亮点旨在"双模推理"技术——允许用户在深度推理的思考模式与及时响应的非思考模式间自由切换,并提供计算资源动态分配接口,为不同场景需求提供精准算力支持。

未来,通义团队计划从扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等方面提升模型性能,从训练模型的时代,慢慢过渡到训练 Agent 的时代。

参考资料:https://mp.weixin.qq.com/s/OvobsCPW0IwxeSm8pljv-A

雷峰网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金靴+1!姆巴佩11场15球力压凯恩 获得本赛季欧冠金靴

金靴+1!姆巴佩11场15球力压凯恩 获得本赛季欧冠金靴

新英体育
2026-05-31 12:34:55
法网女单彻底乱了:随着卫冕冠军爆大冷1-2,世界前十已有5将出局

法网女单彻底乱了:随着卫冕冠军爆大冷1-2,世界前十已有5将出局

侧身凌空斩
2026-05-31 02:25:54
原来真有“印度神油“!涂抹15秒即刻起效,ED凝胶已获FDA认证

原来真有“印度神油“!涂抹15秒即刻起效,ED凝胶已获FDA认证

思思夜话
2026-05-31 12:32:49
广州楼市开始离谱了!天河珠江新城板块房价从12.5万变成7.9万

广州楼市开始离谱了!天河珠江新城板块房价从12.5万变成7.9万

林子说事
2026-05-31 01:00:10
重磅大招!国家正式官宣:解绑户籍,以后住哪,哪里就给你办事儿

重磅大招!国家正式官宣:解绑户籍,以后住哪,哪里就给你办事儿

专业聊房君
2026-05-31 09:38:27
中国终于出手反制,空客 20 架飞机被扣,欧洲航空圈彻底慌了

中国终于出手反制,空客 20 架飞机被扣,欧洲航空圈彻底慌了

安安说
2026-05-29 10:57:26
晴天霹雳!曼联王牌彻底凉了!红魔 6900 万砸巴西天才

晴天霹雳!曼联王牌彻底凉了!红魔 6900 万砸巴西天才

澜归序
2026-05-31 01:18:55
某国16名潜艇兵跑步时戴智能手表,泄露潜艇巡逻计划;央视披露:健身APP收集全球用户运动信息,情报人员推断出目标军事基地位置等信息

某国16名潜艇兵跑步时戴智能手表,泄露潜艇巡逻计划;央视披露:健身APP收集全球用户运动信息,情报人员推断出目标军事基地位置等信息

极目新闻
2026-05-31 09:35:41
马云预言又应验!不出意外,2026年起,中国房地产或迎来3大转变

马云预言又应验!不出意外,2026年起,中国房地产或迎来3大转变

平说财经
2026-05-31 12:03:57
1982年,冯玉祥次子请求回国定居,邓小平摇头:祖国需要你帮帮忙

1982年,冯玉祥次子请求回国定居,邓小平摇头:祖国需要你帮帮忙

历史龙元阁
2026-05-31 13:00:13
邮报:门迪现月薪1万英镑,在波兰低调生活

邮报:门迪现月薪1万英镑,在波兰低调生活

懂球帝
2026-05-30 18:44:23
马刺111-103淘汰雷霆,文班泪洒现场,亚历山大承认马刺发挥更好

马刺111-103淘汰雷霆,文班泪洒现场,亚历山大承认马刺发挥更好

薇说体育
2026-05-31 14:23:21
印度航空波音飞行员起飞时认错跑道灯光 客机和跑道双双被毁

印度航空波音飞行员起飞时认错跑道灯光 客机和跑道双双被毁

快科技
2026-05-31 10:47:07
女生在性方面真正在意的是什么?

女生在性方面真正在意的是什么?

宇宙时空
2026-05-30 12:50:12
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
追了8天终于锁定!日舰抵近辽宁舰侦察,看清阵容后火速撤退

追了8天终于锁定!日舰抵近辽宁舰侦察,看清阵容后火速撤退

混沌录
2026-05-31 03:25:31
47岁的秦海璐:每月给丧子丧夫的婆婆生活费,以后我就是您亲女儿

47岁的秦海璐:每月给丧子丧夫的婆婆生活费,以后我就是您亲女儿

揽星河的笔记
2026-03-13 18:08:50
攻不了,也守不住!中国空军在西藏上空,被印度空军足足欺负40年

攻不了,也守不住!中国空军在西藏上空,被印度空军足足欺负40年

小杨侃事
2026-05-30 22:08:46
乌克兰名将:有人想让我闭嘴!我父亲男友都在前线 我也可能被杀

乌克兰名将:有人想让我闭嘴!我父亲男友都在前线 我也可能被杀

念洲
2026-05-31 12:00:41
李蕙敏被曝与英国丈夫婚变,已删光夫妻合照,与同性密友举止亲密

李蕙敏被曝与英国丈夫婚变,已删光夫妻合照,与同性密友举止亲密

树娃
2026-05-31 09:42:24
2026-05-31 16:27:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69525文章数 656137关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

美国严厉警告后 德国仍上赶着:将扩大"印太"军事参与

头条要闻

美国严厉警告后 德国仍上赶着:将扩大"印太"军事参与

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

贾玲最新动作!侯明昊给虞书欣抬轿!

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

教育
艺术
亲子
房产
公开课

教育要闻

2025高考数学第一题,算平均数?

艺术要闻

Luis Alvarez Roure | 美国现实主义画家

亲子要闻

老师胶枪烫幼儿“社会性死亡”!正脸被扒无遮挡,过往曝光是惯犯

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版