网易首页 > 网易号 > 正文 申请入驻

阿里通义 Qwen3 上线 ,开源大军再添一名猛将

0
分享至

Qwen这波,能处。

作者丨洪雨欣

编辑丨陈彩娴

4月29日,通义App与通义网页版全面上线阿里新一代通义千问开源模型 Qwen3。用户可以第一时间在通义 App 和网页版中的专属智能体 “千问大模型”,以及主对话页面,体验到最强开源模型的智能能力。

Qwen3 一经发布便登顶全球最强开源模型,包含 8 款不同尺寸,均为全新的“混合推理模型”,智能水平大幅提升的同时也更省算力。

其中,旗舰模型 Qwen3-235B-A22B 是一款混合专家(MoE)模型,该模型创下所有国产模型及全球开源模型的性能新高。在代码、数学、通用能力等基准测试中,Qwen3-235B-A22B 展现出多项具有竞争力的数据,直逼 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型。

除此之外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹。而 Qwen3-32B是一款稠密(Dense)模型,部署成本低、稳定高效,是企业部署首选。

通义还开源了两个 MoE 模型的权重:一个是拥有 2350 多亿总参数和 220 多亿激活参数的 Qwen3-235B-A22B,一个是拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型 Qwen3-30B-A3B。此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。

目前, Qwen3-30B-A3B等经过后训练的模型已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。用户可在 Qwen Chat 网页版 (chat.qwen.ai) 和通义 APP 中试用 Qwen3。

1

深思考,多语言

Qwen3 支持两种思考模式:

  • 深入思考:在这种模式中,模型会逐步推理,经过深思熟虑后给出最终答案,非常适合需要深入思考的复杂问题。

  • 快速思考:在这种模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

用户可以根据具体任务控制模型进行“思考”的程度,复杂的问题可以通过深入思考来解决,而简单的问题则可以通过快速作答。

值得关注的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力,让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

除了多种思考模式,Qwen3 模型还支持多语言功能,涵盖了 119 种语言和方言。

X上网友也纷纷给出好评!

网友表示,Qwen 3 能快能慢,答案精准。对于编码,它运行良好。对于数学,它保持平静。对于语言,它非常真实。

“开源模型已经很久没有这么好了。”

2

预训练,后训练

Qwen3 预训练实现了三重升级:

第一重,数据增强。预训练语料规模达36万亿token,是Qwen2.5的2倍,覆盖119种语言。通义通过多源数据构建了强大的数据集:

1. 网络数据+PDF文档提取(Qwen2.5-VL处理)

2. 专家模型合成数学/代码数据(Qwen2.5-Math/Coder生成教材/问答/代码)

第二重,阶段训练。预训练过程分为三个阶段:

1. S1基础训练:30万亿token(上下文长度为4K token),建立基础能力

2. S2知识强化:5万亿token,提升STEM/编程/推理数据占比

3. S3长文本适应:32K token上下文训练,优化长文本处理

第三重,性能突破。

  • Dense模型:小参数量对标 Qwen2.5(如1.7B≈3B),STEM/编程/推理能力反超 Qwen2.5

  • MoE模型:使用10%激活参数达到Qwen2.5 Dense水平,训练推理成本大幅降低

后训练方面,通义实施了一个四阶段的训练流程:

1. 长思维链冷启动:涵盖数学、代码、逻辑推理和 STEM 问题等多种任务和领域,配备基本推理能力

2. 长思维链强化学习:大规模强化学习,基于规则的奖励增强模型的探索和钻研能力

3. 思维模式融合:整合非思考模式,确保推理和快速响应能力无缝结合

4. 通用强化学习:应用强化学习于指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域,增强模型的通用能力并纠正不良行为

3

Qwen3使用演示

首先来看 Hugging Face transformers 中使用 Qwen3-30B-A3B 的标准示例:

要禁用思考模式,只需对参数 enable_thinking 进行如下修改:

可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4来创建一个与 OpenAI API 兼容的 API endpoint:

若要禁用思考模式,可以通过移除参数 --reasoning-parser(以及 --enable-reasoning)。

如果用于本地开发,可以通过运行简单的命令 ollama run qwen3:30b-a3b 来使用 ollama 与模型进行交互,也可以使用 LMStudio 或者 llama.cpp 以及 ktransformers 等代码库进行本地开发。

还有一种软切换机制,允许用户在 enable_thinking=True 时动态控制模型的行为,只需在用户提示或系统消息中添加 /think 和 /no_think,就可以逐轮切换模型的思考模式:

Qwen3 在工具调用方面同样表现出色。Qwen-Agent 内部封装了工具调用模板和工具调用解析器,降低代码复杂性:

今年1月份千问发布Qwen2.5-Max,性能比肩DeepSeek V3、GPT-4和Claude-3.5-Sonnet。短短三个月又迎来 Qwen3,阿里在AGI这条路上又完成了一个里程碑。此次的亮点旨在"双模推理"技术——允许用户在深度推理的思考模式与及时响应的非思考模式间自由切换,并提供计算资源动态分配接口,为不同场景需求提供精准算力支持。

未来,通义团队计划从扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等方面提升模型性能,从训练模型的时代,慢慢过渡到训练 Agent 的时代。

参考资料:https://mp.weixin.qq.com/s/OvobsCPW0IwxeSm8pljv-A

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
20GB+1TB!华为官宣:6月1日,即将开售

20GB+1TB!华为官宣:6月1日,即将开售

科技堡垒
2026-05-30 12:15:49
48岁男子每天坚持不吃晚饭,半年后体检,血糖和体重情况出乎意料

48岁男子每天坚持不吃晚饭,半年后体检,血糖和体重情况出乎意料

医学原创故事会
2026-05-24 23:59:03
为什么女性会有比男性更高的性快感,从进化论的角度分析?

为什么女性会有比男性更高的性快感,从进化论的角度分析?

宇宙时空
2026-05-29 18:00:14
云南,一方丈不幸身亡,整理遗物银行卡有528万存款,方丈女儿提出继承遗产,寺庙:出家人,这笔钱属于寺庙!

云南,一方丈不幸身亡,整理遗物银行卡有528万存款,方丈女儿提出继承遗产,寺庙:出家人,这笔钱属于寺庙!

二胡的岁月如歌
2026-05-30 18:01:02
Lisa世界杯歌曲因低俗遭抵制,因歌词物化女性,导致粉丝都不敢洗

Lisa世界杯歌曲因低俗遭抵制,因歌词物化女性,导致粉丝都不敢洗

芊手若
2026-05-29 07:02:38
研究发现:吃一根香蕉,就等于给血脂添一次堵,真的假的

研究发现:吃一根香蕉,就等于给血脂添一次堵,真的假的

健康之光
2026-05-30 17:59:58
又输了4个?山东泰山跟成都蓉城的对决一触即发,赛前山东泰山全是坏消息

又输了4个?山东泰山跟成都蓉城的对决一触即发,赛前山东泰山全是坏消息

林子说事
2026-05-30 14:58:20
A股:周末,大消息传来!不出意外的话,下周将要迎来新的变化

A股:周末,大消息传来!不出意外的话,下周将要迎来新的变化

云鹏叙事
2026-05-30 18:30:17
昨晚跑滴滴拉了两个女孩,上车后满车都是臭味,我转头一看傻眼了

昨晚跑滴滴拉了两个女孩,上车后满车都是臭味,我转头一看傻眼了

千秋文化
2026-05-27 20:04:55
耿同学又爆新料!多所985名校顶刊论文集体沦陷

耿同学又爆新料!多所985名校顶刊论文集体沦陷

网易新闻出品
2026-05-29 19:29:43
连续5个涨停板!股民:烂板出妖股!

连续5个涨停板!股民:烂板出妖股!

数据挖掘分析
2026-05-30 15:00:36
回顾:孙小果被注射死刑后,以前女同学透露其习惯,令人感到害怕

回顾:孙小果被注射死刑后,以前女同学透露其习惯,令人感到害怕

飞云如水
2025-01-11 15:15:34
中际旭创,严正声明

中际旭创,严正声明

第一财经资讯
2026-05-30 18:37:37
邵佳一狂喜 短短20天2大顶级外援公开示好国足 4年后或杀进世界杯

邵佳一狂喜 短短20天2大顶级外援公开示好国足 4年后或杀进世界杯

风过乡
2026-05-30 08:58:06
2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

起喜电影
2026-05-23 11:24:35
孙子外孙女双双考上大学,我一人奖励10000,儿媳女儿却吵了起来

孙子外孙女双双考上大学,我一人奖励10000,儿媳女儿却吵了起来

人间百态大全
2026-05-30 06:40:03
郭士强10后卫2中锋,打造全后卫篮球战术

郭士强10后卫2中锋,打造全后卫篮球战术

老贃是个手艺人
2026-05-29 17:11:23
银行存款大局已定?明后年,存款20万以上的家庭,守住4条底线

银行存款大局已定?明后年,存款20万以上的家庭,守住4条底线

阅微札记
2026-05-30 11:33:38
黄仁勋带老婆逛夜市,相恋46年零绯闻!招牌皮衣全是她买的…

黄仁勋带老婆逛夜市,相恋46年零绯闻!招牌皮衣全是她买的…

商务范
2026-05-29 18:25:55
欧冠决赛前瞻:巴黎对阵阿森纳

欧冠决赛前瞻:巴黎对阵阿森纳

绿茵情报局
2026-05-30 19:47:17
2026-05-30 20:52:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7319文章数 20754关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

伊朗浓缩铀材料将被挖出销毁 特朗普就战事最新表态

头条要闻

伊朗浓缩铀材料将被挖出销毁 特朗普就战事最新表态

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

家居
教育
游戏
时尚
本地

家居要闻

云栖 舒展如流云

教育要闻

名师说高考【历史:立足课本 深耕真题 拓展思维 巧用技法】

索尼又抽风?玩家在PS商店购买游戏疑似被强制回收

2026夏天最新5款发型合集,每一款都超心动!

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版