网易首页 > 网易号 > 正文 申请入驻

阿里通义 Qwen3 上线 ,开源大军再添一名猛将

0
分享至

Qwen这波,能处。

作者丨洪雨欣

编辑丨陈彩娴

4月29日,通义App与通义网页版全面上线阿里新一代通义千问开源模型 Qwen3。用户可以第一时间在通义 App 和网页版中的专属智能体 “千问大模型”,以及主对话页面,体验到最强开源模型的智能能力。

Qwen3 一经发布便登顶全球最强开源模型,包含 8 款不同尺寸,均为全新的“混合推理模型”,智能水平大幅提升的同时也更省算力。

其中,旗舰模型 Qwen3-235B-A22B 是一款混合专家(MoE)模型,该模型创下所有国产模型及全球开源模型的性能新高。在代码、数学、通用能力等基准测试中,Qwen3-235B-A22B 展现出多项具有竞争力的数据,直逼 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型。

除此之外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹。而 Qwen3-32B是一款稠密(Dense)模型,部署成本低、稳定高效,是企业部署首选。

通义还开源了两个 MoE 模型的权重:一个是拥有 2350 多亿总参数和 220 多亿激活参数的 Qwen3-235B-A22B,一个是拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型 Qwen3-30B-A3B。此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。

目前, Qwen3-30B-A3B等经过后训练的模型已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。用户可在 Qwen Chat 网页版 (chat.qwen.ai) 和通义 APP 中试用 Qwen3。

1

深思考,多语言

Qwen3 支持两种思考模式:

  • 深入思考:在这种模式中,模型会逐步推理,经过深思熟虑后给出最终答案,非常适合需要深入思考的复杂问题。

  • 快速思考:在这种模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

用户可以根据具体任务控制模型进行“思考”的程度,复杂的问题可以通过深入思考来解决,而简单的问题则可以通过快速作答。

值得关注的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力,让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

除了多种思考模式,Qwen3 模型还支持多语言功能,涵盖了 119 种语言和方言。

X上网友也纷纷给出好评!

网友表示,Qwen 3 能快能慢,答案精准。对于编码,它运行良好。对于数学,它保持平静。对于语言,它非常真实。

“开源模型已经很久没有这么好了。”

2

预训练,后训练

Qwen3 预训练实现了三重升级:

第一重,数据增强。预训练语料规模达36万亿token,是Qwen2.5的2倍,覆盖119种语言。通义通过多源数据构建了强大的数据集:

1. 网络数据+PDF文档提取(Qwen2.5-VL处理)

2. 专家模型合成数学/代码数据(Qwen2.5-Math/Coder生成教材/问答/代码)

第二重,阶段训练。预训练过程分为三个阶段:

1. S1基础训练:30万亿token(上下文长度为4K token),建立基础能力

2. S2知识强化:5万亿token,提升STEM/编程/推理数据占比

3. S3长文本适应:32K token上下文训练,优化长文本处理

第三重,性能突破。

  • Dense模型:小参数量对标 Qwen2.5(如1.7B≈3B),STEM/编程/推理能力反超 Qwen2.5

  • MoE模型:使用10%激活参数达到Qwen2.5 Dense水平,训练推理成本大幅降低

后训练方面,通义实施了一个四阶段的训练流程:

1. 长思维链冷启动:涵盖数学、代码、逻辑推理和 STEM 问题等多种任务和领域,配备基本推理能力

2. 长思维链强化学习:大规模强化学习,基于规则的奖励增强模型的探索和钻研能力

3. 思维模式融合:整合非思考模式,确保推理和快速响应能力无缝结合

4. 通用强化学习:应用强化学习于指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域,增强模型的通用能力并纠正不良行为

3

Qwen3使用演示

首先来看 Hugging Face transformers 中使用 Qwen3-30B-A3B 的标准示例:

要禁用思考模式,只需对参数 enable_thinking 进行如下修改:

可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4来创建一个与 OpenAI API 兼容的 API endpoint:

若要禁用思考模式,可以通过移除参数 --reasoning-parser(以及 --enable-reasoning)。

如果用于本地开发,可以通过运行简单的命令 ollama run qwen3:30b-a3b 来使用 ollama 与模型进行交互,也可以使用 LMStudio 或者 llama.cpp 以及 ktransformers 等代码库进行本地开发。

还有一种软切换机制,允许用户在 enable_thinking=True 时动态控制模型的行为,只需在用户提示或系统消息中添加 /think 和 /no_think,就可以逐轮切换模型的思考模式:

Qwen3 在工具调用方面同样表现出色。Qwen-Agent 内部封装了工具调用模板和工具调用解析器,降低代码复杂性:

今年1月份千问发布Qwen2.5-Max,性能比肩DeepSeek V3、GPT-4和Claude-3.5-Sonnet。短短三个月又迎来 Qwen3,阿里在AGI这条路上又完成了一个里程碑。此次的亮点旨在"双模推理"技术——允许用户在深度推理的思考模式与及时响应的非思考模式间自由切换,并提供计算资源动态分配接口,为不同场景需求提供精准算力支持。

未来,通义团队计划从扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等方面提升模型性能,从训练模型的时代,慢慢过渡到训练 Agent 的时代。

参考资料:https://mp.weixin.qq.com/s/OvobsCPW0IwxeSm8pljv-A

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比赛还未开打勇士就投降!SGA三节30+7早早打卡 科尔战术引质疑

比赛还未开打勇士就投降!SGA三节30+7早早打卡 科尔战术引质疑

颜小白的篮球梦
2026-01-03 13:17:53
封关后第一个节假日,海南多个免税城游客爆满:黄金店门口排起长队,买苹果手机能省近千元

封关后第一个节假日,海南多个免税城游客爆满:黄金店门口排起长队,买苹果手机能省近千元

极目新闻
2026-01-02 16:15:48
雷迪克发布会公开回应DNP艾顿!愿意给表现更好的球员上场机会!

雷迪克发布会公开回应DNP艾顿!愿意给表现更好的球员上场机会!

篮球资讯达人
2026-01-03 14:51:01
元旦档对比太惨烈,高分电影目前仅一部,观众为何不买账?

元旦档对比太惨烈,高分电影目前仅一部,观众为何不买账?

娱乐圈笔娱君
2026-01-03 11:50:21
官媒点名张本智和“拜鬼”,全家被踢出族谱,其妹粉丝见面会被撤

官媒点名张本智和“拜鬼”,全家被踢出族谱,其妹粉丝见面会被撤

听心堂
2026-01-02 21:42:32
李金铭去父留子!张凌赫差点当电二代老公!

李金铭去父留子!张凌赫差点当电二代老公!

八卦疯叔
2026-01-03 11:59:50
1975年,叶选宁为处于劳改中的母亲曾宪植奔走求情,毛主席收到相关情况后批示:把她接回北京

1975年,叶选宁为处于劳改中的母亲曾宪植奔走求情,毛主席收到相关情况后批示:把她接回北京

史海残云
2025-12-25 12:05:16
当神权被撕开:伊朗权威震荡与抗议浪潮

当神权被撕开:伊朗权威震荡与抗议浪潮

火星人的想法
2025-12-31 22:58:17
山姆被指多款商品货源与小象趋同,多方回应!

山姆被指多款商品货源与小象趋同,多方回应!

北京商报
2026-01-03 12:41:19
前AOA女团成员自杀获救后大爆被欺凌细节,遭强奸及围殴到失禁。

前AOA女团成员自杀获救后大爆被欺凌细节,遭强奸及围殴到失禁。

环球趣闻分享
2026-01-03 13:40:06
1983年,他以正军职按正兵团离休,第二年准备改大军区正职没等上

1983年,他以正军职按正兵团离休,第二年准备改大军区正职没等上

芊芊子吟
2026-01-03 13:35:06
广东一所民办转公办的大学!

广东一所民办转公办的大学!

马蹄烫嘴说美食
2026-01-03 01:33:46
岁辰:一首写给自己的无声音符

岁辰:一首写给自己的无声音符

疾跑的小蜗牛
2025-12-28 21:43:36
可控核聚变:上海电气、中国核建、联创光电、国机重装,谁潜力大

可控核聚变:上海电气、中国核建、联创光电、国机重装,谁潜力大

粤语音乐喷泉
2026-01-03 11:15:38
理想的“冰箱彩电大沙发”,败给了现实

理想的“冰箱彩电大沙发”,败给了现实

金错刀
2026-01-03 09:10:25
永州女老板救兵来了!此前承诺送车骑虎难下,当地企业家伸出援手

永州女老板救兵来了!此前承诺送车骑虎难下,当地企业家伸出援手

火山詩话
2026-01-03 07:47:39
2000 人“围攻”5 辆空车,“师傅别取消”道尽成年人的卑微

2000 人“围攻”5 辆空车,“师傅别取消”道尽成年人的卑微

娱乐帝皇丸
2026-01-02 14:42:42
一位瘫痪老人的忠告:手里有钱,宁愿高价请保姆,也不要去养老院

一位瘫痪老人的忠告:手里有钱,宁愿高价请保姆,也不要去养老院

人间百态大全
2026-01-03 06:40:03
98年返乡途中,我把软卧让给抱孩子的大姐,她临下车时递来一个信封

98年返乡途中,我把软卧让给抱孩子的大姐,她临下车时递来一个信封

城事录主
2026-01-01 05:00:03
反转!于汉超、周挺进入国足原因曝光,难怪郑智会离任

反转!于汉超、周挺进入国足原因曝光,难怪郑智会离任

何老师呀
2026-01-02 16:25:24
2026-01-03 15:20:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7029文章数 20720关注度
往期回顾 全部

科技要闻

比亚迪销冠!特斯拉2025年交付量跌逾8%

头条要闻

蔡正元被判刑3年半 柯文哲致电哽咽:都是因为我

头条要闻

蔡正元被判刑3年半 柯文哲致电哽咽:都是因为我

体育要闻

快船似乎又行了

娱乐要闻

“国服嫂子”司晓迪,曝与多位男星私照

财经要闻

人工智能四问:投资泡沫出现了吗?

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

时尚
艺术
亲子
本地
军事航空

睡衣穿对了,连躺平都带着高级感

艺术要闻

15幅 苏联时期静物与花卉油画

亲子要闻

小孩哥:“等我拳头硬起来第一个打你”

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

军事要闻

特朗普称将干涉伊朗骚乱事件 伊朗政府发声明强烈谴责

无障碍浏览 进入关怀版