网易首页 > 网易号 > 正文 申请入驻

阿里Qwen3深夜开源!8款模型、集成MCP,性能超DeepSeek-R1,2小时狂揽16.9k星

0
分享至

阿里通义大模型新成员Qwen3系列终于亮相!

智东西4月29日报道,今日凌晨4点,阿里云正式开源Qwen3系列模型包含2个MoE模型、6个稠密模型。发布2小时,Qwen3模型在GitHub上的star数已超过16.9k

其中旗舰模型Qwen3-235B-A22B,在编程、数学、通用能力等基准评估中的表现优于DeepSeek-R1、OpenAI o1、OpenAI o3-mini、Grok-3和Gemini-2.5-Pro等业界知名模型。

此次全新升级的Qwen3系列有以下5大关键特性:

8种参数大小的稠密与MoE模型:0.6B、1.7B、4B、8B、14B、32B和Qwen3-235B-A22B(2350亿总参数和220亿激活参数)、Qwen3-30B-A3B(300亿总参数和30亿激活参数);

引入混合思考模式:用户可切换“思考模式、“非思考模式”,自己控制思考程度;

推理能力提升:在数学、代码生成和常识逻辑推理方面超越QwQ(在思考模式下)和Qwen2.5 instruct models(在非思考模式下);

支持MCP(模型上下文协议),Agent能力提升:可以在思考和非思考模式下实现大语言模型与外部数据源和工具的集成,并完成复杂任务;

支持119种语言和方言:具备多语言理解、推理、指令跟随和生成能力。

目前,Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台上开源,均遵循Apache 2.0许可证。在部署方面,其博客提到,建议开发者使用SGLang和vLLM等框架,并推荐本地部署的开发者使用Ollama、LMStudio、MLX、llama.cpp等工具。

值得一提的是,Qwen3模型采用了不同的命名方案,后训练模型不再使用“-Instruct”后缀,基础模型的后缀是“-Base”。

体验地址:https://chat.qwen.ai/

博客地址:https://qwenlm.github.io/blog/qwen3/

GitHub地址:https://github.com/QwenLM/Qwen3

Hugging Face地址:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

一、以小搏大!激活参数仅1/10,实现性能反超

6个稠密模型中,0.6B~4B参数规模的模型上下文长度为32K,8B~32B参数规模的模型上下文长度为128K

2个MoE模型的上下文长度均为128K

小型MoE模型Qwen3-30B-A3B,在激活参数是QwQ-32B的1/10的情况下,实现了性能反超。且参数规模更小的Qwen3-4B模型,实现了与Qwen2.5-72B-Instruct的性能相当。

其他基准测试评估结果显示,Qwen3-1.7B/4B/8B/14B/32B-Base的性能分别与Qwen2.5-3B/7B/14B/32B/72B-Base相当

其博客还特别提到,在STEM、编程和推理等领域,Qwen3稠密模型的性能甚至优于参数规模更大的Qwen2.5系列模型。

▲Qwen3系列与Qwen2.5系列基准测试对比

二、引入混合思考模式,支持119种语言、MCP协议

Qwen3系列模型的关键特性包括引入混合思维模式、支持119种语言和方言、集成MCP协议以提升Agent能力。

其中,混合思维模式指的是支持思考和非思考两种模式。

思考模式下,模型会逐步推理,花费时间给出最终答案,这适用于需要深入思考的复杂问题;非思考模式下,模型提供快速、几乎瞬间的响应,适用于对响应速度敏感的问题。

▲思考和非思考模式对比

这使得用户可以根据任务需求控制模型进行的“思考”程度。例如,对于更难的问题可以使用扩展推理来解决,而对于较简单的问题则可以直接回答,无需延迟。

此外,这两种模式的集成还增强了模型实施稳定和高效思考预算控制的能力,这种设计使用户能够配置特定任务的预算,平衡实现成本效率和推理质量。

在多语言方面,Qwen3模型支持119种语言和方言

此外,Qwen3系列模型在编程和Agent能力方面性能提升,集成了MCP协议


三、预训练数据集翻番,模型兼顾逐步推理、快速响应

与Qwen2.5相比,Qwen3的预训练数据集大小翻了两倍。

Qwen2.5在1800亿个token上进行预训练,Qwen3基于大约3600亿个token进行预训练。

为了这一大型数据集,研发人员收集了网络数据、PDF文档数据等,然后使用Qwen2.5-VL从这些文档中提取文本,并使用Qwen2.5提高提取内容的质量。同时,为了增加数学和代码数据量,研发人员使用了Qwen2.5-Math和Qwen2.5-Coder来生成教科书、问答对和代码片段等合成数据。

预训练过程分为三个阶段

在第一阶段,模型在超过3000亿个token上进行了预训练,上下文长度为4K个token。这一阶段为模型提供了基本语言技能和一般知识;在第二阶段,其通过增加STEM、编程和推理任务等知识密集型数据的比例来改进数据集,并让模型在额外的500亿个token上进行预训练;第三阶段,研发人员使用高质量的长上下文数据将上下文长度扩展到32K个token,使得模型可以处理较长的输入。

在后训练阶段,为了开发既能逐步推理又能快速响应的混合模型,研发人员采取了四阶段训练流程:思维链(CoT)冷启动、基于推理的强化学习、思维模式融合、通用强化学习。

第一阶段,其使用多样化的长思维链数据微调模型,涵盖各种任务和领域,如数学、编程、逻辑推理和STEM问题,这个过程旨在使模型具备基本的推理能力。

第二阶段专注于扩大强化学习的计算资源,利用基于规则的奖励来增强模型的探索和利用能力。

第三阶段,通过在长思维链数据和常用指令微调数据组合上微调,将非思考能力整合到思考模型中。这些数据由第二阶段增强的思考模型生成,确保推理能力和快速响应能力的无缝融合。

第四阶段,其将强化学习应用于超过20个通用领域任务,包括指令遵循、格式遵循和Agent能力等任务,以进一步增强模型的一般能力和纠正不良行为。

结语:Agent生态爆发前夜,优化模型架构和训练方法推进智能升级

通过扩大预训练和强化学习的规模,可以看到Qwen3系列模型以更小的参数规模实现了更高的智能水平,其集成的混合思考模式,使得开发者能更灵活控制模型预算。

研发人员还提到,未来其将围绕以下几个维度继续提升模型能力:优化模型架构和训练方法,以实现扩展数据规模、增加模型大小、延长上下文长度、拓宽模态的目标,并通过环境反馈推进长期推理的强化学习。

如今,AI产业正从关注模型训练的时代过渡到一个以训练Agent为中心的时代,未来大模型能力的实际应用价值将逐渐被放大,通义大模型系列也正以此为目标继续推进升级。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
再读《穆斯林的葬礼》,对茅盾文学奖的信任崩塌了!

再读《穆斯林的葬礼》,对茅盾文学奖的信任崩塌了!

难得君
2026-03-06 13:43:16
伊朗一儿童游乐场遭袭已致20死!伊朗数十亿美元或遭冻结!伊外长喊话特朗普:你的速战速决A计划已失败

伊朗一儿童游乐场遭袭已致20死!伊朗数十亿美元或遭冻结!伊外长喊话特朗普:你的速战速决A计划已失败

新民晚报
2026-03-06 20:17:12
美以伊冲突7日:伤亡数千,美军行动每天成本数十亿美元

美以伊冲突7日:伤亡数千,美军行动每天成本数十亿美元

网易新闻出品
2026-03-06 21:29:45
中国造红旗导弹被击毁!

中国造红旗导弹被击毁!

烽火观天下
2026-03-06 20:23:13
伊拉克库尔德第一夫人宣言:我们不是任人驱使的炮灰!

伊拉克库尔德第一夫人宣言:我们不是任人驱使的炮灰!

胜研集
2026-03-06 13:44:23
四川丈夫哽咽护妻:母亲没回老家,亲戚要求删视频,岳母出面硬刚

四川丈夫哽咽护妻:母亲没回老家,亲戚要求删视频,岳母出面硬刚

离离言几许
2026-03-06 19:30:27
中央强力加杠杆,普通人的财富迎巨变

中央强力加杠杆,普通人的财富迎巨变

柏年说政经
2026-03-06 18:00:03
金毛的大麻烦来了:波斯圣火令,追杀的不只是一个人!

金毛的大麻烦来了:波斯圣火令,追杀的不只是一个人!

魔都姐姐杂谈
2026-03-06 12:49:40
办事大厅收材料的人,半年都能收1600多万 省委书记怒了:“吃拿卡要、损害企业利益的,迟早都会被查处”

办事大厅收材料的人,半年都能收1600多万 省委书记怒了:“吃拿卡要、损害企业利益的,迟早都会被查处”

大风新闻
2026-03-06 16:46:09
网红安静公主自曝肛裂,今年手术做太多,被建议休息半个月再检查

网红安静公主自曝肛裂,今年手术做太多,被建议休息半个月再检查

君笙的拂兮
2026-03-05 07:22:01
为何关闭霍尔木兹海峡就能掐全球脖子?因为伊朗原油是全世界最好的

为何关闭霍尔木兹海峡就能掐全球脖子?因为伊朗原油是全世界最好的

风向观察
2026-03-06 21:31:15
女子在杭州西湖景区把“西泠印社”认成“杜帅冷面”,网友:四个字认错五个,当事人:没有文化确实不行

女子在杭州西湖景区把“西泠印社”认成“杜帅冷面”,网友:四个字认错五个,当事人:没有文化确实不行

扬子晚报
2026-03-06 17:44:56
巴林美军官住宅被定点清除,80枚集束炸弹空袭特拉维夫!

巴林美军官住宅被定点清除,80枚集束炸弹空袭特拉维夫!

胜研集
2026-03-06 15:09:57
中东大战日本先崩!日媒哀叹:缺乏中国的战略远见

中东大战日本先崩!日媒哀叹:缺乏中国的战略远见

北向财经
2026-03-06 20:28:33
特朗普,派“蒋介石”上前线?

特朗普,派“蒋介石”上前线?

中国新闻周刊
2026-03-06 15:27:37
遭鞭打,被迫在尿骚味地道取暖?迪丽热巴猛料升级,滞留只是一角

遭鞭打,被迫在尿骚味地道取暖?迪丽热巴猛料升级,滞留只是一角

阿纂看事
2026-03-04 18:21:39
国家发改委主任:新建、改扩建1000所普通高中,增加学位200万个以上,支持双一流高校本科扩招10万人以上

国家发改委主任:新建、改扩建1000所普通高中,增加学位200万个以上,支持双一流高校本科扩招10万人以上

极目新闻
2026-03-06 18:28:25
写入教科书的一天:F-35在德黑兰完成全球首次实战空对空击杀

写入教科书的一天:F-35在德黑兰完成全球首次实战空对空击杀

斌闻天下
2026-03-06 07:30:03
痒是大病预警!医生提醒:2处发痒,或不是过敏,而是这4病

痒是大病预警!医生提醒:2处发痒,或不是过敏,而是这4病

医学科普汇
2026-03-05 21:20:03
特朗普大祸临头!伊朗已公开放话,全球将变得更混乱?

特朗普大祸临头!伊朗已公开放话,全球将变得更混乱?

毛豆论道
2026-03-06 18:26:34
2026-03-07 04:44:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11320文章数 116987关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

伊朗:大规模发射新一代导弹 打击美军多个基地

头条要闻

伊朗:大规模发射新一代导弹 打击美军多个基地

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

旅游
健康
艺术
公开课
军事航空

旅游要闻

杭州CBD藏了片七彩油菜花海,草莓熊坐镇,成年人的治愈全在这儿

转头就晕的耳石症,能开车上班吗?

艺术要闻

惊艳水彩画!简约笔触与透光感让人叹服!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:使用无人机击中美军"林肯"号航母

无障碍浏览 进入关怀版