网易首页 > 网易号 > 正文 申请入驻

Qwen3小升级即SOTA,开源大模型王座快变中国内部赛了

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

开源大模型正在进入中国时间。

Kimi K2风头正盛,然而不到一周,Qwen3就迎来最新升级,235B总参数量仅占Kimi K2 1T规模的四分之一。

基准测试性能上却超越了Kimi K2。

Qwen官方还宣布不再使用混合思维模式,而是分别训练Instruct和Thinking模型。

所以,此次发布的新模型仅支持非思考模式,现在网页版已经可以上线使用了,但通义APP还未见更新。

Qwen官方还透露:这次只是一个小更新!大招很快就来了!

但总归就是,再见Qwen3-235B-A22B,你好Qwen3-235B-A22B-2507了。

By the way,这个名字怎么取得越来越复杂了。

先来看看这次的“小更新”都有哪些~

增强了对256K长上下文的理解能力

新模型是一款因果语言模型,采用MoE架构,总参数量达235B,其中非嵌入参数为234B,推理时激活参数为22B

在官方介绍中显示,模型共包含94层,采用分组查询注意力(GQA)机制,配备64个查询头和4个键值头,并设置128个专家,每次推理时激活8个专家。

该模型原生支持262144的上下文长度。

这次改进主要有以下几个方面

  • 显著提升了通用能力,包括指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用。
  • 大幅增加了多语言长尾知识的覆盖范围。
  • 更好地符合用户在主观和开放式任务中的偏好,能够提供更有帮助的响应和更高质量的文本生成。
  • 增强了对256K长上下文的理解能力。

在官方发布的基准测试中可以看到,相较于上一版本,新模型在AIME25上准确率从24.7%上升到70.3%,表现出良好的数学推理能力。

而且对比Kimi K2、DeepSeek-V3,Qwen3新模型的能力也都略胜一筹。

为了提高使用体验,官方还推荐了最佳设置:

Qwen3新版本深夜发布就立刻收获了一众好评:Qwen在中等规模的语言模型中已经领先。

也有网友感慨Qwen在开启新的架构范式:

One More Thing

有趣的是,就在Qwen3新模型发布的前两天,NVIDIA也宣称发布了新的SOTA开源模型OpenReasoning-Nemotron

该模型提供四个规模:1.5B、7B、14B和32B,并且可以实现100%本地运行。

但实际上,这只是基于Qwen-2.5在Deepseek R1数据上微调的模型。

而现在Qwen3已经更新,大招已经被预告。

随着Llama转向闭源的消息传出,OpenAI迟迟不见Open,开源基础大模型的竞争,现在正在进入中国时间。

DeepSeek丢了王座,Kimi K2补上,Kimi K2坐稳没几天,Qwen的挑战就来了。

体验链接:https://chat.qwen.ai/


[1]https://x.com/Alibaba_Qwen/status/1947344511988076547
[2]https://x.com/giffmana/status/1947362393983529005

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

真不能怪祖院长,就曾医生这颜值、这才华和魅力,谁遭的住?

吃瓜局
2025-11-11 16:23:49
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

生活魔术专家
2026-03-26 18:07:46
美伊冲突,已经出现了3个赢家,10个输家,都是谁?

美伊冲突,已经出现了3个赢家,10个输家,都是谁?

七号说三国
2026-03-25 21:11:29
阴跌两个月后放量跌停,今日最惨股,开板后又把博反包的套了进去

阴跌两个月后放量跌停,今日最惨股,开板后又把博反包的套了进去

有范又有料
2026-03-26 17:22:20
中央红军御林军,长征中戴钢盔配冲锋枪,一个团2名大将3名上将

中央红军御林军,长征中戴钢盔配冲锋枪,一个团2名大将3名上将

云霄纪史观
2026-03-26 17:16:00
新郎婚礼迟到2个小时,婆婆大方宣布:彩礼全退,新娘竟当场退婚

新郎婚礼迟到2个小时,婆婆大方宣布:彩礼全退,新娘竟当场退婚

白云故事
2025-03-21 17:50:07
NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

铁甲西奇
2026-03-26 16:43:09
袁家军会见王兴兴

袁家军会见王兴兴

新京报政事儿
2026-03-26 16:45:34
为什么中国要发射东风-41,必须要提前告知俄罗斯,这是咋回事?

为什么中国要发射东风-41,必须要提前告知俄罗斯,这是咋回事?

阿器谈史
2026-03-19 18:11:39
烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

酷玩实验室
2026-03-25 18:25:49
卡尔森:坏了!原来小丑不是特朗普,而是我自己

卡尔森:坏了!原来小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
谭松韵本人跟银幕上差距很大,个子好矮小小一只,真人并不年轻

谭松韵本人跟银幕上差距很大,个子好矮小小一只,真人并不年轻

庭小娱
2026-03-24 11:53:09
电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

电饭锅哪个牌子质量好?2026电饭煲排名前十盘点!大众主流精选

小柱解说游戏
2026-03-25 17:56:15
为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

鉴史录
2026-03-25 18:19:06
退休不褪色:浸润在莎莎舞里的中年男人坚守与百态

退休不褪色:浸润在莎莎舞里的中年男人坚守与百态

成都人的故事
2026-03-26 23:40:03
66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

比利
2026-03-21 13:00:22
哈佛研究:吃一个西红柿,就等于喝了一大口可乐,真的还是假的?

哈佛研究:吃一个西红柿,就等于喝了一大口可乐,真的还是假的?

泠泠说史
2025-11-10 14:17:05
搞笑,步行者主帅在被湖人队东契奇狂砍43分后,说也有积极的一面

搞笑,步行者主帅在被湖人队东契奇狂砍43分后,说也有积极的一面

好火子
2026-03-26 23:59:41
2026-03-27 00:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
本地
健康
数码
公开课

教育要闻

天天学习|走进课堂的“大朋友”

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版