网易首页 > 网易号 > 正文 申请入驻

Qwen3小升级即SOTA,开源大模型王座快变中国内部赛了

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

开源大模型正在进入中国时间。

Kimi K2风头正盛,然而不到一周,Qwen3就迎来最新升级,235B总参数量仅占Kimi K2 1T规模的四分之一。

基准测试性能上却超越了Kimi K2。



Qwen官方还宣布不再使用混合思维模式,而是分别训练Instruct和Thinking模型。

所以,此次发布的新模型仅支持非思考模式,现在网页版已经可以上线使用了,但通义APP还未见更新。



Qwen官方还透露:这次只是一个小更新!大招很快就来了!



但总归就是,再见Qwen3-235B-A22B,你好Qwen3-235B-A22B-2507了。

By the way,这个名字怎么取得越来越复杂了。

先来看看这次的“小更新”都有哪些~

增强了对256K长上下文的理解能力

新模型是一款因果语言模型,采用MoE架构,总参数量达235B,其中非嵌入参数为234B,推理时激活参数为22B

在官方介绍中显示,模型共包含94层,采用分组查询注意力(GQA)机制,配备64个查询头和4个键值头,并设置128个专家,每次推理时激活8个专家。

该模型原生支持262144的上下文长度。

这次改进主要有以下几个方面

  • 显著提升了通用能力,包括指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用。
  • 大幅增加了多语言长尾知识的覆盖范围。
  • 更好地符合用户在主观和开放式任务中的偏好,能够提供更有帮助的响应和更高质量的文本生成。
  • 增强了对256K长上下文的理解能力。



在官方发布的基准测试中可以看到,相较于上一版本,新模型在AIME25上准确率从24.7%上升到70.3%,表现出良好的数学推理能力。

而且对比Kimi K2、DeepSeek-V3,Qwen3新模型的能力也都略胜一筹。



为了提高使用体验,官方还推荐了最佳设置:



Qwen3新版本深夜发布就立刻收获了一众好评:Qwen在中等规模的语言模型中已经领先。



也有网友感慨Qwen在开启新的架构范式:



One More Thing

有趣的是,就在Qwen3新模型发布的前两天,NVIDIA也宣称发布了新的SOTA开源模型OpenReasoning-Nemotron

该模型提供四个规模:1.5B、7B、14B和32B,并且可以实现100%本地运行。



但实际上,这只是基于Qwen-2.5在Deepseek R1数据上微调的模型。



而现在Qwen3已经更新,大招已经被预告。

随着Llama转向闭源的消息传出,OpenAI迟迟不见Open,开源基础大模型的竞争,现在正在进入中国时间。

DeepSeek丢了王座,Kimi K2补上,Kimi K2坐稳没几天,Qwen的挑战就来了。

体验链接:https://chat.qwen.ai/


[1]https://x.com/Alibaba_Qwen/status/1947344511988076547
[2]https://x.com/giffmana/status/1947362393983529005

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
内塔尼亚胡说:如果你有手机,那你就握着以色列的一部分!谁慌了

内塔尼亚胡说:如果你有手机,那你就握着以色列的一部分!谁慌了

低调看天下
2025-09-17 09:20:57
以色列打遍中东无敌手,唯一吓不倒的“硬骨头”,买了中国红旗-9

以色列打遍中东无敌手,唯一吓不倒的“硬骨头”,买了中国红旗-9

博览历史
2025-09-15 20:19:15
43岁凯特王妃现身公爵夫人葬礼,跟查尔斯互动很温馨,卡米拉缺席

43岁凯特王妃现身公爵夫人葬礼,跟查尔斯互动很温馨,卡米拉缺席

译言
2025-09-17 06:53:34
33岁队长坑惨皇马!顶牛撞翻对手染红+致1位置告急 创3大尴尬纪录

33岁队长坑惨皇马!顶牛撞翻对手染红+致1位置告急 创3大尴尬纪录

我爱英超
2025-09-17 06:15:27
中美会谈结束,美财长承诺不会首先对华加税,特朗普再谈中美关系

中美会谈结束,美财长承诺不会首先对华加税,特朗普再谈中美关系

阿晪美食
2025-09-16 16:08:13
美国保镖重庆摆擂,扬言打败所有华人,一老头跳上台:我一掌赢你

美国保镖重庆摆擂,扬言打败所有华人,一老头跳上台:我一掌赢你

李哥三观很正
2024-08-18 12:56:18
粉色上衣配灰色瑜伽裤,颜值身材都很棒,给人一种邻家妹妹的感觉

粉色上衣配灰色瑜伽裤,颜值身材都很棒,给人一种邻家妹妹的感觉

小乔古装汉服
2025-09-17 09:30:03
湖南气象发布:中雨!最低18℃!台风“米娜”最新消息

湖南气象发布:中雨!最低18℃!台风“米娜”最新消息

大爱三湘
2025-09-17 06:44:11
这是全红婵吗?网友:四年多时间变化太大,几乎不可能回到过去了

这是全红婵吗?网友:四年多时间变化太大,几乎不可能回到过去了

尘语者
2025-09-17 09:03:01
男排爆大冷!奥运冠军轰然倒下,东道主创历史狂祝,中国难上加难

男排爆大冷!奥运冠军轰然倒下,东道主创历史狂祝,中国难上加难

知轩体育
2025-09-17 00:57:46
3种降压药不宜长期服用,一些患者不了解,不要以为是好药

3种降压药不宜长期服用,一些患者不了解,不要以为是好药

王晓爱体彩
2025-09-16 10:39:56
十分魔幻:当代美国的“极左”和“极右”,连希特勒看了都懵圈

十分魔幻:当代美国的“极左”和“极右”,连希特勒看了都懵圈

黄娜老师
2025-09-14 23:09:45
10-15年才开花结果,3年果子才成熟!浙江农户1斤卖8块

10-15年才开花结果,3年果子才成熟!浙江农户1斤卖8块

万象硬核本尊
2025-09-16 20:47:32
“全上海只剩这一家盒饭了吗”,大量学生吐槽ab餐难吃,无可奈何

“全上海只剩这一家盒饭了吗”,大量学生吐槽ab餐难吃,无可奈何

熙熙说教
2025-09-16 19:15:24
李秉宪出演妻子李珉廷视频节目,全程40分钟被打码引韩网友热议

李秉宪出演妻子李珉廷视频节目,全程40分钟被打码引韩网友热议

韩小娱
2025-09-17 07:06:10
三过草地的女红军当农民,朱老总怒斥当地领导:你知道她是谁吗?

三过草地的女红军当农民,朱老总怒斥当地领导:你知道她是谁吗?

南书房
2025-09-13 20:25:03
高规格啊!巴特勒观看大巴黎比赛 主席纳赛尔又送球衣又为其庆生

高规格啊!巴特勒观看大巴黎比赛 主席纳赛尔又送球衣又为其庆生

直播吧
2025-09-16 10:54:11
石平太郎在华资产被曝,上千万资产全被冻结,关联企业高达6家

石平太郎在华资产被曝,上千万资产全被冻结,关联企业高达6家

法老不说教
2025-09-16 20:54:04
预言失败,美籍华人章家墩破防,称中国“9.3”阅兵装备都是假的

预言失败,美籍华人章家墩破防,称中国“9.3”阅兵装备都是假的

一盅情怀
2025-09-16 07:20:12
6秒惊艳全场!瓜迪奥拉抱头质疑:为何曼联和阿莫林不重用梅努?

6秒惊艳全场!瓜迪奥拉抱头质疑:为何曼联和阿莫林不重用梅努?

贝塔说体育
2025-09-16 12:42:53
2025-09-17 10:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
11330文章数 176277关注度
往期回顾 全部

科技要闻

英伟达RTX6000D遇冷,中国大厂不买账

头条要闻

牛弹琴:特朗普对美国报纸挥出铁拳 当心中国被躺枪

头条要闻

牛弹琴:特朗普对美国报纸挥出铁拳 当心中国被躺枪

体育要闻

2022:勇士归来,库里的第四个冠军

娱乐要闻

李小璐母亲:女儿嫁给贾乃亮我好后悔

财经要闻

曝匹克大幅降薪 员工还要进行"三观培训"

汽车要闻

智能体豪华旅行车 享界S9T30.98万元起售

态度原创

时尚
本地
艺术
亲子
数码

气质女人,都少不了亦舒笔下的开衫

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

父母最大的成功:让孩子离开你也能活得漂亮

数码要闻

Mophie 新推 Qi2 充电宝,iPhone 充电有新玩法!

无障碍浏览 进入关怀版