网易首页 > 网易号 > 正文 申请入驻

Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

三天不开源,Qwen团队手就痒。

昨天深夜再次放出两个端侧模型:

  • Qwen3-4B-Instruct-2507:非推理模型,大幅提升通用能力
  • Qwen3-4B-Thinking-2507:高级推理模型,专为专家级任务设计

4B这个尺寸对端侧非常友好,甚至意味着可以在树莓派上运行它

Qwen官方推文中对这俩模型的介绍是:

更智能、更精准,并且支持256k上下文,更具上下文感知能力。

在AIME25上,Qwen3-4B-Thinking-2507四两拨千斤,最后得分是81.3。

这个成绩已经超过了Gemini 2.5 Pro(49.8~88.0)和Claude 4 Opus(75.5)在AIME25的得分——仅仅靠一个4B的模型!

而且,4B参数量意味着对端侧极其友好。

也难怪网友在Ycombinator上惊呼:

  • 感谢中国公司!

4B模型大升级,四两拨千斤

官方推文上,是这么介绍两位Qwen3家族新成员的:

  • Qwen3-4B-Instruct-2507:提升通用能力、多语言覆盖和长上下文指令理解。
  • Qwen3-4B-Thinking-2507:逻辑、数学、科学及代码中的高级推理能力——专为专家级任务设计。

Qwen团队直言不讳,称这两个模型“更加强大”。

浅浅回顾一下,今年4月底,Qwen3系列首登场时,Qwen-4B-Base作为第一批八个成员之一亮相。

当时,Qwen3-4B就能在数学、代码能力上“以小博大”,和比自身大10倍模型水平相当。

现在同样在多个测试集上可以看到,Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507对于前作都有非常明显的能力提升。

Qwen3-4B-Instruct-2507

Qwen3-4B-Instruct-2507是一个非推理模型,具有以下关键改进:

  • 在通用能力方面有显著提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用。
  • 在多语言长尾知识覆盖方面有大幅增长。
  • 在主观和开放性任务中与用户偏好显著匹配,能够提供更有帮助的响应和更高质量的文本生成。
  • 256K长上下文理解能力增强,可扩展至1M。

在诸多测试集上,该模型通用能力超越了闭源的小尺寸模型GPT-4.1-nano。

(注:GPT-4.1-nano是GPT-4.1系列中最小规模的模型,未公开参数量)

和Qwen3-30B-A3B(Non-Thinking)对比,Qwen3-4B-Instruct-2507与其性能接近,还小胜一筹。

换句话说,这个4B的密集模型在性能上与30B的MoE模型能力非常接近,但“占地面积”却小了7.5倍

Qwen3-4B-Thinking-2507

在抱抱脸上,Qwen团队写道:

  • 在过去三个月中,我们持续提升Qwen3-4B的思考能力,增强了推理的质量和深度。

于是,Qwen3-4B-Thinking-2507诞生了,这是一个仅支持推理模式的模型

在前作基础上,这一模型主要有以下改进:

  • 在推理任务上性能显著提升,包括逻辑推理、数学、科学、编程以及通常需要人类专业知识的学术基准测试。
  • 通用能力显著提升,包括指令理解、工具使用、文本生成以及与人类偏好的对齐。
  • 增强的256K长上下文理解能力。

官方在抱抱脸表示,由于Qwen3-4B-Thinking-2507增加了思考长度,“强烈建议在高度复杂的推理任务中使用它”。

在重点考察数学能力的AIME25测评中,Qwen3-4B-Thinking-2507以4B参数量斩获81.3的好成绩。

此外,在GPQA上,其得分与Qwen-30B-A3B(Thinking)得分相当;Agent方面的每一项测试,Qwen3-4B-Thinking-2507碾压了前代版本以及Qwen-30B-A3B(Thinking)。

端侧开发者福音

现在,Qwen3-4B-Instruct-2507以及Qwen3-4B-Thinking-2507的代码可在抱抱脸和魔搭社区找到,文末放上了直通车,方便大家寻找

官方还贴心地给出了部署建议:

第一,对于本地使用,Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等应用程序也已支持模型部署。

对于极小型设备(如树莓派4B),可使用量化版本Qwen3-4B-GGUF,搭配llama.cpp运行。

第二,如果遇到内存不足(OOM)问题,可以考虑将上下文长度减少到一个更短的值。

由于Qwen3-4B-Thinking-2507是一个推理模型,在推理时可能需要更长的词元序列,强烈建议在可能的情况下使用大于131,072的上下文长度。

第三,虽然俩模型一个是推理模型一个是非推理模型,但官方对prompt给出了同样的建议。

面对数学问题时,推荐在prompt中包含“请逐步推理,并将最终答案放在\boxed{}内。”

面对选择题时,推荐在prompt中添加以下JSON 结构以标准化回答:”请在 answer 字段中仅显示选项字母,例如 “answer”: “C” 。”

最后,已经有网友在呼吁开源永动机Qwen团队赶紧交出Qwen3-8B系列了:

One More Thing

Qwen3系列到底有多少款模型?

答案是:不知道。

吃瓜群众们只知道这次小·大模型的更新非常使用,以及时间钱选得刚刚好——

昨天,久不Open的OpenAI终于开源了一次。

不仅和谷歌、Anthropic大撞期,而且gpt-oss-120b和gpt-oss-20b两个模型似乎并没有用性能征服开发者们。

今天半夜,也就是8月8日凌晨1点(太平洋时间8月7日上午10点),打了800集预告的GPT-5,或许就要来了……

8月刚开始就战况这么激烈,咱能怎么办?

搬小板凳,乖巧坐等呗~

抱抱脸直通车:
[1]https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
[2]https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

魔搭社区直通车:
[1]https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
[2]https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

参考链接:
[1]https://x.com/Alibaba_Qwen/status/1953128028047102241
[2]https://www.reddit.com/r/LocalLLaMA/comments/1mj8ndr/qwen_3_4b_thinking_model_released/
[3]https://news.ycombinator.com/item?id=44813627

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
震惊!网传福建一公司提醒员工,出现心梗前兆,先保存文件再救命

震惊!网传福建一公司提醒员工,出现心梗前兆,先保存文件再救命

火山詩话
2026-03-26 06:50:40
不法之徒村田晃大,正面照曝光

不法之徒村田晃大,正面照曝光

新京报
2026-03-26 11:18:17
张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

火山詩话
2026-03-26 07:32:38
马英九基金会决定中止今年两岸青年交流,马应该出面声明!

马英九基金会决定中止今年两岸青年交流,马应该出面声明!

达文西看世界
2026-03-26 10:58:22
吃饺子没蘸酱油进监狱了,这是真的

吃饺子没蘸酱油进监狱了,这是真的

深度报
2026-03-25 22:55:01
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
倒计时开始!特朗普将迎来终极翻车时刻!

倒计时开始!特朗普将迎来终极翻车时刻!

一个坏土豆
2026-03-25 20:56:19
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
中国电信:全面转向token经营!

中国电信:全面转向token经营!

最通信
2026-03-25 20:45:14
快递每次都被邻居大妈拿走,我改成货到付款,不到三天物业打电话

快递每次都被邻居大妈拿走,我改成货到付款,不到三天物业打电话

船长与船1
2026-03-26 09:44:01
约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

醉卧浮生
2026-03-26 12:35:12
热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

小椰子专栏
2026-03-25 13:00:11
张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

阿纂看事
2026-03-25 21:31:59
刘晓庆外甥再爆料:刘晓庆已死亡,相关聊天记录曝光,让网友破防

刘晓庆外甥再爆料:刘晓庆已死亡,相关聊天记录曝光,让网友破防

快乐娱文
2026-03-26 09:18:37
这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

小椰的奶奶
2026-03-26 09:50:43
佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

乐居财经官方
2026-03-26 10:14:46
跟着黄仁勋下注:如今的token可能就是20年的房子

跟着黄仁勋下注:如今的token可能就是20年的房子

梦大明白
2026-03-24 11:05:49
2026-03-26 14:55:00
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
时尚
教育
旅游
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

2026年了,最好看的还是“这件针织”!

教育要闻

高考地理中的花海经济

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版