网易首页 > 网易号 > 正文 申请入驻

Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

三天不开源,Qwen团队手就痒。

昨天深夜再次放出两个端侧模型:

  • Qwen3-4B-Instruct-2507:非推理模型,大幅提升通用能力
  • Qwen3-4B-Thinking-2507:高级推理模型,专为专家级任务设计

4B这个尺寸对端侧非常友好,甚至意味着可以在树莓派上运行它

Qwen官方推文中对这俩模型的介绍是:

更智能、更精准,并且支持256k上下文,更具上下文感知能力。

在AIME25上,Qwen3-4B-Thinking-2507四两拨千斤,最后得分是81.3。

这个成绩已经超过了Gemini 2.5 Pro(49.8~88.0)和Claude 4 Opus(75.5)在AIME25的得分——仅仅靠一个4B的模型!

而且,4B参数量意味着对端侧极其友好。

也难怪网友在Ycombinator上惊呼:

  • 感谢中国公司!

4B模型大升级,四两拨千斤

官方推文上,是这么介绍两位Qwen3家族新成员的:

  • Qwen3-4B-Instruct-2507:提升通用能力、多语言覆盖和长上下文指令理解。
  • Qwen3-4B-Thinking-2507:逻辑、数学、科学及代码中的高级推理能力——专为专家级任务设计。

Qwen团队直言不讳,称这两个模型“更加强大”。

浅浅回顾一下,今年4月底,Qwen3系列首登场时,Qwen-4B-Base作为第一批八个成员之一亮相。

当时,Qwen3-4B就能在数学、代码能力上“以小博大”,和比自身大10倍模型水平相当。

现在同样在多个测试集上可以看到,Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507对于前作都有非常明显的能力提升。

Qwen3-4B-Instruct-2507

Qwen3-4B-Instruct-2507是一个非推理模型,具有以下关键改进:

  • 在通用能力方面有显著提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用。
  • 在多语言长尾知识覆盖方面有大幅增长。
  • 在主观和开放性任务中与用户偏好显著匹配,能够提供更有帮助的响应和更高质量的文本生成。
  • 256K长上下文理解能力增强,可扩展至1M。

在诸多测试集上,该模型通用能力超越了闭源的小尺寸模型GPT-4.1-nano。

(注:GPT-4.1-nano是GPT-4.1系列中最小规模的模型,未公开参数量)

和Qwen3-30B-A3B(Non-Thinking)对比,Qwen3-4B-Instruct-2507与其性能接近,还小胜一筹。

换句话说,这个4B的密集模型在性能上与30B的MoE模型能力非常接近,但“占地面积”却小了7.5倍

Qwen3-4B-Thinking-2507

在抱抱脸上,Qwen团队写道:

  • 在过去三个月中,我们持续提升Qwen3-4B的思考能力,增强了推理的质量和深度。

于是,Qwen3-4B-Thinking-2507诞生了,这是一个仅支持推理模式的模型

在前作基础上,这一模型主要有以下改进:

  • 在推理任务上性能显著提升,包括逻辑推理、数学、科学、编程以及通常需要人类专业知识的学术基准测试。
  • 通用能力显著提升,包括指令理解、工具使用、文本生成以及与人类偏好的对齐。
  • 增强的256K长上下文理解能力。

官方在抱抱脸表示,由于Qwen3-4B-Thinking-2507增加了思考长度,“强烈建议在高度复杂的推理任务中使用它”。

在重点考察数学能力的AIME25测评中,Qwen3-4B-Thinking-2507以4B参数量斩获81.3的好成绩。

此外,在GPQA上,其得分与Qwen-30B-A3B(Thinking)得分相当;Agent方面的每一项测试,Qwen3-4B-Thinking-2507碾压了前代版本以及Qwen-30B-A3B(Thinking)。

端侧开发者福音

现在,Qwen3-4B-Instruct-2507以及Qwen3-4B-Thinking-2507的代码可在抱抱脸和魔搭社区找到,文末放上了直通车,方便大家寻找

官方还贴心地给出了部署建议:

第一,对于本地使用,Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等应用程序也已支持模型部署。

对于极小型设备(如树莓派4B),可使用量化版本Qwen3-4B-GGUF,搭配llama.cpp运行。

第二,如果遇到内存不足(OOM)问题,可以考虑将上下文长度减少到一个更短的值。

由于Qwen3-4B-Thinking-2507是一个推理模型,在推理时可能需要更长的词元序列,强烈建议在可能的情况下使用大于131,072的上下文长度。

第三,虽然俩模型一个是推理模型一个是非推理模型,但官方对prompt给出了同样的建议。

面对数学问题时,推荐在prompt中包含“请逐步推理,并将最终答案放在\boxed{}内。”

面对选择题时,推荐在prompt中添加以下JSON 结构以标准化回答:”请在 answer 字段中仅显示选项字母,例如 “answer”: “C” 。”

最后,已经有网友在呼吁开源永动机Qwen团队赶紧交出Qwen3-8B系列了:

One More Thing

Qwen3系列到底有多少款模型?

答案是:不知道。

吃瓜群众们只知道这次小·大模型的更新非常使用,以及时间钱选得刚刚好——

昨天,久不Open的OpenAI终于开源了一次。

不仅和谷歌、Anthropic大撞期,而且gpt-oss-120b和gpt-oss-20b两个模型似乎并没有用性能征服开发者们。

今天半夜,也就是8月8日凌晨1点(太平洋时间8月7日上午10点),打了800集预告的GPT-5,或许就要来了……

8月刚开始就战况这么激烈,咱能怎么办?

搬小板凳,乖巧坐等呗~

抱抱脸直通车:
[1]https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
[2]https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

魔搭社区直通车:
[1]https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
[2]https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

参考链接:
[1]https://x.com/Alibaba_Qwen/status/1953128028047102241
[2]https://www.reddit.com/r/LocalLLaMA/comments/1mj8ndr/qwen_3_4b_thinking_model_released/
[3]https://news.ycombinator.com/item?id=44813627

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

奇思妙想生活家
2026-04-09 07:49:40
潜伏在中国的反华家族,靠大陆收入上亿,今国家出手下场大快人心

潜伏在中国的反华家族,靠大陆收入上亿,今国家出手下场大快人心

混沌录
2026-04-05 16:33:20
迈克尔杰克逊儿子露面,看不出是黑人也不像爸,家族同框只能镶边

迈克尔杰克逊儿子露面,看不出是黑人也不像爸,家族同框只能镶边

TVB的四小花
2026-04-13 14:22:29
美军想不通:屏蔽中东GPS,竟被重庆两百块高尔夫测距仪破解

美军想不通:屏蔽中东GPS,竟被重庆两百块高尔夫测距仪破解

百科密码
2026-04-01 16:36:30
备受瞩目的NBA选秀抽签将在2025-26赛季常规赛结束后,如何进行?

备受瞩目的NBA选秀抽签将在2025-26赛季常规赛结束后,如何进行?

好火子
2026-04-13 23:39:42
华工科技:一季度净利同比预增46%~56%

华工科技:一季度净利同比预增46%~56%

每日经济新闻
2026-04-14 00:11:55
李嘉诚动手了

李嘉诚动手了

新浪财经
2026-04-12 01:32:57
订婚宴一顿吃掉98万,新郎拒绝买单后,剩下的人都愣了

订婚宴一顿吃掉98万,新郎拒绝买单后,剩下的人都愣了

奶茶麦子
2026-04-14 00:18:21
山东进入赛季至暗时刻!外援靠不住,陶汉林与陈林坚又没球权!

山东进入赛季至暗时刻!外援靠不住,陶汉林与陈林坚又没球权!

篮球资讯达人
2026-04-14 01:29:38
从今年起,需做好“潮水暴涨”前的准备?明年房子或将超出想象

从今年起,需做好“潮水暴涨”前的准备?明年房子或将超出想象

爱看剧的阿峰
2026-04-13 12:10:55
中国正计划向伊朗提供武器?外交部:反对无根据的抹黑或恶意关联

中国正计划向伊朗提供武器?外交部:反对无根据的抹黑或恶意关联

澎湃新闻
2026-04-13 15:32:28
活久见!网传广东一租客将价值30元沙金项链留屋,房东爽快退押金

活久见!网传广东一租客将价值30元沙金项链留屋,房东爽快退押金

阿离家居
2026-04-13 12:18:26
热议!虽然把医生投诉了,但医生医术好,还想找你看病!医生能拒诊吗?

热议!虽然把医生投诉了,但医生医术好,还想找你看病!医生能拒诊吗?

华医网
2026-04-12 05:41:34
为什么没人联合打以色列,答案很简单:不是没人想打,是没人敢打

为什么没人联合打以色列,答案很简单:不是没人想打,是没人敢打

今墨缘
2026-04-14 02:08:15
虎狼饥渴?为何一些女性会“欲望”特别强烈?可能存在这几点原因

虎狼饥渴?为何一些女性会“欲望”特别强烈?可能存在这几点原因

医者荣耀
2026-03-13 12:10:12
天气回暖,医生叮嘱糖尿病患者:宁愿打打麻将,也别轻易做这3事

天气回暖,医生叮嘱糖尿病患者:宁愿打打麻将,也别轻易做这3事

新时代的两性情感
2026-04-14 02:23:11
苹果赢麻了!iPhone17国内销量突破2700万台,是Mate80的五倍不止

苹果赢麻了!iPhone17国内销量突破2700万台,是Mate80的五倍不止

互联鱼
2026-04-12 18:13:54
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
两性关系:不管你信不信,女性过了65岁后,基本都有这7个现状

两性关系:不管你信不信,女性过了65岁后,基本都有这7个现状

王二哥老搞笑
2026-03-24 09:47:27
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
2026-04-14 04:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12466文章数 176449关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

谈判未完全关闭?3国力促美伊重启谈判

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

艺术
数码
本地
健康
公开课

艺术要闻

你绝对想不到!这位美女画家的夏天竟如此梦幻!

数码要闻

壹号本ONEXStation i1迷你主机发售,18999元

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版