网易首页 > 网易号 > 正文 申请入驻

开源Qwen一周连刷三冠,暴击闭源模型!基础模型推理编程均SOTA

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

卷疯了,通义千问真的卷疯了。

Qwen3-Coder刚炸完场,就隔了一天,马上全新开源Qwen3系列最强推理模型——Qwen3-235B-A22B-Thinking-2507

怎么个最强法?一登场,再次刷新SOTA,在各项测评中一举拿下「全球最强开源模型」宝座,比肩顶级闭源模型Gemini-2.5 Pro、o4-mini。

国外网友都馋哭了:

关键是,就在这短短一周里,算上前两天开源的新基础模型Qwen3-235B-A22B-Instruct-2507(非思考版),和Qwen3-Coder,通义千问是完成了一波开源三连。

开源还不算,各个出手即SOTA:接连斩获基础模型、编程模型、推理模型三项全球开源最强

这个模型更新强度和效能提升,妥妥地引领全球了。

就问小扎慌不慌(doge)。

新版Qwen3推理模型,登顶全球开源最强

正如DeepSeek R1是在V3基础上打造的推理模型,Qwen3全新推理模型,是基于Qwen3-235B-A22B打造——就是235B参数那版MoE,激活参数22B。

官方表示,新推理模型主要提升了3方面的核心能力:

  • 逻辑推理、数学、科学和编码等任务上性能显著提升;
  • 能更好地遵循指令、使用工具、生成文本;
  • 支持256K原生上下文,适用于高度复杂的推理任务。

而此番刷新SOTA,登顶开源最强,确实不是那种一丢丢提升,仔细看测评分数,那是「真有点东西」。

先来看推理方面

在超高难度测试「人类最后的考试」中,最新的2507版推理模型,相较4月底初发布的Qwen3推理模型,分数从11.8分提升到了18.2分

超过了DeepSeek-R1-0528的17.7分,和OpenAI o4-mini在高性能推理模式下拿到的18.1分。

编程方面,在LiveCodeBench v6和CFEval中,Qwen3新推理模型甚至超越了Gemini-2.5 Pro等闭源业界标杆,刷新SOTA。

除此之外,在知识、对齐、智能体、多语言等基准评测中,Qwen3新推理模型都有比肩闭源模型的表现,达到开源SOTA。

纸面上的成绩属实是相当优秀,那么具体使用起来,这个新推理模型表现又会如何?

我们也简单测试了一下。

还是那道经典题:7米长的甘蔗如何通过2米高1米宽的门?

Qwen3-235B-A22B-Thinking-2507思考了43秒,最后给出的答案是:

思考过程如下:

相较之下,o4-mini的答案就简单粗暴了些。

模型三连开源,摘下三项SOTA

前面也说到,全新推理模型,其实是本周阿里开源第三弹。

总结起来画风其实是酱婶的:

前两弹震得大家伙脑袋嗡嗡的,各种实测部署正上头呢,通义实验室的卷王们啪地又甩出了一对王炸。

就说Qwen3-Coder,开源即刷新AI编程SOTA——不仅在开源界超过DeepSeek V3和Kimi K2,连业界标杆、闭源的Claude Sonnet 4都比下去了。

网友们实测起来,小球弹跳效果是这样的:

HuggingFace首席执行官Clement Delangue、Perplexity首席执行官Aravind Srinivas等大佬都第一时间加入了讨论、点赞:

  • 这是开源的胜利。

Qwen3-Coder火爆,带动阿里千问API调用量暴涨。

海外知名模型API聚合平台OpenRouter数据显示,阿里千问API调用量过去几天已突破1000亿Tokens,在OpenRouter趋势榜上包揽全球前三,是当下最热门的模型。

基础模型领域,Qwen3最新版本——Qwen3-235B-A22B-Instruct-2507(非思考版)也登顶全球开源第一,在GPQA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等众多测评中表现出色,超越Claude4(Non-thinking)等领先闭源模型。

中国开源,卷到了世界最前沿

三连开源,连摘三冠,对于中国开源力量而言,或许还只是一个开端。

有一说一,打从DeepSeek爆火、Llama 4翻车,要说开源领域哪股势力最为活跃,成为新的风潮引领者,还得看神秘的东方力量。

每有开源新王诞生,DeepSeek、Qwen、Kimi……看来看去,还是made in China。

「中国确实将开源提升到了一个新高度」,越来越多地被讨论、被赞同。

关键是,正如黄仁勋最新一次在北京所说,开源模型方面,「中国发展速度极快」。

以Qwen为例,目前,阿里已开源300余款通义大模型,通义千问衍生模型突破14万个,已经真真正正超越此前的全球开源老大Llama系列,成为全球第一开源模型家族。

阿里方面透露,未来三年,阿里巴巴还将投入超过3800亿元用于建设云和AI硬件基础设施,持续升级全栈AI能力。

更重要的是,开源和闭源的差距也正在这种中国速度中被压缩。

增长曲线的交叉点何时出现?尚未可知,但国产模型的身位已经实实在在排在了全球最前沿。

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
心理学家:极度自私的人,往往不是斤斤计较,而是有着这3个特征

心理学家:极度自私的人,往往不是斤斤计较,而是有着这3个特征

木言观
2025-12-27 18:01:28
刚刚,雷霆穿阵!解放军直闯菲律宾军演区,美军“哑火”了

刚刚,雷霆穿阵!解放军直闯菲律宾军演区,美军“哑火”了

新财迷
2026-02-01 13:13:37
侍卫救了乾隆的命,乾隆问他要何赏赐?侍卫:就赏我一个宫女吧

侍卫救了乾隆的命,乾隆问他要何赏赐?侍卫:就赏我一个宫女吧

铭记历史呀
2026-01-26 19:47:25
贵金属价格巨震!工行紧急提示风险

贵金属价格巨震!工行紧急提示风险

环球网资讯
2026-02-01 15:47:07
山东可以包分配的4所大学,学生毕业就有工作,完全不用担心就业

山东可以包分配的4所大学,学生毕业就有工作,完全不用担心就业

高三倒计时
2026-02-01 17:31:15
四川一校花太漂亮了,身高170五官精致,美得让人移不开眼

四川一校花太漂亮了,身高170五官精致,美得让人移不开眼

阿废冷眼观察所
2026-01-29 08:24:05
一个逻辑闭环:阿富汗女性只能上到小学,但女患者又必须看女医生

一个逻辑闭环:阿富汗女性只能上到小学,但女患者又必须看女医生

黄娜老师
2026-02-01 13:45:43
深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

深圳水贝“杰我睿”最新进展:有消费者收到兑付方案,20g黄金+9000多元余额,兑付本金4856元

每日经济新闻
2026-02-01 17:45:18
中国男篮拒绝输球!全力击败日本队,赵睿挑大梁,央视直播

中国男篮拒绝输球!全力击败日本队,赵睿挑大梁,央视直播

体坛瞎白话
2026-02-01 07:48:13
三方交易官宣!换队球员增至5人 施罗德埃利斯去骑士+国王迎亨特

三方交易官宣!换队球员增至5人 施罗德埃利斯去骑士+国王迎亨特

罗说NBA
2026-02-02 04:36:59
英超积分榜:曼城被热刺逼平后,阿森纳领先优势增至6分

英超积分榜:曼城被热刺逼平后,阿森纳领先优势增至6分

懂球帝
2026-02-02 02:45:06
钱再多有啥用?22岁的谷爱凌近况被曝光,还是踏上了樊振东的老路

钱再多有啥用?22岁的谷爱凌近况被曝光,还是踏上了樊振东的老路

揽星河的笔记
2026-01-31 23:33:28
就在刚刚!中方强硬发声:90天内不支付358亿赔偿金

就在刚刚!中方强硬发声:90天内不支付358亿赔偿金

爱吃醋的猫咪
2026-02-01 19:34:35
Here we go!罗马诺:利物浦今夏总价7000万欧签雅凯达成协议

Here we go!罗马诺:利物浦今夏总价7000万欧签雅凯达成协议

懂球帝
2026-02-02 06:39:11
劳塔罗三连斩意甲历史第4人,为球迷炸伤对手道歉,国米2-0升班马

劳塔罗三连斩意甲历史第4人,为球迷炸伤对手道歉,国米2-0升班马

钉钉陌上花开
2026-02-02 06:00:47
全面反华?澳洲通告全球:达尔文港收归国有,中方打响立威第一枪

全面反华?澳洲通告全球:达尔文港收归国有,中方打响立威第一枪

阿器谈史
2026-01-31 22:54:03
金价单日暴跌超11%,银价创40多年来最差单日表现

金价单日暴跌超11%,银价创40多年来最差单日表现

界面新闻
2026-02-01 13:23:39
潮汕一按摩场所,被罚!

潮汕一按摩场所,被罚!

ilove汕头
2026-01-31 19:14:02
刚刚,崩了!40万人爆仓!

刚刚,崩了!40万人爆仓!

中国基金报
2026-02-01 07:39:50
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
2026-02-02 07:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
时尚
亲子
房产
军事航空

教育要闻

语不惊人死不休,立刚反对学英语有些着魔了,又出新谬论

“多巴胺风”又又又火了!这样穿时髦又减龄

亲子要闻

兰姐带玥儿看北京新学校,玥儿一待俩小时,筱梅的话终于有人信了

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版