网易首页 > 网易号 > 正文 申请入驻

杀疯了!阿里开源最强推理模型,一周三模型干翻全球开闭源天花板

0
分享至

智东西7月25日报道,昨日晚间,阿里又又又开源了!

阿里通义千问团队正式推出Qwen3-235B-A22B推理模型的升级版本:Qwen3-235B-A22B-Thinking-2507

该模型拥有235B参数,激活参数为22B,支持256K上下文,在编程、数学、知识、推理、人类偏好对齐等多项能力测评中得分比肩Gemini-2.5 pro、o4-mini等顶尖闭源模型,大幅超越DeepSeek-R1等开源模型,创下全球开源模型SOTA(最佳性能表现)。

▲Qwen3-235B-A22B-Thinking-2507的部分测评表现

一周之内,阿里已用三款最新模型横扫全球权威测评,分别斩获基础模型、编程模型、推理模型等主流领域的三项全球开源冠军。其中,7月23日开源的最强编程模型Qwen3-Coder-480B-A35B-Instruct在全球开发圈引起了一阵热潮,连推特、Hugging Face的创始人及CEO都发文推荐。

接连开源动作背后,阿里通义千问已成“最听劝”团队。Qwen非思考模型的推出就是接受了开发者的建议。“经过与社区沟通和深思熟虑,我们决定停止使用混合思考模式。相反,我们将分别训练Instruct和Thinking模型,以获得最佳质量。”Qwen团队在X平台上写道。

▲Qwen非思考模型的推出就是接受了开发者的建议

“开发者需要什么,千问就开源什么”,面对如此听劝的通义千问团队,催更成为开发者的常态。昨日Qwen3-235B-A22B-Thinking-2507刚刚发布,就有开发者在千问相关负责人Junyang Lin的X平台下催更这一模型的更小尺寸版本,对此Junyang Lin也下场回复:“下周是 ‘flash’周 。”

▲千问相关负责人回应开发者催更

目前,Qwen3-235B-A22B-Thinking-2507已在魔搭社区、Hugging Face开源,采用极宽松的Apache2.0开源协议,人人均可免费下载商用。用户也可以通过QwenChat体验该模型。

QwenChat体验地址:
chat.qwen.ai
魔搭社区地址:
https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
Hugging Face地址:
https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507

一、全面赶超DeepSeek,比肩OpenAI o3

昨夜,Qwen3-235B-A22B-Thinking-2507模型一经发布,立马在全球范围内收获了极高热度。社交平台X上不少网友点赞分享,有网友称:“这还是我第一次看到名副其实的‘思考模式’!”有人赞叹:“基准测试成绩令人印象深刻!”

▲X网友评价Qwen3-235B-A22B-Thinking-2507

来看看测试情况。如下图所示,最亮眼的应该是编程能力的LiveCodBenchV6的成绩,从5月发布的Qwen3的55.7分提升到了现在74.1分。另外知识能力测试SuperGPQA和推理能力测试HMMT25也都是目前的最高分。

具体来看,在知识方面,Qwen3-235B-A22B-Thinking-2507在MMLU-Redux、GPQA、SuperGPQA的测试中均超越了DeepSeek-R1-0528,并且得分逼近OpenAI o3、Gemini-2.5 Pro等顶尖闭源模型。

在推理方面,Qwen3-235B-A22B-Thinking-2507在AIME25、HMMT25、LiveBenc、HLE几项测试中得分都碾压Deepseek-R1-0528、OpenAI o3、Claude4 Opus Thinking

在编码方面,Qwen3-235B-A22B-Thinking-2507在LiveCodeBench v6、CFEval、OJBench等测试中全面超越Deepseek-R1-0528、OpenAI o4-mini、OpenAI o3

在一致性方面,Qwen3-235B-A22B-Thinking-2507在WritingBench测试中赶超了开源模型Deepseek-R1-0528以及OpenAI o3、Gemini-2.5 Pro等闭源模型,在IFEval、Creative Writing v3等测试方面也接近OpenAI o3、Gemini-2.5 Pro的水平。

在Agent方面,Qwen3-235B-A22B-Thinking-2507在BFCL-v3、TAU2-Retail等测试中得分接近OpenAI o3,赶超了Deepseek-R1-0528、OpenAI o4 mini、Gemini-2.5 Pro

在多语言能力方面,Qwen3-235B-A22B-Thinking-2507在MultiIF、PolyMATH测试中也取得了最好成绩,超越Deepseek-R1-0528、OpenAI o4-mini、OpenAI o3、Gemini-2.5 Pro、Claude4 Opus Thinking等模型

“Qwen势头强劲,正在征服所有人!”一位开发者在社交平台X上称,“Qwen3 235B的搜索能力极致思考模式可不是闹着玩的。它解决了ChatGPT o3-pro上个月破解的难题。”

▲X网友评价Qwen3-235B-A22B-Thinking-2507体验

这个难题描述了一个文字游戏:“Sabrina Carpenter 的那首歌的歌名是什么?当你读出你对这个问题的正确单句回答中每个单词的最后一个字母时,这首歌的歌名也会出现。”如下图所示,Qwen3-235B-A22B-Thinking-2507准确猜出了答案。

▲X网友的试用案例截图

值得一提的是,本次阿里还推出了为三款最新Qwen3模型大规模RL(强化学习)训练提供支持的算法——组序列策略优化 (GSPO)。

通义千问团队相关负责人称:“相较于GRPO,GSPO在稳定性、效率、性能和底层友好度方面均具有显著优势,并且从根本上自然地解决了强化学习中大型MoE模型训练的稳定性问题。”

▲组序列策略优化 (GSPO)技术报告截图

论文地址:

https://huggingface.co/papers/2507.18071

二、一周开源三连冠,剑指闭源巅峰

短短一周时间里,阿里通义千问团队已连续开源了三款模型,横扫全球开源模型权威测评,成绩直追顶级闭源模型。

先是7月22日,阿里更新旗舰版Qwen3模型,推出Qwen3-235B-A22B非思考模式(Non-thinking)的更新版本,命名为Qwen3-235B-A22B-Instruct-2507

新的Qwen3模型通用能力显著提升,在指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面众多测评中,超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型。

▲Qwen3-235B-A22B-Instruct-2507测评成绩

而后在7月23日,阿里开源了其最新一代旗舰编程模型Qwen3-Coder-480B-A35B-Instruct。这是该团队迄今为止最强大的开源智能体编程模型,拥有480B参数,激活参数为35B,原生支持256K上下文。借助Qwen3-Coder,刚入行的程序员一天就能完成资深程序员一周的工作,生成一个品牌官网最快只需5分钟。

在基准测试中,Qwen3-Coder在编程和智能体任务上拥有不错的性能,于Agentic Coding(智能体编程)、Agentic Browser-Use(智能体浏览器使用)和Agentic Tool-Use(智能体工具调用)三类任务中获得了开源SOTA,超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型,并可与Claude Sonnet 4这一以编程能力著称的模型相媲美。

除了模型之外,Qwen还开源了一个由Gemini Code分叉而来的智能体编程命令行工具——Qwen Code,这一工具进行了定制提示和函数调用协议的适配,能更充分的释放Qwen3-Coder在智能体编程任务上的能力。

7月23日当日,阿里云还宣布Qwen3-Coder未来一个月5-7折优惠,256K-1M上下文长度,输入价格10元/百万tokens,输出价格100元/百万tokens;紧接着今日,阿里云宣布通义灵码上线Qwen3-Coder,免费使用不限量。

Qwen3-Coder的开源引发硅谷和全球AI圈热议,获得推特创始人杰克·多尔西、Perplexity CEO阿拉温德·斯里尼瓦斯、a16z合伙人马克·马斯克罗等科技领袖盛赞。HuggingFace CEO克莱门特·德朗格更是多次力荐。

同时,阿里千问API在海外知名模型API聚合平台OpenRouter的调用量暴涨,突破千亿级tokens,在OpenRouter趋势榜上包揽全球前三,成为当下最热门模型。

结语:中国开源力量,改写格局

开源浪潮正重塑大模型竞争规则。阿里通义千问以“三日三冠”的强势表现,不仅横扫开源战场,更在多领域直逼闭源天花板。

此次连续开源顶尖模型,为开发者提供了对标闭源巨头的“开源平权”利器。从硅谷开发者的狂热调用,到全球社区登顶的硬核战绩,阿里正以开源为支点,撬动大模型竞争新范式。中国力量,正在改写全球大模型产业格局。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
祸从口出!默茨提议中方签署广场协议,欧洲央行行长紧急出面降温

祸从口出!默茨提议中方签署广场协议,欧洲央行行长紧急出面降温

面包夹知识
2026-06-24 18:15:04
中国女排赛后赵勇真敢说:这支排球队就是去安卡拉交学费

中国女排赛后赵勇真敢说:这支排球队就是去安卡拉交学费

宝哥精彩赛事
2026-06-24 17:21:06
周星驰《功夫女足》大女主张小斐,闭关半年练咏春,片酬仅占成本15%

周星驰《功夫女足》大女主张小斐,闭关半年练咏春,片酬仅占成本15%

东方不败然多多
2026-06-24 17:43:29
印度一名30岁女子深夜出门如厕遭5人轮奸,体内被塞入实弹、石块,3名嫌犯三个月前就曾入室作恶,警方拒不立案引发众怒

印度一名30岁女子深夜出门如厕遭5人轮奸,体内被塞入实弹、石块,3名嫌犯三个月前就曾入室作恶,警方拒不立案引发众怒

大风新闻
2026-06-24 14:39:04
内马尔首秀,巴西3-0夺小组头名 维尼修斯3场轰4球 19岁新星亮眼

内马尔首秀,巴西3-0夺小组头名 维尼修斯3场轰4球 19岁新星亮眼

替补席看球
2026-06-25 08:04:25
特斯拉推出Model Y原厂后备箱折叠收纳箱,售价245美元

特斯拉推出Model Y原厂后备箱折叠收纳箱,售价245美元

IT之家
2026-06-25 07:59:43
高考721分!全国同专业第一 郭斌(6岁永久失明)已被录取 成为一名盲人双学位大学生#郭斌被录取

高考721分!全国同专业第一 郭斌(6岁永久失明)已被录取 成为一名盲人双学位大学生#郭斌被录取

每日经济新闻
2026-06-25 00:35:45
巴西互联网亲历者:25 年,我没见到一家出海巴西的中企赚到钱

巴西互联网亲历者:25 年,我没见到一家出海巴西的中企赚到钱

霞光社
2026-06-23 09:25:26
阿根廷万人齐唱生日歌,39岁梅西的生日排面有多炸裂?

阿根廷万人齐唱生日歌,39岁梅西的生日排面有多炸裂?

赛场名场面
2026-06-25 01:19:55
丁元英:凡是在社会上混得好的人,不是因为多勤劳,也不是因为多自律,更不是因为朋友遍天下,而是看透了这两点

丁元英:凡是在社会上混得好的人,不是因为多勤劳,也不是因为多自律,更不是因为朋友遍天下,而是看透了这两点

心理观察局
2026-06-23 06:16:29
母亲六十大寿,几个舅舅没来,大舅质问:你老糊涂了?我当场炸了

母亲六十大寿,几个舅舅没来,大舅质问:你老糊涂了?我当场炸了

墨染尘香
2026-06-24 16:22:28
我妈让我给舅舅养老,我反问舅舅的儿子在哪里,她当场说不出话

我妈让我给舅舅养老,我反问舅舅的儿子在哪里,她当场说不出话

枫红染山径
2026-06-24 16:37:35
掀俄罗斯天灵盖的男人:罗伯特·布罗夫迪(马贾尔)

掀俄罗斯天灵盖的男人:罗伯特·布罗夫迪(马贾尔)

取经的兵
2026-06-22 10:40:50
“摸奶子”再惹争议,OPPO的流量反噬开始了

“摸奶子”再惹争议,OPPO的流量反噬开始了

品牌头版
2026-05-13 10:18:15
24岁荷兰天才边锋闪耀世界杯,开价5000万欧,引5大英超豪强疯抢

24岁荷兰天才边锋闪耀世界杯,开价5000万欧,引5大英超豪强疯抢

零度眼看球
2026-06-25 08:59:54
4吨巨蟒被一窝端!177条怀孕雌蛇携4100枚蛇卵被移除,新纪录让挑战者集体绝望

4吨巨蟒被一窝端!177条怀孕雌蛇携4100枚蛇卵被移除,新纪录让挑战者集体绝望

闪存猎手
2026-06-24 02:32:04
好家伙!《中餐厅10》开播就差评一片,观众差评理由出奇一致

好家伙!《中餐厅10》开播就差评一片,观众差评理由出奇一致

星宿影视鸭
2026-06-24 14:39:14
纸尿裤全面失控!举报人再拿重磅铁证,真相恐不只是婴儿生殖受损

纸尿裤全面失控!举报人再拿重磅铁证,真相恐不只是婴儿生殖受损

冰语历史
2026-06-21 11:09:21
武则天跟李世民12年都没怀孕,为何刚嫁给李治就有了?原因很简单

武则天跟李世民12年都没怀孕,为何刚嫁给李治就有了?原因很简单

青史卷中人
2026-06-20 20:22:44
钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

林轻吟
2026-05-22 07:33:52
2026-06-25 10:03:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12114文章数 117112关注度
往期回顾 全部

科技要闻

盘后大涨16%!AI存储需求带飞美光业绩

头条要闻

日本监视辽宁舰编队实训跟丢了 "快门"都没来得及按

头条要闻

日本监视辽宁舰编队实训跟丢了 "快门"都没来得及按

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

财报炸裂!美光让空头闭嘴

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

教育
亲子
艺术
本地
公开课

教育要闻

高考出分!选专业读这套书,听北大名师开讲

亲子要闻

十五:我呢?我呢!为啥不带我!

艺术要闻

写意,不是狂涂乱抹

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版