网易首页 > 网易号 > 正文 申请入驻

Qwen“半成品”推理模型刷下AIME满分,俘获大批国外开发者!实测碾压GPT-5 Thinking、还能写侦探小说

0
分享至


整理 | 华卫

“当所有人都在关注 OpenAI 的各种风波时,通义千问正在低调发力。中国的 AI 实验室确实有着不一样的发展节奏。”

刚刚,阿里发布了最新推理模型 Qwen3-Max-Thinking 的早期预览版,一位国外的网友对其发出这样的感叹。

Qwen3-Max-Thinking 是 Qwen3-Max-Preview 的推理增强版本,目前还是一个仍在训练中的中间检查点模型。但据称,即便在当前阶段,当该模型结合工具使用功能并提升测试时的计算规模后,它在 AIME 2025、HMMT 等具有挑战性的国际知名的高水平数学推理竞赛中,已能实现 100% 的正确率。


现在,用户可在 Qwen Chat 及阿里云 API 中试用当前版本,随着训练的持续推进,后续还将推出更多更新。


Qwen Chat: https://chat.qwen.ai/?thinking=true

阿里云 API(enable_thinking=True): https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

虽然刚推出不久,但上新推理功能的 Qwen3-Max-Preview 在 AI 社区迅速引起了关注。不少国外网友纷纷评价道,“对于一个中间检查点模型来说,能在 AIME 上实现 100% 正确率堪称疯狂。”而这似乎意味着:现在我们正逐渐进入一个新阶段:这些模型不再只是机械输出答案,而是真的开始通过思考来解决问题了。

值得注意的是,此前该模型还没有推理能力时,社区内就有许多用户基于个人体验广泛反馈,其在某些推理类任务上的表现比官方宣传的更出色。

排名比 Deepseek-V3.1 高,

速度也比 ChatGPT 更快?

Qwen3-Max-Preview 最早在今年 9 月下旬推出,是阿里迄今为止规模最大、能力最强的语言模型,参数量在 1 万亿以上,预训练数据达到 36T tokens。该模型支持 262144 个 token 的上下文窗口,最大输入 token 数为 258048,最大输出 token 数为 32768。模型还支持上下文缓存功能,可在长时间会话中优化性能表现。

根据通义千问(Qwen)公布的对比基准测试数据显示,该 1 万亿参数模型在多项测试中均处于领先地位。在 SuperGPQA、AIME25、LiveCodeBench v6、Arena-Hard v2 以及 LiveBench(2024 年 11 月 25 日版本)等测试中,Qwen3-Max-Preview 的排名始终高于 Claude Opus 4、Kimi K2 和 Deepseek-V3.1。

在放出思考模式之前,就有外媒对其进行简短、纯经验性测试后称,Qwen3-Max-Preview 不仅规避了大语言模型(LLM)常见的缺陷, 比如错误统计 “Strawberry” 一词中字母 “R” 的出现次数、错误判断 9.11 与 9.11 哪个更大,而且响应速度极快。在 Qwen Chat 上的初步测试中,它的速度也确实比 ChatGPT 更快。

同时,有用户反馈,尽管当时 Qwen3-Max-Preview 并未被定位为推理模型,但在其测试中,该模型的表现优于多款 SOTA 模型,不仅能解决基础算术题、24 点类谜题,甚至还攻克了一道“GPT-5 Thinking 和 Gemini 2.5 Pro 无工具辅助时均无法解答” 的题目。根据其观察,面对更难的挑战时,该模型似乎会切换到类推理模式,输出结构清晰、步骤分明的答案。


并且,Qwen3-Max-Preview 已成为 Hugging Face 机器学习增长负责人 Ahsen Khaliq 开发的开源编程工具 AnyCoder 中的默认选项。Khaliq 还在 X 上发布了一张屏幕截图,展示了它如何在 AnyCoder 上的单个提示中创建一个完整的体素像素花园。


不过,与通义千问以往发布的开源版本不同,Qwen3-Max-Preview 未基于开源许可证发布。这意味着现阶段开发者需通过该公司的付费 API,或上述提及的分销合作伙伴获取其使用权。阿里云为 Qwen3-Max-Preview 推出了分级定价方案,费率根据输入 token 的规模不同而变化:

  • 0–32K token:每百万输入 token 0.861 美元,每百万输出 token 3.441 美元

  • 32K–128K token:每百万输入 token 1.434 美元,每百万输出 token 5.735 美元

  • 128K–252K token:每百万输入 token 2.151 美元,每百万输出 token 8.602 美元

通义千问强调,该模型专为复杂推理、代码编写、处理 JSON 等结构化数据格式,以及创意类任务设计。其能力还延伸至通用对话与智能体行为,使其成为适用于企业与科研场景的多用途工具。

推理版的实测表现如何?

如今的 Qwen3-Max-Preview 实现了思考与非思考模式的有效融合。在思维模式下,其智能体编程、常识推理以及跨数学、科学和通用领域的推理等能力有了显著增强。不过,当前的早期预览版仅支持文本到文本这一模态,输出是“限时免费”的。

目前,已有不少开发者和 AI 爱好者对该模型进行了实测体验并放出了使用感受。

一名开发者称,“在处理简单提示词时,Qwen3-Max-Thinking 的表现优于复杂提示词场景。从前端开发的角度来看,Qwen3-Max-Thinking 的表现比较一般。在部分推理题上,Qwen3-Max-Thinking 的表现超过了 GPT-5 Thinking。”


知名 YouTube 博主、AI 云工程师 Fahd Mirza 也第一时间测试了 Qwen3-Max-Thinking,案例是要求它创建一个使用 p5.js 的独立 HTML 文件,结果是:第一次尝试它就做得非常出色,几乎完成了代码的创建,描述了功能以及如何使用,最终呈现的效果也相当不错。

视频源@Fahd Mirza(Qwen3-Max Thinking Released: Best Qwen Yet https://www.youtube.com/watch?v=DF5NMgMUmbw)

然而,也有开发者在实测该模型后先是表示,“考虑到它目前还只是预览版,团队确实需要抓紧时间继续训练优化。短期内不建议用它来处理编程类任务。”后又补充道,“根据测试结论,Max 系列可能不再适用于编程了。”

视频源 @karminski3(https://x.com/karminski3/status/1985233932405891348)

这名开发者在社交平台上分享了他对 Qwen3-Max-Thinking 的详细测试结果:

“大象牙膏” 实验测试中,画面看起来整体偏暗且模糊,但这其实是光线问题 —— 我已经放大画面让大家看清效果了。模型生成的场景建模和粒子效果只能说一般。提示词的完成度则非常差。过山车测试表现还不错,各部件衔接虽不算完全平滑,但没有出现断裂情况,不过支撑柱存在部分穿模问题。鞭炮连锁爆炸测试完全不合格:无法完成连锁反应演示,物理效果也不太对。而且成功率极低,6 次生成中只有 1 次没有代码错误。Python 倒水程序测试表现尚可,在顶级模型里算是达到及格水平。

另外,生成过程中的网页界面过于花哨。提示词里并没有要求这么复杂的设计,但最终呈现的效果却夸张得离谱。那它擅长写前端页面吗?答案是否定的。我让它写了一个瀑布流图片网站 —— 这个需求很考验前端布局能力,大家可以看看结果。它做的布局一团乱,所有卡片都叠在一起了。相比之下,GLM-4.6 就做得很好,在不同缩放比例下都能实现完美的 CSS 布局。

与此同时,还有用户在 Qwen3-Max-Thinking 的帮助下写了一篇黑色侦探小说,并评价其“展现出强大的推理能力,是正在发展中的前沿 AI 该有的样子”。

https://venturebeat.com/ai/qwen3-max-arrives-in-preview-with-1-trillion-parameters-blazing-fast

声明:本文为 AI前线翻译整理,不代表平台观点,未经许可禁止转载。

会议预告

12 月 19~20 日,AICon 2025 年度收官站 · 北京见。两天时间,聊最热的 Agent、上下文工程、AI 产品创新等等话题,与头部企业与创新团队的专家深度交流落地经验与思考。2025 年最后一场,不容错过。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
43岁蔡卓妍官宣结婚,婚戒照好幸福,老公比她小10岁是健身教练

43岁蔡卓妍官宣结婚,婚戒照好幸福,老公比她小10岁是健身教练

扒虾侃娱
2026-04-28 12:34:53
055大驱直接发射鹰击-20,当着七国的面开火,解放军反制稳控南海

055大驱直接发射鹰击-20,当着七国的面开火,解放军反制稳控南海

策前论
2026-04-27 19:31:37
收复藏南,必须同时遣返上百万移民,中国绝不允许出现“印度族”

收复藏南,必须同时遣返上百万移民,中国绝不允许出现“印度族”

朝子亥
2026-04-27 05:40:03
豆包提前查到事业编成绩单,全网炸了!

豆包提前查到事业编成绩单,全网炸了!

互联网品牌官
2026-04-27 18:11:08
匈牙利一夜变天:马扎尔开启全面清算!欧尔班往哪走?

匈牙利一夜变天:马扎尔开启全面清算!欧尔班往哪走?

大江看潮
2026-04-27 09:05:55
惨不忍睹!大胜19分,却正负值-13全队最低,5300万啊,真打水漂

惨不忍睹!大胜19分,却正负值-13全队最低,5300万啊,真打水漂

球童无忌
2026-04-27 22:11:56
马加爵死刑背后:女同学透露一个难以启齿的秘密

马加爵死刑背后:女同学透露一个难以启齿的秘密

深度报
2026-04-27 22:10:57
纸面富贵彭永东

纸面富贵彭永东

定焦One
2026-04-26 18:41:23
女子新婚夜和前夫,新郎睡一张床上,2015年前夫将她的新郎杀死了

女子新婚夜和前夫,新郎睡一张床上,2015年前夫将她的新郎杀死了

汉史趣闻
2026-04-27 18:38:25
43岁蔡卓妍官宣再婚!嫁给小10岁健身教练,明星好友纷纷祝福

43岁蔡卓妍官宣再婚!嫁给小10岁健身教练,明星好友纷纷祝福

萌神木木
2026-04-28 12:45:29
5月1日起抽烟买烟迎来变化,6条红线碰不得,违规就罚款!

5月1日起抽烟买烟迎来变化,6条红线碰不得,违规就罚款!

老特有话说
2026-04-27 17:43:49
上海地铁互殴后续:央媒发声定调,女子工作恐不保,知情人曝更多

上海地铁互殴后续:央媒发声定调,女子工作恐不保,知情人曝更多

以茶带书
2026-04-27 19:23:12
今年“五一”假期小客车上高速继续免收通行费

今年“五一”假期小客车上高速继续免收通行费

界面新闻
2026-04-28 14:05:28
调查揭露:俄罗斯通过货运航班获取关键军工部件

调查揭露:俄罗斯通过货运航班获取关键军工部件

桂系007
2026-04-28 04:35:53
太阳被横扫狄龙并无沮丧!与SGA拥抱热聊 场均26分压布克格林足矣

太阳被横扫狄龙并无沮丧!与SGA拥抱热聊 场均26分压布克格林足矣

颜小白的篮球梦
2026-04-28 12:27:28
拒绝闭门造车,北汽探索BIP模式,北京81先来打个样

拒绝闭门造车,北汽探索BIP模式,北京81先来打个样

汽车网评
2026-04-28 09:08:37
上海地铁抢座互殴反转!原视频曝光,难怪女子不肯让座

上海地铁抢座互殴反转!原视频曝光,难怪女子不肯让座

行者聊官
2026-04-28 08:42:52
山西突发重大命案!33岁未婚男杀害离婚女后潜逃,逃跑画面流出

山西突发重大命案!33岁未婚男杀害离婚女后潜逃,逃跑画面流出

老猫观点
2026-04-28 07:34:27
千万粉丝网红白冰偷税超900万元被查,用公司购买个人使用的奢侈品,白冰多平台账号仍可正常关注

千万粉丝网红白冰偷税超900万元被查,用公司购买个人使用的奢侈品,白冰多平台账号仍可正常关注

极目新闻
2026-04-28 11:20:23
“你画的红线,走不通”——伊朗内部那封被自己人捅出来的密信

“你画的红线,走不通”——伊朗内部那封被自己人捅出来的密信

民间胡扯老哥
2026-04-28 06:54:22
2026-04-28 14:12:49
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1463文章数 147关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

男子强奸大嫂出狱后又杀人 被执行死刑

头条要闻

男子强奸大嫂出狱后又杀人 被执行死刑

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

俞敏洪再遭重击

汽车要闻

上汽大众“攻山头” ID.ERA 9X剑指细分前三

态度原创

房产
手机
本地
数码
军事航空

房产要闻

信号!海南商业版图,迎来大变局!

手机要闻

华为三折叠手机持续迭代 新款预计10月推出

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

比AMD还狠!Intel发新驱动:可分配93%内存给核显

军事要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

无障碍浏览 进入关怀版