网易首页 > 网易号 > 正文 申请入驻

Qwen“半成品”推理模型刷下AIME满分,俘获大批国外开发者!实测碾压GPT-5 Thinking、还能写侦探小说

0
分享至


整理 | 华卫

“当所有人都在关注 OpenAI 的各种风波时,通义千问正在低调发力。中国的 AI 实验室确实有着不一样的发展节奏。”

刚刚,阿里发布了最新推理模型 Qwen3-Max-Thinking 的早期预览版,一位国外的网友对其发出这样的感叹。

Qwen3-Max-Thinking 是 Qwen3-Max-Preview 的推理增强版本,目前还是一个仍在训练中的中间检查点模型。但据称,即便在当前阶段,当该模型结合工具使用功能并提升测试时的计算规模后,它在 AIME 2025、HMMT 等具有挑战性的国际知名的高水平数学推理竞赛中,已能实现 100% 的正确率。


现在,用户可在 Qwen Chat 及阿里云 API 中试用当前版本,随着训练的持续推进,后续还将推出更多更新。


Qwen Chat: https://chat.qwen.ai/?thinking=true

阿里云 API(enable_thinking=True): https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

虽然刚推出不久,但上新推理功能的 Qwen3-Max-Preview 在 AI 社区迅速引起了关注。不少国外网友纷纷评价道,“对于一个中间检查点模型来说,能在 AIME 上实现 100% 正确率堪称疯狂。”而这似乎意味着:现在我们正逐渐进入一个新阶段:这些模型不再只是机械输出答案,而是真的开始通过思考来解决问题了。

值得注意的是,此前该模型还没有推理能力时,社区内就有许多用户基于个人体验广泛反馈,其在某些推理类任务上的表现比官方宣传的更出色。

排名比 Deepseek-V3.1 高,

速度也比 ChatGPT 更快?

Qwen3-Max-Preview 最早在今年 9 月下旬推出,是阿里迄今为止规模最大、能力最强的语言模型,参数量在 1 万亿以上,预训练数据达到 36T tokens。该模型支持 262144 个 token 的上下文窗口,最大输入 token 数为 258048,最大输出 token 数为 32768。模型还支持上下文缓存功能,可在长时间会话中优化性能表现。

根据通义千问(Qwen)公布的对比基准测试数据显示,该 1 万亿参数模型在多项测试中均处于领先地位。在 SuperGPQA、AIME25、LiveCodeBench v6、Arena-Hard v2 以及 LiveBench(2024 年 11 月 25 日版本)等测试中,Qwen3-Max-Preview 的排名始终高于 Claude Opus 4、Kimi K2 和 Deepseek-V3.1。

在放出思考模式之前,就有外媒对其进行简短、纯经验性测试后称,Qwen3-Max-Preview 不仅规避了大语言模型(LLM)常见的缺陷, 比如错误统计 “Strawberry” 一词中字母 “R” 的出现次数、错误判断 9.11 与 9.11 哪个更大,而且响应速度极快。在 Qwen Chat 上的初步测试中,它的速度也确实比 ChatGPT 更快。

同时,有用户反馈,尽管当时 Qwen3-Max-Preview 并未被定位为推理模型,但在其测试中,该模型的表现优于多款 SOTA 模型,不仅能解决基础算术题、24 点类谜题,甚至还攻克了一道“GPT-5 Thinking 和 Gemini 2.5 Pro 无工具辅助时均无法解答” 的题目。根据其观察,面对更难的挑战时,该模型似乎会切换到类推理模式,输出结构清晰、步骤分明的答案。


并且,Qwen3-Max-Preview 已成为 Hugging Face 机器学习增长负责人 Ahsen Khaliq 开发的开源编程工具 AnyCoder 中的默认选项。Khaliq 还在 X 上发布了一张屏幕截图,展示了它如何在 AnyCoder 上的单个提示中创建一个完整的体素像素花园。


不过,与通义千问以往发布的开源版本不同,Qwen3-Max-Preview 未基于开源许可证发布。这意味着现阶段开发者需通过该公司的付费 API,或上述提及的分销合作伙伴获取其使用权。阿里云为 Qwen3-Max-Preview 推出了分级定价方案,费率根据输入 token 的规模不同而变化:

  • 0–32K token:每百万输入 token 0.861 美元,每百万输出 token 3.441 美元

  • 32K–128K token:每百万输入 token 1.434 美元,每百万输出 token 5.735 美元

  • 128K–252K token:每百万输入 token 2.151 美元,每百万输出 token 8.602 美元

通义千问强调,该模型专为复杂推理、代码编写、处理 JSON 等结构化数据格式,以及创意类任务设计。其能力还延伸至通用对话与智能体行为,使其成为适用于企业与科研场景的多用途工具。

推理版的实测表现如何?

如今的 Qwen3-Max-Preview 实现了思考与非思考模式的有效融合。在思维模式下,其智能体编程、常识推理以及跨数学、科学和通用领域的推理等能力有了显著增强。不过,当前的早期预览版仅支持文本到文本这一模态,输出是“限时免费”的。

目前,已有不少开发者和 AI 爱好者对该模型进行了实测体验并放出了使用感受。

一名开发者称,“在处理简单提示词时,Qwen3-Max-Thinking 的表现优于复杂提示词场景。从前端开发的角度来看,Qwen3-Max-Thinking 的表现比较一般。在部分推理题上,Qwen3-Max-Thinking 的表现超过了 GPT-5 Thinking。”


知名 YouTube 博主、AI 云工程师 Fahd Mirza 也第一时间测试了 Qwen3-Max-Thinking,案例是要求它创建一个使用 p5.js 的独立 HTML 文件,结果是:第一次尝试它就做得非常出色,几乎完成了代码的创建,描述了功能以及如何使用,最终呈现的效果也相当不错。

视频源@Fahd Mirza(Qwen3-Max Thinking Released: Best Qwen Yet https://www.youtube.com/watch?v=DF5NMgMUmbw)

然而,也有开发者在实测该模型后先是表示,“考虑到它目前还只是预览版,团队确实需要抓紧时间继续训练优化。短期内不建议用它来处理编程类任务。”后又补充道,“根据测试结论,Max 系列可能不再适用于编程了。”

视频源 @karminski3(https://x.com/karminski3/status/1985233932405891348)

这名开发者在社交平台上分享了他对 Qwen3-Max-Thinking 的详细测试结果:

“大象牙膏” 实验测试中,画面看起来整体偏暗且模糊,但这其实是光线问题 —— 我已经放大画面让大家看清效果了。模型生成的场景建模和粒子效果只能说一般。提示词的完成度则非常差。过山车测试表现还不错,各部件衔接虽不算完全平滑,但没有出现断裂情况,不过支撑柱存在部分穿模问题。鞭炮连锁爆炸测试完全不合格:无法完成连锁反应演示,物理效果也不太对。而且成功率极低,6 次生成中只有 1 次没有代码错误。Python 倒水程序测试表现尚可,在顶级模型里算是达到及格水平。

另外,生成过程中的网页界面过于花哨。提示词里并没有要求这么复杂的设计,但最终呈现的效果却夸张得离谱。那它擅长写前端页面吗?答案是否定的。我让它写了一个瀑布流图片网站 —— 这个需求很考验前端布局能力,大家可以看看结果。它做的布局一团乱,所有卡片都叠在一起了。相比之下,GLM-4.6 就做得很好,在不同缩放比例下都能实现完美的 CSS 布局。

与此同时,还有用户在 Qwen3-Max-Thinking 的帮助下写了一篇黑色侦探小说,并评价其“展现出强大的推理能力,是正在发展中的前沿 AI 该有的样子”。

https://venturebeat.com/ai/qwen3-max-arrives-in-preview-with-1-trillion-parameters-blazing-fast

声明:本文为 AI前线翻译整理,不代表平台观点,未经许可禁止转载。

会议预告

12 月 19~20 日,AICon 2025 年度收官站 · 北京见。两天时间,聊最热的 Agent、上下文工程、AI 产品创新等等话题,与头部企业与创新团队的专家深度交流落地经验与思考。2025 年最后一场,不容错过。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

有书
2026-01-09 21:30:59
泰王真会玩:20位妃嫔被军事化编号,方便角色扮演,陪伴目的不同

泰王真会玩:20位妃嫔被军事化编号,方便角色扮演,陪伴目的不同

毒舌小红帽
2026-01-16 18:07:27
“谁还敢用你?”211女硕士被体制内劝退,网友看清现实:自找的

“谁还敢用你?”211女硕士被体制内劝退,网友看清现实:自找的

妍妍教育日记
2025-12-26 18:10:09
女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

第7情感
2025-09-17 12:12:15
中方是否正采取措施让美国释放马杜罗夫妇?外交部回应

中方是否正采取措施让美国释放马杜罗夫妇?外交部回应

澎湃新闻
2026-01-27 16:03:25
大批中成药将被淘汰

大批中成药将被淘汰

第一财经资讯
2026-01-27 21:47:13
抢劫嫌犯在18名特警围堵中消失,12年后民警惊呆:他一直在身边

抢劫嫌犯在18名特警围堵中消失,12年后民警惊呆:他一直在身边

罪案洞察者
2025-09-13 14:35:01
纪实:05年天上人间花魁惨死,一晚挣400万,死前遭凶手恶意折磨

纪实:05年天上人间花魁惨死,一晚挣400万,死前遭凶手恶意折磨

谈史论天地
2026-01-28 16:40:03
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
一场旅行亏掉110万!从存款40万到负债70万,这坑千万别踩!

一场旅行亏掉110万!从存款40万到负债70万,这坑千万别踩!

青眼财经
2026-01-27 23:05:28
韩国前总统夫人金建希首案一审宣判,获刑1年8个月!参与德意志汽车公司股价操纵等多项罪名被判无罪

韩国前总统夫人金建希首案一审宣判,获刑1年8个月!参与德意志汽车公司股价操纵等多项罪名被判无罪

每日经济新闻
2026-01-28 14:34:06
林心如发福了好多不仅双下巴明显,连嘴和牙都变大了表情也很夸张

林心如发福了好多不仅双下巴明显,连嘴和牙都变大了表情也很夸张

胖松松与瘦二毛
2026-01-28 12:29:50
三家公司突发公告!广东女富豪,被留置

三家公司突发公告!广东女富豪,被留置

南方都市报
2026-01-28 12:36:12
很多医院已经开始欠薪

很多医院已经开始欠薪

黯泉
2026-01-27 22:20:11
郎平也没想到,当年留给前夫在美国长大的女儿,如今成了她的骄傲

郎平也没想到,当年留给前夫在美国长大的女儿,如今成了她的骄傲

削桐作琴
2026-01-28 12:39:59
破案了!U23国足王牌王钰栋留洋悬念尘埃落定,没想到东体这样说

破案了!U23国足王牌王钰栋留洋悬念尘埃落定,没想到东体这样说

曹说体育
2026-01-28 15:39:57
薄一波打断原副总理姬鹏飞的电话,说:别执迷不悟,他罪该万死

薄一波打断原副总理姬鹏飞的电话,说:别执迷不悟,他罪该万死

抽象派大师
2026-01-26 19:07:26
裸车 19.99 万元,曾经一车难求的雷克萨斯 ES,也开始打折卖了

裸车 19.99 万元,曾经一车难求的雷克萨斯 ES,也开始打折卖了

爱范儿
2026-01-27 20:47:25
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
王玉雯和杨玏分手实锤!狗仔大爆猛料,两人有豪宅,恋情早有裂痕

王玉雯和杨玏分手实锤!狗仔大爆猛料,两人有豪宅,恋情早有裂痕

李健政观察
2026-01-27 14:13:25
2026-01-28 17:19:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1275文章数 113关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

女生晒春运"出国回家"攻略:连飞俄两地再坐船回黑龙江

头条要闻

女生晒春运"出国回家"攻略:连飞俄两地再坐船回黑龙江

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

40倍杠杆断裂!水贝一黄金平台兑付困难

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

时尚
家居
教育
艺术
数码

被章若楠、舒淇带火的毛衣,这样穿太时髦了!

家居要闻

跃式别墅 包络石木为生

教育要闻

高中生填志愿新风口!3所高校中外合作办学,就业深造双buff加持

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

数码要闻

戴尔2026款Dell XPS轻薄本上架官网,28127.98元起

无障碍浏览 进入关怀版