网易首页 > 网易号 > 正文 申请入驻

Qwen3-Max思考版上线,集成代码解释器攻坚复杂数学

0
分享至

11 月 3 日,阿里巴巴推出 Qwen3-Max-Thinking 早期预览版。Qwen3-Max-Thinking 是 Qwen3-Max 的推理增强版本,它通过集成代码解释器和运用并行测试时计算技术,展现出较强的推理能力。据了解,Qwen3-Max 是阿里巴巴于今年 9 月下旬推出的该公司迄今为止规模最大、能力最强的语言模型,参数量在 1 万亿以上,预训练数据达到 36T tokens。


图 | Qwen3-Max-Thinking 早期预览版的相关 X 推文(来源:X)

目前,Qwen3-Max 推理模型仍在持续训练中,即便使用当前的 Checkpoint,当借助工具调用和规模化的测试时计算时,阿里巴巴表示该模型可在 AIME 25 和 HMMT25 等挑战性较高的数学推理基准测试中达到 100% 的准确率。

Qwen3-Max-Thinking 早期预览版融合了思考模式与非思考模式。当开启思考模式的时候,模型可以很好地执行常识推理和智能体编程等能力,也在数学、科学和其他通用领域具有较好的推理能力。


(来源:实测图)

在实测中,当笔者让 Qwen3-Max-Thinking 完成一个名为“数学推理与可视化智能体”的智能体编程任务时,它花了较长时间思考,消耗的 tokens 也不算低。


(来源:实测截图)


(来源:实测图)

经过几分钟的思考以及长达 527 行的代码,它给出了一个示例输出报告,附上了完整的 HTML 报告示例,并指出这一智能体通过多路径验证可以确保数学严谨性,通过结果的专业可视化能够提供直观的洞察,在架构设计上支持扩展至微积分和组合优化等其他数学问题类型,能够为复杂数学推理任务提供完整解决方案。


(来源:实测图)

当给到 Qwen3-Max-Thinking 一个名为“社区生活情境推理”的常识推理任务时,它给出了两千多字的回答,在这一回答中它根据线索开展了常识分析,给出了逐步重建的核心常识,并进行了超越表面问题的深度风险分析。


图 | “社区生活情境推理”的常识推理任务的描述(来源:实测图)


(来源:实测图)

一位名为“MZift”的 X 网友在 Qwen 的 X 推文下表示:“在 AIME 测试中斩获满分着实惊人,即使是阶段性测试也堪称突破。当众人沉迷于 OpenAI 的纷争时,Qwen 正在悄然蓄力。中国 AI 实验室的崛起之路,果然别具一格。”另一位名为“Kenshii”的 X 网友也评论称:“竟能在AlME 2025 这一中期基准测试中拿到满分?这实力着实骇人。”


图 | X 网友评论(来源:X)

但也有网友根据试用体验表达了自己遇到的问题,一位名为“Goutham Rajesh”的 X 网友表示:“我在试用带有‘思考过程’的 Qwen3-Max 时,页面竟然陷入了无限滚动模式,每当生成响应内容,页面便持续地进行递归式自行滚动,直到完全生成内容才会停止。这一现象仅限于 Qwen3-Max 思考模式。”写完这段话,这位网友还艾特了 Qwen 的 X 账号来反馈该问题。


图 | X 网友评论(来源:X)

事实上,这并非阿里的突然发布。11 月 2 日,通义千问负责人林俊旸已经在 X 上预告称:“它来了,你们可以试试。”关于 Qwen3-Max-Thinking 早期预览版,尚未在 Hugging Face 和魔搭等平台开源。目前,用户可以在 Qwen Chat 中免费试体验,也可以在阿里云百炼平台上调用 API。需要说明的是,文本到文本——是 Qwen3-Max-Thinking 早期预览版目前支持的唯一模态。在对外提供 API 服务上,它采用输出限时免费的方式。未来随着训练的进一步开展,阿里也将推出更多版本。

名为“ρ:ɡeσn”的 X 网友已经根据 Qwen 的模型时间给出了推测:“Qwen3-Max 预览版于 9 月 5 日发布,正式指令版于 9 月 23 日亮相,其间相隔 18 天。假如思考模型也遵循这一时间线,那么 Qwen3-Max-Thinking 正式版有望于 11 月 20 日到 11 月 21 日之间亮相。”是否真的如此,或许不久之后即将揭晓。

参考资料:

https://chat.qwen.ai/

阅读 1666

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
香港名流饭局一幕:杨澜没理张艺谋,转头握旁人

香港名流饭局一幕:杨澜没理张艺谋,转头握旁人

阿废冷眼观察所
2026-02-14 20:31:06
绝对是细糠!普通女生无成本长脑子的方法,网友:我将慢慢学习

绝对是细糠!普通女生无成本长脑子的方法,网友:我将慢慢学习

夜深爱杂谈
2026-02-08 21:23:15
澳洲杨兰兰是谁?五层“身份套娃”揭秘:她或许根本就不存在

澳洲杨兰兰是谁?五层“身份套娃”揭秘:她或许根本就不存在

麦大人
2025-08-18 18:02:38
工龄31年4个月,个人账户85298.25元,60岁退休,养老金有多少?

工龄31年4个月,个人账户85298.25元,60岁退休,养老金有多少?

起喜电影
2026-02-15 16:47:27
科莫利:意大利足球失去的远比三分更多,这是彻头彻尾的不公

科莫利:意大利足球失去的远比三分更多,这是彻头彻尾的不公

懂球帝
2026-02-15 07:40:47
女老师与学生偷情:一周开房四次使用道具助兴,大量私密细节披露

女老师与学生偷情:一周开房四次使用道具助兴,大量私密细节披露

博士观察
2026-02-15 12:34:22
美军宣布:发动空袭

美军宣布:发动空袭

中国基金报
2026-02-15 16:10:23
什么是干休所,要达到什么军衔的军官,才能进干休所?

什么是干休所,要达到什么军衔的军官,才能进干休所?

触摸史迹
2025-12-21 19:31:28
81年彭真会见江青,江青大骂一句,彭真一脸淡定:你还有什么要求

81年彭真会见江青,江青大骂一句,彭真一脸淡定:你还有什么要求

舆图看世界
2025-12-09 08:45:05
重磅加盟!你好,麦基!彻底轰动整个CBA

重磅加盟!你好,麦基!彻底轰动整个CBA

篮球实战宝典
2026-02-15 16:07:58
别被马斯克忽悠了!星链撑不起人类通讯,中国通信基建才是底气

别被马斯克忽悠了!星链撑不起人类通讯,中国通信基建才是底气

像梦一场a
2026-02-13 20:20:26
宝马独立子品牌发布全新品牌标识!

宝马独立子品牌发布全新品牌标识!

新浪财经
2026-02-14 21:40:19
王菲将六登春晚,献唱《你我经历的一刻》;此前五次登台首首爆火,去年《世界赠予我的》创收视峰值

王菲将六登春晚,献唱《你我经历的一刻》;此前五次登台首首爆火,去年《世界赠予我的》创收视峰值

扬子晚报
2026-02-15 08:40:17
没有新闻发布会,没有告别仪式,几页黑底白字,传奇就这么落幕了

没有新闻发布会,没有告别仪式,几页黑底白字,传奇就这么落幕了

阿浪的篮球故事
2026-02-14 16:30:43
非常观察|马年新表扎堆上市,谁更懂中国市场?

非常观察|马年新表扎堆上市,谁更懂中国市场?

澎湃新闻
2026-02-14 16:22:29
王毅在慕尼黑安全会议上,拿德国和日本作对比,日本媒体人不干了

王毅在慕尼黑安全会议上,拿德国和日本作对比,日本媒体人不干了

安安说
2026-02-15 12:43:39
从被骂水货到大腿!利物浦 21 岁新援爆发,一战打脸所有质疑者

从被骂水货到大腿!利物浦 21 岁新援爆发,一战打脸所有质疑者

奶盖熊本熊
2026-02-15 16:55:57
布伦森和唐斯:为比赛训练了10秒钟 感谢休斯顿带领我们夺冠

布伦森和唐斯:为比赛训练了10秒钟 感谢休斯顿带领我们夺冠

北青网-北京青年报
2026-02-15 15:04:05
全线大涨!超9万人爆仓!

全线大涨!超9万人爆仓!

吉刻新闻
2026-02-15 15:05:37
高志凯:中国若真给日本断供,别说大蒜、洋葱,棺材板可能都没了

高志凯:中国若真给日本断供,别说大蒜、洋葱,棺材板可能都没了

荷兰豆爱健康
2026-02-15 16:47:57
2026-02-15 18:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16270文章数 514614关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

网红带货"100%纯牛肉"涉虚假宣传 事后道歉但拒绝赔偿

头条要闻

网红带货"100%纯牛肉"涉虚假宣传 事后道歉但拒绝赔偿

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

房产
旅游
游戏
教育
数码

房产要闻

三亚新机场,又传出新消息!

旅游要闻

红墙为底,福字点睛,繁花作伴——中山公园的新春大片无需滤镜

感谢中国玩家支持 《剑星》官方用中文向玩家拜年

教育要闻

五年级求面积,中点是解题关键

数码要闻

央视主持人马凡舒点赞!追觅T60 Ultra洗地机春晚后台实力救场

无障碍浏览 进入关怀版