网易首页 > 网易号 > 正文 申请入驻

刚刚,阿里祭出Qwen3超大杯思考模型,数学考试满分,实测竟成token“吞金兽”

0
分享至


智东西
作者 陈骏达
编辑 李水青

阿里的“超大杯”思考模型,终于现身了!

智东西11月4日报道,刚刚,阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的早期预览版。尽管这一模型只是一个训练的中间检查点,但它已借助工具使用和测试时计算,在AIME 2025和HMMT(哈佛-MIT数学锦标赛)等具有挑战性的推理基准测试中,达到100%的准确率。


不过,这一模型其实已经在通义千问负责人林俊旸的个人社交媒体账号上获得了“超前点映”:在11月2日的23点54分,林俊旸便发文“它来了,你们可以试试”,配图是开启思考模式的Qwen3-Max。


Qwen团队并未透露Qwen3-Max-Thinking早期预览版的更多信息,模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称,随着训练的继续,更多版本将会推出。

用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍,Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合,在思考模式下,模型在智能体编程、常识推理,以及数学、科学和通用领域的推理能力等方面都有显著提升。

体验链接:

chat.qwen.ai/?thinking=true

API调用:

https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

值得注意的是,Qwen3-Max-Thinking早期预览版仅支持文本到文本这一模态,并选择以输出“限时免费”的模式对外提供API服务。


我们在体验中发现,Qwen3-Max-Thinking早期预览版的确挺费token的,如果不是限时免费输出的话,使用成本或许会较为高昂。

不过,该问题是可以用自带的思考预算控件解决的,用户可以在1024-81920个token的思考预算区间内随意切换,直接控制模型的推理长度。


智东西在Qwen Chat中体验了Qwen3-Max-Thinking早期预览版的能力。要使用这一模型,用户需要在左上方选择Qwen3-Max,并开启输入框中的Thinking模式。


既然Qwen3-Max-Thinking早期预览版在AIME 2025上拿下了满分,我们便拿这场竞赛难度最高的压轴题,来考察该模型的数学推理能力。

可以看到,Qwen3-Max-Thinking早期预览版在其思考过程反复输出了正确答案,不断验算,不断以新的方式解题目,甚至调用了代码解释器,从多种角度证明了其结果。


这一过程耗时大概4-5分钟,不过确实保证了答案的完全正确。将这一结果放到token计数器后,大致计算出其对应的token用量在1.2万-1.5万之间。


在智能体编程任务上,我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相同的任务——开发一个开源项目分享网站的HTML原型。

Qwen3-Max-Thinking早期预览版能准确分析用户需求,输出所需的网页。网页设计简洁清晰,也符合开源项目分享网站的基本使用需求,就是在样式和字体选择上略显粗糙。


对于其输出的网站结果而言,Qwen3-Max-Thinking早期预览版消耗的token数量明显偏多。反映到代码数量上,这一模型使用了整整1417行代码完成了任务。


开启深度推理的DeepSeek-V3.2生成了如下网页预览,代码源文件中包含787行代码。


在常识推理类任务上,Qwen3-Max-Thinking早期预览版能很容易地绕开逻辑陷阱。


不过,平心而论,此类题目Qwen-3-Max也能轻松解决,只需要几十个字。


已经有不少网友用上了Qwen3-Max-Thinking早期预览版。有网友反馈,这一模型的回复更为直接、切中要点,也更为“商务”,几乎避开了所有“人性化”的情感。


也有网友在自己打造的“randombench”基准测试上,考察了Qwen3-Max-Thinking早期预览版的表现。Qwen3-Max-Thinking早期预览版能解答高难度的推理问题,在这一基准测试上,此前只有GPT-5(思考模式)和Grok 4达到了相同的水准。


不过,广大网友们最关心的问题,或许还是:到底啥时候上Hugging Face?


结语:Qwen3-Max系列模型,期待拉满

阿里的Qwen3-Max系列模型已经成为当前AI业内最广受期待的模型之一,在社交媒体的评论区中,已有不少网友开启催更模式。

今年9月5日,阿里上线Qwen3系列最强模型Qwen3-Max的预览版本,这也是阿里迄今为止最大的模型,参数量超1万亿。

此番发布的Qwen3-Max-Thinking早期预览版在推理方面展现出强大的能力,其在数学竞赛上的满分表现就是例证之一。在定位上,这或许就是一款专为高难度推理而生的模型,并不一定适用于所有使用场景。目前阿里尚未放出完整的基准测试结果,其整体表现仍有待观察。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海警方通报网传“某女编剧自称曾袭警后通过关系被放行”

上海警方通报网传“某女编剧自称曾袭警后通过关系被放行”

澎湃新闻
2025-11-11 09:04:27
长沙医生不雅视频事件后续!女主同款睡裙一夜爆火,超22万人回购

长沙医生不雅视频事件后续!女主同款睡裙一夜爆火,超22万人回购

火山诗话
2025-11-08 17:24:08
沉默6天后,中国航天传来新消息,神舟二十号返回任务有序推进!

沉默6天后,中国航天传来新消息,神舟二十号返回任务有序推进!

鱼缸里的假山
2025-11-11 11:48:49
全运会乒乓球:4强大名单出炉2席!头号种子1:4被淘汰,蒯曼4:0

全运会乒乓球:4强大名单出炉2席!头号种子1:4被淘汰,蒯曼4:0

国乒二三事
2025-11-11 14:36:16
全运会乒乓:女单8强赛对阵出炉,蒯曼朱雨玲苦战,孙颖莎对手强

全运会乒乓:女单8强赛对阵出炉,蒯曼朱雨玲苦战,孙颖莎对手强

知轩体育
2025-11-11 01:06:27
98年,东北一老板买下5千吨钢材后价格暴涨,他反手一个惊人操作

98年,东北一老板买下5千吨钢材后价格暴涨,他反手一个惊人操作

青青会讲故事
2025-11-07 16:36:01
美媒爆3架AH-64E型“阿帕奇”直升机交付印度途中“神秘”返回美国,波音公司回应

美媒爆3架AH-64E型“阿帕奇”直升机交付印度途中“神秘”返回美国,波音公司回应

环球网资讯
2025-11-11 11:57:21
11月12日0时启动供热!河北一市最新消息

11月12日0时启动供热!河北一市最新消息

鲁中晨报
2025-11-11 16:59:06
张志雄点球建功 广东U20男足时隔16年再度闯入全运会决赛

张志雄点球建功 广东U20男足时隔16年再度闯入全运会决赛

广东体育频道
2025-11-11 21:21:20
压倒性胜利!联合国120票通过中国决议,耿爽一句话直戳美方痛点

压倒性胜利!联合国120票通过中国决议,耿爽一句话直戳美方痛点

窥史
2025-11-11 16:35:14
全红婵没想到,退役9年的陈若琳再破天花板,令所有人刮目相看

全红婵没想到,退役9年的陈若琳再破天花板,令所有人刮目相看

阿笎评论哥
2025-11-11 07:43:12
朱婷轮休成全运打卡点!河南女排4连胜晋级八强,山东零封香港

朱婷轮休成全运打卡点!河南女排4连胜晋级八强,山东零封香港

排球黄金眼
2025-11-11 17:38:21
湖南某医院不雅事件的同款“战袍”,彻底火了!

湖南某医院不雅事件的同款“战袍”,彻底火了!

仕道
2025-11-10 14:06:05
香港风水师蔡伯励评李嘉诚:有钱无福之人,活得太累

香港风水师蔡伯励评李嘉诚:有钱无福之人,活得太累

田先生研究室
2025-11-11 18:53:21
总在凌晨3-5点醒来的人,并非睡不好,而是你的“前世”在求救

总在凌晨3-5点醒来的人,并非睡不好,而是你的“前世”在求救

古怪奇谈录
2025-11-06 14:50:51
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
两名城管暴力执法后被杀,残肢插进嘴里,凶犯身份成谜

两名城管暴力执法后被杀,残肢插进嘴里,凶犯身份成谜

史记趣闻
2024-02-26 20:40:03
泰国法院判了!历时超3年,跨境网赌大佬佘智江将被引渡回中国:被曝曾参与KK投资

泰国法院判了!历时超3年,跨境网赌大佬佘智江将被引渡回中国:被曝曾参与KK投资

红星新闻
2025-11-11 17:10:22
这5位老将,还是没收到NBA球队的合同,可能真的要退役了

这5位老将,还是没收到NBA球队的合同,可能真的要退役了

篮坛扒客
2025-11-10 21:41:47
2025年,5国被踢出发达国家行列,分别都是谁?

2025年,5国被踢出发达国家行列,分别都是谁?

泠泠说史
2025-10-12 17:40:53
2025-11-11 22:00:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10725文章数 116894关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

美方代表拒绝出席第四轮国别人权审议 中方回应

头条要闻

美方代表拒绝出席第四轮国别人权审议 中方回应

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

时尚
房产
数码
艺术
本地

秋冬别穿阔腿裤了!裙子才是粗腿女孩的救星!

房产要闻

海口湾,1300亩巨无霸地块登场!

数码要闻

塞进RTX 5090的迷你机,配置搭载酷睿Ultra 9 CPU

艺术要闻

田英章日常书信曝光,字迹开阔惊艳人心!

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

无障碍浏览 进入关怀版