网易首页 > 网易号 > 正文 申请入驻

刚刚,阿里祭出Qwen3超大杯思考模型,数学考试满分,实测竟成token“吞金兽”

0
分享至


智东西
作者 陈骏达
编辑 李水青

阿里的“超大杯”思考模型,终于现身了!

智东西11月4日报道,刚刚,阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的早期预览版。尽管这一模型只是一个训练的中间检查点,但它已借助工具使用和测试时计算,在AIME 2025和HMMT(哈佛-MIT数学锦标赛)等具有挑战性的推理基准测试中,达到100%的准确率。


不过,这一模型其实已经在通义千问负责人林俊旸的个人社交媒体账号上获得了“超前点映”:在11月2日的23点54分,林俊旸便发文“它来了,你们可以试试”,配图是开启思考模式的Qwen3-Max。


Qwen团队并未透露Qwen3-Max-Thinking早期预览版的更多信息,模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称,随着训练的继续,更多版本将会推出。

用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍,Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合,在思考模式下,模型在智能体编程、常识推理,以及数学、科学和通用领域的推理能力等方面都有显著提升。

体验链接:

chat.qwen.ai/?thinking=true

API调用:

https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

值得注意的是,Qwen3-Max-Thinking早期预览版仅支持文本到文本这一模态,并选择以输出“限时免费”的模式对外提供API服务。


我们在体验中发现,Qwen3-Max-Thinking早期预览版的确挺费token的,如果不是限时免费输出的话,使用成本或许会较为高昂。

不过,该问题是可以用自带的思考预算控件解决的,用户可以在1024-81920个token的思考预算区间内随意切换,直接控制模型的推理长度。


智东西在Qwen Chat中体验了Qwen3-Max-Thinking早期预览版的能力。要使用这一模型,用户需要在左上方选择Qwen3-Max,并开启输入框中的Thinking模式。


既然Qwen3-Max-Thinking早期预览版在AIME 2025上拿下了满分,我们便拿这场竞赛难度最高的压轴题,来考察该模型的数学推理能力。

可以看到,Qwen3-Max-Thinking早期预览版在其思考过程反复输出了正确答案,不断验算,不断以新的方式解题目,甚至调用了代码解释器,从多种角度证明了其结果。


这一过程耗时大概4-5分钟,不过确实保证了答案的完全正确。将这一结果放到token计数器后,大致计算出其对应的token用量在1.2万-1.5万之间。


在智能体编程任务上,我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相同的任务——开发一个开源项目分享网站的HTML原型。

Qwen3-Max-Thinking早期预览版能准确分析用户需求,输出所需的网页。网页设计简洁清晰,也符合开源项目分享网站的基本使用需求,就是在样式和字体选择上略显粗糙。


对于其输出的网站结果而言,Qwen3-Max-Thinking早期预览版消耗的token数量明显偏多。反映到代码数量上,这一模型使用了整整1417行代码完成了任务。


开启深度推理的DeepSeek-V3.2生成了如下网页预览,代码源文件中包含787行代码。


在常识推理类任务上,Qwen3-Max-Thinking早期预览版能很容易地绕开逻辑陷阱。


不过,平心而论,此类题目Qwen-3-Max也能轻松解决,只需要几十个字。


已经有不少网友用上了Qwen3-Max-Thinking早期预览版。有网友反馈,这一模型的回复更为直接、切中要点,也更为“商务”,几乎避开了所有“人性化”的情感。


也有网友在自己打造的“randombench”基准测试上,考察了Qwen3-Max-Thinking早期预览版的表现。Qwen3-Max-Thinking早期预览版能解答高难度的推理问题,在这一基准测试上,此前只有GPT-5(思考模式)和Grok 4达到了相同的水准。


不过,广大网友们最关心的问题,或许还是:到底啥时候上Hugging Face?


结语:Qwen3-Max系列模型,期待拉满

阿里的Qwen3-Max系列模型已经成为当前AI业内最广受期待的模型之一,在社交媒体的评论区中,已有不少网友开启催更模式。

今年9月5日,阿里上线Qwen3系列最强模型Qwen3-Max的预览版本,这也是阿里迄今为止最大的模型,参数量超1万亿。

此番发布的Qwen3-Max-Thinking早期预览版在推理方面展现出强大的能力,其在数学竞赛上的满分表现就是例证之一。在定位上,这或许就是一款专为高难度推理而生的模型,并不一定适用于所有使用场景。目前阿里尚未放出完整的基准测试结果,其整体表现仍有待观察。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
首次带对象回家,家长能有多离谱?网友:老人为了对象真是拼了啊

首次带对象回家,家长能有多离谱?网友:老人为了对象真是拼了啊

解读热点事件
2025-11-09 00:05:13
局势变得太快!国民党元老对郑丽文提了一个要求,统一进入新阶段

局势变得太快!国民党元老对郑丽文提了一个要求,统一进入新阶段

现代小青青慕慕
2025-11-10 09:24:04
中央定调,退休新规,1965年到1969年期间出生,退休或将更受益?

中央定调,退休新规,1965年到1969年期间出生,退休或将更受益?

花心电影
2025-11-10 18:14:34
终止重大资产重组!开盘20CM一字跌停,1.56万股被一锅焖

终止重大资产重组!开盘20CM一字跌停,1.56万股被一锅焖

风风顺
2025-11-11 07:34:58
游戏商用“卑鄙”的手段整治盗版玩家,让多少人痛不欲生

游戏商用“卑鄙”的手段整治盗版玩家,让多少人痛不欲生

街机时代
2025-11-10 15:00:02
李斌回应蔚来四季度盈利问题:如果每年还想见我,就多帮卖点车吧

李斌回应蔚来四季度盈利问题:如果每年还想见我,就多帮卖点车吧

齐鲁壹点
2025-11-10 16:41:08
西安一家属院顶楼起火,现场浓烟滚滚 社区人员:屋顶防水沥青焊接所致,无人员伤亡

西安一家属院顶楼起火,现场浓烟滚滚 社区人员:屋顶防水沥青焊接所致,无人员伤亡

极目新闻
2025-11-11 13:50:54
一手好牌打得稀烂,曾琦丈夫沉默到底,双输的局面,细节曝光!

一手好牌打得稀烂,曾琦丈夫沉默到底,双输的局面,细节曝光!

你食不食油饼
2025-11-11 08:50:08
瑟尔斯基:俄罗斯占领红军城已无任何可能,局势已得到控制

瑟尔斯基:俄罗斯占领红军城已无任何可能,局势已得到控制

环球热点快评
2025-11-11 13:45:07
花生再次被关注!调查发现:糖尿病常吃花生,不过半年或有4好处

花生再次被关注!调查发现:糖尿病常吃花生,不过半年或有4好处

艾米手工作品
2025-11-11 13:27:27
美股全线暴涨!A股大跳水!发生什么了?

美股全线暴涨!A股大跳水!发生什么了?

龙行天下虎
2025-11-11 10:13:07
大笑,勇士队吉米·巴特勒的新发型让斯蒂芬·库里捧腹

大笑,勇士队吉米·巴特勒的新发型让斯蒂芬·库里捧腹

好火子
2025-11-11 13:38:05
你在工作中捅过多大的篓子?网友:朋友的同事弄丢公司600w的发票

你在工作中捅过多大的篓子?网友:朋友的同事弄丢公司600w的发票

解读热点事件
2025-11-11 00:20:03
“泰国第一神颜”Mai宣布已婚,公开与影帝乍塔维特的结婚照

“泰国第一神颜”Mai宣布已婚,公开与影帝乍塔维特的结婚照

鲁中晨报
2025-11-10 17:07:04
最高至1500元!国际金价重回4100美元后,多家银行今日再上调积存金起购门槛

最高至1500元!国际金价重回4100美元后,多家银行今日再上调积存金起购门槛

财联社
2025-11-11 15:00:06
三部门联合发文:3至6岁儿童尽量避免接触使用视屏类电子产品

三部门联合发文:3至6岁儿童尽量避免接触使用视屏类电子产品

快科技
2025-11-08 14:30:13
活久见!单位食堂写着“鸡蛋黄回收”,碗里堆着大量蛋黄,引争议

活久见!单位食堂写着“鸡蛋黄回收”,碗里堆着大量蛋黄,引争议

火山诗话
2025-11-10 17:03:37
区划调整后,原两江新区管委会主任许宏球调任永川区委副书记

区划调整后,原两江新区管委会主任许宏球调任永川区委副书记

澎湃新闻
2025-11-11 15:14:38
历史首人!文班38+12+5+5帽+6三分马刺逆转险胜公牛 福克斯21分

历史首人!文班38+12+5+5帽+6三分马刺逆转险胜公牛 福克斯21分

醉卧浮生
2025-11-11 11:25:48
钱泳辰独自搬到杭州生活,租的房子又老又小,和吕一有3年没同框

钱泳辰独自搬到杭州生活,租的房子又老又小,和吕一有3年没同框

心静物娱
2025-11-11 09:16:52
2025-11-11 16:28:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10721文章数 116894关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

欧洲高颜值王室访华:曾与高中老师结婚 二婚嫁入王室

头条要闻

欧洲高颜值王室访华:曾与高中老师结婚 二婚嫁入王室

体育要闻

维金斯0.4秒空接暴扣绝杀 热火险胜骑士

娱乐要闻

何超莲窦骁真的没离婚?

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

房产
手机
时尚
亲子
家居

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

手机要闻

2025年Q3中国折叠屏手机出货量同比增长17.8%:华为位列第一

静奢风,有品位的都在穿

亲子要闻

潘玮柏太太穿公主裙亮相幼儿园,5岁女儿软萌可爱,同框似姐妹花

家居要闻

国美学子 打造筑梦空间

无障碍浏览 进入关怀版