网易首页 > 网易号 > 正文 申请入驻

刚刚,阿里祭出Qwen3超大杯思考模型,数学考试满分,实测竟成token“吞金兽”

0
分享至


智东西
作者 陈骏达
编辑 李水青

阿里的“超大杯”思考模型,终于现身了!

智东西11月4日报道,刚刚,阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的早期预览版。尽管这一模型只是一个训练的中间检查点,但它已借助工具使用和测试时计算,在AIME 2025和HMMT(哈佛-MIT数学锦标赛)等具有挑战性的推理基准测试中,达到100%的准确率。


不过,这一模型其实已经在通义千问负责人林俊旸的个人社交媒体账号上获得了“超前点映”:在11月2日的23点54分,林俊旸便发文“它来了,你们可以试试”,配图是开启思考模式的Qwen3-Max。


Qwen团队并未透露Qwen3-Max-Thinking早期预览版的更多信息,模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称,随着训练的继续,更多版本将会推出。

用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍,Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合,在思考模式下,模型在智能体编程、常识推理,以及数学、科学和通用领域的推理能力等方面都有显著提升。

体验链接:

chat.qwen.ai/?thinking=true

API调用:

https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

值得注意的是,Qwen3-Max-Thinking早期预览版仅支持文本到文本这一模态,并选择以输出“限时免费”的模式对外提供API服务。


我们在体验中发现,Qwen3-Max-Thinking早期预览版的确挺费token的,如果不是限时免费输出的话,使用成本或许会较为高昂。

不过,该问题是可以用自带的思考预算控件解决的,用户可以在1024-81920个token的思考预算区间内随意切换,直接控制模型的推理长度。


智东西在Qwen Chat中体验了Qwen3-Max-Thinking早期预览版的能力。要使用这一模型,用户需要在左上方选择Qwen3-Max,并开启输入框中的Thinking模式。


既然Qwen3-Max-Thinking早期预览版在AIME 2025上拿下了满分,我们便拿这场竞赛难度最高的压轴题,来考察该模型的数学推理能力。

可以看到,Qwen3-Max-Thinking早期预览版在其思考过程反复输出了正确答案,不断验算,不断以新的方式解题目,甚至调用了代码解释器,从多种角度证明了其结果。


这一过程耗时大概4-5分钟,不过确实保证了答案的完全正确。将这一结果放到token计数器后,大致计算出其对应的token用量在1.2万-1.5万之间。


在智能体编程任务上,我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相同的任务——开发一个开源项目分享网站的HTML原型。

Qwen3-Max-Thinking早期预览版能准确分析用户需求,输出所需的网页。网页设计简洁清晰,也符合开源项目分享网站的基本使用需求,就是在样式和字体选择上略显粗糙。


对于其输出的网站结果而言,Qwen3-Max-Thinking早期预览版消耗的token数量明显偏多。反映到代码数量上,这一模型使用了整整1417行代码完成了任务。


开启深度推理的DeepSeek-V3.2生成了如下网页预览,代码源文件中包含787行代码。


在常识推理类任务上,Qwen3-Max-Thinking早期预览版能很容易地绕开逻辑陷阱。


不过,平心而论,此类题目Qwen-3-Max也能轻松解决,只需要几十个字。


已经有不少网友用上了Qwen3-Max-Thinking早期预览版。有网友反馈,这一模型的回复更为直接、切中要点,也更为“商务”,几乎避开了所有“人性化”的情感。


也有网友在自己打造的“randombench”基准测试上,考察了Qwen3-Max-Thinking早期预览版的表现。Qwen3-Max-Thinking早期预览版能解答高难度的推理问题,在这一基准测试上,此前只有GPT-5(思考模式)和Grok 4达到了相同的水准。


不过,广大网友们最关心的问题,或许还是:到底啥时候上Hugging Face?


结语:Qwen3-Max系列模型,期待拉满

阿里的Qwen3-Max系列模型已经成为当前AI业内最广受期待的模型之一,在社交媒体的评论区中,已有不少网友开启催更模式。

今年9月5日,阿里上线Qwen3系列最强模型Qwen3-Max的预览版本,这也是阿里迄今为止最大的模型,参数量超1万亿。

此番发布的Qwen3-Max-Thinking早期预览版在推理方面展现出强大的能力,其在数学竞赛上的满分表现就是例证之一。在定位上,这或许就是一款专为高难度推理而生的模型,并不一定适用于所有使用场景。目前阿里尚未放出完整的基准测试结果,其整体表现仍有待观察。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
火葬场回收钛做水杯?成本不足百元的钛杯,是黑科技还是智商税?

火葬场回收钛做水杯?成本不足百元的钛杯,是黑科技还是智商税?

中国能源网
2025-11-13 12:13:28
倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

青眼财经
2025-11-13 23:02:27
医生发现:天冷坚持戴帽子的人,过不了6个月,身体会有7大变化

医生发现:天冷坚持戴帽子的人,过不了6个月,身体会有7大变化

今日养生之道
2025-11-13 16:14:11
国乒洛杉矶奥运会名单分析:4人确定,3人待定,2人可能落选

国乒洛杉矶奥运会名单分析:4人确定,3人待定,2人可能落选

悦君兮君不知
2025-11-13 19:31:58
新甲午战争?这次中国要摧毁日本的军国意志,要击沉日本岛,要雪百年之耻!

新甲午战争?这次中国要摧毁日本的军国意志,要击沉日本岛,要雪百年之耻!

李光满说
2025-11-13 20:24:13
詹姆斯首秀!在发展联盟,打满了全程

詹姆斯首秀!在发展联盟,打满了全程

梦醉为红颜一笑
2025-11-14 13:35:08
高市早苗又对韩国“开炮”:独岛是日本固有领土,早晚得收回…

高市早苗又对韩国“开炮”:独岛是日本固有领土,早晚得收回…

福建平子
2025-11-14 12:01:30
辽宁发现千吨级低品位超大型金矿床

辽宁发现千吨级低品位超大型金矿床

环球网资讯
2025-11-14 09:29:36
孙俪发文为14岁儿子庆生,邓超边看边哭,“看一半看不清了”

孙俪发文为14岁儿子庆生,邓超边看边哭,“看一半看不清了”

极目新闻
2025-11-13 17:52:07
华为 Mate 80 突然改名,再次引发争议

华为 Mate 80 突然改名,再次引发争议

科技堡垒
2025-11-14 09:41:44
他突然被传死亡了?

他突然被传死亡了?

奋斗在韩国
2025-11-14 14:12:10
巨大牺牲!外媒:王钰栋收欧洲多队邀请,年薪降80%,仅能赚60万

巨大牺牲!外媒:王钰栋收欧洲多队邀请,年薪降80%,仅能赚60万

国足风云
2025-11-14 14:52:15
央视直播!王楚钦VS樊振东,你做好准备了吗?

央视直播!王楚钦VS樊振东,你做好准备了吗?

十点街球体育
2025-11-14 00:10:03
全运会乒乓球爆大冷,女单名将被淘汰,陈梦翻盘,球迷为一人惋惜

全运会乒乓球爆大冷,女单名将被淘汰,陈梦翻盘,球迷为一人惋惜

奇思妙想草叶君
2025-11-14 16:34:58
中国“摸着石头过河”数十年,“石头”终于快被摸完了

中国“摸着石头过河”数十年,“石头”终于快被摸完了

朔方瞭望
2025-11-08 11:29:44
中国台湾演员欧阳娣娣现身厦金大桥工地刷漆,称期待有一天,可以直接从这里开车去台湾

中国台湾演员欧阳娣娣现身厦金大桥工地刷漆,称期待有一天,可以直接从这里开车去台湾

鲁中晨报
2025-11-14 11:27:34
台湾赖岳谦预测:美国或2025-2027,将因台海问题对华发动战争

台湾赖岳谦预测:美国或2025-2027,将因台海问题对华发动战争

文史旺旺旺
2025-11-13 20:17:12
苏州快递员被杀冲突原因曝光:女子嫌配送太慢了

苏州快递员被杀冲突原因曝光:女子嫌配送太慢了

映射生活的身影
2025-11-13 20:25:25
二手房“抛售”愈演愈烈,业内人士:我们正在创造一个人类奇迹!

二手房“抛售”愈演愈烈,业内人士:我们正在创造一个人类奇迹!

猫叔东山再起
2025-11-13 13:00:03
49中26!火箭第一神射手!和亚当斯爆发冲突

49中26!火箭第一神射手!和亚当斯爆发冲突

篮球实战宝典
2025-11-14 14:02:07
2025-11-14 20:47:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10746文章数 116895关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

男子将昏迷妻子扔下土崖致死 女方13天前起诉离婚被驳

头条要闻

男子将昏迷妻子扔下土崖致死 女方13天前起诉离婚被驳

体育要闻

40岁C罗肘击染红 离场时怒骂对手主帅

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

本地
健康
房产
手机
公开课

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

金振口服液助力科学应对呼吸道疾病

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

手机要闻

OPPO Find X9 Pro卫星通信版支持添加境外eSIM,最多可加两张

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版