网易首页 > 网易号 > 正文 申请入驻

刚刚,阿里祭出Qwen3超大杯思考模型,数学考试满分,实测竟成token“吞金兽”

0
分享至


智东西
作者 陈骏达
编辑 李水青

阿里的“超大杯”思考模型,终于现身了!

智东西11月4日报道,刚刚,阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的早期预览版。尽管这一模型只是一个训练的中间检查点,但它已借助工具使用和测试时计算,在AIME 2025和HMMT(哈佛-MIT数学锦标赛)等具有挑战性的推理基准测试中,达到100%的准确率。


不过,这一模型其实已经在通义千问负责人林俊旸的个人社交媒体账号上获得了“超前点映”:在11月2日的23点54分,林俊旸便发文“它来了,你们可以试试”,配图是开启思考模式的Qwen3-Max。


Qwen团队并未透露Qwen3-Max-Thinking早期预览版的更多信息,模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称,随着训练的继续,更多版本将会推出。

用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍,Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合,在思考模式下,模型在智能体编程、常识推理,以及数学、科学和通用领域的推理能力等方面都有显著提升。

体验链接:

chat.qwen.ai/?thinking=true

API调用:

https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

值得注意的是,Qwen3-Max-Thinking早期预览版仅支持文本到文本这一模态,并选择以输出“限时免费”的模式对外提供API服务。


我们在体验中发现,Qwen3-Max-Thinking早期预览版的确挺费token的,如果不是限时免费输出的话,使用成本或许会较为高昂。

不过,该问题是可以用自带的思考预算控件解决的,用户可以在1024-81920个token的思考预算区间内随意切换,直接控制模型的推理长度。


智东西在Qwen Chat中体验了Qwen3-Max-Thinking早期预览版的能力。要使用这一模型,用户需要在左上方选择Qwen3-Max,并开启输入框中的Thinking模式。


既然Qwen3-Max-Thinking早期预览版在AIME 2025上拿下了满分,我们便拿这场竞赛难度最高的压轴题,来考察该模型的数学推理能力。

可以看到,Qwen3-Max-Thinking早期预览版在其思考过程反复输出了正确答案,不断验算,不断以新的方式解题目,甚至调用了代码解释器,从多种角度证明了其结果。


这一过程耗时大概4-5分钟,不过确实保证了答案的完全正确。将这一结果放到token计数器后,大致计算出其对应的token用量在1.2万-1.5万之间。


在智能体编程任务上,我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相同的任务——开发一个开源项目分享网站的HTML原型。

Qwen3-Max-Thinking早期预览版能准确分析用户需求,输出所需的网页。网页设计简洁清晰,也符合开源项目分享网站的基本使用需求,就是在样式和字体选择上略显粗糙。


对于其输出的网站结果而言,Qwen3-Max-Thinking早期预览版消耗的token数量明显偏多。反映到代码数量上,这一模型使用了整整1417行代码完成了任务。


开启深度推理的DeepSeek-V3.2生成了如下网页预览,代码源文件中包含787行代码。


在常识推理类任务上,Qwen3-Max-Thinking早期预览版能很容易地绕开逻辑陷阱。


不过,平心而论,此类题目Qwen-3-Max也能轻松解决,只需要几十个字。


已经有不少网友用上了Qwen3-Max-Thinking早期预览版。有网友反馈,这一模型的回复更为直接、切中要点,也更为“商务”,几乎避开了所有“人性化”的情感。


也有网友在自己打造的“randombench”基准测试上,考察了Qwen3-Max-Thinking早期预览版的表现。Qwen3-Max-Thinking早期预览版能解答高难度的推理问题,在这一基准测试上,此前只有GPT-5(思考模式)和Grok 4达到了相同的水准。


不过,广大网友们最关心的问题,或许还是:到底啥时候上Hugging Face?


结语:Qwen3-Max系列模型,期待拉满

阿里的Qwen3-Max系列模型已经成为当前AI业内最广受期待的模型之一,在社交媒体的评论区中,已有不少网友开启催更模式。

今年9月5日,阿里上线Qwen3系列最强模型Qwen3-Max的预览版本,这也是阿里迄今为止最大的模型,参数量超1万亿。

此番发布的Qwen3-Max-Thinking早期预览版在推理方面展现出强大的能力,其在数学竞赛上的满分表现就是例证之一。在定位上,这或许就是一款专为高难度推理而生的模型,并不一定适用于所有使用场景。目前阿里尚未放出完整的基准测试结果,其整体表现仍有待观察。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘嘉玲晒罚单!网友吵翻

刘嘉玲晒罚单!网友吵翻

都市快报橙柿互动
2026-01-03 00:12:08
马杜罗被抓?委军真的那么不堪一击?如果消息为真,其结局如何?

马杜罗被抓?委军真的那么不堪一击?如果消息为真,其结局如何?

闻号说经济
2026-01-03 18:43:53
炸裂!外网疯传梵蒂冈偷拍视频,疑似一年长神职人员YP

炸裂!外网疯传梵蒂冈偷拍视频,疑似一年长神职人员YP

社会酱
2026-01-03 20:35:12
队记:开拓者对杨瀚森信任程度极低 不迅速提升可能很快重返中国

队记:开拓者对杨瀚森信任程度极低 不迅速提升可能很快重返中国

罗说NBA
2026-01-03 20:52:55
三小时速通!美军斩首马杜罗震惊全球

三小时速通!美军斩首马杜罗震惊全球

凤眼论
2026-01-03 20:58:15
老板承诺“湘超”夺冠送车未兑现,官方回应

老板承诺“湘超”夺冠送车未兑现,官方回应

界面新闻
2026-01-03 16:01:50
详解三角洲特种部队3小时直扑马杜罗:数月筹备,空袭+特种作战

详解三角洲特种部队3小时直扑马杜罗:数月筹备,空袭+特种作战

澎湃新闻
2026-01-03 20:58:28
特朗普称让美国大型石油公司进入委内瑞拉

特朗普称让美国大型石油公司进入委内瑞拉

界面新闻
2026-01-04 00:55:03
脸都打肿了!新华社这回算是直接把那个遮羞布给掀开了。

脸都打肿了!新华社这回算是直接把那个遮羞布给掀开了。

忠于法纪
2025-12-24 21:27:55
3-1,英超现无敌世界波,54岁埃梅里率队反超曼城升至第2

3-1,英超现无敌世界波,54岁埃梅里率队反超曼城升至第2

侧身凌空斩
2026-01-03 22:28:47
李在明访华4天3夜,韩国对中国的称呼里,用了“抗日同志”四个字

李在明访华4天3夜,韩国对中国的称呼里,用了“抗日同志”四个字

博览历史
2026-01-03 19:06:40
教育部扔下重磅炸弹:2026年开始,全国一律不准购买校外商业试卷

教育部扔下重磅炸弹:2026年开始,全国一律不准购买校外商业试卷

乐天闲聊
2026-01-03 14:31:40
委内瑞拉:如何毁掉一个国家

委内瑞拉:如何毁掉一个国家

回旋镖
2026-01-03 21:21:06
老用户成“冤大头”?新号29元100G 老号89元不够用 3招破局不换号

老用户成“冤大头”?新号29元100G 老号89元不够用 3招破局不换号

Thurman在昆明
2026-01-03 15:59:21
马杜罗最新照片

马杜罗最新照片

新京报政事儿
2026-01-04 00:40:21
美国发出“拦截军售就开战”的威胁

美国发出“拦截军售就开战”的威胁

安安说
2026-01-03 12:35:28
特朗普称马杜罗夫妇在美国军舰上

特朗普称马杜罗夫妇在美国军舰上

界面新闻
2026-01-03 22:40:11
特朗普下令开炮,委国首都炸成火海,34国被催开会

特朗普下令开炮,委国首都炸成火海,34国被催开会

时时有聊
2026-01-03 19:04:29
委内瑞拉首都居民向环球网驻拉美记者介绍空袭情况

委内瑞拉首都居民向环球网驻拉美记者介绍空袭情况

环球网资讯
2026-01-03 18:33:20
这些照片告诉你人类曾经多次被毁灭

这些照片告诉你人类曾经多次被毁灭

神奇故事
2026-01-02 17:31:58
2026-01-04 03:19:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11001文章数 116935关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

牛弹琴:美国入侵委内瑞拉 给世界带来三个血的教训

头条要闻

牛弹琴:美国入侵委内瑞拉 给世界带来三个血的教训

体育要闻

青岛西海岸官宣:郑智出任一线队主教练

娱乐要闻

司晓迪事件再升级 司晓迪称鹿晗最好

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

健康
游戏
本地
房产
军事航空

这些新疗法,让化疗不再那么痛苦

猎魂世界:开服后全主C状态及处境分析!不知不觉已经十二位了!

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

房产要闻

海大誉府新年家年华暨2号楼耀世加推发布会圆满落幕

军事要闻

特朗普称将干涉伊朗骚乱事件 伊朗政府发声明强烈谴责

无障碍浏览 进入关怀版