网易首页 > 网易号 > 正文 申请入驻

阿里千问发布最新旗舰模型Qwen3-Max-Thinking,性能据称超GPT-5.2

0
分享至

界面新闻记者 | 宋佳楠

界面新闻获悉,1月26日晚,阿里正式推出千问系列旗舰推理模型Qwen3-Max-Thinking。根据阿里公布的数据,该模型在19项权威基准测试中的表现媲美OpenAI的GPT-5.2-Thinking、谷歌的Gemini 3 Pro等国际顶尖模型,标志着国产大模型在高阶推理领域实现重要突破。

该模型总参数量超万亿,预训练数据量达36T Tokens,经大规模强化学习打磨而成。相较于前代模型,其核心改进集中在两方面。

一是自适应工具调用能力,可按需调用搜索引擎和代码解释器,现已上线Qwen Chat。与早期需要用户手动选择工具的方法不同,Qwen3-Max-Thinking能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能。这种能力让模型能像专业人士一样自主判断是否调用搜索、记忆或代码解释器,比如解答实时政策问题时自动检索最新信息,处理工程计算时启动代码工具验证结果,无需用户额外指令即可降低“幻觉”风险。

Qwen3-Max-Thinking相关测试数据 图片来源:千问

另一个是测试时扩展技术(Test-Time Scaling),指在推理阶段分配额外计算资源以提升模型性能的技术。据称显著提升推理性能,在关键推理基准上超越Gemini 3 Pro。

一般AI遇到难题,会同时想很多思路,很多是重复的,白白耗算力。该技术则通过“经验提取”式反思,避免传统模型并行推理的冗余计算,在相同算力下聚焦未解决难点,使GPQA科学知识测试得分从90.3提升至92.8,LiveCodeBench编程测试从88.0升至91.4。

针对Qwen3-Max-Thinking的更多性能评估 图片来源:千问

在性能比拼中,该模型在被称为“人类最后的测试”的HLE工具调用基准中,以58.3分远超GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分;IMO级数学推理测试获91.5分登顶,预览版更曾拿下AIME 25与HMMT 25双满分。

目前,普通用户可通过千问PC端、网页端免费体验,企业则能通过阿里云百炼获取API服务。

1月21日,全球最大AI开源社区Hugging Face最新数据显示,阿里千问衍生模型数突破20万个,成为全球首个达成此目标的开源大模型;同时,千问系列模型下载量突破10亿次,平均每天被下载110万次,已完全超越美国Llama,稳居开源大模型全球第一。

阿里CEO吴泳铭去年曾表示,公司正在积极推进三年3800亿的AI基础设施建设计划,并将会持续追加更大的投入。这一投入规模与谷歌、Meta和亚马逊等美股科技巨头的AI资本开支处于同一量级。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
理想汽车高管:张雪三缸机绕开所有海外专利壁垒 解决了国产大排摩托卡脖子问题

理想汽车高管:张雪三缸机绕开所有海外专利壁垒 解决了国产大排摩托卡脖子问题

快科技
2026-04-07 10:06:17
岳西失踪孩子案告破,楼上邻居落网,提前踩点选盲区,亲属参与了

岳西失踪孩子案告破,楼上邻居落网,提前踩点选盲区,亲属参与了

天天热点见闻
2026-04-07 12:29:59
事业编“取消身份”真来了?2026年,这几类单位改革开始动刀了!

事业编“取消身份”真来了?2026年,这几类单位改革开始动刀了!

复转这些年
2026-04-06 23:44:40
浴巾发现用过的“伟哥”……女子住桔子酒店,一夜换三次房

浴巾发现用过的“伟哥”……女子住桔子酒店,一夜换三次房

政法频道
2026-04-07 12:56:31
特朗普“首次承认被黑吃黑”,被点名的库尔德火速否认三连

特朗普“首次承认被黑吃黑”,被点名的库尔德火速否认三连

观察者网
2026-04-07 14:42:00
后续!安徽失联女童已遇害,凶手是女邻居,此前有人精准预测

后续!安徽失联女童已遇害,凶手是女邻居,此前有人精准预测

潮鹿逐梦
2026-04-07 00:36:40
全世界关注伊朗时,泽连斯基正发起大反攻,普京节节败退

全世界关注伊朗时,泽连斯基正发起大反攻,普京节节败退

修明札记
2026-04-07 11:55:16
二手CD播放器涨到天价!闲鱼卖5999元,比当年全新还贵

二手CD播放器涨到天价!闲鱼卖5999元,比当年全新还贵

金科技观察家
2026-04-06 18:03:53
上海三甲医院专家凌晨发文:1小时来了6个心梗,这一波很密集!42岁男子打球时突然胸痛,还好队友反应快

上海三甲医院专家凌晨发文:1小时来了6个心梗,这一波很密集!42岁男子打球时突然胸痛,还好队友反应快

新民晚报
2026-04-06 15:15:31
继续斩首,再次成功,为何伊朗破不了以色列的斩首战术?

继续斩首,再次成功,为何伊朗破不了以色列的斩首战术?

高博新视野
2026-04-07 08:00:11
陈丽华去世,享年85岁:吃了唐僧肉,留下半条金宝街和一个唐僧

陈丽华去世,享年85岁:吃了唐僧肉,留下半条金宝街和一个唐僧

乌娱子酱
2026-04-07 11:20:35
超湖人升第3!掘金加时灭开拓者9连胜 约基奇35分三双杨瀚森DNP

超湖人升第3!掘金加时灭开拓者9连胜 约基奇35分三双杨瀚森DNP

醉卧浮生
2026-04-07 11:51:16
特朗普自曝考虑“退出北约”原因:我们想要格陵兰岛,他们不想给,那我就说“拜拜”!他再骂北约“纸老虎”,还点名日本、韩国“不帮忙”

特朗普自曝考虑“退出北约”原因:我们想要格陵兰岛,他们不想给,那我就说“拜拜”!他再骂北约“纸老虎”,还点名日本、韩国“不帮忙”

每日经济新闻
2026-04-07 15:00:31
中国留学生泰国公寓坠亡,房间墙上留遗言,警方在浴室发现其女友遗体

中国留学生泰国公寓坠亡,房间墙上留遗言,警方在浴室发现其女友遗体

红星新闻
2026-04-07 12:52:19
陈丽华白手起家,10年前已是中国女首富

陈丽华白手起家,10年前已是中国女首富

极目新闻
2026-04-07 11:33:24
快手广告迈入生成式推荐时代!GR4AD:Token到Revenue全链路重构

快手广告迈入生成式推荐时代!GR4AD:Token到Revenue全链路重构

机器之心Pro
2026-04-02 21:45:27
张雪母亲改嫁后成为作家!回应:张雪骑车撞人我赔3万 借给他55万

张雪母亲改嫁后成为作家!回应:张雪骑车撞人我赔3万 借给他55万

念洲
2026-04-07 09:37:27
陈丽华离世!唐僧的扮演者迟重瑞能拿到100多亿遗产

陈丽华离世!唐僧的扮演者迟重瑞能拿到100多亿遗产

金牌娱乐
2026-04-07 11:39:53
中国央行连续第17个月增持黄金

中国央行连续第17个月增持黄金

界面新闻
2026-04-07 16:05:41
古老医学的当代表达:络病理论的创新转化与全球对话

古老医学的当代表达:络病理论的创新转化与全球对话

凤凰WEEKLY
2026-04-03 09:00:14
2026-04-07 16:15:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1050989文章数 1332507关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

国家继续实施调控 成品油价格适当调整

头条要闻

国家继续实施调控 成品油价格适当调整

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

亲子
健康
手机
游戏
教育

亲子要闻

记录下人生最勇敢的一天,我们就是一家三口啦

干细胞抗衰4大误区,90%的人都中招

手机要闻

谷歌Pixel 10等手机3月更新被曝卡死、断连、无限重启等问题

《仁王3》制作人:PC市场已成为开发团队战略核心

教育要闻

朝阳这所低调的老牌重点校,凭什么美出新高度?

无障碍浏览 进入关怀版