网易首页 > 网易号 > 正文 申请入驻

阿里深夜发布:号称最强千问推理模型,比肩GPT-5.2

0
分享至

阿里系模型攻坚提速。1月26日晚,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录,性能媲美GPT-5.2、Gemini 3 Pro,成为迄今为止最接近国际顶尖模型的国内最强AI大模型。

据了解,Qwen3-Max-Thinking是目前阿里规模最大、能力最强的千问推理模型,其总参数量超万亿(1T),预训练数据量高达36T Tokens。此前,预览版Qwen3-Max-Thinking斩获数学推理AIME 25和HMMT 25的国内首个双满分,推理性能已让人惊艳;在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking性能:在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了数项最佳表现(SOTA)纪录,整体性能可媲美 GPT-5.2-Thinking-xhigh、Claude Opus 4.5 和 Gemini 3 Pro 。

据悉,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展(Test-time Scaling)机制,使得推理性能提升的同时还更经济。

目前业界普遍在推理时会遇到以下难题:只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下。据悉,千问采用新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。基于这一推理技术创新,千问推理性能和推理效率大为提升,比如在启用工具的“人类最后的测试”HLE中,千问得分58.3,大幅超过GPT-5.2-Thinking的45.5、Gemini 3 Pro的45.8,录得当前所有模型的最高分。


HLE测试中千问得分58.3,超过GPT-5.2-Thinking。

另外,面向即将到来的智能体Agent时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。这种自适应的工具调用能力可在QwenChat上完整体验,模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供专业人士一样水平的回答,更合用户心意、更智能、更流畅;同时,模型幻觉也大为降低,为解决真实复杂任务打下基础。

目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。据了解,千问APP也即将接入新模型,所有用户都可免费体验千问最强模型。

采写:南都N视频记者 林文琪

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大学女老师出轨大二男生:身材曼妙,照片流出,大量肮脏细节披露

大学女老师出轨大二男生:身材曼妙,照片流出,大量肮脏细节披露

博士观察
2026-01-26 18:37:50
太残酷了!宇树机器人春晚“下课”,成立不到3年的企业横空出世

太残酷了!宇树机器人春晚“下课”,成立不到3年的企业横空出世

火山诗话
2026-01-27 10:54:08
贝克汉姆14岁女儿家庭风波首发声:大布被曝,声称只想和妹妹联系

贝克汉姆14岁女儿家庭风波首发声:大布被曝,声称只想和妹妹联系

老吴教育课堂
2026-01-27 09:07:03
晚年蒋介石含泪复盘:这辈子最大的昏招,就是把那几十万心头肉留在了东北

晚年蒋介石含泪复盘:这辈子最大的昏招,就是把那几十万心头肉留在了东北

老杉说历史
2026-01-25 21:36:11
小舅子群里安排过年聚餐,我秒回:房已卖,正和你姐飞马尔代夫

小舅子群里安排过年聚餐,我秒回:房已卖,正和你姐飞马尔代夫

晓艾故事汇
2026-01-10 09:09:29
美军战机集结,航母群就位!特朗普发声!美国官员:若白宫下令 ,一两天内即可对伊朗动武

美军战机集结,航母群就位!特朗普发声!美国官员:若白宫下令 ,一两天内即可对伊朗动武

每日经济新闻
2026-01-27 09:45:07
香港“最乖富二代”邓兆尊,27年不动本金,利息滚到17亿,太清醒

香港“最乖富二代”邓兆尊,27年不动本金,利息滚到17亿,太清醒

娱说瑜悦
2026-01-23 19:23:09
隐忍24年,陈婷终于撕下完美伪装,她给所有“已婚女人”上了一课

隐忍24年,陈婷终于撕下完美伪装,她给所有“已婚女人”上了一课

瓜汁橘长Dr
2025-12-30 17:03:39
丹麦扬言不再接受中国投资,欧洲还在幻想:跟美国保持平起平坐

丹麦扬言不再接受中国投资,欧洲还在幻想:跟美国保持平起平坐

Hi科普啦
2026-01-26 11:28:24
中国驻日大校王庆简:定时以开窗为号,竟向日本传递了 20 年机密

中国驻日大校王庆简:定时以开窗为号,竟向日本传递了 20 年机密

z千年历史老号
2026-01-23 12:16:03
越南少将阮德辉揭露:中方撤军时越军为何按兵不动?

越南少将阮德辉揭露:中方撤军时越军为何按兵不动?

磊子讲史
2026-01-09 18:00:27
日乒内讧!张本智和丢冠后不服气,公开炮轰松岛辉空,真的输不起

日乒内讧!张本智和丢冠后不服气,公开炮轰松岛辉空,真的输不起

球盲百小易
2026-01-27 02:41:11
传奇球星过世,全希腊都信了!没想到粉丝假扮真球星几十年,妻子都以为真的...

传奇球星过世,全希腊都信了!没想到粉丝假扮真球星几十年,妻子都以为真的...

英国那些事儿
2026-01-26 23:27:16
原来她早已离世!曾是朱军搭档,抗癌3年42岁病故,一生奉献事业

原来她早已离世!曾是朱军搭档,抗癌3年42岁病故,一生奉献事业

娱说瑜悦
2026-01-24 19:41:40
回旋镖扎自己身上是啥体验?网友:有仇当天就报,心情爽极了

回旋镖扎自己身上是啥体验?网友:有仇当天就报,心情爽极了

带你感受人间冷暖
2026-01-26 00:05:20
中国U23赛后1举动获日本球迷大赞:中国足球没那么糟糕!

中国U23赛后1举动获日本球迷大赞:中国足球没那么糟糕!

邱泽云
2026-01-26 12:31:17
朝鲜两名高官发动兵变为张成泽报仇,因细节败露,金正恩一招镇压

朝鲜两名高官发动兵变为张成泽报仇,因细节败露,金正恩一招镇压

阿胡
2024-04-30 11:48:45
不是炫富!知情人曝李湘被封号真正原因或涉犯罪?更严重的在后面

不是炫富!知情人曝李湘被封号真正原因或涉犯罪?更严重的在后面

涵豆说娱
2026-01-27 10:06:49
日媒:新任福井县知事声称“日本是单一民族国家”,被痛批后撤回

日媒:新任福井县知事声称“日本是单一民族国家”,被痛批后撤回

环球网资讯
2026-01-27 08:43:24
库里26397分超名宿!冲历史前十要多久?答案太意外

库里26397分超名宿!冲历史前十要多久?答案太意外

篮球看比赛
2026-01-27 12:33:28
2026-01-27 13:12:49
南方都市报 incentive-icons
南方都市报
换一种方式,南都在现场。
594957文章数 3586930关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

遭美国施压 卡尼:加拿大无意与中国达成自由贸易协定

头条要闻

遭美国施压 卡尼:加拿大无意与中国达成自由贸易协定

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

金价狂飙 “牛市神话”未完待续

汽车要闻

剑指小米YU7与特斯拉Model Y 问界M6要来了?

态度原创

房产
旅游
亲子
教育
健康

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

旅游要闻

千年茶马古道:在现代文旅热潮中焕发新生

亲子要闻

9岁孩子从外面回到家,主动推开母亲房间门,无意间拍到这样一幕

教育要闻

坏孩子的杀伤力比校园霸凌更可怕,教会孩子识别身边的危险型人格

耳石脱落为何让人天旋地转+恶心?

无障碍浏览 进入关怀版