网易首页 > 网易号 > 正文 申请入驻

阿里千问最强推理模型问世:采用全新测试时扩展机制,性能比肩GPT-5.2

0
分享至


阿里正式发布千问最强AI(人工智能)模型。

1月26日晚间,阿里正式发布预告已久的千问旗舰推理模型Qwen3-Max-Thinking。据介绍,该模型创下数项权威评测全球新纪录,性能媲美GPT-5.2、Gemini 3 Pro,成为迄今为止最接近国际顶尖模型的国内最强AI大模型。通义团队还为其引入了两项核心创新:自适应工具调用能力和测试时扩展技术(Test-Time Scaling)。

从参数来看,千问新模型总参数超万亿(1T),预训练数据量高达36T Tokens,是目前阿里规模最大、能力最强的千问推理模型。该模型进行了更大规模的强化学习后训练,并通过推理技术的系列创新,最终完成模型性能的大幅飞跃。

此前,预览版Qwen3-Max-Thinking已斩获数学推理AIME 25和HMMT 25的国内首个双满分。在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking性能。

在多项关键性能基准测试中,千问表现超过了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等顶尖模型,刷新科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试的全球纪录。



千问在多项关键性能基准测试中的表现。来源:阿里云

据介绍,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展机制。业界普遍的推理时计算,只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下;而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。

此外,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练。模型能够自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供和专业人士一样水平的回答。同时,模型幻觉也大为降低。

目前,普通用户可以通过千问PC端和网页端试用模型,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务。据了解,千问APP也即将接入新模型,所有用户都可免费体验。

阿里Qwen大模型的研发始于2022年,已经成为全球排名第一的开源大模型。大模型Qwen3-Max发布于2025年9月,是通义千问家族中最大、最强的基础模型。

26日当天,阿里巴巴美股(NYSE:BABA)跌1.07%收于每股171.38美元,总市值4091亿美元;港股(9988.HK)27日盘前涨超2%。

澎湃新闻记者 胡含嫣

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!曾是世界第一的行业,如今沦为废墟,18家国企惨遭淘汰!

震惊!曾是世界第一的行业,如今沦为废墟,18家国企惨遭淘汰!

特约前排观众
2026-01-15 00:05:11
AB求助黄晓明进行紧急公关!

AB求助黄晓明进行紧急公关!

八卦疯叔
2026-01-27 10:34:46
“垃圾不够烧了”,中国垃圾焚烧发电技术全球领跑

“垃圾不够烧了”,中国垃圾焚烧发电技术全球领跑

21世纪经济报道
2026-01-26 17:33:07
高市早苗心腹遭围攻!

高市早苗心腹遭围攻!

环球时报国际
2026-01-27 00:23:57
新加坡外长维文公开向中国请求特殊待遇!

新加坡外长维文公开向中国请求特殊待遇!

达文西看世界
2026-01-26 16:47:06
带老婆全裸闹红毯!「肯爷崩溃道歉了」 认脑部严重损伤:不想活下去

带老婆全裸闹红毯!「肯爷崩溃道歉了」 认脑部严重损伤:不想活下去

ETtoday星光云
2026-01-27 10:58:05
32岁未婚独生女重度抑郁了!父母双亡,只留下一套房和160万存款

32岁未婚独生女重度抑郁了!父母双亡,只留下一套房和160万存款

火山詩话
2026-01-05 08:57:12
善恶昭彰10:黑哥逞凶入天籁

善恶昭彰10:黑哥逞凶入天籁

金昔说故事
2026-01-22 14:39:36
2026年退休新规来了!身份证年龄作废,25年铁律曝光,早看少吃亏

2026年退休新规来了!身份证年龄作废,25年铁律曝光,早看少吃亏

复转这些年
2026-01-08 23:43:01
第一批免签去俄罗斯的中产傻眼了

第一批免签去俄罗斯的中产傻眼了

风向观察
2025-12-16 18:26:08
环卫工人的“电子镣铐”:首先他们是人,不是机器!

环卫工人的“电子镣铐”:首先他们是人,不是机器!

迷世书童H9527
2026-01-24 09:13:37
中国又火了!丢失130年领土终于被收复,勘测完发现大量稀有资源

中国又火了!丢失130年领土终于被收复,勘测完发现大量稀有资源

瞳哥视界
2025-12-30 20:17:02
小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

浩源的妈妈
2026-01-27 06:29:07
情况有变!日本通过决议,要从中国东面下手,美国一队人马上就到

情况有变!日本通过决议,要从中国东面下手,美国一队人马上就到

南宗历史
2026-01-27 10:40:01
统一号角已经吹响!民进党对大陆称呼突然改口,释放的信号不简单

统一号角已经吹响!民进党对大陆称呼突然改口,释放的信号不简单

标体
2026-01-26 13:32:35
亚足联年度最佳阵出炉!日本独占5席,韩国3人上榜,中国无人入选

亚足联年度最佳阵出炉!日本独占5席,韩国3人上榜,中国无人入选

绿茵舞着
2026-01-27 22:20:13
老干部和女幼师的聊天记录,竟然让网友看得停不下来!

老干部和女幼师的聊天记录,竟然让网友看得停不下来!

特约前排观众
2026-01-27 00:20:03
“胃部有癌,嘴巴先知”!嘴上出现这4种异常,千万不要掉以轻心

“胃部有癌,嘴巴先知”!嘴上出现这4种异常,千万不要掉以轻心

熊猫医学社
2026-01-21 11:30:03
美国不许加拿大和中国达成贸易协议,美财长:中国或面临额外惩罚

美国不许加拿大和中国达成贸易协议,美财长:中国或面临额外惩罚

说故事的阿袭
2026-01-28 01:14:50
德国大师赛战报!赵心童制造惨案,中国8人晋级,16强对阵出炉

德国大师赛战报!赵心童制造惨案,中国8人晋级,16强对阵出炉

郝小小看体育
2026-01-28 00:14:23
2026-01-28 03:59:00
冒泡泡的鱼儿
冒泡泡的鱼儿
每天带来社会资讯
360文章数 15054关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

美报告称中国是其19世纪以来面对过的最强大国家

头条要闻

美报告称中国是其19世纪以来面对过的最强大国家

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

健康
教育
数码
手机
公开课

耳石脱落为何让人天旋地转+恶心?

教育要闻

对话陈妤颉:闪闪发光的赛道,追逐梦想

数码要闻

这事你怎么看 索尼与TCL签署意向备忘录 网友:Sony变Tony了

手机要闻

苹果连发4版系统:从iPhone 5s到iOS 26,果粉福音来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版