阿里千问最强推理模型问世：采用全新测试时扩展机制，性能比肩GPT-5.2|数学|gpt|大模型|阿里巴巴|真实场景|知名企业

阿里千问最强推理模型问世：采用全新测试时扩展机制，性能比肩GPT-5.2

分享至

阿里正式发布千问最强AI（人工智能）模型。

1月26日晚间，阿里正式发布预告已久的千问旗舰推理模型Qwen3-Max-Thinking。据介绍，该模型创下数项权威评测全球新纪录，性能媲美GPT-5.2、Gemini 3 Pro，成为迄今为止最接近国际顶尖模型的国内最强AI大模型。通义团队还为其引入了两项核心创新：自适应工具调用能力和测试时扩展技术（Test-Time Scaling）。

从参数来看，千问新模型总参数超万亿（1T），预训练数据量高达36T Tokens，是目前阿里规模最大、能力最强的千问推理模型。该模型进行了更大规模的强化学习后训练，并通过推理技术的系列创新，最终完成模型性能的大幅飞跃。

此前，预览版Qwen3-Max-Thinking已斩获数学推理AIME 25和HMMT 25的国内首个双满分。在此基础上，阿里通义团队进行了更大规模的强化学习后训练，全面提升了正式版Qwen3-Max-Thinking性能。

在多项关键性能基准测试中，千问表现超过了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等顶尖模型，刷新科学知识（GPQA Diamond）、数学推理（IMO-AnswerBench）、代码编程（LiveCodeBench）等多项关键性能基准测试的全球纪录。

千问在多项关键性能基准测试中的表现。来源：阿里云

据介绍，在关键的模型推理能力提升中，千问新模型采用了一种全新的测试时扩展机制。业界普遍的推理时计算，只会简单增加并行推理路径，重复推导已知结论，造成冗余推理效率低下；而千问采用的这一新机制，可对此前推理的结果进行“经验提取”式的提炼，并据此进行多轮自我迭代，在相同的上下文中实现更高效的推理计算，获得更智能的推理结果。

此外，Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言，通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练。模型能够自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能，提供和专业人士一样水平的回答。同时，模型幻觉也大为降低。

目前，普通用户可以通过千问PC端和网页端试用模型，开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型，企业可通过阿里云百炼获取新模型API服务。据了解，千问APP也即将接入新模型，所有用户都可免费体验。

阿里Qwen大模型的研发始于2022年，已经成为全球排名第一的开源大模型。大模型Qwen3-Max发布于2025年9月，是通义千问家族中最大、最强的基础模型。

26日当天，阿里巴巴美股（NYSE:BABA）跌1.07%收于每股171.38美元，总市值4091亿美元；港股（9988.HK）27日盘前涨超2%。

澎湃新闻记者胡含嫣

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.