一项测试时扩展技术,让中国大模型在深夜的科技圈投下震撼弹,全球AI性能纪录被一夜刷新。
![]()
深夜的科技圈,被一则重磅消息点燃。1月26日晚,阿里巴巴正式发布了其预告已久的千问旗舰推理模型——Qwen3-Max-Thinking。
这不仅是阿里迄今为止规模最大、能力最强的千问推理模型,更在多项关键性能基准测试中,直接超越了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等国际顶尖对手。
01 深夜王炸
![]()
就在昨晚,阿里巴巴通义千问团队扔出了一枚“深夜王炸”。Qwen3-Max-Thinking的正式发布,标志着中国大模型技术迈上了一个全新的台阶。
这个模型的总参数超过万亿(1T),预训练数据量高达36T Tokens。它经过了更大规模的强化学习后训练,并通过一系列推理技术的创新,最终实现了模型性能的飞跃式突破。
此前,预览版Qwen3-Max-Thinking已经展示了惊人的潜力,斩获了数学推理AIME 25和HMMT 25的国内首个双满分。而正式版在此基础上,性能得到了全面增强。
通义团队为这个模型引入了两项核心创新:自适应工具调用能力和测试时扩展技术。这两项技术,特别是测试时扩展技术,可能是它能够在多项基准测试中脱颖而出的关键。
02 性能狂飙
在多项关键性能基准测试中,Qwen3-Max-Thinking的表现令人震撼。它刷新了科学知识、数学推理、代码编程等多项关键性能基准测试的全球纪录。
在科学知识测试中,它超越了GPT-5.2;在数学推理领域,它击败了Claude Opus 4.5;在代码编程方面,它的表现也优于Gemini 3 Pro。
这些成绩的背后,是通义团队在模型推理能力上的重大突破。传统的推理计算往往只是简单增加并行推理路径,重复推导已知结论,造成了冗余和效率低下。
而Qwen3-Max-Thinking采用的测试时扩展新机制,能够对之前的推理结果进行“经验提取”式的提炼,并据此进行多轮自我迭代。这意味着在相同的上下文中,它能够实现更高效的推理计算,获得更智能的推理结果。
03 突破创新
除了测试时扩展机制外,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。
通义团队对模型进行了基于规则奖励与模型奖励的联合强化学习训练,让模型能够自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能。
这意味着,当你向它提出问题时,它不仅能给出答案,还能像专业人士一样,知道什么时候需要搜索最新信息,什么时候需要调取相关知识储备,什么时候需要用代码解释器来验证解决方案。
同时,模型的幻觉现象也大为降低。这是AI领域长期面临的难题——模型有时会“自信地”给出错误答案。Qwen3-Max-Thinking在这方面取得的进展,使它的回答更加可靠和准确。
04 全面开放
最令人振奋的是,这个强大的模型并非只供少数人使用。普通用户现在就可以通过千问PC端和网页端试用模型,开发者可以在QwenChat上免费体验Qwen3-Max-Thinking模型。
对于企业用户,可以通过阿里云百炼获取新模型API服务。而据了解,千问APP也即将接入新模型,所有用户都可免费体验。
这意味着,中国企业和开发者将能够第一时间接触并使用到与世界顶尖水平媲美的大模型技术。这种开放和普惠的策略,无疑将加速AI技术在各行各业的应用和创新。
自2022年开始研发以来,阿里Qwen大模型已经成为全球排名第一的开源大模型。而Qwen3-Max-Thinking的发布,无疑是在这一成功基础上的又一次飞跃。
阿里美股在模型发布当天微跌1.07%,但港股27日盘前却涨超2%。资本市场似乎已经开始对这个技术突破作出反应。
当国际巨头还在为模型参数的微小提升而沾沾自喜时,中国团队已经通过架构和机制的创新,实现了质的飞跃。一个能够在测试时自我迭代、自我完善的AI大脑,正在从实验室走向千家万户的电脑和手机屏幕。
这不仅是技术的胜利,更是创新思维的胜利。
AI眼镜处于爆发前夜,有很多值得体验的好产品
欢迎大家进群一起交流使用心得!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.