网易首页 > 网易号 > 正文 申请入驻

阿里千问最强模型重磅亮相:性能媲美GPT-5.2、Gemini 3 Pro

0
分享至

快科技1月26日消息,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录,性能媲美GPT-5.2、Gemini 3 Pro,成为迄今为止最接近国际顶尖模型的国内最强AI大模型。

通过总参数、强化学习、推理计算的极致规模扩展,千问新模型实现了性能的大幅飞跃,刷新科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试的全球纪录。



Qwen3-Max-Thinking是目前阿里规模最大、能力最强的千问推理模型,其总参数量超万亿(1T),预训练数据量高达36T Tokens。

此前,预览版Qwen3-Max-Thinking斩获数学推理AIME 25和HMMT 25的国内首个双满分,推理性能已让人惊艳;在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking性能。

在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了数项最佳表现(SOTA)纪录,整体性能可媲美GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro 。

在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展(Test-time Scaling)机制,推理性能提升的同时还更经济。

业界普遍的推理时计算,只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下;而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。

基于这一推理技术创新,千问推理性能和推理效率大为提升,比如在启用工具的“人类最后的测试”HLE中,千问得分58.3,大幅超过GPT-5.2-Thinking的45.5、Gemini 3 Pro的45.8,录得当前所有模型的最高分。

面向即将到来的智能体Agent时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。

具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。

这种自适应的工具调用能力可在QwenChat上完整体验,模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供专业人士一样水平的回答,更合用户心意、更智能、更流畅;同时,模型幻觉也大为降低,为解决真实复杂任务打下基础。

目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。据了解,千问APP也即将接入新模型,所有用户都可免费体验千问最强模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三星宣布再涨价100%!

三星宣布再涨价100%!

中国半导体论坛
2026-01-26 15:07:00
人为什么会得恶性肿瘤?原来癌症是这样来的,现在知道还不晚

人为什么会得恶性肿瘤?原来癌症是这样来的,现在知道还不晚

医学原创故事会
2026-01-27 00:14:05
CBA裁判专家,给迪亚洛提了一个建议

CBA裁判专家,给迪亚洛提了一个建议

体育哲人
2026-01-26 14:44:44
华为技术专家,入职985母校!

华为技术专家,入职985母校!

TOP大学来了
2026-01-26 20:34:23
1951年,戴笠独子被处决,蒋介石两年后下令:他的子孙全接回台湾

1951年,戴笠独子被处决,蒋介石两年后下令:他的子孙全接回台湾

古书记史
2025-12-11 17:37:45
2025年新生儿仅有792万,一个重要原因是育儿的廉价劳动力已经不足了

2025年新生儿仅有792万,一个重要原因是育儿的廉价劳动力已经不足了

风向观察
2026-01-25 12:07:51
载有美国对台首批军售武器货轮于1月13日从美国正驶往台湾方向

载有美国对台首批军售武器货轮于1月13日从美国正驶往台湾方向

南权先生
2026-01-23 15:42:38
老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老蒋曾说:亡于日本为亡国奴,亡于共产党,则为奴亦不可得

老范谈史
2026-01-05 21:19:06
灵隐寺免费后38万人爽约,免票不等于免诚信

灵隐寺免费后38万人爽约,免票不等于免诚信

中国青年报
2026-01-26 21:34:06
在湖人没打出来,但内线新星加盟老鹰后立刻打出了亮眼的表现?

在湖人没打出来,但内线新星加盟老鹰后立刻打出了亮眼的表现?

稻谷与小麦
2026-01-27 11:57:50
山东一周“撸”了13个官儿!

山东一周“撸”了13个官儿!

济宁人
2026-01-26 20:41:33
清水梨纱:上次亚洲杯我们不敌中国,现在要以挑战者心态迎战

清水梨纱:上次亚洲杯我们不敌中国,现在要以挑战者心态迎战

懂球帝
2026-01-26 17:30:12
邻居吓煞!上海这家人装3台燃气热水器,把自己团团围住,窗户封死……

邻居吓煞!上海这家人装3台燃气热水器,把自己团团围住,窗户封死……

手工制作阿爱
2026-01-27 09:47:13
如果你希望儿子自律、优秀、强大,就让他学会吃这3种“高级苦”

如果你希望儿子自律、优秀、强大,就让他学会吃这3种“高级苦”

诗词中国
2026-01-26 19:58:23
不反华了?芬兰首脑抵京,中国用最高规格接待,现场备好一辆专车

不反华了?芬兰首脑抵京,中国用最高规格接待,现场备好一辆专车

万国明信片
2026-01-27 09:28:37
金价狂飙 “牛市神话”未完待续

金价狂飙 “牛市神话”未完待续

北京商报
2026-01-27 00:55:22
《太平年》:守城十日,冯道用两万一千人性命,换一线希望

《太平年》:守城十日,冯道用两万一千人性命,换一线希望

感影的世界
2026-01-27 11:34:34
365万辆汽车积压!不降价真能清库存?真相惊人

365万辆汽车积压!不降价真能清库存?真相惊人

阿芒娱乐说
2026-01-26 10:00:18
用“野路子”掀桌,汽水音乐威胁到谁?

用“野路子”掀桌,汽水音乐威胁到谁?

青橙财经
2026-01-25 22:29:30
随着兰帕德率领头羊爆大冷门1-2,英冠最新积分榜出炉

随着兰帕德率领头羊爆大冷门1-2,英冠最新积分榜出炉

侧身凌空斩
2026-01-27 09:11:06
2026-01-27 12:32:49
冒泡泡的鱼儿
冒泡泡的鱼儿
每天带来社会资讯
346文章数 15051关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

斯塔默访华前:英国不必在美国和中国之间做选择

头条要闻

斯塔默访华前:英国不必在美国和中国之间做选择

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

金价狂飙 “牛市神话”未完待续

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

家居
健康
手机
亲子
时尚

家居要闻

现代古典 中性又显韵味

耳石脱落为何让人天旋地转+恶心?

手机要闻

7150mAh青海湖大电池 荣耀Magic V6定档MWC

亲子要闻

2025年度三甲口腔医院实测:儿童专用防蛀抗敏去黄牙膏权威推荐榜

这些韩系穿搭最适合普通人!多穿深色、衣服基础,简洁耐看

无障碍浏览 进入关怀版