网易首页 > 网易号 > 正文 申请入驻

阿里千问最强推理模型问世:采用全新测试时扩展机制,性能比肩GPT-5.2

0
分享至


阿里正式发布千问最强AI(人工智能)模型。

1月26日晚间,阿里正式发布预告已久的千问旗舰推理模型Qwen3-Max-Thinking。据介绍,该模型创下数项权威评测全球新纪录,性能媲美GPT-5.2、Gemini 3 Pro,成为迄今为止最接近国际顶尖模型的国内最强AI大模型。通义团队还为其引入了两项核心创新:自适应工具调用能力和测试时扩展技术(Test-Time Scaling)。

从参数来看,千问新模型总参数超万亿(1T),预训练数据量高达36T Tokens,是目前阿里规模最大、能力最强的千问推理模型。该模型进行了更大规模的强化学习后训练,并通过推理技术的系列创新,最终完成模型性能的大幅飞跃。

此前,预览版Qwen3-Max-Thinking已斩获数学推理AIME 25和HMMT 25的国内首个双满分。在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking性能。

在多项关键性能基准测试中,千问表现超过了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等顶尖模型,刷新科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试的全球纪录。



千问在多项关键性能基准测试中的表现。来源:阿里云

据介绍,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展机制。业界普遍的推理时计算,只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下;而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。

此外,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练。模型能够自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供和专业人士一样水平的回答。同时,模型幻觉也大为降低。

目前,普通用户可以通过千问PC端和网页端试用模型,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务。据了解,千问APP也即将接入新模型,所有用户都可免费体验。

阿里Qwen大模型的研发始于2022年,已经成为全球排名第一的开源大模型。大模型Qwen3-Max发布于2025年9月,是通义千问家族中最大、最强的基础模型。

26日当天,阿里巴巴美股(NYSE:BABA)跌1.07%收于每股171.38美元,总市值4091亿美元;港股(9988.HK)27日盘前涨超2%。

澎湃新闻记者 胡含嫣

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨思琦回应李家鼎风波,被冤枉15年平方拒落井下石,心疼鼎爷消瘦

杨思琦回应李家鼎风波,被冤枉15年平方拒落井下石,心疼鼎爷消瘦

开开森森
2026-05-10 19:52:51
中国境内唯一一支外国军队,赶了50年赶不走,至今仍驻扎在北京

中国境内唯一一支外国军队,赶了50年赶不走,至今仍驻扎在北京

可乐爱微笑
2026-05-07 02:35:38
皇马连续2个赛季四大皆空,姆巴佩只是背锅的,头号罪魁在幕后了

皇马连续2个赛季四大皆空,姆巴佩只是背锅的,头号罪魁在幕后了

球场没跑道
2026-05-11 11:48:18
县交警队长被举报工作日KTV饮酒;镇雄公安:事先已请假,未违规违纪

县交警队长被举报工作日KTV饮酒;镇雄公安:事先已请假,未违规违纪

大风新闻
2026-05-10 15:07:12
认命了?张本智和戴上银牌后开心合影+有说有笑 教练队友表情尴尬

认命了?张本智和戴上银牌后开心合影+有说有笑 教练队友表情尴尬

风过乡
2026-05-11 07:50:21
女子潜水遇成千上万海狼群,网友:被袭击10秒不到就剩骨架!

女子潜水遇成千上万海狼群,网友:被袭击10秒不到就剩骨架!

狸猫之一的动物圈
2026-05-10 10:17:09
迪马利亚:有人话太多,我们在场上证明自己

迪马利亚:有人话太多,我们在场上证明自己

懂球帝
2026-05-11 10:45:03
广东全员抵京备战G3:胡明轩乖巧合影,徐杰人气火爆,焦泊乔热聊

广东全员抵京备战G3:胡明轩乖巧合影,徐杰人气火爆,焦泊乔热聊

二哥聊球
2026-05-11 12:21:35
法国正式颁布关于归还非法所获文物的法律:将1815至1972年间以偷盗、掠夺等方式所得的外国文物,从“公共领域”中“移出”

法国正式颁布关于归还非法所获文物的法律:将1815至1972年间以偷盗、掠夺等方式所得的外国文物,从“公共领域”中“移出”

封面新闻
2026-05-11 05:24:07
哈佛提醒:防肌肉流失别只补蛋白!这6种营养才是关键

哈佛提醒:防肌肉流失别只补蛋白!这6种营养才是关键

橘子约定
2026-05-05 20:49:53
5月11日,人社部会公布2026年养老金调整通知吗?社保制度优化

5月11日,人社部会公布2026年养老金调整通知吗?社保制度优化

社保小达人
2026-05-11 10:07:04
奇才抽状元签引热议!美媒力挺选迪班萨组四巨:全新15人名单崛起

奇才抽状元签引热议!美媒力挺选迪班萨组四巨:全新15人名单崛起

颜小白的篮球梦
2026-05-11 09:12:16
汪峰森林北分手了?女方回应堪比教科书!网友:段位碾压章子怡

汪峰森林北分手了?女方回应堪比教科书!网友:段位碾压章子怡

奇怪的鲨鱼们
2026-05-11 05:13:32
“平价米其林”招牌卤肉饭用预制料包?自称6小时慢煮…北京有店被评“不如路边摊”

“平价米其林”招牌卤肉饭用预制料包?自称6小时慢煮…北京有店被评“不如路边摊”

北京商报
2026-05-10 16:15:37
汉坦病毒mRNA疫苗全球研发缓慢,中国相关灭活疫苗已上市20年

汉坦病毒mRNA疫苗全球研发缓慢,中国相关灭活疫苗已上市20年

红星新闻
2026-05-09 17:39:29
NBA状元签出炉!仅一夜,快船队成最大赢家,下赛季超级黑马诞生

NBA状元签出炉!仅一夜,快船队成最大赢家,下赛季超级黑马诞生

慢歌轻步谣
2026-05-11 09:00:13
形势有多严峻?曾经的王牌专业凉了!辅导员和教授感到无力和沉重

形势有多严峻?曾经的王牌专业凉了!辅导员和教授感到无力和沉重

慧翔百科
2026-05-09 11:34:26
英超VAR最重要判罚!西汉姆绝平球被吹,决定冠军归属,枪手欢庆

英超VAR最重要判罚!西汉姆绝平球被吹,决定冠军归属,枪手欢庆

奥拜尔
2026-05-11 02:03:40
千万别在网上买双人马桶!这卖家秀画面简直没眼看哈哈...

千万别在网上买双人马桶!这卖家秀画面简直没眼看哈哈...

经典段子
2026-05-10 22:35:43
李晨在《跑男》委屈到骨子里,被新嘉宾嘲讽、节目组针对,陈赫提他红了眼,刘浩存力挺

李晨在《跑男》委屈到骨子里,被新嘉宾嘲讽、节目组针对,陈赫提他红了眼,刘浩存力挺

科学发掘
2026-05-10 18:54:06
2026-05-11 12:52:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
895042文章数 5090878关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

姑娘海底捞吃完饭遭多名男子殴打 两颗门牙被一拳打断

头条要闻

姑娘海底捞吃完饭遭多名男子殴打 两颗门牙被一拳打断

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

谢霆锋没想到,王菲靠张艺谋重返巅峰

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

全球化成国内车企未来胜负手,谁是出海最强"水手"?

态度原创

旅游
亲子
健康
家居
游戏

旅游要闻

济南“泉水游”爆火背后:解码历下如何擦亮“泉水长涌”金名片

亲子要闻

孩子心疼父母,反而是对家的伤害?

干细胞能让人“返老还童”吗

家居要闻

多元生活 此处无声

曝索尼正调整PS游戏地区价格!从此告别568港元?

无障碍浏览 进入关怀版