网易首页 > 网易号 > 正文 申请入驻

阿里发布旗舰推理模型Qwen3-Max-Thinking,号称性能媲美GPT-5.2

0
分享至

IT之家 1 月 26 日消息,北京时间今天晚间,阿里发布千问旗舰推理模型 Qwen3-Max-Thinking。根据官方介绍,其在多个关键维度上实现了显著提升,包括事实知识、复杂推理、指令遵循、人类偏好对齐以及智能体能力。在 19 项权威基准测试中,其性能可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 和 Gemini 3 Pro 等顶尖模型


千问新模型总参数超万亿,进行了更大规模的强化学习后训练,并通过推理技术的系列创新,最终完成模型性能的大幅飞跃。在多项关键性能基准测试中,Qwen3-Max-Thinking 还大幅增强了自主调用工具的原生 Agent 能力,模型可像专业人士一样边用工具边思考,回答更合用户心意、更智能、更流畅。同时,模型幻觉也大为降低,为解决真实复杂任务打下基础。

根据官方介绍,Qwen3-Max-Thinking 刷新了数项最佳表现(SOTA)纪录,特别在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试中表现优异,达到国际领先水平。

Qwen3-Max-Thinking 现已上线 Qwen Chat,用户可直接与模型及其自适应工具调用功能进行交互。同时,Qwen3-Max-Thinking 的 API(模型名称为 qwen3-max-2026-01-23)也已开放。

IT之家附体验链接:

  • Qwen Chat:chat.qwen.ai
  • 阿里云百炼:https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

据悉,Qwen3-Max-Thinking 拥有两项核心创新。

  • 自适应工具调用能力,可按需调用搜索引擎和代码解释器,现已上线 Qwen Chat;
  • 测试时扩展技术(Test-Time Scaling),显著提升推理性能,在关键推理基准上超越 Gemini 3 Pro。


官方对此的介绍如下:

自适应工具调用能力 与早期需要用户手动选择工具的方法不同,Qwen3-Max-Thinking 能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能。该能力源于专门设计的训练流程:在完成初步的工具使用微调后,模型在多样化任务上使用基于规则和模型的反馈进行了进一步训练。实验表明,搜索和记忆工具能有效缓解幻觉、提供实时信息访问并支持更个性化的回复。代码解释器允许用户执行代码片段并应用计算推理来解决复杂问题。这些功能共同提供了流畅且强大的对话体验。测试时拓展技术 测试时扩展是指在推理阶段分配额外计算资源以提升模型性能的技术。我们提出了一种经验累积式、多轮迭代的测试时扩展策略。不同于简单增加并行推理路径数量 N(这往往导致冗余推理),我们限制 N 并将节省的计算资源用于由“经验提取”机制引导的迭代式自我反思。该机制从过往推理轮次中提炼关键洞见,使模型避免重复推导已知结论,转而聚焦于未解决的不确定性。关键在于,相比直接引用原始推理轨迹,该机制实现了更高的上下文利用效率,在相同上下文窗口内能更充分地融合历史信息。在大致相同的 token 消耗下,该方法持续优于标准的并行采样与聚合方法:GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

妍妍教育日记
2026-04-24 11:15:25
文班遭遇詹库待遇!输球却有好消息?马刺连续3年选3个超级天赋!

文班遭遇詹库待遇!输球却有好消息?马刺连续3年选3个超级天赋!

你的篮球频道
2026-05-11 13:36:31
和刘涛分手后,他常年定居上海,如今身价不菲,年过60却依旧单身

和刘涛分手后,他常年定居上海,如今身价不菲,年过60却依旧单身

凡知
2026-05-11 05:31:22
世乒赛丢冠之后,日本国内炸了锅,张本智和及队友惨遭舆论围剿

世乒赛丢冠之后,日本国内炸了锅,张本智和及队友惨遭舆论围剿

素衣读史
2026-05-11 20:52:47
《权游》纪录将被打破?HBO新剧要播15季

《权游》纪录将被打破?HBO新剧要播15季

娱圈观察员
2026-05-11 02:38:29
少女们的美丽刑具,安踏年销140亿的印钞机

少女们的美丽刑具,安踏年销140亿的印钞机

快刀财经
2026-05-11 22:12:42
抢在特朗普访华前,内塔天天打电话,开出两大条件,不接受就开战

抢在特朗普访华前,内塔天天打电话,开出两大条件,不接受就开战

今夜繁星坠落
2026-05-11 23:13:21
伊朗深夜清理门户,两名内鬼被绞,身份曝光后中国也惊出一身冷汗

伊朗深夜清理门户,两名内鬼被绞,身份曝光后中国也惊出一身冷汗

达文西看世界
2026-05-09 14:03:46
首尾大战,央视直播!CCTV5+聚焦津蓉对决,CCTV16播鲁渝交锋

首尾大战,央视直播!CCTV5+聚焦津蓉对决,CCTV16播鲁渝交锋

实事球是
2026-05-11 08:38:25
图拉姆:我的合同不像劳塔罗那么长,但我在国米感觉棒极了

图拉姆:我的合同不像劳塔罗那么长,但我在国米感觉棒极了

懂球帝
2026-05-11 23:20:14
25三分追平历史纪录!尼克斯4-0横扫76人进东决 恩比德空砍24分

25三分追平历史纪录!尼克斯4-0横扫76人进东决 恩比德空砍24分

醉卧浮生
2026-05-11 06:13:45
“华为”改为“国内通信设备商”,中天科技撤回投资者关系活动记录表?

“华为”改为“国内通信设备商”,中天科技撤回投资者关系活动记录表?

北京商报
2026-05-11 20:48:14
4队提前保级!英超迎来大变化,还剩6队,争夺最后两席

4队提前保级!英超迎来大变化,还剩6队,争夺最后两席

嗨皮看球
2026-05-11 11:42:20
他信假释出狱:与前总理女儿搭车牌“4444”的车离开,“现在什么也记不起来”

他信假释出狱:与前总理女儿搭车牌“4444”的车离开,“现在什么也记不起来”

红星新闻
2026-05-11 15:09:20
中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

美食格物
2026-05-10 15:13:10
他接受纪律审查和监察调查

他接受纪律审查和监察调查

锡望
2026-05-11 21:56:44
新一轮金融危机,开始了

新一轮金融危机,开始了

米宅
2026-05-11 07:22:58
95岁巴菲特押注大暴跌:手握4000亿现金,真正的聪明人都在等风暴

95岁巴菲特押注大暴跌:手握4000亿现金,真正的聪明人都在等风暴

魏家东
2026-05-05 10:13:24
揭秘格瓦斯从火爆到消失的背后真相

揭秘格瓦斯从火爆到消失的背后真相

流苏晚晴
2026-05-10 20:16:23
随巴萨夺得西甲冠军,拉什福德职业生涯首次夺得联赛冠军

随巴萨夺得西甲冠军,拉什福德职业生涯首次夺得联赛冠军

懂球帝
2026-05-11 05:17:17
2026-05-11 23:55:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
343686文章数 607201关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

旅游
游戏
教育
时尚
房产

旅游要闻

天坛公园5月12日景点暂停开放

LOL第一支MSI战队出炉,TSW确定晋级季中赛!BLG已锁定淘汰赛名额

教育要闻

10-4是个什么信号

今年夏天最流行的5双凉鞋,配裙子绝美!

房产要闻

产业赋能教育!翰林府与北师大的这场签约,绝不那么简单!

无障碍浏览 进入关怀版