网易首页 > 网易号 > 正文 申请入驻

阿里发布旗舰推理模型Qwen3-Max-Thinking,号称性能媲美GPT-5.2

0
分享至

IT之家 1 月 26 日消息,北京时间今天晚间,阿里发布千问旗舰推理模型 Qwen3-Max-Thinking。根据官方介绍,其在多个关键维度上实现了显著提升,包括事实知识、复杂推理、指令遵循、人类偏好对齐以及智能体能力。在 19 项权威基准测试中,其性能可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 和 Gemini 3 Pro 等顶尖模型


千问新模型总参数超万亿,进行了更大规模的强化学习后训练,并通过推理技术的系列创新,最终完成模型性能的大幅飞跃。在多项关键性能基准测试中,Qwen3-Max-Thinking 还大幅增强了自主调用工具的原生 Agent 能力,模型可像专业人士一样边用工具边思考,回答更合用户心意、更智能、更流畅。同时,模型幻觉也大为降低,为解决真实复杂任务打下基础。

根据官方介绍,Qwen3-Max-Thinking 刷新了数项最佳表现(SOTA)纪录,特别在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试中表现优异,达到国际领先水平。

Qwen3-Max-Thinking 现已上线 Qwen Chat,用户可直接与模型及其自适应工具调用功能进行交互。同时,Qwen3-Max-Thinking 的 API(模型名称为 qwen3-max-2026-01-23)也已开放。

IT之家附体验链接:

  • Qwen Chat:chat.qwen.ai
  • 阿里云百炼:https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

据悉,Qwen3-Max-Thinking 拥有两项核心创新。

  • 自适应工具调用能力,可按需调用搜索引擎和代码解释器,现已上线 Qwen Chat;
  • 测试时扩展技术(Test-Time Scaling),显著提升推理性能,在关键推理基准上超越 Gemini 3 Pro。


官方对此的介绍如下:

自适应工具调用能力 与早期需要用户手动选择工具的方法不同,Qwen3-Max-Thinking 能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能。该能力源于专门设计的训练流程:在完成初步的工具使用微调后,模型在多样化任务上使用基于规则和模型的反馈进行了进一步训练。实验表明,搜索和记忆工具能有效缓解幻觉、提供实时信息访问并支持更个性化的回复。代码解释器允许用户执行代码片段并应用计算推理来解决复杂问题。这些功能共同提供了流畅且强大的对话体验。测试时拓展技术 测试时扩展是指在推理阶段分配额外计算资源以提升模型性能的技术。我们提出了一种经验累积式、多轮迭代的测试时扩展策略。不同于简单增加并行推理路径数量 N(这往往导致冗余推理),我们限制 N 并将节省的计算资源用于由“经验提取”机制引导的迭代式自我反思。该机制从过往推理轮次中提炼关键洞见,使模型避免重复推导已知结论,转而聚焦于未解决的不确定性。关键在于,相比直接引用原始推理轨迹,该机制实现了更高的上下文利用效率,在相同上下文窗口内能更充分地融合历史信息。在大致相同的 token 消耗下,该方法持续优于标准的并行采样与聚合方法:GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
争议!他为邵佳一3场进3球,依旧无法锁定国足绝对核心?球迷热议

争议!他为邵佳一3场进3球,依旧无法锁定国足绝对核心?球迷热议

罗掌柜体育
2026-01-26 23:46:55
天空体育:帕奎塔加盟弗拉门戈的转会费为3580万镑

天空体育:帕奎塔加盟弗拉门戈的转会费为3580万镑

懂球帝
2026-01-26 21:45:12
中建某局劳务派遣遭“团灭”!

中建某局劳务派遣遭“团灭”!

黯泉
2026-01-26 23:39:50
这是一个危险信号!小心美国突然动手

这是一个危险信号!小心美国突然动手

李荣茂
2026-01-26 18:26:36
青木率99%,高市早苗乐得连喊3声“万岁”,麻生:中方不足畏惧

青木率99%,高市早苗乐得连喊3声“万岁”,麻生:中方不足畏惧

通文知史
2026-01-25 18:55:03
【早报】高台跳水!白银14%涨幅蒸发、黄金下破5000美元;白银基金明起暂停申购

【早报】高台跳水!白银14%涨幅蒸发、黄金下破5000美元;白银基金明起暂停申购

财联社
2026-01-27 07:16:30
特殊的制度:不能连续任元首,盘点不得连选连任元首的15个国家

特殊的制度:不能连续任元首,盘点不得连选连任元首的15个国家

梦沉古道
2026-01-24 21:50:03
运价直逼5毛钱/公里,网约车司机发出灵魂拷问:这么低的价格究竟谁在跑?

运价直逼5毛钱/公里,网约车司机发出灵魂拷问:这么低的价格究竟谁在跑?

网约车观察室
2026-01-26 10:17:32
12斤肉3个月甩净!全红婵减重到离谱,这哪是减肥,是拿命拼金牌

12斤肉3个月甩净!全红婵减重到离谱,这哪是减肥,是拿命拼金牌

做一个合格的吃瓜群众
2025-12-31 07:41:05
曲阜会议上,饶漱石严肃告诫华野诸将:全军要服从粟裕同志指挥

曲阜会议上,饶漱石严肃告诫华野诸将:全军要服从粟裕同志指挥

大运河时空
2026-01-26 07:10:03
这条无耻新闻,引起公愤了!

这条无耻新闻,引起公愤了!

胖胖说他不胖
2026-01-26 10:00:16
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
不幸中的万幸,雄鹿字母哥目前没伤病恢复时间表,但不会赛季报销

不幸中的万幸,雄鹿字母哥目前没伤病恢复时间表,但不会赛季报销

好火子
2026-01-27 07:00:54
炸了!集体逼空暴涨

炸了!集体逼空暴涨

君临财富
2026-01-26 20:39:13
做完手术人就废了,这5种手术不需要做,别让无知害了自己

做完手术人就废了,这5种手术不需要做,别让无知害了自己

华庭讲美食
2026-01-19 14:27:13
有色劝降书来了!杨德龙看黄金1万美元,李蓓:持有黄金将错失大机会

有色劝降书来了!杨德龙看黄金1万美元,李蓓:持有黄金将错失大机会

金石随笔
2026-01-27 00:13:36
“家里东西被移动过!”女子查看路由器记录发现……真相令人毛骨悚然!

“家里东西被移动过!”女子查看路由器记录发现……真相令人毛骨悚然!

深圳晚报
2026-01-26 12:16:04
“去鲁迅化” 已 10 年有余,究竟要去什么?莫言余华看法一致

“去鲁迅化” 已 10 年有余,究竟要去什么?莫言余华看法一致

小豫讲故事
2026-01-23 06:00:04
爆:原中国移动集团董事长奚国华!

爆:原中国移动集团董事长奚国华!

通信头条
2026-01-26 22:07:15
2026-01-27 07:55:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
326631文章数 606916关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

上海一女子嫌风水不好 屡次掰歪小区两块反光镜

头条要闻

上海一女子嫌风水不好 屡次掰歪小区两块反光镜

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

手机
房产
健康
数码
军事航空

手机要闻

苹果更改iOS 27内部代号,距离亮相仅剩五个月!

房产要闻

突发!三亚官宣,调整安居房政策!

耳石脱落为何让人天旋地转+恶心?

数码要闻

英特尔高管批评AMD Strix Halo效率低 称高性能应依托独显而非大功率核显

军事要闻

委代总统称遭美威胁:马杜罗已死

无障碍浏览 进入关怀版