网易首页 > 网易号 > 正文 申请入驻

阿里发布千问旗舰推理模型Qwen3-Max-Thinking

0
分享至

智通财经APP获悉,1月26日,阿里正式推出千问系列旗舰推理模型Qwen3-Max-Thinking。据悉,Qwen3-Max-Thinking 在多个关键维度上实现了显著提升,包括事实知识、复杂推理、指令遵循、人类偏好对齐以及智能体能力。在19项权威基准测试中,其性能可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 和 Gemini 3 Pro 等顶尖模型。

Qwen3-Max-Thinking 引入两项核心创新:

(1)自适应工具调用能力,可按需调用搜索引擎和代码解释器,现已上线Qwen Chat;

(2)测试时扩展技术(Test-Time Scaling),显著提升推理性能,在关键推理基准上超越 Gemini 3 Pro。


下表展示了更全面的评估分数:


自适应工具调用能力

与早期需要用户手动选择工具的方法不同,Qwen3-Max-Thinking 能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能。该能力源于专门设计的训练流程:在完成初步的工具使用微调后,模型在多样化任务上使用基于规则和模型的反馈进行了进一步训练。实验表明,搜索和记忆工具能有效缓解幻觉、提供实时信息访问并支持更个性化的回复。代码解释器允许用户执行代码片段并应用计算推理来解决复杂问题。这些功能共同提供了流畅且强大的对话体验。

测试时拓展技术

测试时扩展是指在推理阶段分配额外计算资源以提升模型性能的技术。我们提出了一种经验累积式、多轮迭代的测试时扩展策略。不同于简单增加并行推理路径数量(这往往导致冗余推理),我们限制并将节省的计算资源用于由“经验提取”机制引导的迭代式自我反思。该机制从过往推理轮次中提炼关键洞见,使模型避免重复推导已知结论,转而聚焦于未解决的不确定性。关键在于,相比直接引用原始推理轨迹,该机制实现了更高的上下文利用效率,在相同上下文窗口内能更充分地融合历史信息。在大致相同的 token 消耗下,该方法持续优于标准的并行采样与聚合方法:GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

Qwen3-Max-Thinking 现已上线 Qwen Chat,用户可直接与模型及其自适应工具调用功能进行交互。同时,Qwen3-Max-Thinking 的 API(模型名称为 qwen3-max-2026-01-23)也已开放。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA打完21轮,才发现这四位球员最应该入选男篮!徐杰庞峥麟领衔

CBA打完21轮,才发现这四位球员最应该入选男篮!徐杰庞峥麟领衔

多特体育说
2026-01-30 00:25:03
黄仁勋:未获大陆新订单,台湾40%芯片产能转美国系误读!

黄仁勋:未获大陆新订单,台湾40%芯片产能转美国系误读!

芯智讯
2026-01-30 09:46:34
杨鸣揭秘球员转会!张镇麟选择上海,周琦有特权,赵继伟也要走?

杨鸣揭秘球员转会!张镇麟选择上海,周琦有特权,赵继伟也要走?

体坛大事记
2026-01-30 11:01:10
CBA再现超级后卫!轰29分8助,主教练亲自向郭士强推荐

CBA再现超级后卫!轰29分8助,主教练亲自向郭士强推荐

体育哲人
2026-01-30 16:31:08
中国公民东京街头被劫,中使馆再次提醒近期避免前往日本

中国公民东京街头被劫,中使馆再次提醒近期避免前往日本

界面新闻
2026-01-30 12:35:03
澳网首冠诞生!10年来首个卫冕组合!张帅明天冲击澳网第二冠!

澳网首冠诞生!10年来首个卫冕组合!张帅明天冲击澳网第二冠!

篮球看比赛
2026-01-30 13:58:23
这个朝代只有10年,却被膜拜了1000年

这个朝代只有10年,却被膜拜了1000年

最爱历史
2026-01-27 15:33:55
华尔街深夜反击,金价一夜暴跌3500元,黄金都搬进了上海金库?

华尔街深夜反击,金价一夜暴跌3500元,黄金都搬进了上海金库?

好贤观史记
2026-01-30 19:08:06
被核武轰炸45次,罗布泊本该寸草不生,结果却成世界最大钾肥基地

被核武轰炸45次,罗布泊本该寸草不生,结果却成世界最大钾肥基地

鉴史录
2026-01-23 12:12:32
点赞!北控国手廖三宁给母校捐30万建报告厅 以其名字命名

点赞!北控国手廖三宁给母校捐30万建报告厅 以其名字命名

醉卧浮生
2026-01-30 17:41:20
东北女生晒春运“出国回家”攻略:连飞俄罗斯两地再坐船回黑龙江,比直飞还便宜

东北女生晒春运“出国回家”攻略:连飞俄罗斯两地再坐船回黑龙江,比直飞还便宜

上游新闻
2026-01-28 15:55:21
清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

来科点谱
2026-01-29 09:00:27
记者直击深圳杰我睿跑路现场:大门紧闭、锦旗高悬,平台兑付异常,涉资或达187亿元

记者直击深圳杰我睿跑路现场:大门紧闭、锦旗高悬,平台兑付异常,涉资或达187亿元

华夏时报
2026-01-30 14:50:57
北京这一夜,穿“起球毛衣”走红毯的老戏骨,给年轻艺人上了一课

北京这一夜,穿“起球毛衣”走红毯的老戏骨,给年轻艺人上了一课

银河史记
2026-01-28 16:13:04
英国首相斯塔默访华期间,英国制药巨头阿斯利康宣布将于2030年前在中国投资超千亿元

英国首相斯塔默访华期间,英国制药巨头阿斯利康宣布将于2030年前在中国投资超千亿元

每日经济新闻
2026-01-29 23:30:42
芯片已永久转移安世中国,荷兰结局注定:费尽心机抢了一栋办公楼

芯片已永久转移安世中国,荷兰结局注定:费尽心机抢了一栋办公楼

近史阁
2026-01-29 19:40:06
揭晓!下一任美联储主席,是他!

揭晓!下一任美联储主席,是他!

券商中国
2026-01-30 20:36:59
多品牌金饰克价大幅回调

多品牌金饰克价大幅回调

财闻
2026-01-30 11:32:01
郑永刚:贺希宁打出了超级外援的数据,真心希望他能进国家队

郑永刚:贺希宁打出了超级外援的数据,真心希望他能进国家队

懂球帝
2026-01-30 22:27:07
这是姚笛和吴镇宇当年的合照,当时确实非常火

这是姚笛和吴镇宇当年的合照,当时确实非常火

喜欢历史的阿繁
2026-01-28 16:29:16
2026-01-30 22:48:49
智通财经 incentive-icons
智通财经
全球资本市场财经资讯提供者
1089601文章数 101246关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

博士生在意失联 姐姐:父母搬砖供他 眼看要熬出头了

头条要闻

博士生在意失联 姐姐:父母搬砖供他 眼看要熬出头了

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

家居
艺术
本地
健康
公开课

家居要闻

蓝调空舍 自由与个性

艺术要闻

风景画选刊 | 中国油画学会三十年艺术展

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版