网易首页 > 网易号 > 正文 申请入驻

参数破万亿!阿里Qwen3-Max-Thinking发布,编程能力“踢馆”Gemini与Claude

0
分享至


作者|冬梅

阿里突发最强旗舰模型,总参数过万亿

就在刚刚,Qwen3-Max-Thinking 正式版突然发布,总参数规模超过 1 万亿(1T),位于目前全球最大规模 AI 模型行列,预训练数据规模高达 36T Tokens,覆盖大量高质量语料。

Qwen3-Max 是阿里通义团队迄今规模最大、能力最强的语言模型,该版本包括 Base、Instruct 和 Thinking 多种形式。


在多项权威基准测试中表现优异,Qwen3-Max-Thinking 性能可与 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini-3 Pro 等闭源顶级模型竞争甚至超越。


具体而言,Qwen3-Max-Thinking 在多项关键 AI 基准测试中达到了或刷新了全球 SOTA 表现:

  • 在包含事实科学知识、复杂推理和编程能力在内的 19 项权威基准测试中取得极高水平,有记录显示其综合表现可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 及 Gemini-3 Pro 等业内领先模型。

  • 在数学推理基准测试中,该模型曾在预览阶段实现 AIME 25 和 HMMT 25 满分(即 100% 准确率),这一表现被认为代表了高难度数学推理能力。

  • 相较于此前的 Instruct 版本,Thinking 版本在 Agent 工具调用、复杂逻辑和深度推理任务中表现出更优的能力。

这些测试覆盖了科学知识问答(如 GPQA Diamond)、数学推理(如 IMO 等级测试)、代码编程(如 LiveCodeBench)等多个领域,是衡量大型语言模型综合能力的重要指标。


为实现上述性能突破,千问团队在官方博客中称为 Qwen3-Max-Thinking 引入两项核心创新:

  • 自适应工具调用能力,可按需调用搜索引擎和代码解释器,现已上线;

  • 测试时扩展技术(Test-Time Scaling),显著提升推理性能,在关键推理基准上超越 Gemini 3 Pro。

那么,这两项核心创新到底什么意思?

首先是自适应工具调用能力,据千问团队介绍,与早期需要用户手动选择工具的方法不同,Qwen3-Max-Thinking 能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能。

该能力源于专门设计的训练流程:在完成初步的工具使用微调后,模型在多样化任务上使用基于规则和模型的反馈进行了进一步训练。实验表明,搜索和记忆工具能有效缓解幻觉、提供实时信息访问并支持更个性化的回复。代码解释器允许用户执行代码片段并应用计算推理来解决复杂问题。这些功能共同提供了流畅且强大的对话体验。

再来说说测试时扩展。该技术是指在推理阶段分配额外计算资源以提升模型性能的技术。研发团队提出了一种经验累积式、多轮迭代的测试时扩展策略。

不同于简单增加并行推理路径数量 N(这往往导致冗余推理),团队对并行轨迹数量进行限制并将节省的计算资源用于由“经验提取”机制引导的迭代式自我反思。

该机制从过往推理轮次中提炼关键洞见,使模型避免重复推导已知结论,转而聚焦于未解决的不确定性。关键在于,相比直接引用原始推理轨迹,该机制实现了更高的上下文利用效率,在相同上下文窗口内能更充分地融合历史信息。在大致相同的 token 消耗下,该方法持续优于标准的并行采样与聚合方法:GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

这些技术改善了模型处理复杂任务时的自主规划、推理链构建和决策能力。

千问 App PC 端和网页端已经第一时间上新这一 Qwen 系列最强模型,现在即可免费体验。API(qwen3-max-2026-01-23)也已开放。

体验地址:https://chat.qwen.ai/?spm=a2ty_o06.30285417.0.0.1ef4c921OJuiXU

网友:中国大模型卷疯了!

在模型发布消息传出后,社交平台上也迅速出现了大量讨论。一部分网友的关注点集中在模型能力本身,语气中带着明显的惊讶与认可。

有海外开发者在 X 上表示,自己已经习惯看到 Qwen 在多个榜单上“反超”其他模型。

“Qwen 总是能跑赢其他模型,”一位用户调侃道,同时也提出了更偏产品层面的期待,希望 Qwen 能在 Android 端做出“更简洁、更有辨识度的应用设计”,认为模型能力已经走在前面,产品体验还有进一步打磨空间。


也有不少声音将 Qwen 的发布节奏与国际头部厂商作对比。一位网友直言,通义千问团队在模型更新和能力披露上的频率,甚至“已经超过了 OpenAI”。在他看来,这种持续、高密度的迭代和公开沟通,本身就是一种对开发者更友好的信号,至少让外界清楚知道模型在什么阶段、解决了哪些问题。


还有用户的反馈则更为直接。一位名为 Harriett Solid 的网友在评论中写道:“这正是我一直在等的 Qwen 发布版本。”这类评价并未展开具体技术细节,但从情绪上看,显然将 Qwen3-Max-Thinking 视为一次“到位”的升级,而不是过渡性产品。


整体来看,网友评论呈现出两个明显特点:一方面,对 Qwen 在推理能力和更新速度上的认可度较高;另一方面,讨论已经开始从“模型是否强”延伸到“产品体验、生态建设是否匹配当前能力”。

这也从侧面反映出,随着模型能力逼近甚至进入全球第一梯队,外界对通义千问的期待,正在从单点技术突破,转向更完整的产品与平台层面。

https://chat.qwen.ai/

https://qwen.ai/blog?id=qwen3-max-thinking

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

InfoQ 2026 全年会议规划已上线!从 AI Infra 到 Agentic AI,从 AI 工程化到产业落地,从技术前沿到行业应用,全面覆盖 AI 与软件开发核心赛道!集结全球技术先锋,拆解真实生产案例、深挖技术与产业落地痛点,探索前沿领域、聚焦产业赋能,获取实战落地方案与前瞻产业洞察,高效实现技术价值转化。把握行业变革关键节点,抢占 2026 智能升级发展先机!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

第7情感
2025-09-17 12:12:15
马筱梅回应不和俩娃住,称婆婆张兰住在富人区,意外透露二月行程

马筱梅回应不和俩娃住,称婆婆张兰住在富人区,意外透露二月行程

以茶带书
2026-01-27 14:15:55
局部积雪可达12厘米!河南“掉雪窝了”,周四起全省有雨雪

局部积雪可达12厘米!河南“掉雪窝了”,周四起全省有雨雪

大象新闻
2026-01-27 12:57:04
解放军上将在京逝世:曾参加对越反击战,本人9字总结自己一生

解放军上将在京逝世:曾参加对越反击战,本人9字总结自己一生

博士观察
2026-01-27 10:49:36
加内特:哈登该入选全明星,获主教练和队友支持,快船渐入佳境

加内特:哈登该入选全明星,获主教练和队友支持,快船渐入佳境

只扣篮的教练
2026-01-27 17:17:39
中国代表在联合国安理会敦促日方反思纠错

中国代表在联合国安理会敦促日方反思纠错

中国日报网
2026-01-27 10:41:04
取消中考选拔功能、普通高中全员直升,浙江嵊泗教改细节披露

取消中考选拔功能、普通高中全员直升,浙江嵊泗教改细节披露

澎湃新闻
2026-01-25 19:33:20
离谱,特朗普将美国向乌提供的安全保障与乌克兰从顿巴斯撤军挂钩

离谱,特朗普将美国向乌提供的安全保障与乌克兰从顿巴斯撤军挂钩

山河路口
2026-01-27 17:18:57
人类对闲鱼的开发不足1%,一群神人把我笑发财了

人类对闲鱼的开发不足1%,一群神人把我笑发财了

另子维爱读史
2026-01-11 21:09:06
二手房雄起:天津9个区上涨,最高涨幅26.5%

二手房雄起:天津9个区上涨,最高涨幅26.5%

滨海房叔
2026-01-27 09:56:28
12斤肉3个月甩净!全红婵减重到离谱,这哪是减肥,是拿命拼金牌

12斤肉3个月甩净!全红婵减重到离谱,这哪是减肥,是拿命拼金牌

做一个合格的吃瓜群众
2025-12-31 07:41:05
高市早苗,笑容瞬间消失

高市早苗,笑容瞬间消失

环球时报国际
2026-01-27 12:35:00
平措旦增任西藏自治区人民政府副主席

平措旦增任西藏自治区人民政府副主席

新京报
2026-01-27 16:52:16
哈里王子全家福曝光:阿奇帅气不输乔治路易,莉莉贝特神似夏洛特

哈里王子全家福曝光:阿奇帅气不输乔治路易,莉莉贝特神似夏洛特

笑傲春秋
2026-01-27 13:56:58
1958年,毛主席批评周总理“离右派剩50米”,不久后总理提出辞职

1958年,毛主席批评周总理“离右派剩50米”,不久后总理提出辞职

海佑讲史
2026-01-26 07:45:05
你以为干净,但实际却很脏的9大生活习惯,大病小病就是这么来的

你以为干净,但实际却很脏的9大生活习惯,大病小病就是这么来的

室内设计师有料儿
2026-01-26 18:54:48
张兰玩母子恋不挑食!新男友看起来比汪小菲小很多,她是真下得去手

张兰玩母子恋不挑食!新男友看起来比汪小菲小很多,她是真下得去手

八卦王者
2026-01-26 14:13:05
四川包惠接受中央纪委国家监委纪律审查和监察调查

四川包惠接受中央纪委国家监委纪律审查和监察调查

明月照凤凰
2026-01-27 19:27:10
首映仅150万,《舒克贝塔》票房扑街,郑渊洁父子亏到怀疑人生

首映仅150万,《舒克贝塔》票房扑街,郑渊洁父子亏到怀疑人生

电影票房预告片
2026-01-25 00:00:56
医保起付线到底咋回事?2026年新规全拆解,看懂一年能省大几千!

医保起付线到底咋回事?2026年新规全拆解,看懂一年能省大几千!

老特有话说
2026-01-25 23:19:27
2026-01-27 20:47:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1271文章数 112关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

回击特朗普 印度与欧盟达成"史上最大规模协议"

头条要闻

回击特朗普 印度与欧盟达成"史上最大规模协议"

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

时尚
本地
旅游
亲子
军事航空

跟着这些古早变美综艺,真的能学到东西啊

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

旅游要闻

香港将举办新春国际汇演之夜活动

亲子要闻

新闻8点见丨被贩卖的产后焦虑;大厂AI争夺战,谁在掉队?

军事要闻

美海军"林肯"号航母打击群抵达中东地区

无障碍浏览 进入关怀版