网易首页 > 网易号 > 正文 申请入驻

刚刚,阿里旗舰模型Qwen3-Max-Thinking发布,编程能力“踢馆”Gemini与Claude

0
分享至


作者|冬梅

1 阿里突发最强旗舰模型,总参数过万亿

就在刚刚,Qwen3-Max-Thinking 正式版突然发布,总参数规模超过 1 万亿(1T),位于目前全球最大规模 AI 模型行列,预训练数据规模高达 36T Tokens,覆盖大量高质量语料。

Qwen3-Max 是阿里通义团队迄今规模最大、能力最强的语言模型,该版本包括 Base、Instruct 和 Thinking 多种形式。


在多项权威基准测试中表现优异,Qwen3-Max-Thinking 性能可与 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini-3 Pro 等闭源顶级模型竞争甚至超越。


具体而言,Qwen3-Max-Thinking 在多项关键 AI 基准测试中达到了或刷新了全球 SOTA 表现:

  • 在包含事实科学知识、复杂推理和编程能力在内的 19 项权威基准测试中取得极高水平,有记录显示其综合表现可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 及 Gemini-3 Pro 等业内领先模型。

  • 在数学推理基准测试中,该模型曾在预览阶段实现 AIME 25 和 HMMT 25 满分(即 100% 准确率),这一表现被认为代表了高难度数学推理能力。

  • 相较于此前的 Instruct 版本,Thinking 版本在 Agent 工具调用、复杂逻辑和深度推理任务中表现出更优的能力。

这些测试覆盖了科学知识问答(如 GPQA Diamond)、数学推理(如 IMO 等级测试)、代码编程(如 LiveCodeBench)等多个领域,是衡量大型语言模型综合能力的重要指标。


为实现上述性能突破,千问团队在官方博客中称为 Qwen3-Max-Thinking 引入两项核心创新:

  • 自适应工具调用能力,可按需调用搜索引擎和代码解释器,现已上线;

  • 测试时扩展技术(Test-Time Scaling),显著提升推理性能,在关键推理基准上超越 Gemini 3 Pro。

那么,这两项核心创新到底什么意思?

首先是自适应工具调用能力,据千问团队介绍,与早期需要用户手动选择工具的方法不同,Qwen3-Max-Thinking 能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能。

该能力源于专门设计的训练流程:在完成初步的工具使用微调后,模型在多样化任务上使用基于规则和模型的反馈进行了进一步训练。实验表明,搜索和记忆工具能有效缓解幻觉、提供实时信息访问并支持更个性化的回复。代码解释器允许用户执行代码片段并应用计算推理来解决复杂问题。这些功能共同提供了流畅且强大的对话体验。

再来说说测试时扩展。该技术是指在推理阶段分配额外计算资源以提升模型性能的技术。研发团队提出了一种经验累积式、多轮迭代的测试时扩展策略。

不同于简单增加并行推理路径数量 N(这往往导致冗余推理),团队对并行轨迹数量进行限制并将节省的计算资源用于由“经验提取”机制引导的迭代式自我反思。

该机制从过往推理轮次中提炼关键洞见,使模型避免重复推导已知结论,转而聚焦于未解决的不确定性。关键在于,相比直接引用原始推理轨迹,该机制实现了更高的上下文利用效率,在相同上下文窗口内能更充分地融合历史信息。在大致相同的 token 消耗下,该方法持续优于标准的并行采样与聚合方法:GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

这些技术改善了模型处理复杂任务时的自主规划、推理链构建和决策能力。

千问 App PC 端和网页端已经第一时间上新这一 Qwen 系列最强模型,现在即可免费体验。API(qwen3-max-2026-01-23)也已开放。

体验地址:https://chat.qwen.ai/?spm=a2ty_o06.30285417.0.0.1ef4c921OJuiXU

2 网友:中国大模型不负期待!

在模型发布消息传出后,社交平台上也迅速出现了大量讨论。一部分网友的关注点集中在模型能力本身,语气中带着明显的惊讶与认可。

有海外开发者在 X 上表示,自己已经习惯看到 Qwen 在多个榜单上“反超”其他模型。

“Qwen 总是能跑赢其他模型,”一位用户调侃道,同时也提出了更偏产品层面的期待,希望 Qwen 能在 Android 端做出“更简洁、更有辨识度的应用设计”,认为模型能力已经走在前面,产品体验还有进一步打磨空间。


也有不少声音将 Qwen 的发布节奏与国际头部厂商作对比。一位网友直言,通义千问团队在模型更新和能力披露上的频率,甚至“已经超过了 OpenAI”。在他看来,这种持续、高密度的迭代和公开沟通,本身就是一种对开发者更友好的信号,至少让外界清楚知道模型在什么阶段、解决了哪些问题。


还有用户的反馈则更为直接。一位名为 Harriett Solid 的网友在评论中写道:“这正是我一直在等的 Qwen 发布版本。”这类评价并未展开具体技术细节,但从情绪上看,显然将 Qwen3-Max-Thinking 视为一次“到位”的升级,而不是过渡性产品。


整体来看,网友评论呈现出两个明显特点:一方面,对 Qwen 在推理能力和更新速度上的认可度较高;另一方面,讨论已经开始从“模型是否强”延伸到“产品体验、生态建设是否匹配当前能力”。

这也从侧面反映出,随着模型能力逼近甚至进入全球第一梯队,外界对通义千问的期待,正在从单点技术突破,转向更完整的产品与平台层面。

https://chat.qwen.ai/

https://qwen.ai/blog?id=qwen3-max-thinking

会议推荐

InfoQ 2026 全年会议规划已上线!从 AI Infra 到 Agentic AI,从 AI 工程化到产业落地,从技术前沿到行业应用,全面覆盖 AI 与软件开发核心赛道!集结全球技术先锋,拆解真实生产案例、深挖技术与产业落地痛点,探索前沿领域、聚焦产业赋能,获取实战落地方案与前瞻产业洞察,高效实现技术价值转化。把握行业变革关键节点,抢占 2026 智能升级发展先机!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
实在搞不懂黄圣依到底怎么想的!
明明今年已经43岁

实在搞不懂黄圣依到底怎么想的! 明明今年已经43岁

小光侃娱乐
2026-04-24 20:35:03
男乒在伦敦团体世乒赛上被沦落为最弱团队,这个账该算在谁头上?

男乒在伦敦团体世乒赛上被沦落为最弱团队,这个账该算在谁头上?

鸿印百合
2026-04-24 21:24:43
6000万镑!莱奥转会风暴来袭,英超三强与皇马隔空抢人!

6000万镑!莱奥转会风暴来袭,英超三强与皇马隔空抢人!

田先生篮球
2026-04-23 21:48:57
CBA官方:卫冕冠军广厦重新注册卡尔顿 取消NBA旧将马威注册

CBA官方:卫冕冠军广厦重新注册卡尔顿 取消NBA旧将马威注册

醉卧浮生
2026-04-24 16:11:48
世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

三毛看世界
2026-04-17 16:43:17
俄专家:美国无力偿还巨额债务,走投无路的特朗普萌生极端想法

俄专家:美国无力偿还巨额债务,走投无路的特朗普萌生极端想法

荆楚寰宇文枢
2026-04-23 23:18:56
县城餐饮,正在成为创业陷阱

县城餐饮,正在成为创业陷阱

蓝鲸新闻
2026-04-22 13:58:53
中信银行两度出击,向汕头前首富追债80亿

中信银行两度出击,向汕头前首富追债80亿

湘财Plus
2026-04-24 13:55:50
台湾专家赖岳谦:印度确实有一点比中国强很多,那就是——嘴。

台湾专家赖岳谦:印度确实有一点比中国强很多,那就是——嘴。

荆楚寰宇文枢
2026-04-22 23:16:37
高市没料到,中国动真格了,中韩朝俄四国同时开火,局势变成4打1

高市没料到,中国动真格了,中韩朝俄四国同时开火,局势变成4打1

混沌录
2026-04-24 16:39:08
18岁女孩奶茶店打暑假工 辞职后因店里繁忙被临时召回 上班途中遇车祸抢救3个月不幸身亡

18岁女孩奶茶店打暑假工 辞职后因店里繁忙被临时召回 上班途中遇车祸抢救3个月不幸身亡

闪电新闻
2026-04-24 12:14:16
没想到,生不出孩子风波5个月后,舒淇凭另一个举动给冯德伦长脸

没想到,生不出孩子风波5个月后,舒淇凭另一个举动给冯德伦长脸

橙星文娱
2026-04-23 13:36:44
歌手好弟现状:娶了中国美女,女儿长相随他,来中国多年仍没绿卡

歌手好弟现状:娶了中国美女,女儿长相随他,来中国多年仍没绿卡

一娱三分地
2026-04-23 17:10:44
岛内最新民调,事关两岸统一,蒋万安郑丽文支持率有惊人变化?

岛内最新民调,事关两岸统一,蒋万安郑丽文支持率有惊人变化?

DS北风
2026-04-23 15:56:17
从金球先生到只剩6欧元!半数球星退役5年就破产,原因不在乱花钱

从金球先生到只剩6欧元!半数球星退役5年就破产,原因不在乱花钱

草莓解说体育
2026-04-23 12:09:25
北京收官战105-55大胜吉林,曾凡博18分,麦基18分,威尔逊18+12

北京收官战105-55大胜吉林,曾凡博18分,麦基18分,威尔逊18+12

懂球帝
2026-04-24 21:26:12
斯诺克赛程:决出首席8强,肖国栋或被墨菲淘汰,赵心童PK丁俊晖

斯诺克赛程:决出首席8强,肖国栋或被墨菲淘汰,赵心童PK丁俊晖

刘姚尧的文字城堡
2026-04-24 08:57:36
事态升级,中方开打第二波反击,高市或突然辞职,石破茂已扛旗

事态升级,中方开打第二波反击,高市或突然辞职,石破茂已扛旗

林子说事
2026-04-24 16:28:00
俄乌打了四年,打穷了三个国家,富了三个国家,中国也在其中

俄乌打了四年,打穷了三个国家,富了三个国家,中国也在其中

趣文说娱
2026-04-23 20:05:19
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
2026-04-24 22:00:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12295文章数 51855关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

航班提前起飞10分钟 大学生把海航告了

头条要闻

航班提前起飞10分钟 大学生把海航告了

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

数码
亲子
手机
游戏
军事航空

数码要闻

净水器排名前十强盘点:这些热卖品牌霸榜,什么牌子好一目了然

亲子要闻

韩国叔叔又来看小满了 看看小叔子说话那个表情 笑死...

手机要闻

消息称苹果20周年纪念版iPhone将采用定制“微曲面”OLED屏幕

《暗黑破坏神4》3.0版本将推出地图叠加功能

军事要闻

美伊陷入互相封锁僵局

无障碍浏览 进入关怀版