520，遇见国产「新模王」Qwen3.7-Max！|调用|编程|max|智能体|大模型|qwen|agent

520，遇见国产「新模王」Qwen3.7-Max！

2026-05-20 14:29:30　来源: 机器之心Pro

河北举报

分享至

编辑｜+0、杜伟

仅仅一个月后，阿里又带着最强旗舰模型杀回来了！

昨天一早，阿里给了全球开发者一个大大的惊喜，悄悄上线了 Qwen3.7 Preview，包括 Qwen3.7 Max Preview 与 Qwen3.7 Plus Preview 两个版本。

第三方权威评测机构 Arena 放出了这两个模型的榜单成绩，其中 Qwen3.7 Max Preview 与 Qwen3.7 Plus Preview 分别拿下了文本领域、视觉领域的国产模型第一。

左为 Qwen3.7 Max Preview，右为 Qwen3.7 Plus Preview

Qwen3.7 预览版的性能已经如此不俗，让大家对正式版的表现充满了期待。

今天上午，在 2026 阿里云峰会上，阿里全新一代千问旗舰模型 Qwen3.7-Max 登场了！

阿里巴巴集团通义大模型事业部负责人「周靖人」

果然没有令人失望，Qwen3.7-Max 一出手就是王炸。

在 Arena 公布的最新一期全球大模型盲测总榜中，Qwen3.7-Max 总成绩位列国产模型第一：傲视一众国产大模型，包括 Kimi-K2.6、DeepSeek-v4 Pro、GLM-5.1，性能直逼 GPT、Claude、Gemini 等全球最强模型

除了亮眼的总榜成绩，Qwen3.7-Max 特别针对当下被众多厂商押注并布局的 Agent 进行了系统性优化，凭借 Agentic、推理、通用等能力的持续突破，进一步拉高了其作为下一代通用智能体底座的性能上限。

编程智能体方面，Qwen3.7-Max 在 SWE-Pro、SWE-Multilingual 等多个权威测评中均取得 SOTA 表现，其中在 Terminal Bench 2.0-Terminus 上取得最高 69.7 分，超过了 DeepSeek-v4-pro-Max、Claude-Opus 4.6 等一众模型。

通用智能体方面，Qwen3.7-Max 提升明显，在 MCP-Atlas、MCP-Mark、Skillbench 等现实能力评测中表现优异，超越了 GLM-5.1、Kimi-K2.6 等，创下国产新高，并在 Kernel Bench L3 上展示了强大的 GPU 内核优化能力。

而在推理方面， Qwen3.7-Max 表现同样出色，在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等核心推理测评中均超越了 Claude-Opus 4.6 及所有国产模型。

通用能力与多语言方面，Qwen3.7-Max 在指令遵循评测 IFBench 中得分突破新高达到 79.1 分，在多语言理解和翻译的 WMT24++、MAXIFE 评测中保持领先。

智能体基座能力的全方位跃升，让 Qwen3.7-Max 有了挑战真实运行环境中超长程编程任务的底气。在发布会上，阿里展示了一个 AI 自主迭代的工程创举：

Qwen3.7-Max 被放在了一个全新硬件平台（平头哥训推一体 AI 芯片真武 M890）上，工作空间里只有任务描述、SGLang Triton 参考实现和评测脚本，没有任何其他提示或干预。结果，模型连续编程 35 个小时，自主完成了一个生产级注意力内核算子的优化。并且，经过模型优化的推理内核比 SGLang Triton 官方参考实现取得了 10 倍的加速。效率如此之高的 AI 平替谁不喜欢呢。

模型「化身」一位资深工程师，进行了 432 次内核评估、1158 次工具调用，从编写、编译、性能分析到迭代改进，全程都由自己完成。

在接下来的实测环节，Qwen3.7-Max 在处理复杂智能体任务中的速度和准确度都让人眼前一亮。

一手实测

从零代码开发到复杂工具调度

如果你没有任何编程基础，想要自己做一个电脑上的小工具（比如一个极简的桌面番茄钟），在以前，你需要从零开始学写代码、学配环境、学怎么修 Bug，最后还要学怎么把代码打包成双击就能运行的 .exe 软件。

但现在，在 Qwen3.7-Max 模型强大的原生 Agent 推理能力驱动下，搭配上 Claude Code 这样的执行工具，你只需要下达简短指令「帮我做一个桌面番茄钟应用」，它就能在背后为你摆平一切。

面对模糊的需求，Qwen3.7-Max 展现了极强的产品架构能力。它没有直接开始堆砌代码，而是谋定而后动。在确认了技术栈（Python + PyQt）和功能范围后，模型迅速输出了一份结构化的 Markdown 架构计划，并指挥工具开始执行。

缺少工具？没关系，大模型会调度系统自动安装，全程不需要你操心。在运行中，由于电脑路径不匹配引发了连续的红字报错，当 Claude Code 将报错信息抓取回来后，Qwen3.7-Max 瞬间锁定了错误根源，并展现出惊艳的自我纠错能力。它迅速推理出了好几种替代命令方案进行动态试错。短短几秒内，它就排除了系统环境的干扰，把精美的番茄钟稳稳地弹到了你的桌面上。

有不满意的地方，比如想换个莫兰迪色系，只要一句话，模型就能精准理解审美需求并修改代码，分分钟解决。

如果你想把这个好用的番茄钟发给朋友，只需要下达终极交付指令：「帮我打包成 exe」。Qwen3.7-Max 再次发挥 Agent 本能，识别出环境缺失后，生成对应指令让工具自动安装了打包依赖。经过它在后台的一顿丝滑调度，原本复杂晦涩的代码，变成了一个干干净净的 .exe 文件，安静地躺在你的文件夹里，双击就能用。

如果你觉得让 AI 写个桌面软件只是大模型在代码「舒适区」里的基操，那不妨看看它在真实的互联网环境、CLI 以及 Skill 调用中，是如何展现真正的 Agent 实力的。

我们先调用近期很火的 CLI 工具，首先让 Agent 帮我下载了 opencli，让它具备了直接触达并检索全网信息的能力。

下达指令「使用 opencli 工具，帮我查查小红书上北京必吃的粤菜，附图片」后，Qwen3.7-Max 迅速从零开始「阅读」工具文档，自主摸索出了正确的调用语法。在抓取过程中，程序遭遇了网络超时崩溃，它也自主推理出了修改底层配置的绕路方案来延长等待时间。

你不需要看懂它在后台排除了多少次 Bug，只需几分钟，它就已经把满屏的美食图片稳稳地下载到了你的本地文件夹里。收集完素材后，当然还可以让 Agent 顺手把调研结果快速转为 PPT 和在线文档，完成工作流闭环。

Agent 的另一项核心能力，在于能针对特定场景灵活调用 Skill。

面对一段充满「首先其次最后」、「跨越时空的赞歌」等套路化词汇的游记，只需简短地输入「去 AI 味」，Qwen3.7-Max 准确识别了文字修改的核心诉求，并主动调度了系统内的 Skill。

在完成重写后，模型输出了一份结构化的 Markdown 复盘表格。它条理清晰地列出了自己去除了哪些「填充短语」和「宣传性语言」，并从「直接性」、「真实性」等维度对修改结果进行了量化打分。

从零基础的桌面软件开发，到陌生终端工具的自主摸索，再到高阶文本的技能调度与反思，Qwen3.7-Max 在这三个场景中，展现的不只是单纯的文本生成能力，还有高度成熟的 Agent 独立执行力。

三个月三连更

阿里按下 AI「加速度」

这一连串令人瞩目的榜单成绩与实战效果，是千问大模型近期狂飙的一个缩影。

千问旗舰模型的迭代周期已经卷到「月更」：3 月 20 日，Qwen3.5-Max-Preview 发布；4 月 20 日， Qwen3.6-Max-Preview 发布。到今天，Qwen3.7-Max 又来了。对于用户来说，正在经历「幸福的烦恼」。

图源：@LotusDecoder

能保证一个月推出一代旗舰模型，靠的绝非只是模型团队的「肝」。阿里自今年 3 月成立 ATH（Alibaba Token Hub）组织以来，逐渐形成的芯片、云、模型、应用全栈能力，才最大程度上促成了如今的局面。

其中，平头哥的定制芯片提供了极致的训练与推理效率，阿里云的弹性算力让大规模预训练和部署无缝衔接，模型层的快速迭代又能直接反哺上层应用。这样的垂直整合压缩了沟通成本和工程损耗，让千问的研发节奏可以像互联网产品一样快速滚动。

可以说，千问旗舰模型的加速度，源自阿里全栈 AI 体系的爆发。这种体系化的壁垒优势，要比单个模型的一次刷榜高分更难复制。

千问在走高频迭代路线的同时，也没有放弃对开源社区的深耕。不夸张地说，千问已经成为国产乃至全球开源模型的标杆，几乎每次新发布都会引起极大的关注。

上个月开源的 Qwen3.6-27B 和 Qwen3.6-35B-A3B 更是成为「以小胜大」的代表作，登顶了 HuggingFace 全球开源榜单，在主要编程基准上全面超越了上代更大体量的 Qwen3.5-397B-A17B，也大幅领先同等规模的稠密模型。

这些中小规模的千问模型，凭借极低的部署成本，提供了超越同尺寸甚至跨级挑战的性能，更好地满足了本地部署和定制化的刚需，让全球开发者不自觉地将它们作为默认底座。正如一位用户所说，「阿里正带着千问飞速前进。开源这条赛道卷疯了，但最终是所有人的胜利。」

开源社区的口碑形成了强大的引力场，让开发者「用脚投票」，在 API 调用上愿意为千问模型付费。

上个月，Qwen3.6-Plus 夺得了全球知名大模型 API 调用平台 OpenRouter 日榜和周榜的双料冠军，并首创了单日单模型调用量突破 1.4 万亿 Token 的全球纪录。千问模型在全球开发者心目中的地位可见一斑。

在收获全球开发者心智的同时，千问也悄悄占据了全球 Token 经济的流量入口。如今，Token 正在迅速成为了解决问题的通用输入，而阿里通过千问牢牢抓住了这个发展节点。

智能体软件的地基

正在被铺设

月更旗舰，看似「秀肌肉」，实际上是在为 Agent 时代抢占先机。

不难发现，千问近半年来的模型均指向了同一个主题 —— Agent，其中 Qwen3.5 打造原生多模态智能体，Qwen3.6-Plus 走向现实世界智能体，Qwen3.7-Max 开辟智能体新前沿。每一次新发布都伴随着模型自主规划、工具调用与长程任务执行能力的提升。

此次 Qwen3.7-Max 被寄予厚望。阿里想将它打造成为下一代全能智能体底座，因而不满于其仅仅充当被调用的大脑，也希望通过下沉到硬件层，进行系统级编程与优化。Qwen3.7-Max 在平头哥新 AI 芯片上成功运行 35 个小时超长程智能体任务，是这一转变的有力例证。

不仅如此，Qwen3.7-Max 还涌现出了跨智能体框架的泛化能力。无需专门训练，就能丝滑支持 Claude Code、OpenClaw、Hermes Agent 等框架。这像极了当年操作系统的崛起逻辑，包括 PC 时代的 Windows、移动时代的 Android，通过统一的标准与接口，让开发者在其上繁衍丰富的生态。

千问正在努力搭建 Agent 时代的「标准接口」，让自身成为不同智能体框架的首选底座。这种面向未来的布局，更具有战略眼光。

另外，Agent 时代拼的终归还是模型能力能否站得住脚。阿里深知并一直践行着这一点，并通过开源提升在全球开发者社区中的影响力。当越来越多开发者习惯于使用千问搭建智能体并运行任务时，阿里在下一代 Agentic 软件生态的建设中就能掌握更多话语权。

当下，Anthropic 与 OpenAI 通过「产品驱动」（Claude Code、Codex）路线赢得用户和企业，并在商业市场谋求万亿美元上市。而作为国产大模型代表大厂之一的阿里，选择了一条更难、更宏大的路径，从技术到生态再到话语权，「全都要」。

在这场关键的卡位战中，阿里千问的野心远比我们想象中的更大，它志在成为开发者构建智能体系统时最不可或缺的底层基础设施。

文中视频链接：https://mp.weixin.qq.com/s/EvDiB0vpYh5-Ztx6OAfngg

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.