网易首页 > 网易号 > 正文 申请入驻

520,遇见国产「新模王」Qwen3.7-Max!

0
分享至



编辑|+0、杜伟

仅仅一个月后,阿里又带着最强旗舰模型杀回来了!

昨天一早,阿里给了全球开发者一个大大的惊喜,悄悄上线了 Qwen3.7 Preview,包括 Qwen3.7 Max Preview 与 Qwen3.7 Plus Preview 两个版本。



第三方权威评测机构 Arena 放出了这两个模型的榜单成绩,其中 Qwen3.7 Max Preview 与 Qwen3.7 Plus Preview 分别拿下了文本领域、视觉领域的国产模型第一。



左为 Qwen3.7 Max Preview,右为 Qwen3.7 Plus Preview

Qwen3.7 预览版的性能已经如此不俗,让大家对正式版的表现充满了期待。

今天上午,在 2026 阿里云峰会上,阿里全新一代千问旗舰模型 Qwen3.7-Max 登场了!



阿里巴巴集团通义大模型事业部负责人「周靖人」

果然没有令人失望,Qwen3.7-Max 一出手就是王炸。

在 Arena 公布的最新一期全球大模型盲测总榜中,Qwen3.7-Max 总成绩位列国产模型第一:傲视一众国产大模型,包括 Kimi-K2.6、DeepSeek-v4 Pro、GLM-5.1,性能直逼 GPT、Claude、Gemini 等全球最强模型



除了亮眼的总榜成绩,Qwen3.7-Max 特别针对当下被众多厂商押注并布局的 Agent 进行了系统性优化,凭借 Agentic、推理、通用等能力的持续突破,进一步拉高了其作为下一代通用智能体底座的性能上限。



编程智能体方面,Qwen3.7-Max 在 SWE-Pro、SWE-Multilingual 等多个权威测评中均取得 SOTA 表现,其中在 Terminal Bench 2.0-Terminus 上取得最高 69.7 分,超过了 DeepSeek-v4-pro-Max、Claude-Opus 4.6 等一众模型。

通用智能体方面,Qwen3.7-Max 提升明显,在 MCP-Atlas、MCP-Mark、Skillbench 等现实能力评测中表现优异,超越了 GLM-5.1、Kimi-K2.6 等,创下国产新高,并在 Kernel Bench L3 上展示了强大的 GPU 内核优化能力。

而在推理方面, Qwen3.7-Max 表现同样出色,在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等核心推理测评中均超越了 Claude-Opus 4.6 及所有国产模型。

通用能力与多语言方面,Qwen3.7-Max 在指令遵循评测 IFBench 中得分突破新高达到 79.1 分,在多语言理解和翻译的 WMT24++、MAXIFE 评测中保持领先。

智能体基座能力的全方位跃升,让 Qwen3.7-Max 有了挑战真实运行环境中超长程编程任务的底气。在发布会上,阿里展示了一个 AI 自主迭代的工程创举:

Qwen3.7-Max 被放在了一个全新硬件平台(平头哥训推一体 AI 芯片真武 M890)上,工作空间里只有任务描述、SGLang Triton 参考实现和评测脚本,没有任何其他提示或干预。结果,模型连续编程 35 个小时,自主完成了一个生产级注意力内核算子的优化。并且,经过模型优化的推理内核比 SGLang Triton 官方参考实现取得了 10 倍的加速。效率如此之高的 AI 平替谁不喜欢呢。

模型「化身」一位资深工程师,进行了 432 次内核评估、1158 次工具调用,从编写、编译、性能分析到迭代改进,全程都由自己完成。



在接下来的实测环节,Qwen3.7-Max 在处理复杂智能体任务中的速度和准确度都让人眼前一亮。

一手实测

从零代码开发到复杂工具调度

如果你没有任何编程基础,想要自己做一个电脑上的小工具(比如一个极简的桌面番茄钟),在以前,你需要从零开始学写代码、学配环境、学怎么修 Bug,最后还要学怎么把代码打包成双击就能运行的 .exe 软件。

但现在,在 Qwen3.7-Max 模型强大的原生 Agent 推理能力驱动下,搭配上 Claude Code 这样的执行工具,你只需要下达简短指令「帮我做一个桌面番茄钟应用」,它就能在背后为你摆平一切。

面对模糊的需求,Qwen3.7-Max 展现了极强的产品架构能力。它没有直接开始堆砌代码,而是谋定而后动。在确认了技术栈(Python + PyQt)和功能范围后,模型迅速输出了一份结构化的 Markdown 架构计划,并指挥工具开始执行。



缺少工具?没关系,大模型会调度系统自动安装,全程不需要你操心。在运行中,由于电脑路径不匹配引发了连续的红字报错,当 Claude Code 将报错信息抓取回来后,Qwen3.7-Max 瞬间锁定了错误根源,并展现出惊艳的自我纠错能力。它迅速推理出了好几种替代命令方案进行动态试错。短短几秒内,它就排除了系统环境的干扰,把精美的番茄钟稳稳地弹到了你的桌面上。



有不满意的地方,比如想换个莫兰迪色系,只要一句话,模型就能精准理解审美需求并修改代码,分分钟解决。



如果你想把这个好用的番茄钟发给朋友,只需要下达终极交付指令:「帮我打包成 exe」。Qwen3.7-Max 再次发挥 Agent 本能,识别出环境缺失后,生成对应指令让工具自动安装了打包依赖。经过它在后台的一顿丝滑调度,原本复杂晦涩的代码,变成了一个干干净净的 .exe 文件,安静地躺在你的文件夹里,双击就能用。



如果你觉得让 AI 写个桌面软件只是大模型在代码「舒适区」里的基操,那不妨看看它在真实的互联网环境、CLI 以及 Skill 调用中,是如何展现真正的 Agent 实力的。

我们先调用近期很火的 CLI 工具,首先让 Agent 帮我下载了 opencli,让它具备了直接触达并检索全网信息的能力。



下达指令「使用 opencli 工具,帮我查查小红书上北京必吃的粤菜,附图片」后,Qwen3.7-Max 迅速从零开始「阅读」工具文档,自主摸索出了正确的调用语法。在抓取过程中,程序遭遇了网络超时崩溃,它也自主推理出了修改底层配置的绕路方案来延长等待时间。





你不需要看懂它在后台排除了多少次 Bug,只需几分钟,它就已经把满屏的美食图片稳稳地下载到了你的本地文件夹里。收集完素材后,当然还可以让 Agent 顺手把调研结果快速转为 PPT 和在线文档,完成工作流闭环。







Agent 的另一项核心能力,在于能针对特定场景灵活调用 Skill。

面对一段充满「首先其次最后」、「跨越时空的赞歌」等套路化词汇的游记,只需简短地输入「去 AI 味」,Qwen3.7-Max 准确识别了文字修改的核心诉求,并主动调度了系统内的 Skill。



在完成重写后,模型输出了一份结构化的 Markdown 复盘表格。它条理清晰地列出了自己去除了哪些「填充短语」和「宣传性语言」,并从「直接性」、「真实性」等维度对修改结果进行了量化打分。



从零基础的桌面软件开发,到陌生终端工具的自主摸索,再到高阶文本的技能调度与反思,Qwen3.7-Max 在这三个场景中,展现的不只是单纯的文本生成能力,还有高度成熟的 Agent 独立执行力。

三个月三连更

阿里按下 AI「加速度」

这一连串令人瞩目的榜单成绩与实战效果,是千问大模型近期狂飙的一个缩影。

千问旗舰模型的迭代周期已经卷到「月更」:3 月 20 日,Qwen3.5-Max-Preview 发布;4 月 20 日, Qwen3.6-Max-Preview 发布。到今天,Qwen3.7-Max 又来了。对于用户来说,正在经历「幸福的烦恼」。



图源:@LotusDecoder

能保证一个月推出一代旗舰模型,靠的绝非只是模型团队的「肝」。阿里自今年 3 月成立 ATH(Alibaba Token Hub)组织以来,逐渐形成的芯片、云、模型、应用全栈能力,才最大程度上促成了如今的局面。

其中,平头哥的定制芯片提供了极致的训练与推理效率,阿里云的弹性算力让大规模预训练和部署无缝衔接,模型层的快速迭代又能直接反哺上层应用。这样的垂直整合压缩了沟通成本和工程损耗,让千问的研发节奏可以像互联网产品一样快速滚动。

可以说,千问旗舰模型的加速度,源自阿里全栈 AI 体系的爆发。这种体系化的壁垒优势,要比单个模型的一次刷榜高分更难复制。

千问在走高频迭代路线的同时,也没有放弃对开源社区的深耕。不夸张地说,千问已经成为国产乃至全球开源模型的标杆,几乎每次新发布都会引起极大的关注。

上个月开源的 Qwen3.6-27B 和 Qwen3.6-35B-A3B 更是成为「以小胜大」的代表作,登顶了 HuggingFace 全球开源榜单,在主要编程基准上全面超越了上代更大体量的 Qwen3.5-397B-A17B,也大幅领先同等规模的稠密模型。



这些中小规模的千问模型,凭借极低的部署成本,提供了超越同尺寸甚至跨级挑战的性能,更好地满足了本地部署和定制化的刚需,让全球开发者不自觉地将它们作为默认底座。正如一位用户所说,「阿里正带着千问飞速前进。开源这条赛道卷疯了,但最终是所有人的胜利。」



开源社区的口碑形成了强大的引力场,让开发者「用脚投票」,在 API 调用上愿意为千问模型付费。

上个月,Qwen3.6-Plus 夺得了全球知名大模型 API 调用平台 OpenRouter 日榜和周榜的双料冠军,并首创了单日单模型调用量突破 1.4 万亿 Token 的全球纪录。千问模型在全球开发者心目中的地位可见一斑。



在收获全球开发者心智的同时,千问也悄悄占据了全球 Token 经济的流量入口。如今,Token 正在迅速成为了解决问题的通用输入,而阿里通过千问牢牢抓住了这个发展节点。

智能体软件的地基

正在被铺设

月更旗舰,看似「秀肌肉」,实际上是在为 Agent 时代抢占先机。

不难发现,千问近半年来的模型均指向了同一个主题 —— Agent,其中 Qwen3.5 打造原生多模态智能体,Qwen3.6-Plus 走向现实世界智能体,Qwen3.7-Max 开辟智能体新前沿。每一次新发布都伴随着模型自主规划、工具调用与长程任务执行能力的提升。

此次 Qwen3.7-Max 被寄予厚望。阿里想将它打造成为下一代全能智能体底座,因而不满于其仅仅充当被调用的大脑,也希望通过下沉到硬件层,进行系统级编程与优化。Qwen3.7-Max 在平头哥新 AI 芯片上成功运行 35 个小时超长程智能体任务,是这一转变的有力例证。

不仅如此,Qwen3.7-Max 还涌现出了跨智能体框架的泛化能力。无需专门训练,就能丝滑支持 Claude Code、OpenClaw、Hermes Agent 等框架。这像极了当年操作系统的崛起逻辑,包括 PC 时代的 Windows、移动时代的 Android,通过统一的标准与接口,让开发者在其上繁衍丰富的生态。

千问正在努力搭建 Agent 时代的「标准接口」,让自身成为不同智能体框架的首选底座。这种面向未来的布局,更具有战略眼光。



另外,Agent 时代拼的终归还是模型能力能否站得住脚。阿里深知并一直践行着这一点,并通过开源提升在全球开发者社区中的影响力。当越来越多开发者习惯于使用千问搭建智能体并运行任务时,阿里在下一代 Agentic 软件生态的建设中就能掌握更多话语权。

当下,Anthropic 与 OpenAI 通过「产品驱动」(Claude Code、Codex)路线赢得用户和企业,并在商业市场谋求万亿美元上市。而作为国产大模型代表大厂之一的阿里,选择了一条更难、更宏大的路径,从技术到生态再到话语权,「全都要」。

在这场关键的卡位战中,阿里千问的野心远比我们想象中的更大,它志在成为开发者构建智能体系统时最不可或缺的底层基础设施。

文中视频链接:https://mp.weixin.qq.com/s/EvDiB0vpYh5-Ztx6OAfngg

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新疆传来一声怒吼,全世界都想不到,中国这次真的攥稳底牌了!

新疆传来一声怒吼,全世界都想不到,中国这次真的攥稳底牌了!

福建睿平
2026-06-03 14:28:37
何超莲也没想到,何猷君奚梦瑶大婚,窦骁却比新郎新娘热度还高

何超莲也没想到,何猷君奚梦瑶大婚,窦骁却比新郎新娘热度还高

调侃国际观点
2026-06-03 02:58:30
G4最大争议哨!塔克超远压哨三分,王哲林犯规了吗?专家给出答案

G4最大争议哨!塔克超远压哨三分,王哲林犯规了吗?专家给出答案

南海浪花
2026-06-03 15:19:16
Lisa带球逼宫驴老三失败,独自“抓娃娃”!

Lisa带球逼宫驴老三失败,独自“抓娃娃”!

八卦疯叔
2026-06-03 11:17:00
金饰克价已大降300元

金饰克价已大降300元

界面新闻
2026-06-02 22:38:43
1.4亿赎金惊魂48小时:坦桑尼亚绑架案最新进展,3名嫌犯仍在逃

1.4亿赎金惊魂48小时:坦桑尼亚绑架案最新进展,3名嫌犯仍在逃

大鱼简科
2026-06-03 11:59:27
俄军狼狈撤退!大规模攻势彻底翻车了

俄军狼狈撤退!大规模攻势彻底翻车了

知兵
2026-06-03 10:00:23
宁化县委书记王胜文接受纪律审查和监察调查

宁化县委书记王胜文接受纪律审查和监察调查

海峡网
2026-06-02 21:02:49
皇马夏窗首签!30岁国米飞翼加盟 砸2000万欧违约金 穆帅点名要他

皇马夏窗首签!30岁国米飞翼加盟 砸2000万欧违约金 穆帅点名要他

我爱英超
2026-06-03 06:49:31
女子称凌晨入睡后银行卡多次被转账损失约42万,自己未做任何操作 银行:其手机被操控,需等警方调查

女子称凌晨入睡后银行卡多次被转账损失约42万,自己未做任何操作 银行:其手机被操控,需等警方调查

红星新闻
2026-06-03 13:18:18
三星新版系统改变关机逻辑,手机变身电子护照

三星新版系统改变关机逻辑,手机变身电子护照

我是一个粉刷匠2
2026-06-02 18:32:36
豆包预计6月下旬正式收费 每月最低68元 你还会继续用吗?

豆包预计6月下旬正式收费 每月最低68元 你还会继续用吗?

TechWeb
2026-06-02 09:19:35
大陆反制日菲,遭台当局阻拦,两岸军机爆发对峙,台空军收到噩耗

大陆反制日菲,遭台当局阻拦,两岸军机爆发对峙,台空军收到噩耗

凉了时光人
2026-06-03 04:27:25
潮汕火锅免单后续:4人身份被扒,是“惯犯”!被坑老板委屈哭诉

潮汕火锅免单后续:4人身份被扒,是“惯犯”!被坑老板委屈哭诉

火山詩话
2026-06-03 07:06:57
回顾:女儿多次被虐待浑身淤青,父亲冲进教室,怒砍校霸13刀致死

回顾:女儿多次被虐待浑身淤青,父亲冲进教室,怒砍校霸13刀致死

就一点
2026-06-02 10:42:14
如果老人大规模去世,虽不用发养老金,但很有可能产生次生危害?

如果老人大规模去世,虽不用发养老金,但很有可能产生次生危害?

游戏收藏指南
2026-06-03 17:45:35
2-0大冷门,世界第114完胜世界第24,晋级法网女单半决赛

2-0大冷门,世界第114完胜世界第24,晋级法网女单半决赛

侧身凌空斩
2026-06-03 19:05:44
一张斩首照,让澳洲全国暴怒:百万人报名参军,追杀到天涯海角

一张斩首照,让澳洲全国暴怒:百万人报名参军,追杀到天涯海角

凉州辞
2026-06-03 07:25:03
苏州大学薛艳华副教授不幸去世,年仅36岁

苏州大学薛艳华副教授不幸去世,年仅36岁

澎湃新闻
2026-06-03 15:15:06
阿迪达斯“进城办事”T恤已上线,每日限量50件

阿迪达斯“进城办事”T恤已上线,每日限量50件

蓝鲸新闻
2026-06-03 16:51:08
2026-06-03 20:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

民警驾车致1死1残获刑1年2个月 女伤者刚试管有了胚胎

头条要闻

民警驾车致1死1残获刑1年2个月 女伤者刚试管有了胚胎

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

家居
旅游
教育
时尚
手机

家居要闻

江畔轻奢 观云大宅

旅游要闻

重庆新发布5条生态文化精品线路|6条河湖上榜重庆美丽河湖优秀案例

教育要闻

26年高考报名人数1290万!比去年少45万,大学会更好考?

休闲T恤舒适感极佳,夏天必不可少!轻轻松松拿捏日常的造型

手机要闻

全能影像旗舰怎么选?vivo S60领衔四款中端机型横评

无障碍浏览 进入关怀版