Qwen3.7-Max 登顶国产:Code Arena 编程榜单全球第四意味着什么
5 月 20 日,阿里千问发布 Qwen3.7-Max,定位「面向智能体时代的新一代旗舰模型」。5 天后(5 月 25 日),全球权威编程榜单 Code Arena 更新成绩:Qwen3.7-Max 得分1541 分,全球第四。
这不是阿里第一次上榜。但这是国产模型第一次在编程能力维度,踩到了 Claude Opus 4.6 的头顶。
为什么这份榜单值得认真看
选模型最怕什么?厂商自测 + 送测 benchmark,数据漂亮,但换个场景就原形毕露。
Code Arena 的核心区别在于Anti-Gaming 机制:
•用户随机盲测:提交任务的真实用户随机抽题,模型无法提前获知考题
•无法刷题:和 SuperCLUE 类「厂商送测 + 提前公布题库」的玩法本质不同
•全场景覆盖:评估模型在生成、调试、重构复杂真实代码时的能力,而非选择题
换句话说,这是目前全球人工智能领域含金量最高、最接近「模型在真实工程师手里能干什么」的评测维度之一。
![]()
1541 分在全球是什么位置
先看全局:
排名
模型
得分
#1
Claude Opus 4.7 Thinking
#2
Claude Opus 4.7
#3
Claude Opus 4.6 Thinking
#4
Qwen3.7-Max
1541
#5
Claude Opus 4.6
国产第一
Qwen3.7-Max
1541
比 Qwen3.7-Max 排位更高的,只有三款 Claude Opus 4.7 系列——都是 Anthropic 的旗舰产品线。而 Qwen3.7-Max 已经超越了 Claude Opus 4.6(非 Thinking 版)。
同时,它还超越了 GLM-5.1、Kimi-K2.6,稳坐国产编程模型头把交椅。
![]()
编程能力拆解:超过 Opus 4.6,好在哪里、差在哪里
不是所有「超越」都意味着全面碾压。看分项数据更准确:
Qwen3.7-Max 领先的基准:
•SWE-Pro:60.6(代码缺陷修复)
•SWE-Multilingual:78.3(多语言代码修复)
•SciCode:53.5(科学代码生成)
•QwenSVG:1608(SVG 可视化生成)
•Terminal Bench 2.0-Terminus:69.7,超越 DS-V4-Pro Max(67.9)
与竞品相当的基准:
•SWE-Verified:80.4,与 Opus-4.6 Max(80.8)、DS-V4-Pro Max(80.6)基本持平
这说明 Qwen3.7-Max 在日常代码缺陷修复、多语言场景、终端操作上有明确优势;在需要极限推理的 SWE-Verified 上与 Claude Opus 4.6 持平——考虑到 Opus 4.6 早发布时间差,这个成绩已经非常扎实。
为什么 Agent 维度才是真正的重头戏
编程榜单只是开胃菜。Qwen3.7-Max 真正的主战场是 Agent。
实测数据:
•MCP-Mark:60.8(对比 GLM-5.1 的 57.5)
•MCP-Atlas:76.4(对比 Opus-4.6 的 75.8)
•Skillbench:59.2(对比 K2.6 的 56.2)
•Kernel Bench L3:1.98 倍中位数加速,96% 加速率——GPU 内核优化能力
•BFCL-V4:75.0;Qwenclaw:64.3;ClawEval:65.2(紧追 Opus-4.6 Max)
以上数据意味着什么?
35 小时、1000+ 次工具调用的全自主内核优化实验——这不是跑个 MATH benchmark 就完事的宣传话术。这是对 Agent 在真实长周期任务中「上下文膨胀 + 工具调用漂移」问题的直接验证。
用大白话说:Qwen3.7-Max 能让 Agent 在一个需要跑一两天、调用上千次工具的复杂任务里,保持推理连贯性不崩。这是 Claude Code、OpenClaw 等竞品都在正面竞争的核心能力。
![]()
开发者行动建议:什么时候值得切、关注什么
目前 Qwen3.7-Max 即将通过阿里云百炼 API 提供服务。正式上线后,建议按以下优先级测试:
优先级 1(立即可测)
class="language-python">"color:#6a9955"># 阿里云百炼 API 调用示例(百炼上线后)import openaiclient = openai.OpenAI(api_key="your_bailian_key", "color:#6a9955"># 百炼 API Keybase_url="https://dashscope.aliyuncs.com/compatible-mode/v1"response = client.chat.completions.create(model="qwen3.7-max",messages=[{"role": "system", "content": "你是一个编程助手。"},{"role": "user", "content": "用 Python 实现一个 LRU 缓存。"}print(response.choices[0].message.content)优先级 2(1-2 周内测):
将你当前项目里 Claude Opus 4.6 的典型任务迁移到 Qwen3.7-Max,对比:
- 代码生成质量(SWE-Bench 同期题目)
- 上下文保持能力(超过 32K token 的长文件重构)
- 工具调用稳定性(MCP 工具链对接)
优先级 3(长期关注):
•百炼 API 定价与上下文窗口上限
•与 Claude Code / OpenClaw 框架的集成文档
•Design Arena 视觉设计榜单的后续表现
结语
1541 分不是终点。它证明的是一件事:国产模型在 Agent 赛道的工程化能力,正在快速缩短与国际顶线的差距。
Code Arena 的盲测机制让这份成绩单比任何厂商自评都可信。下一步是 API 定价和真实工程场景的验证。
值得关注。
参考来源:
•阿里千问官方发布(2026-05-20):Qwen3.7-Max 智能体旗舰发布
•Code Arena 公开榜单(2026-05-25):https://code-arena.dev
•Design Arena 公开榜单:https://design-arena.dev
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.