网易首页 > 网易号 > 正文 申请入驻

国产大模型Qwen3.7编程全球第四,力压Claude

0
分享至

Qwen3.7-Max 登顶国产:Code Arena 编程榜单全球第四意味着什么

5 月 20 日,阿里千问发布 Qwen3.7-Max,定位「面向智能体时代的新一代旗舰模型」。5 天后(5 月 25 日),全球权威编程榜单 Code Arena 更新成绩:Qwen3.7-Max 得分1541 分,全球第四

这不是阿里第一次上榜。但这是国产模型第一次在编程能力维度,踩到了 Claude Opus 4.6 的头顶。

为什么这份榜单值得认真看

选模型最怕什么?厂商自测 + 送测 benchmark,数据漂亮,但换个场景就原形毕露。

Code Arena 的核心区别在于Anti-Gaming 机制

•用户随机盲测:提交任务的真实用户随机抽题,模型无法提前获知考题

•无法刷题:和 SuperCLUE 类「厂商送测 + 提前公布题库」的玩法本质不同

•全场景覆盖:评估模型在生成、调试、重构复杂真实代码时的能力,而非选择题

换句话说,这是目前全球人工智能领域含金量最高、最接近「模型在真实工程师手里能干什么」的评测维度之一。




1541 分在全球是什么位置

先看全局:

排名

模型

得分

#1

Claude Opus 4.7 Thinking

#2

Claude Opus 4.7

#3

Claude Opus 4.6 Thinking

#4

Qwen3.7-Max

1541

#5

Claude Opus 4.6

国产第一

Qwen3.7-Max

1541

比 Qwen3.7-Max 排位更高的,只有三款 Claude Opus 4.7 系列——都是 Anthropic 的旗舰产品线。而 Qwen3.7-Max 已经超越了 Claude Opus 4.6(非 Thinking 版)。

同时,它还超越了 GLM-5.1、Kimi-K2.6,稳坐国产编程模型头把交椅。



编程能力拆解:超过 Opus 4.6,好在哪里、差在哪里

不是所有「超越」都意味着全面碾压。看分项数据更准确:

Qwen3.7-Max 领先的基准:

SWE-Pro:60.6(代码缺陷修复)

SWE-Multilingual:78.3(多语言代码修复)

SciCode:53.5(科学代码生成)

QwenSVG:1608(SVG 可视化生成)

Terminal Bench 2.0-Terminus:69.7,超越 DS-V4-Pro Max(67.9)

与竞品相当的基准:

SWE-Verified:80.4,与 Opus-4.6 Max(80.8)、DS-V4-Pro Max(80.6)基本持平

这说明 Qwen3.7-Max 在日常代码缺陷修复、多语言场景、终端操作上有明确优势;在需要极限推理的 SWE-Verified 上与 Claude Opus 4.6 持平——考虑到 Opus 4.6 早发布时间差,这个成绩已经非常扎实。

为什么 Agent 维度才是真正的重头戏

编程榜单只是开胃菜。Qwen3.7-Max 真正的主战场是 Agent。

实测数据:

MCP-Mark:60.8(对比 GLM-5.1 的 57.5)

MCP-Atlas:76.4(对比 Opus-4.6 的 75.8)

Skillbench:59.2(对比 K2.6 的 56.2)

Kernel Bench L3:1.98 倍中位数加速,96% 加速率——GPU 内核优化能力

BFCL-V4:75.0;Qwenclaw:64.3;ClawEval:65.2(紧追 Opus-4.6 Max)

以上数据意味着什么?

35 小时、1000+ 次工具调用的全自主内核优化实验——这不是跑个 MATH benchmark 就完事的宣传话术。这是对 Agent 在真实长周期任务中「上下文膨胀 + 工具调用漂移」问题的直接验证。

用大白话说:Qwen3.7-Max 能让 Agent 在一个需要跑一两天、调用上千次工具的复杂任务里,保持推理连贯性不崩。这是 Claude Code、OpenClaw 等竞品都在正面竞争的核心能力。



开发者行动建议:什么时候值得切、关注什么

目前 Qwen3.7-Max 即将通过阿里云百炼 API 提供服务。正式上线后,建议按以下优先级测试:

优先级 1(立即可测)

class="language-python">"color:#6a9955"># 阿里云百炼 API 调用示例(百炼上线后)import openaiclient = openai.OpenAI(api_key="your_bailian_key",  "color:#6a9955"># 百炼 API Keybase_url="https://dashscope.aliyuncs.com/compatible-mode/v1"response = client.chat.completions.create(model="qwen3.7-max",messages=[{"role": "system", "content": "你是一个编程助手。"},{"role": "user", "content": "用 Python 实现一个 LRU 缓存。"}print(response.choices[0].message.content)

优先级 2(1-2 周内测):

将你当前项目里 Claude Opus 4.6 的典型任务迁移到 Qwen3.7-Max,对比:
- 代码生成质量(SWE-Bench 同期题目)
- 上下文保持能力(超过 32K token 的长文件重构)
- 工具调用稳定性(MCP 工具链对接)

优先级 3(长期关注):

百炼 API 定价与上下文窗口上限

与 Claude Code / OpenClaw 框架的集成文档

Design Arena 视觉设计榜单的后续表现

结语

1541 分不是终点。它证明的是一件事:国产模型在 Agent 赛道的工程化能力,正在快速缩短与国际顶线的差距

Code Arena 的盲测机制让这份成绩单比任何厂商自评都可信。下一步是 API 定价和真实工程场景的验证。

值得关注。

参考来源:

阿里千问官方发布(2026-05-20):Qwen3.7-Max 智能体旗舰发布

Code Arena 公开榜单(2026-05-25):https://code-arena.dev

Design Arena 公开榜单:https://design-arena.dev

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖北大娘硬讹收割机升级!大批车主逃离,小麦烂地里,也没人敢去

湖北大娘硬讹收割机升级!大批车主逃离,小麦烂地里,也没人敢去

奇思妙想草叶君
2026-05-28 04:11:15
1-0!水晶宫创造历史,英超有望包揽欧战冠军,考验阿森纳

1-0!水晶宫创造历史,英超有望包揽欧战冠军,考验阿森纳

我的护球最独特
2026-05-28 05:00:18
“男子结婚22年后发现两儿子非亲生”案未宣判,男子:前妻承认和我堂哥有不正当关系,自己被大儿子当庭辱骂

“男子结婚22年后发现两儿子非亲生”案未宣判,男子:前妻承认和我堂哥有不正当关系,自己被大儿子当庭辱骂

海峡网
2026-05-27 22:59:22
莫言:如果你混到没人找你吃饭,没人喊你聚会,连电话也没几个,那庆祝了,你不是人缘变差,而是真正觉醒了

莫言:如果你混到没人找你吃饭,没人喊你聚会,连电话也没几个,那庆祝了,你不是人缘变差,而是真正觉醒了

品读时刻
2026-05-27 09:00:58
血债惊全球!47条人命炸穿底线!中方怒斥:这事没完!

血债惊全球!47条人命炸穿底线!中方怒斥:这事没完!

达文西看世界
2026-05-26 15:42:43
雷军沦陷了!回应武契奇总统买不起小米车,被批情商低,评论笑死

雷军沦陷了!回应武契奇总统买不起小米车,被批情商低,评论笑死

做一个合格的吃瓜群众
2026-05-27 15:18:42
上海泳渡女子露胸事件升级!网友:相片看了是哺乳期,选手很漂亮

上海泳渡女子露胸事件升级!网友:相片看了是哺乳期,选手很漂亮

火山詩话
2026-05-27 09:18:17
“白天正常上班,晚上陪领导睡觉!”

“白天正常上班,晚上陪领导睡觉!”

阿振观点
2026-05-27 21:06:55
黑海舰队航空总部遭摧毁!曝乌克兰地面部队强登克里米亚

黑海舰队航空总部遭摧毁!曝乌克兰地面部队强登克里米亚

项鹏飞
2026-05-27 20:21:40
王永国同志逝世

王永国同志逝世

新京报
2026-05-27 16:18:23
知名汽车网红失联,卷走客户1000万,已经带女助理逃往塞尔维亚

知名汽车网红失联,卷走客户1000万,已经带女助理逃往塞尔维亚

新游戏大妹子
2026-05-27 12:46:54
美国通知以色列,如果与伊朗达成协议,将从以色列撤军

美国通知以色列,如果与伊朗达成协议,将从以色列撤军

山河路口
2026-05-27 20:43:04
畸形审美?这4位男演员长相平平,却总当主角演帅哥,实在不理解

畸形审美?这4位男演员长相平平,却总当主角演帅哥,实在不理解

仙味少女心
2026-05-27 13:17:17
国务院成立山西长治山西通洲集团留神峪煤业有限公司“5·22”特别重大瓦斯爆炸事故调查组

国务院成立山西长治山西通洲集团留神峪煤业有限公司“5·22”特别重大瓦斯爆炸事故调查组

界面新闻
2026-05-27 22:17:30
央视曝光4种“致癌日用品”,家里千万别囤!很多人还被蒙在鼓里

央视曝光4种“致癌日用品”,家里千万别囤!很多人还被蒙在鼓里

39健康网
2026-05-27 10:32:46
别阻止娃玩手机!马斯克:刷视频是如何让大脑变笨,得让孩子知晓

别阻止娃玩手机!马斯克:刷视频是如何让大脑变笨,得让孩子知晓

西红柿妈妈
2026-05-27 09:00:18
荷兰世界杯大名单:范戴克领衔,德容、德佩在列,弗林蓬落选

荷兰世界杯大名单:范戴克领衔,德容、德佩在列,弗林蓬落选

懂球帝
2026-05-27 20:28:41
白宫称伊朗媒体发布的美伊谅解备忘录内容“不实”

白宫称伊朗媒体发布的美伊谅解备忘录内容“不实”

新华社
2026-05-27 22:55:14
夫妻割麦被刁难后续:村书记当场承诺 村民爆猛料 明年恐不会来了

夫妻割麦被刁难后续:村书记当场承诺 村民爆猛料 明年恐不会来了

小鋭有话说
2026-05-27 22:17:26
央视紧急预警!将有大事发生?应急储备别乱囤,这4类才是刚需

央视紧急预警!将有大事发生?应急储备别乱囤,这4类才是刚需

黑翼天使
2026-05-27 07:34:09
2026-05-28 06:12:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
712文章数 8561关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

特朗普警告盟友阿曼:不守规矩会被“炸飞”

头条要闻

特朗普警告盟友阿曼:不守规矩会被“炸飞”

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

时尚
亲子
本地
数码
手机

这几件单品太火了,今年流行的风格都离不开它

亲子要闻

韩国孩子4岁就要考英语幼儿园是家长停不下来的教育焦虑

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

别盲目跟风!今年618买笔记本,认准这6款就够了

手机要闻

鸿蒙系统大推送:6.1.0.125已来袭,API 24也转正了!

无障碍浏览 进入关怀版