网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

刚刚，中国AI闯入全球编程前二！前面只剩Claude

2026-05-26 22:36:56　来源: 新浪财经

河北举报

0

分享至

来源：市场资讯

（来源：新智元）

新智元报道

【新智元导读】Code Arena最新放榜，Qwen3.7-Max以1541分冲进全球第四，成为前五中唯一的非Claude模型。编程，中国模型第一次杀到这个位置。

就在今天，Code Arena最新榜单出炉！

Qwen3.7-Max以1541分闯入全球前四，一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。

排在它前面的，只剩Claude Opus 4.7和Opus 4.6。

换句话说，在全球编程模型的竞技场上，阿里是唯一杀进这张牌桌的中国厂商，仅次于Anthropic，位列第二。

Qwen3.7-Max闯入全球前五

唯一非Claude模型

其实在Code Arena放榜之前，Qwen3.7-Max在海外开发者圈子里已经杀出了名声。

Atomic Chat做了一场硬碰硬的对比，让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技，任务是写一个能自我训练的俄罗斯方块AI。

结果，Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了，而且性能还提升了56%。

另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型，效果足以用震撼形容。

在「3D像素风微缩宝塔模型」的生成任务中，Qwen3.7-Max的输出速度和质量同样全面胜出。

左右滑动查看

开发者Paul Couvert更是盛赞，Qwen3.7-Max接入Hermes Agent和OpenCode之后，基本可以替掉GPT-5.5和Opus 4.7。

编程，太能打了

不过跑分再高，不如真刀真枪拉出来练练。

我们给Qwen3.7-Max安排了一场硬核的「赛车游戏」挑战。

一段详细的Prompt丢进去，不一会儿功夫，Qwen3.7-Max直出一个可玩的HTML的文件。

第一版有个小bug，A/D转向键左右搞反了。

但经过第二轮简单对话微调，一个体验完整的3D赛车游戏就跑了起来。

打开的瞬间，说实话，有点被惊到了。

4车同台，3圈环形赛道竞速，赛道上散落着100多枚金币，碰到障碍物会减速、失控。

赛后成绩面板，排名、用时、金币数、最快单圈，一项不缺。

但真正让人意外的，是两个只有Qwen3.7-Max做到的细节。

一个是开始界面。四个模型横向测完，只有它给游戏做了一个正经的开始页面，点「Start」才进入比赛。其他三家全是打开即跑，连个标题画面都没有。

另一个是音效。Prompt最后附了一条要求，加上发动机轰鸣和吃金币的音效。四个模型里，也只有它把这个bonus吃进去了，引擎声和金币叮咚都安排上了。

再看看其他选手的表现。

Gemini 3.5 Flash的画面明显单薄了一档，缺少那种呼之欲出的立体感。

UI布局也有问题，仪表盘信息分散在屏幕四角，视觉焦点一盘散沙。

相比之下，Qwen3.7-Max的处理方式是把关键指标集中到画面中央，更符合玩家视线的自然落点。

Claude Opus 4.6的效果，有点让人一言难尽了。

不仅赛道上金币少得可怜，而且3辆AI赛车几乎同步行驶，毫无随机性，像复制粘贴出来的。

最后是GPT-5.5。

可以看到，画面质感确实比前两家强了不少，操作起来也更流畅。

但不知道为什么，金币被做成了黄色的「甜甜圈」……

造型倒是小事。关键是，Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。

只有Qwen3.7-Max首轮生成就基本可玩。

跑分接近，实测不虚，价格只有几分之一。剩下的结论，等开发者用脚投票就行了。

Agent时代的「基座」模型

Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平，答案就藏在它的产品定位里。

几天前，阿里发布Qwen3.7-Max的时候，给了它一个非常特殊的标签：Agent基座模型。

它生来，就是为长时间自主执行任务设计的模型。

内测数据显示，在一次自主编程任务中，Qwen3.7-Max连续运行35个小时，执行1158次工具调用。

最终生成的代码相较于Triton参考实现，达到了惊人的10倍几何平均加速。

更令人震撼的是它的「持久战」能力——

在推演进行到第30个小时之后，模型依然保持敏锐，持续挖掘出新的优化空间。

全程零上下文退化、零指令漂移、零死循环！

不得不说，这件事的难点不在1000次工具调用本身。MCP协议铺开之后，调1000次工具不算稀奇。

难点在于，35小时的连贯推理。

绝大多数模型跑长任务时会崩盘：要么上下文越积越乱，前半段定的目标到后面忘得干干净净；要么进入死循环，反复尝试同一个失败的方案。

Qwen3.7-Max把「持续做对事」这件事，做出来了。

核心技术揭秘

Qwen3.7-Max这波编程跃升，我们理解核心可能与两个训练方法的升级有关。

第一个是，环境扩展。

Qwen3.7-Max在做编程训练时，每个任务会被拆成三个独立维度，任务本身、执行框架、验证方式，三者自由组合。

同一道题，有时候在Claude Code的框架里做，有时候在OpenClaw里做，有时候换一种验证方式。

效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略，不是「在某个特定框架里怎么取巧」。

这解释了一个反直觉的现象，Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳，没有出现「在自家框架里很强、换一个就拉胯」的情况。

第二个升级是，长程自主执行。

在训练中，团队引入了「动态累积生存博弈」框架。

也就是，让模型在持续变化的模拟环境中做超过一千步的连续决策，自己建立假设、根据反馈调整策略，而且不能因为跑太久就「上下文腐化」。

这里有一个直观的数据，YC-Bench模拟创业公司经营一整年，Qwen3.7-Max做到了208万美元营收，是上一代（105万）的两倍。

更关键的是，它展现出了策略进化，中期遇到危机能自主调整方向，识别并拉黑恶意客户，最终收敛到稳定的执行循环。

这就是35小时kernel优化案例的底层支撑，也是为什么在Kernel Bench L3上，Qwen3.7-Max能让96%的场景跑出加速效果。

而编程还只是第一个战场。这套长程推理加工具调用的底子，指向的是一个更大的野心——通用Agent基座。

编程决赛，多了一个搅局者

Code Arena上线至今，考的从来都是硬活，多步推理、工具编排、完整项目交付，全是Agent级的真刀真枪。

今天，Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置，卡在Opus 4.6 Thinking和Opus 4.6之间。

在这条Claude统治了大半年的赛道上，它给出了自己的回答，中国模型不只是追赶者，也可以是定义者。

全球编程模型的竞赛，已经不再是硅谷的独角戏了。

参考资料：

https://arena.ai/leaderboard/code/webdev

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

挪威深海发现载有中国瓷器的18世纪沉船：大量青花瓷碗重见天日，文物达数千件，目前正开展船只溯源工作并努力还原历史真相

大风新闻 2026-06-02 12:15:18
13193 跟贴 13193
杭州人吃了60年，新丰小吃，去年亏损近400万。大肉包、虾肉馄饨、喉口包子为什么卖不动了？

都市快报橙柿互动 2026-06-02 22:47:52
194 跟贴 194

李亚飞任南京师范大学副校长

江苏新闻 2026-06-03 07:36:49
56 跟贴 56

日方公布辽宁舰动向这一次罕见没有发图

澎湃新闻 2026-06-02 21:50:13
236 跟贴 236
稻城亚丁景区弯道占比超八成，游客建议“接驳车合理收费”……记者实探→

环球网资讯 2026-06-02 21:36:26
575 跟贴 575

印度拟购114架“阵风”战机，军方称必要时准备“辛杜尔行动2.0”

澎湃新闻 2026-06-02 19:30:33
449 跟贴 449

成龙向全球发出入境游邀约：欢迎感受无滤镜的真实中国

新京报 2026-06-01 12:09:13
431 跟贴 431
游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单，火锅店最新回应：高峰期排队上千桌，为顾全大局妥协

洪观新闻 2026-06-02 13:19:43
1062 跟贴 1062

光明网评论员：电车该如何参与道路养护

澎湃新闻 2026-06-02 23:08:03
681 跟贴 681
曝杜伦与活塞在续约谈判中分歧巨大双方预期薪资存“巨大鸿沟”

北青网-北京青年报 2026-06-02 19:42:55
115 跟贴 115
河南献血新规落地献血超千毫升终生免费用血

人民资讯 2026-06-02 15:45:21
209 跟贴 209
人民锐评：外卖骑手过剩？解决老问题当有新思维

澎湃新闻 2026-06-02 23:29:03
483 跟贴 483
浙江广厦主帅：G4无论结果如何都要拼到最后一刻

北青网-北京青年报 2026-06-02 13:50:14
355 跟贴 355
多地教育考试部门提醒：高考考生如戴眼镜，入场前须接受查验

红网 2026-06-03 09:44:50
499 跟贴 499
以黎在华盛顿举行第四轮会谈

央视新闻客户端 2026-06-02 21:52:24
251 跟贴 251
吃片皮鸭、喝红酒、品甜点…夏日，上海市集的烟火气和氛围感如何“炼成”？

上观新闻 2026-06-01 07:34:08
973 跟贴 973
澳洲豪宅设计师选择全套斐雪派克家电

国际在线 2026-06-02 14:49:04
127 跟贴 127
问界汽车回应浙江省台州市车辆事故：非车辆自身原因导致

新浪财经 2026-06-03 11:37:06
0 跟贴 0
不要再说巫溪相亲网是假的，早相亲的人娃娃都出生满月了，你还在怀疑！

巫溪鸡血哥网 2026-06-03 11:36:26
0 跟贴 0

马上扔掉家里这1种调料，不仅有毒还致癌！很多人还天天吃

马上扔掉家里这1种调料，不仅有毒还致癌！很多人还天天吃

39健康网

2026-06-01 08:31:23

王晓晨俞灏明被曝就医，王晓晨街边抽烟，全程眉头紧锁，神色焦灼

王晓晨俞灏明被曝就医，王晓晨街边抽烟，全程眉头紧锁，神色焦灼

韩小娱

2026-06-02 15:22:29

中美军方密谈了两天，谈完后才公布！真正让高市早苗哭的时刻到了

中美军方密谈了两天，谈完后才公布！真正让高市早苗哭的时刻到了

知法而形

2026-06-02 10:53:46

48℃高温热死几万人，莫迪还在喊多喝水：印度的对手不是老天爷

48℃高温热死几万人，莫迪还在喊多喝水：印度的对手不是老天爷

浪子的烟火人间

2026-06-03 00:35:03

这4个行业，已经发不出工资了！真的很严重了

这4个行业，已经发不出工资了！真的很严重了

细说职场

2026-06-02 21:15:53

61岁大叔哭诉：再婚娶了40岁的女人，每天都过得筋疲力尽，太难了

61岁大叔哭诉：再婚娶了40岁的女人，每天都过得筋疲力尽，太难了

惟来

2026-06-02 10:25:22

尾灯开裂，小米SU7车主陷入维权僵局

尾灯开裂，小米SU7车主陷入维权僵局

ZAKER新闻

2026-06-01 14:46:40

波兰政府专机紧急抵达北京，转运危重留学生

波兰政府专机紧急抵达北京，转运危重留学生

新浪财经

2026-06-03 05:13:02

乌克兰承不承认俄罗斯对克里米亚和乌东四州的主权，都没什么意义

乌克兰承不承认俄罗斯对克里米亚和乌东四州的主权，都没什么意义

空想之喵

2026-05-09 01:21:47

善恶终有报！放弃国籍、贬低中国，68岁瘫在轮椅的张铁林活成笑话

善恶终有报！放弃国籍、贬低中国，68岁瘫在轮椅的张铁林活成笑话

混沌录

2026-06-01 23:24:09

包头市委副书记、政法委书记周强，被查

包头市委副书记、政法委书记周强，被查

大风新闻

2026-06-03 08:16:08

疯狂的黄俄计划：80万东北土地、2千万东北人民，沙俄全想要？

疯狂的黄俄计划：80万东北土地、2千万东北人民，沙俄全想要？

鹤羽说个事

2026-05-28 23:03:03

鸟巢撒糖不到24小时！张柏芝突然官宣两大喜讯，网友：不对劲！

鸟巢撒糖不到24小时！张柏芝突然官宣两大喜讯，网友：不对劲！

林轻吟

2026-06-02 22:43:18

英媒评世界杯十大球衣：90年德国居首，喀麦隆无袖球衣在列

英媒评世界杯十大球衣：90年德国居首，喀麦隆无袖球衣在列

懂球帝

2026-06-02 14:58:36

奥莱报：梅西左腿肌肉发炎，首训仍不适基本无缘出战洪都拉斯

奥莱报：梅西左腿肌肉发炎，首训仍不适基本无缘出战洪都拉斯

懂球帝

2026-06-02 14:05:08

奥尔莫：队内为了抢10号球衣大打出手？根本没有这事

奥尔莫：队内为了抢10号球衣大打出手？根本没有这事

懂球帝

2026-06-02 21:41:25

女学霸发明“咯噔字体”，老师低分警告：别用个性挑战考试底线

女学霸发明“咯噔字体”，老师低分警告：别用个性挑战考试底线

蝴蝶花雨话教育

2026-05-07 00:05:04

“哪怕坐牢，我也不后悔！”

阿振观点

2026-06-02 12:19:48

弃剧了！发现《主角》越来越不对劲了，原来易青娥是一个这样的人

弃剧了！发现《主角》越来越不对劲了，原来易青娥是一个这样的人

阿废冷眼观察所

2026-06-03 09:22:09

3家保险公司进入破产程序！保单会作废吗？现在买保险还安全吗？

3家保险公司进入破产程序！保单会作废吗？现在买保险还安全吗？

老特有话说

2026-06-02 16:08:24

新浪财经是一家创建于1999年8月的财经平台

3446477文章数 7784关注度

往期回顾全部

科技要闻

员工抗议键鼠追踪，Meta让步:可暂停30分钟

头条要闻

受贿数额特别巨大内蒙古自治区政府原主席王莉霞被诉

头条要闻

受贿数额特别巨大内蒙古自治区政府原主席王莉霞被诉

体育要闻

选择中国品牌的库里，和他们的巨大野心

娱乐要闻

著名演员魏宗万去世！曾演活司马懿

财经要闻

左手通胀右手衰退，欧美当下的困局

汽车要闻

2030年之前莲花还来得及

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

健康

本地

旅游

公开课

教育要闻

专访北京中关村一小校长商红领：落实“健康第一”，要避免3个“窄化”

违规干细胞应用，暗藏致命隐患！

本地新闻

用剪纸的方式，打开江苏扬州

旅游要闻

重庆这条老街，入选十大旅游街区却不在主城，还把摩天轮修在屋顶

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版