阿里Qwen3.7竞技场杀至国产第一！一手实测：分分钟破解奥赛难题，图文视觉全都难不倒|编程|max|阿里qwen|阿里巴巴集团|preview

阿里Qwen3.7竞技场杀至国产第一！一手实测：分分钟破解奥赛难题，图文视觉全都难不倒

2026-05-19 22:51:11　来源: 智东西

北京举报

分享至

智东西
作者陈骏达
编辑云鹏

智东西5月19日报道，今天，阿里的Qwen3.7系列预览版模型已上线，共有Max和Plus两个版本。大模型竞技场也放出了Qwen3.7-Max-Preview的评测结果。在大模型竞技场覆盖主流基座大模型的总榜上，Qwen3.7-Max-Preview排名第13，介于GPT 5.5和Grok 4.2之间，是这一榜单上排名最高的国产模型。

在具体的细分榜单上，Qwen3.7-Max-Preview在数学领域排名第7、在专家任务中排名第9、在软件与信息技术任务中排名第9、在编程任务中排名第10。

▲Arena.ai公布Qwen3.7-Max-Preview的成绩

Qwen3.7-Plus-Preview的总榜排名暂未公布。不过，在竞技场的视觉排行榜上，我们能看到Qwen3.7-Plus-Preview的成绩。这一模型排名第16，得分介于GPT 5.4和Gemini-3 Flash之间。

阿里暂时并未披露Qwen3.7系列模型的具体技术细节，在明天的阿里云峰会上，这两款模型的更多信息或许会发布。

目前，在Qwen Studio上，用户已经可以体验到Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview，这两款模型采取了闭源发布的模式。Qwen3.7-Max-Preview目前仅支持推理模式，不支持图片上传。

智东西第一时间对这两款模型进行了体验。Qwen3.7-Max-Preview的实测涉及数学、编程、推理等多种类型的任务，Qwen3.7-Plus-Preview的实测则以视觉任务为主。

从我们的体验来看，这一代Qwen模型的响应更为直接、迅速，思考节奏也比此前的Qwen模型更果断，在编程、视觉方面的能力有可感的提升。

体验链接：chat.qwen.ai/

一、4分钟做对IMO难题，还给我写了个能跑的EXE

在多领域的排名中，Qwen3.7-Max-Preview在数学方面的得分较为突出。我们拿2025年IMO的一道难题，考察它的数学能力。

Qwen3.7-Max-Preview拿到题目后，进行了多轮分析和反复核验，最终得出了正确答案，思考速度也还不错，大概只花了4分钟。

Qwen目前只提供思维链总结，我们看不到模型的真实思考过程。不过，从思维链总结中可以发现，和之前的Qwen模型相比，Qwen3.7-Max-Preview似乎更自信了，反复自我核查的环节减少了一些。

Qwen3.7-Max-Preview在编程任务上的表现也不错。不过，由于目前这款模型只能在网页中体验，我们暂时没有尝试较为复杂的开发任务。

首个编程任务是让Qwen3.7-Max-Preview生成一个番茄钟的桌面应用，并直接打包成EXE。Qwen3.7-Max-Preview没有在思考环节花许多时间，而是很快进行了开发，设计了一个具备工作计时、短休息、长休息、自动切换、声音提醒、任务统计的应用。

Qwen3.7-Max-Preview称它无法输出EXE，但向我提供了逐步的指引，最终我自己完成了打包的工作。运行后，这一应用无法正常启动。

阅读报错信息后，Qwen3.7-Max-Preview判断，报错是因为Tkinter底层（Tcl/Tk）在打包后，不支持带透明度的十六进制颜色代码。

问题修复后，这一桌面应用可以正常运行，核心功能都正常，但应用本身的设计比较粗糙。

用HTML输出内容成为最近AI圈的一大热点，我让Qwen3.7-Max-Preview的设计一个AI社交媒体应用的产品需求文档，并输出为HTML样式的网页。

拿到任务后，Qwen3.7-Max-Preview没有输出文字版的产品需求，再转为HTML，而是直接用HTML输出了所有内容。

从最终结果来看，Qwen3.7-Max-Preview的这份产品需求文档结构完整，还配上了产品原型设计，但在产品定义上似乎有些大而全，显得没有焦点。

我们还跑了跑其他类型的任务。SVG图绘制上，Qwen3.7-Max-Preview能顺利生成一张动态的鹈鹕骑自行车图片，画面内容基本准确。

通用推理任务中，Qwen3.7-Max-Preview一下看穿了这道“海龟汤”的谜底，判断出女孩是红绿色盲，并且应该不是父亲亲生的孩子。

二、有惊无险攻克视觉版“洗车店难题”，还靠一张图复刻微信

在接下来的测试中，我们主要考察了Qwen3.7-Plus-Preview在视觉能力上的表现。

首个实测任务是一道进阶版的洗车店难题。我们用AI生成了一张卫星地图风格的图片，图中只有两个地点的距离。

我告诉Qwen3.7-Plus-Preview左侧地点是我家，右侧是洗车店，并询问它，如果我去洗车，该走路还是开车呢？

从Qwen3.7-Plus-Preview的思考过程中可以看到，它准确地看到了图片中的文字和视觉信息，并评估了各种不同的选项，甚至还在某一思考阶段得出了走路才是最高效合理的方式，险些陷入险境。

不过，最后它还是给出了正确的回答，方案是开车去洗车，然后走路回家，不用在店里干等。

此前，我们在实测DeepSeek视觉模式过程中发现，如今的多模态大模型在看图猜地点上做得很不错，我们也让Qwen3.7-Plus-Preview试了试一样的题目。

看到图片后，Qwen3.7-Plus-Preview先是通过建筑风格判断这里应该是在中国北方某大型城市，然后在依据山脉形态判断远处的山应该属于燕山余脉。最终它认为远处的山是军都山，并据此判断我所在的地方应该是昌平南邵。

这一判断其实是错误的，但离正确答案也不远了。图中的山脉是北京的凤凰岭，而我所在的观察地位于马池口镇，Qwen3.7-Plus-Preview的猜测与正确地点相距不到10公里。

视觉能力还可以与编程任务结合。我随手截取了一张微信的截图，让Qwen3.7-Plus-Preview复刻出一个类似的网页版聊天工具。

执行过程中，即便图中没有明显的微信字样，Qwen3.7-Plus-Preview也通过UI风格的视觉因素判断出这是微信，并据此规划了设计风格。

从最终的复刻效果来看，Qwen3.7-Plus-Preview很好地把握了微信的设计特点，外观还原度很高，不过图中的按钮无法正常使用。

结语：Qwen系列模型加速迭代

今年，阿里的Qwen系列模型迭代速度，相较以往有明显提升。从2026年2月至今，阿里已经陆续发布了Qwen3.5、Qwen3.6、Qwen3.7三代模型，而2025年全年Qwen只发布了Qwen3和Qwen-Next两个主要版本。

相比过去以“大版本发布”为核心的节奏，如今的Qwen更像是在沿着技术路线持续快跑，通过高频预览版和能力增量更新，让模型更快进入真实场景接受检验。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.