网易首页 > 网易号 > 正文 申请入驻

阿里Qwen3.7竞技场杀至国产第一!一手实测:分分钟破解奥赛难题,图文视觉全都难不倒

0
分享至


智东西
作者 陈骏达
编辑 云鹏

智东西5月19日报道,今天,阿里的Qwen3.7系列预览版模型已上线,共有Max和Plus两个版本。大模型竞技场也放出了Qwen3.7-Max-Preview的评测结果。在大模型竞技场覆盖主流基座大模型的总榜上,Qwen3.7-Max-Preview排名第13,介于GPT 5.5和Grok 4.2之间,是这一榜单上排名最高的国产模型。


在具体的细分榜单上,Qwen3.7-Max-Preview在数学领域排名第7、在专家任务中排名第9、在软件与信息技术任务中排名第9、在编程任务中排名第10。


▲Arena.ai公布Qwen3.7-Max-Preview的成绩

Qwen3.7-Plus-Preview的总榜排名暂未公布。不过,在竞技场的视觉排行榜上,我们能看到Qwen3.7-Plus-Preview的成绩。这一模型排名第16,得分介于GPT 5.4和Gemini-3 Flash之间。

阿里暂时并未披露Qwen3.7系列模型的具体技术细节,在明天的阿里云峰会上,这两款模型的更多信息或许会发布。

目前,在Qwen Studio上,用户已经可以体验到Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview,这两款模型采取了闭源发布的模式。Qwen3.7-Max-Preview目前仅支持推理模式,不支持图片上传。


智东西第一时间对这两款模型进行了体验。Qwen3.7-Max-Preview的实测涉及数学、编程、推理等多种类型的任务,Qwen3.7-Plus-Preview的实测则以视觉任务为主。

从我们的体验来看,这一代Qwen模型的响应更为直接、迅速,思考节奏也比此前的Qwen模型更果断,在编程、视觉方面的能力有可感的提升。

体验链接:chat.qwen.ai/

一、4分钟做对IMO难题,还给我写了个能跑的EXE

在多领域的排名中,Qwen3.7-Max-Preview在数学方面的得分较为突出。我们拿2025年IMO的一道难题,考察它的数学能力。

Qwen3.7-Max-Preview拿到题目后,进行了多轮分析和反复核验,最终得出了正确答案,思考速度也还不错,大概只花了4分钟。


Qwen目前只提供思维链总结,我们看不到模型的真实思考过程。不过,从思维链总结中可以发现,和之前的Qwen模型相比,Qwen3.7-Max-Preview似乎更自信了,反复自我核查的环节减少了一些。

Qwen3.7-Max-Preview在编程任务上的表现也不错。不过,由于目前这款模型只能在网页中体验,我们暂时没有尝试较为复杂的开发任务。

首个编程任务是让Qwen3.7-Max-Preview生成一个番茄钟的桌面应用,并直接打包成EXE。Qwen3.7-Max-Preview没有在思考环节花许多时间,而是很快进行了开发,设计了一个具备工作计时、短休息、长休息、自动切换、声音提醒、任务统计的应用。

Qwen3.7-Max-Preview称它无法输出EXE,但向我提供了逐步的指引,最终我自己完成了打包的工作。运行后,这一应用无法正常启动。


阅读报错信息后,Qwen3.7-Max-Preview判断,报错是因为Tkinter底层(Tcl/Tk)在打包后,不支持带透明度的十六进制颜色代码。


问题修复后,这一桌面应用可以正常运行,核心功能都正常,但应用本身的设计比较粗糙。


用HTML输出内容成为最近AI圈的一大热点,我让Qwen3.7-Max-Preview的设计一个AI社交媒体应用的产品需求文档,并输出为HTML样式的网页。

拿到任务后,Qwen3.7-Max-Preview没有输出文字版的产品需求,再转为HTML,而是直接用HTML输出了所有内容。

从最终结果来看,Qwen3.7-Max-Preview的这份产品需求文档结构完整,还配上了产品原型设计,但在产品定义上似乎有些大而全,显得没有焦点。


我们还跑了跑其他类型的任务。SVG图绘制上,Qwen3.7-Max-Preview能顺利生成一张动态的鹈鹕骑自行车图片,画面内容基本准确。


通用推理任务中,Qwen3.7-Max-Preview一下看穿了这道“海龟汤”的谜底,判断出女孩是红绿色盲,并且应该不是父亲亲生的孩子。


二、有惊无险攻克视觉版“洗车店难题”,还靠一张图复刻微信

在接下来的测试中,我们主要考察了Qwen3.7-Plus-Preview在视觉能力上的表现。

首个实测任务是一道进阶版的洗车店难题。我们用AI生成了一张卫星地图风格的图片,图中只有两个地点的距离。

我告诉Qwen3.7-Plus-Preview左侧地点是我家,右侧是洗车店,并询问它,如果我去洗车,该走路还是开车呢?


从Qwen3.7-Plus-Preview的思考过程中可以看到,它准确地看到了图片中的文字和视觉信息,并评估了各种不同的选项,甚至还在某一思考阶段得出了走路才是最高效合理的方式,险些陷入险境。

不过,最后它还是给出了正确的回答,方案是开车去洗车,然后走路回家,不用在店里干等。


此前,我们在实测DeepSeek视觉模式过程中发现,如今的多模态大模型在看图猜地点上做得很不错,我们也让Qwen3.7-Plus-Preview试了试一样的题目。


看到图片后,Qwen3.7-Plus-Preview先是通过建筑风格判断这里应该是在中国北方某大型城市,然后在依据山脉形态判断远处的山应该属于燕山余脉。最终它认为远处的山是军都山,并据此判断我所在的地方应该是昌平南邵。


这一判断其实是错误的,但离正确答案也不远了。图中的山脉是北京的凤凰岭,而我所在的观察地位于马池口镇,Qwen3.7-Plus-Preview的猜测与正确地点相距不到10公里。

视觉能力还可以与编程任务结合。我随手截取了一张微信的截图,让Qwen3.7-Plus-Preview复刻出一个类似的网页版聊天工具。

执行过程中,即便图中没有明显的微信字样,Qwen3.7-Plus-Preview也通过UI风格的视觉因素判断出这是微信,并据此规划了设计风格。


从最终的复刻效果来看,Qwen3.7-Plus-Preview很好地把握了微信的设计特点,外观还原度很高,不过图中的按钮无法正常使用。


结语:Qwen系列模型加速迭代

今年,阿里的Qwen系列模型迭代速度,相较以往有明显提升。从2026年2月至今,阿里已经陆续发布了Qwen3.5、Qwen3.6、Qwen3.7三代模型,而2025年全年Qwen只发布了Qwen3和Qwen-Next两个主要版本。

相比过去以“大版本发布”为核心的节奏,如今的Qwen更像是在沿着技术路线持续快跑,通过高频预览版和能力增量更新,让模型更快进入真实场景接受检验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美退役海军中将接受采访画面引争议:颈部怪异被质疑戴面具

美退役海军中将接受采访画面引争议:颈部怪异被质疑戴面具

环球网资讯
2026-05-22 13:44:12
明朝23岁女道士王焘贞,宣告自己将羽化,近10万人围观,结局如何

明朝23岁女道士王焘贞,宣告自己将羽化,近10万人围观,结局如何

史之铭
2026-05-19 21:04:23
这么突然?Shams:字母哥+老詹,湖人!

这么突然?Shams:字母哥+老詹,湖人!

左右为篮
2026-05-22 08:06:59
私吞奖金,可能是樊同学最小的瓜

私吞奖金,可能是樊同学最小的瓜

公子故事会
2026-05-21 18:39:16
迪伦哈珀这么强,那他的父亲罗恩哈珀呢?5次夺冠的NBA巨星

迪伦哈珀这么强,那他的父亲罗恩哈珀呢?5次夺冠的NBA巨星

大西体育
2026-05-22 16:12:03
普京政府心里比谁都明白,卖给中国的天然气,不降价真的不行了

普京政府心里比谁都明白,卖给中国的天然气,不降价真的不行了

共工之锚
2026-05-21 21:58:47
台陆委会副主委梁文杰:“两岸同属中华民族”不是问题!

台陆委会副主委梁文杰:“两岸同属中华民族”不是问题!

荆楚寰宇文枢
2026-05-21 23:02:41
诺兰《奥德赛》黑人女演员回应DEI:国际化很合理!

诺兰《奥德赛》黑人女演员回应DEI:国际化很合理!

3DM游戏
2026-05-22 09:36:18
61岁郭富城参观方媛舅舅的饭店,和一帮亲戚喝酒,获外婆拥抱送别

61岁郭富城参观方媛舅舅的饭店,和一帮亲戚喝酒,获外婆拥抱送别

一盅情怀
2026-05-21 16:23:41
“后悔参观清华,自取其辱!”家长带3岁娃逛清华,给出三点差评

“后悔参观清华,自取其辱!”家长带3岁娃逛清华,给出三点差评

妍妍教育日记
2026-05-19 17:10:31
阿斯麦CEO:中国会加速自主,这是存亡问题

阿斯麦CEO:中国会加速自主,这是存亡问题

观察者网
2026-05-21 09:11:37
金价下跌了,中国黄金最新价,2026年5月22日人民币黄金最新价格

金价下跌了,中国黄金最新价,2026年5月22日人民币黄金最新价格

坠入二次元的海洋
2026-05-22 17:00:36
网友曝光杨梅园出现大量药瓶,扬言果农并不无辜,评论区人心惶惶

网友曝光杨梅园出现大量药瓶,扬言果农并不无辜,评论区人心惶惶

谭谈社会
2026-05-21 07:31:44
iPhone 17 Pro再次降价,这可能是目前最香的iPhone了

iPhone 17 Pro再次降价,这可能是目前最香的iPhone了

刘奔跑
2026-05-21 20:24:57
詹姆斯:骑士状态起伏是心里问题,哈登和米切尔要找到平衡

詹姆斯:骑士状态起伏是心里问题,哈登和米切尔要找到平衡

懂球帝
2026-05-22 14:15:23
大反转!课堂喊“杀杀杀”的学生,没被处分反被请吃汉堡提前毕业

大反转!课堂喊“杀杀杀”的学生,没被处分反被请吃汉堡提前毕业

李昕言温度空间
2026-05-21 22:18:49
28岁女歌星整容成瘾!缺钱整容自己动手:脸上注射香油和水泥!

28岁女歌星整容成瘾!缺钱整容自己动手:脸上注射香油和水泥!

莫地方
2026-05-22 01:45:03
金庸:大儿子自缢,二儿子入狱,大女儿失聪,唯有小女儿命好一点

金庸:大儿子自缢,二儿子入狱,大女儿失聪,唯有小女儿命好一点

飘飘然的娱乐汇
2026-05-18 20:15:08
不巧!U17世界杯中国队差点跟巴哥再同组,球迷:02年口号能照用

不巧!U17世界杯中国队差点跟巴哥再同组,球迷:02年口号能照用

足球大腕
2026-05-22 09:30:01
三狮心碎11人,谁最意难平?

三狮心碎11人,谁最意难平?

体坛周报
2026-05-22 17:34:40
2026-05-22 18:12:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11877文章数 117079关注度
往期回顾 全部

科技要闻

雷军:输给特斯拉不丢人

头条要闻

80后地产女王自杀倒在楼市黎明前 曾称或面临刑事责任

头条要闻

80后地产女王自杀倒在楼市黎明前 曾称或面临刑事责任

体育要闻

最糟糕裁判?他想要退役当市长

娱乐要闻

周也恋情曝光!对象身份不简单

财经要闻

证监会拟对老虎、富途、长桥依法严厉处罚

汽车要闻

舒适智能配置满 昊铂S600开着没那么运动也挺好

态度原创

手机
健康
旅游
游戏
军事航空

手机要闻

年度最佳购机时机!多款手机深夜集体大降价:最高降2000元

外泌体与干细胞竟是“快递”与“工厂”的关系?

旅游要闻

终于定啦‼赖店镇往坂头村路口红绿灯旁(天宇楼)广场大型光影瀑布美食.娱乐.游园会5月29日盛大开幕!全场免门票

《红色沙漠》又更新!玩家呼声最大的要来了

军事要闻

俄罗斯试射具备核打击能力的高超音速导弹

无障碍浏览 进入关怀版