网易首页 > 网易号 > 正文 申请入驻

三个月连更三版后,Qwen3.7-Max好像更会干活了

0
分享至



大模型正取代 APP 成为互联网的新入口。

但不同的是,过去,APP 可以依靠快速迭代,一周一个版本,去承接用户的需求和反馈,模型升级却没法这样。

放眼国内外的模型,一次升级,往往需要积攒很长时间,因为其中牵涉到训练数据,训练策略和安全边界等多种底层架构的优化。换句话说,模型越大,迭代起来就越重。



但现在,千问正试图打破这个一成不变的节奏。

从 3 月的 Qwen3.5-Max-Preview,到 4 月的 Qwen3.6-Max-Preview,再到 5 月新鲜出炉的 Qwen3.7-Max,千问旗舰模型在三个月内连续更新了三个版本,基本是在用 App 时代的速度做旗舰模型。

当然,AI 发展到 Agent 的阶段,我们不再像 App 时代一样关心某个具体的功能,而是关注模型能不能做好广泛而又繁杂的各种事 。

所以速度本身不是答案,真正的问题是,这种高频迭代,是否真的转化成了 Agent 能力?

整体来看,在 Artificial Analysis 新鲜出炉的智力指标中,Qwen3.7-Max 冲进前五,拿下了国产榜首,即使跟撞档期的 Gemini-3.5-Flash 相比,也领先了一个身位。



而在更具体的官方跑分表里,它展现出了更多面的优势,不是单点刷榜,而是结构更完整的能力覆盖。

和 Claude Opus-4.6 Max 等 5 个前沿模型对比,共 41 项测试,Qwen3.7-Max 拿下了半数榜首位置;在 Coding Agent 里 8 项拿到 5 个第一,在 STEM 推理里 7 项拿到 5 个第一,在多语言里 8 项拿到 5 个第一。



更关键的是,它在 MCP-Mark、Skillbench、MRCR-v2 128k、Kernel Bench L3 这些更接近真实任务执行的指标上提升明显,说明它在调用工具,处理长任务,完成复杂交付时能够更好地调度 Agent 互相配合。

在垂直一些的编程任务上,它在 SWE-Pro、SWE-Multilingual、SciCode、QwenSVG 等评测中也进入了头部梯队,放到真实工程任务中,这就是代码理解和修复能力的体现。

值得一提的是,这些成绩来自多种智能体框架,也就意味着,无论是各种 Claw,还是什么 Code,评测中的能力都能够进行迁移和泛化。



单看纸面数据,Qwen3.7-Max 无愧大厂之名。但跑分只是评测的入口,远不到终点。

一个模型最终能不能成为任务入口,取决于它在日常问题里是否稳定,在复杂任务里是否能持续推进,在生产场景里是否能交付结果。

为此,我们提前内测了一把。

先拿最基础的逻辑推理题试试它,像是“洗车店离我 50 米,是走路还是开车去洗车?”,或者小数比大小等经典的误导题。



好消息是他基本都能拿捏,坏消息是这些问题都已经进题库了,看思维链就能发现,这些已经被模型识别为了经典的逻辑陷阱,它会采用更取巧的推理捷径。

但其实相比结果,推理过程要更耐人寻味一点,因为单纯的背题其实不具备泛化能力,如果没有把推理能力训练到位,哪怕逻辑一样,只要换个情景,该露馅还会露馅。

这里千问的表现就非常稳健,无论是错误的对象引导,关系推理,还是字符级的操作,或者结合世界知识的视角变化,它都能妥善处理,在思考过程中将条件和用到的方法理清楚,盘明白,并不是单纯的背题库。

这些普通的任务虽然容易,但也并非鸡肋,管窥知豹,只有指令遵循,常识判断的能力夯实了,上面才能接各种 Harness 的约束框架,去跑更复杂的长线任务。



接下来,我们先接入阿里的 AI 编程工具 Qoder 试试,因为同一个生态下,自家的模型往往有相应的适配和优化,运行起来一般效率会更高。

先来个简单的物理模拟试试水,单个物理效果模拟太常见了,这里让它做个合集,风洞布料,软体液体一起上,看看它组织的调度情况是否合理。

在给出想要的效果,简单描述后,千问会生成一份计划书,里面对开发的步骤和用到的标准做了详细的规划,对于不同的物理效果,参照现有的技术栈进行不同的方案设计。

提示词:
请做一个单文件版本的物理模拟网页,模拟效果:风洞,布料,软体,液体,以合适的形态;
要求:只输出一个 index.html,CSS 和 JS 全部写在 index.html 内。



就效果来看,它将项目设计成了一个物理实验室,不同的模拟效果对应不同的实验。


无论是风洞模拟,还是布料模拟,它都考虑到了性能问题,采用了更节省资源的方案,比如用 Verlet 积分弹簧网格去模拟布料,这样能够提高运行时的帧数,实际拖拽和切割起来,反馈也要更丝滑一些。

我们继续上难度,直接从 GitHub 拉一个现成的开源项目给它,让它辅助我们理解仓库,方便后续开发。在拉到本地后,千问就弹出了提示,问要不要调用插件,构建整个项目的 wiki 系统。



在确认后,它就开始忙活了,整个耗时几十分钟,远超我的预期,但结果也同样超预期,尤其是它对整个仓库的梳理,细致入微。



其中不但有框架性的架构,而且针对核心模块,配置管理,部署安装都有对应的操作说明,特别是每个章节中涉及源代码的地方都有引用,不明白的地方点击后就能跳转到对应文件的函数片段,算是做到了有据可循。

接着我发现,项目本身只有 Windows 的安装包,Mac 和 Linux 都需要自己源码部署,也就是命令行启动。于是我直接让千问根据 wiki,分析出可行的打包方案,给我构建一个 Mac 上的启动入口。很快,确定好方案后,它就交付了入口,点击后就能直接启动,足以见得,wiki 的合理构建对于后续的开发能节省大量算力。

提示词:
我不想在终端中唤起项目,再打开 webui,给我换个简易的方案,现在的环境是 Mac,Apple 的 CPU。



除此之外,咱们之前说过,Qwen3.7-Max 对市面上的 Agent 框架都有良好的泛化能力,所谓好模型不挑框架,我们也试着把它接入了第三方的 Agent 框架中,发现任务表现依然很出色。



案例我们选择了美国战争部最近解密的 UAP( 不明异常现象,UFO 的官方称呼 )文件。

整套文件 1.22GB 大小,共有 118 份文档,28 段视频以及 14 张图片,而且其中部分 PDF 文档还是扫描件,文字排版和图片混合,很不清晰,但为了充分压榨 Qwen3.7-Max 的性能,我们还是强制要求了逐份整理分析。



千问意识到这是一项非常复杂的任务,它先调用提前安装好的技能组,先行设计了一套可落地的研究方案,内容涵盖从解压到最终验证的 7 个阶段,在手动删改部分细节后,它就开始执行了。

首先我们让它整理了这上百份文件,根据内容进行提取,解析,建立元数据索引。为了方便查阅,直接接入了 IM 软件,让它把成品交付到工作空间。

提示词
美国战争部披露了 UAP 相关的解密资料,非常多。
资料压缩包在本地,解压,逐份分析,进行深度解析;
在飞书云盘中新建相应文件夹,飞书有对应的文档,表格,多维表格,中间的交付物,以合适的格式放到飞书云盘中,追求可视化;
分类并按合适的专业框架进行梳理,生成汇总目录,生成专业的学术风格的报告,严谨,再生成锐评版总结,可以发散一点。
生成 slides,对调查结果进行展示,要求符合主题,去除 AI 味,选择合适的设计 skill。
生成落地页,要求符合主题,展示此次研究的概览和成果;内嵌地球仪,用于展示事件发生的地点,可互动。生成完检查一下,看功能是否正常。



它拉出来的数据表格相当规整,而且针对我特别提到的坐标问题,额外整理了一份地理事件库,其中区域,经纬坐标,传感器乃至重要性都标注得很清晰。



接下来,针对整理出的数据,让它出具两份报告,一份正经的,一份锐评一些的。在正经版的报告中,它调用 Python 脚本提前生成了图表,避免了纯文本表格的视觉单调性,而且相比文生图也更加精准,不容易出数据纰漏。

值得注意的是,两份报告的长度都非常给力,都在万字以上,而且不是空洞的堆砌,每个章节都能对原文件进行回溯。怕我看不明白,最后还按学术风格整理了一份术语对照表,就格式和流程来看,已经非常严谨了。



任务继续,针对后面要交付的汇总文档和 PPT,落地页等展示内容,它判断到这些都共用刚才整理的数据源,且互不干扰,所以就新建了 4 个子 Agent 并行执行,效率拉满。

当然,快归快,能不能用还得看交付物的质量。就 PPT 的审美来看,跟主题结合的色调和风格都基本到位,而且还复用了报告中生成的图表,这在长线任务中是非常重要的一环。



而最惊喜的是落地页的展示效果,在充分调用不同的 Skill 组合后,整个页面的设计更有人味儿,排版组织合理,表格能筛选,时间轴有对应,互动的二级菜单也有准确的内容呼出。

我们继续上难度,直接从 GitHub 拉一个现成的开源项目给它,让它辅助我们理解仓库,方便后续开发。在拉到本地后,千问就弹出了提示,问要不要调用插件,构建整个项目的 wiki 系统。



在确认后,它就开始忙活了,整个耗时几十分钟,远超我的预期,但结果也同样超预期,尤其是它对整个仓库的梳理,细致入微。



其中不但有框架性的架构,而且针对核心模块,配置管理,部署安装都有对应的操作说明,特别是每个章节中涉及源代码的地方都有引用,不明白的地方点击后就能跳转到对应文件的函数片段,算是做到了有据可循。

接着我发现,项目本身只有 Windows 的安装包,Mac 和 Linux 都需要自己源码部署,也就是命令行启动。于是我直接让千问根据 wiki,分析出可行的打包方案,给我构建一个 Mac 上的启动入口。很快,确定好方案后,它就交付了入口,点击后就能直接启动,足以见得,wiki 的合理构建对于后续的开发能节省大量算力。

提示词:
我不想在终端中唤起项目,再打开 webui,给我换个简易的方案,现在的环境是 Mac,Apple 的 CPU。



除此之外,咱们之前说过,Qwen3.7-Max 对市面上的 Agent 框架都有良好的泛化能力,所谓好模型不挑框架,我们也试着把它接入了第三方的 Agent 框架中,发现任务表现依然很出色。



案例我们选择了美国战争部最近解密的 UAP( 不明异常现象,UFO 的官方称呼 )文件。

整套文件 1.22GB 大小,共有 118 份文档,28 段视频以及 14 张图片,而且其中部分 PDF 文档还是扫描件,文字排版和图片混合,很不清晰,但为了充分压榨 Qwen3.7-Max 的性能,我们还是强制要求了逐份整理分析。



千问意识到这是一项非常复杂的任务,它先调用提前安装好的技能组,先行设计了一套可落地的研究方案,内容涵盖从解压到最终验证的 7 个阶段,在手动删改部分细节后,它就开始执行了。

首先我们让它整理了这上百份文件,根据内容进行提取,解析,建立元数据索引。为了方便查阅,直接接入了 IM 软件,让它把成品交付到工作空间。

提示词
美国战争部披露了 UAP 相关的解密资料,非常多。
资料压缩包在本地,解压,逐份分析,进行深度解析;
在飞书云盘中新建相应文件夹,飞书有对应的文档,表格,多维表格,中间的交付物,以合适的格式放到飞书云盘中,追求可视化;
分类并按合适的专业框架进行梳理,生成汇总目录,生成专业的学术风格的报告,严谨,再生成锐评版总结,可以发散一点。
生成 slides,对调查结果进行展示,要求符合主题,去除 AI 味,选择合适的设计 skill。
生成落地页,要求符合主题,展示此次研究的概览和成果;内嵌地球仪,用于展示事件发生的地点,可互动。生成完检查一下,看功能是否正常。



它拉出来的数据表格相当规整,而且针对我特别提到的坐标问题,额外整理了一份地理事件库,其中区域,经纬坐标,传感器乃至重要性都标注得很清晰。



接下来,针对整理出的数据,让它出具两份报告,一份正经的,一份锐评一些的。在正经版的报告中,它调用 Python 脚本提前生成了图表,避免了纯文本表格的视觉单调性,而且相比文生图也更加精准,不容易出数据纰漏。

值得注意的是,两份报告的长度都非常给力,都在万字以上,而且不是空洞的堆砌,每个章节都能对原文件进行回溯。怕我看不明白,最后还按学术风格整理了一份术语对照表,就格式和流程来看,已经非常严谨了。



任务继续,针对后面要交付的汇总文档和 PPT,落地页等展示内容,它判断到这些都共用刚才整理的数据源,且互不干扰,所以就新建了 4 个子 Agent 并行执行,效率拉满。

当然,快归快,能不能用还得看交付物的质量。就 PPT 的审美来看,跟主题结合的色调和风格都基本到位,而且还复用了报告中生成的图表,这在长线任务中是非常重要的一环。



而最惊喜的是落地页的展示效果,在充分调用不同的 Skill 组合后,整个页面的设计更有人味儿,排版组织合理,表格能筛选,时间轴有对应,互动的二级菜单也有准确的内容呼出。

不得不提的是,这一套流程走完,消耗了将近一个小时,算是很长的任务了,但千问并没有出现卡壳或者上下文爆炸的情况,交付物的效果都有十分不错的亮点。从这也能看出,作为 Agent 框架的底座,它还是非常合格的。



总的来说,Qwen3.7-Max 最值得关注的,不只是一次模型分数的提升,让它来到了国产榜首,而是它开始呈现出更强的任务执行感,踏实做事的实在感。



从千问 3.5 开始,阿里就朝着智能体的方向一路狂奔。几个月前,新成立的 ATH,也是在集合芯片,模型,以及应用等多面力量,去深耕模型能力的多模态,继而打通智能体的全链路。

特别是在月更的夸张效率下,模型优化的迭代更快了,这意味着你今天用的时候吐槽的 BUG,下个月发新版可能就被填平了。

最为关键的是,受限于模型的能力,我们总是需要搭建各种复杂的限制性工程,去让 AI 做事,让它指哪打哪。

但其中的绝大多数工程可能都只是过渡手段,因为随着迭代闭环的重复,模型会不断内化这些工程,将其吸收为自身能力的一部分。

就像未来的图像编辑可能不再需要精通 PS 一样,那个不再需要复杂框架,LLM 一力降百会的时代,也会在模型迭代中越来越近。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
【2026.5.31】爆姐的饭后爆料:生命不止,爆料不息!

【2026.5.31】爆姐的饭后爆料:生命不止,爆料不息!

娱乐真爆姐
2026-05-31 23:12:26
采访两位年薪60万(字节2-2、阿里P7)女生,房子、婚姻、被裁

采访两位年薪60万(字节2-2、阿里P7)女生,房子、婚姻、被裁

蚂蚁大喇叭
2026-04-14 11:21:18
淮海战役惨败后,王凌云只身脱逃,隐姓埋名潜入深山娶了个村姑

淮海战役惨败后,王凌云只身脱逃,隐姓埋名潜入深山娶了个村姑

磊子讲史
2026-05-29 16:17:30
6月金股全曝光!主力资金大换仓,谁是下一个风口?

6月金股全曝光!主力资金大换仓,谁是下一个风口?

证券市场周刊
2026-06-01 20:23:04
苏联绝密档案:预言家死前神秘手稿,2025年中国高原将现惊天秘密

苏联绝密档案:预言家死前神秘手稿,2025年中国高原将现惊天秘密

大耳朵老师
2024-11-09 16:55:37
直到伊朗下令轰炸美空军基地,全世界才惊觉,中国有句话说得很对

直到伊朗下令轰炸美空军基地,全世界才惊觉,中国有句话说得很对

锅锅爱历史
2026-05-31 16:08:36
穆里尼奥不要的人,阿隆索当成宝!切尔西强挖 8700 万伯纳乌真核

穆里尼奥不要的人,阿隆索当成宝!切尔西强挖 8700 万伯纳乌真核

澜归序
2026-06-01 06:43:38
美媒怒喷掘金管理层:老板富得流油还这么抠搜!

美媒怒喷掘金管理层:老板富得流油还这么抠搜!

止境
2026-06-01 23:32:40
华为nova 16系列手机独占,小艺照相馆代言人专区新模板公开

华为nova 16系列手机独占,小艺照相馆代言人专区新模板公开

IT之家
2026-06-01 22:40:20
41岁白百何首晒二胎,二婚丈夫身份终于曝光:兜兜转转还是你!

41岁白百何首晒二胎,二婚丈夫身份终于曝光:兜兜转转还是你!

In风尚
2026-05-12 06:04:59
自己演男一号,却只让媳妇儿露个脸,张嘉益是懂避嫌的

自己演男一号,却只让媳妇儿露个脸,张嘉益是懂避嫌的

暖心萌阿菇凉
2026-05-30 12:35:14
楚阿梅尼首谈皇马更衣室斗殴:媒体夸大了,我和巴尔韦德没问题

楚阿梅尼首谈皇马更衣室斗殴:媒体夸大了,我和巴尔韦德没问题

甜度百分百21
2026-06-01 00:48:50
中央为江渭清6次安排工作无果,毛主席亲自发令:就让他去江西吧

中央为江渭清6次安排工作无果,毛主席亲自发令:就让他去江西吧

英子谈
2026-06-02 00:47:48
央国企降薪第一刀:取消证书补贴

央国企降薪第一刀:取消证书补贴

新浪财经
2026-06-01 23:44:29
窦骁发文: 乡党们,碎碎兵已笑得合不拢嘴啦,咱娥今天可太美啦

窦骁发文: 乡党们,碎碎兵已笑得合不拢嘴啦,咱娥今天可太美啦

韩小娱
2026-06-01 11:24:32
时代芯存重磅时刻:首台光刻机正式进场 设备调试全面启动

时代芯存重磅时刻:首台光刻机正式进场 设备调试全面启动

快科技
2026-05-31 22:28:11
“耿同学”永久限流后,南开大学、中山大学趁周末接连通报:多人遭免职

“耿同学”永久限流后,南开大学、中山大学趁周末接连通报:多人遭免职

药识局
2026-05-30 21:11:23
苏芒,求求你来起诉!不要来投诉我们的文章了!

苏芒,求求你来起诉!不要来投诉我们的文章了!

红色少女主播
2026-06-01 18:52:51
没想到,被中国授予最高荣誉仅1天,武契奇因一句话实现口碑暴涨

没想到,被中国授予最高荣誉仅1天,武契奇因一句话实现口碑暴涨

黑鹰观军事
2026-06-01 16:11:03
黄春光:上将之子,父亲不出事的话,他也会是个将军

黄春光:上将之子,父亲不出事的话,他也会是个将军

浔阳咸鱼
2026-05-29 15:10:10
2026-06-02 02:04:49
知危 incentive-icons
知危
投资不立危墙之下
581文章数 1841关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

特朗普:是时候查金库了

头条要闻

特朗普:是时候查金库了

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

艺术
时尚
数码
亲子
公开课

艺术要闻

吴镇写竹,清清爽爽

夏天裤子不用多买,阔腿裤一整个夏天都能穿,日常出行好打理

数码要闻

惠普推OmniDesk迷你主机:配英特尔新U支持AI加速

亲子要闻

向太坦言给孙女买衣服从不超100块:真的豪门从不靠名牌养娃

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版