网易首页 > 网易号 > 正文 申请入驻

千问发布Qwen3.7-Max 致力成为全能的智能体基座

0
分享至

智通财经获悉,5月20日,千问正式发布 Qwen3.7-Max ——面向智能体时代的新一代旗舰模型,即将通过API提供服务。Qwen3.7-Max致力于成为全能的智能体基座——无论是编写和调试代码、自动化办公流程,还是在跨越数百乃至数千步的长周期任务中持续自主执行,都能胜任。

据悉,Qwen3.7-Max的核心优势在于智能体能力的广度与深度:编程方面,从前端原型开发到复杂的多文件工程均能驾驭;办公与生产力方面,通过 MCP 集成和多智能体协作实现工作流自动化;长周期自主执行方面,在一项长达 35 小时、超过 1000 次工具调用的全自主内核优化实验中保持了连贯推理,充分验证了其持久稳定的执行能力;此外,无论部署在 Claude Code、OpenClaw、Qwen Code 还是其他框架下,都能稳定发挥出色的跨框架泛化能力。

Qwen3.7-Max — 即将通过阿里云百炼提供服务:

前沿编程智能体:从前端原型到复杂软件工程

办公生产力与工作流自动化,支持 MCP 集成和多智能体协作

持续稳定的长周期自主执行能力

跨多种智能体框架的泛化能力您可以通过 阿里云百炼 API 调用(即将上线)。

模型表现

在编程智能体方面,Qwen3.7-Max 在 SWE-Pro(60.6)、SWE-Multilingual(78.3)、SciCode(53.5)和 QwenSVG(1608)上均取得领先表现。在 Terminal Bench 2.0-Terminus(69.7)上超越 DS-V4-Pro Max(67.9)。在 SWE-Verified(80.4)上与 Opus-4.6 Max(80.8)和 DS-V4-Pro Max(80.6)表现相当。

在通用智能体方面,提升更为显著。Qwen3.7-Max 在 MCP-Mark(60.8 vs. GLM-5.1 的 57.5)、MCP-Atlas(76.4 vs. Opus-4.6 的 75.8)和 Skillbench(59.2 vs. K2.6 的 56.2)上表现突出,并在 Kernel Bench L3(1.98 倍中位数加速,96% 加速率)上展示了强大的 GPU 内核优化能力。在 BFCL-V4(75.0)、Qwenclaw(64.3)和 ClawEval(65.2)上同样表现出色,紧追 Opus-4.6 Max。在办公自动化基准 SpreadSheetBench-v1 上得分 87.0,处于顶尖水平。

在推理方面,Qwen3.7-Max 在 GPQA Diamond(92.4 vs. Opus-4.6 的 91.3)、HLE(41.4 vs. Opus-4.6 的 40.0)、HMMT 2026 Feb(97.1 vs. Opus-4.6 的 96.2)、IMOAnswerBench(90.0 vs. DS-V4-Pro 的 89.8)和 Apex(44.5 vs. DS-V4-Pro 的 38.3)上均取得领先成绩,在高难度推理基准上展现了强大实力。

在通用能力与多语言方面,Qwen3.7-Max 在 IFBench(79.1 vs. DS-V4-Pro 的 77.0)上表现突出,展示了精准的指令遵循能力。在 WMT24++(85.8)和 MAXIFE(89.2)上同样领先,表明其多语言理解和翻译质量处于一流水平。在 SuperGPQA(73.6)和 QwenWorldBench(57.3)上同样表现出色。

值得强调的是,上述评测分数来自多种不同的智能体框架。Qwen3.7-Max 并非针对某一特定框架优化,而是在 Claude Code、OpenClaw、Qwen Code 和各类自定义工具使用框架下都能稳定发挥,是各类智能体系统的可靠底座。

生产力助手

面向真实生产力场景,Qwen3.7-Max 将成为您的深度协作者。依托强大的智能体能力,全面重塑专业工作流:海量信息的全面研读与整合、复杂数据的深度分析与建模、出版级文档与可视化生成——精准承接高复杂度、高强度的企业级任务。

Qwen3.7-Max 原生适配主流智能体框架。面向长链路交付任务,支持长达数小时的自主规划与运行,通过上千次工具调用,数十轮版本迭代,持续提升交付物质量。以往需专业团队耗时一至两周的复杂项目,现由 Qwen3.7-Max 驱动的智能体即可在数小时内完成端到端交付闭环,推动生产力实现真实跃升。

智能体扩展

在 Qwen3.5 中引入的环境扩展方法基础上,Qwen3.7 进一步大幅扩展了智能体训练环境的质量与多样性。正如语言模型从多样化的预训练文本中获得泛化能力,我们发现智能体能力同样可以从多样化的训练环境中实现泛化。

如下图所示,这种环境扩展带来了清晰且稳定的性能提升轨迹,Qwen3.7-Max 在综合排名中位列前三,接近 Claude-4.6-Opus-Max 的水平。值得注意的是,我们评测中所有基准测试所涉及的环境均为训练中从未出现过的全新领域外环境。

我们还观察到扩展行为中一个显著的可预测性:任意基准子集上的性能增益高度一致,可以可靠地预测其余基准或整体平均值的相对增益,表明环境扩展驱动的是真正的能力泛化,而非针对特定基准的提升。关于扩展动态和方法论的进一步分析将在即将发布的技术报告中详细介绍。

跨框架泛化能力

我们的 Rollout 环境基础设施将每个训练实例解耦为三个正交组件——任务(Task)、运行框架(Harness)与验证器(Verifier),这些组件可自由重组。我们兼容多种运行框架及其迭代版本,并将环境立足于真实场景而非合成替代品。这种解耦设计实现了组合式扩展:同一任务能以极低的边际成本,与不同类型、不同版本的框架及验证器相匹配。更关键的是,它赋能了跨框架与跨验证器的强化学习(RL)训练——使模型在多变的框架配置下处理同源任务,从而迫使其学习具备泛化能力的解题策略,而非依赖特定框架的捷径。在 QwenClawBench 与 CoWorkBench 评测中,无论评估时使用何种运行框架,Qwen3.7-Max 均展现出强劲且一致的性能,显著超越 Qwen3.6 系列模型,证实了该模型已真正掌握了解决任务的能力,而非过拟合特定框架。

Qwen3.7-Max 可以无缝集成到主流智能体框架和编程助手中,包括Claude Code、OpenClaw、Qwen Code等。

本文源自:智通财经网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四十万救命款被冻结!地铁擦血女孩账户被封,谁在背后举报?

四十万救命款被冻结!地铁擦血女孩账户被封,谁在背后举报?

川渝视觉
2026-03-31 21:36:41
杭州银行副行长年薪集体超240万?股民不当冤大头,投出1.22亿股反对票

杭州银行副行长年薪集体超240万?股民不当冤大头,投出1.22亿股反对票

大象新闻
2026-05-28 13:58:37
招生难!湖南21所民办本科何去何从:降费?合并?还是彻底出局?

招生难!湖南21所民办本科何去何从:降费?合并?还是彻底出局?

朗威谈星座
2026-05-28 14:20:57
我今年48岁,前前后后同居过16位男性,年纪大多集中在40岁以上

我今年48岁,前前后后同居过16位男性,年纪大多集中在40岁以上

游戏收藏指南
2026-05-20 10:38:29
经常跑高速,建议买安全性强的汽车,这3款开起来稳如泰山

经常跑高速,建议买安全性强的汽车,这3款开起来稳如泰山

鸭梨说车
2026-05-27 16:50:22
印度、欧洲已进入炙烤模式,世界气象组织发出预警

印度、欧洲已进入炙烤模式,世界气象组织发出预警

澎湃新闻
2026-05-28 21:55:31
昆明撒钉扎胎后续:嫌疑人已落网,知情人爆料更猛:竟然是个惯犯

昆明撒钉扎胎后续:嫌疑人已落网,知情人爆料更猛:竟然是个惯犯

荷兰豆爱健康
2026-05-28 18:41:17
美军再次袭击伊朗,特朗普果然又翻脸了:交出浓缩铀也不行

美军再次袭击伊朗,特朗普果然又翻脸了:交出浓缩铀也不行

风干迷茫人
2026-05-29 00:13:35
中央定调,2026养老金有望调整!月入超8000元,这次会不涨吗?

中央定调,2026养老金有望调整!月入超8000元,这次会不涨吗?

云鹏叙事
2026-05-28 14:57:59
前妻联手男闺蜜逼宫,我提前套现百亿离场,看她庆功宴上笑容凝固

前妻联手男闺蜜逼宫,我提前套现百亿离场,看她庆功宴上笑容凝固

晓艾故事汇
2026-02-17 10:39:02
单个联赛包揽欧战冠军有多难?历史仅1次,英超本赛季有望复刻

单个联赛包揽欧战冠军有多难?历史仅1次,英超本赛季有望复刻

篮球圈里的那些事
2026-05-28 10:26:10
印度高温50℃致多人死亡,专家称已不适合居住

印度高温50℃致多人死亡,专家称已不适合居住

一簌月光
2026-05-27 18:47:02
欧美等国对食品安全问题的处罚力度

欧美等国对食品安全问题的处罚力度

律法刑道
2026-05-17 11:23:21
蛇不轻易进家门,进来说明在向你传递三个信息!早了解

蛇不轻易进家门,进来说明在向你传递三个信息!早了解

千秋文化
2025-09-21 13:24:38
1951年,戴笠独子被处决,蒋介石两年后下令:他的子孙全接回台湾

1951年,戴笠独子被处决,蒋介石两年后下令:他的子孙全接回台湾

古书记史
2025-12-11 17:37:45
896线激光雷达+三腔空气悬架,新车上市,29.29万起!

896线激光雷达+三腔空气悬架,新车上市,29.29万起!

科技堡垒
2026-05-26 10:53:48
胡慧中携26岁胖女儿上海同框,母女颜值差距大

胡慧中携26岁胖女儿上海同框,母女颜值差距大

荒野老五
2026-05-28 17:52:12
李泽楷新欢曝光!47岁恋上女律师,气场碾压前任梁洛施

李泽楷新欢曝光!47岁恋上女律师,气场碾压前任梁洛施

可乐谈情感
2026-05-24 12:26:54
法网最新战报!王曦雨收退赛大礼,职业生涯首进32强,三大种子爆冷出局,王曦雨连收三大利好

法网最新战报!王曦雨收退赛大礼,职业生涯首进32强,三大种子爆冷出局,王曦雨连收三大利好

体坛最前线66
2026-05-28 06:32:33
别撸铁了,撸前额叶吧!9件小事帮你疯狂长脑子,13岁以上通用

别撸铁了,撸前额叶吧!9件小事帮你疯狂长脑子,13岁以上通用

蓁蓁心理抚养
2026-05-22 07:20:03
2026-05-29 03:00:49
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 546420关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

游戏
房产
本地
旅游
手机

《女神异闻录6》泄露主角太丑?金毛男主太路人!

房产要闻

突发重磅!三亚新机场公司正式成立!

本地新闻

用剪纸的方式,打开江苏扬州

旅游要闻

游客在九寨沟被索要"照镜费" 景区:店家随口说的

手机要闻

红米K100 Pro Max与荣耀Magic9标准版,均传出新消息!

无障碍浏览 进入关怀版