实测阿里Qwen3.6-Plus：8分钟做了个官网，被北京地铁绕晕|调用|编程|代码|北京市|qwen|电子表格|知名企业|阿里巴巴集团

实测阿里Qwen3.6-Plus：8分钟做了个官网，被北京地铁绕晕

2026-04-02 20:10:07　来源: 智东西

北京举报

分享至

　　
智东西
作者陈骏达
编辑心缘

　　智东西4月2日报道，今天，阿里推出了新一代大语言模型Qwen3.6-Plus，这也是Qwen3.6系列的首个模型。与上一代模型相比，Qwen3.6-Plus重点提升了编程Coding能力、智能体Agent能力和工具调用能力，默认支持100万上下文窗口。

　　这一模型还适配了主流Agent框架，也就是各种“龙虾”和编程工具。官方提到的包括OpenClaw、Qwen Code、ClaudeCode、KiloCode、Cline和OpenCode。

　　在大模型调用平台OpenRouter上，免费体验的Qwen3.6-Plus预览版调用量排名日榜第二。值得一提的是，前五名的模型中有四个都是国产模型。

　　在SWE-bench Verified、Terminal-Bench 2、NL2Repo等编程基准测试中，Qwen3.6-Plus取得了超过GLM-5、Kimi K2.5的成绩，不过在部分基准测试中的得分仍低于Claude Opus 4.5。

　　在Claw-Eval、QwenClawBench等真实世界Agent能力评测中，Qwen3.6-Plus的表现同样超过了多款国产模型，与Claude Opus 4.5同处一个梯队。

　　▲Qwen3.6-Plus基准测试对比（图源：阿里）

　　不过，需要注意的是，这张基准测试图的图表纵轴刻度间隔并不一致，在SWE-bench Verified、MMMU、RealWorldQA、QwenClawBench等测试中，几个对比模型的实际得分差距并没有特别明显。

　　智东西立刻上手体验了Qwen3.6-Plus的编程能力，让它在Claude官方的前端设计Skill指导下，打造了一个AI眼镜独立站，历经三轮对话，耗时8分钟左右，消耗2.5万个token（约等于0.15元）。

　　可以看到在提示词的要求下它打造的网页完成度不错，根据Skill的要求避免了一些老掉牙的AI味设计风格，不过在字体选择上依然是较为常见的类型。

　　实测结果：

　　https://mcp.edgeone.site/share/57IuyACJqUk1GjKHY9I4c

　　与上一代模型类似，Qwen3.6-Plus也是一个原生多模态模型。Qwen3.6-Plus这次重点提升了多模态推理和指令模式实用性。

　　官方Demo中用北京地铁路径规划的题目考了考Qwen3.6-Plus，我们同样试了一下，让模型规划出从北京大兴机场到北京首都机场的最快路线，它的方案与高德上的最快路径一致。

　　将编程能力与多模态能力结合后，Qwen3.6-Plus还解锁了视觉智能体编程能力，可基于界面截图、设计稿或自然图文描述，完成前端页面生成、代码补全、交互修改等任务。

　　目前，Qwen3.6-Plus的API已经开放调用，用户可在Qwen Chat中体验到这一模型。这次阿里还为API引入了一项新功能“preserve_thinking”，可保留消息中所有前序轮次的思维内容，该功能推荐用于智能体任务。其API的原价为4元/百万输入tokens，12元/百万输出tokens，目前有限时5折的优惠。

　　值得一提的是，阿里在企业级市场的AI应用“悟空”第一时间接入了Qwen3.6-Plus。

　　Qwen Chat：

　　https://chat.qwen.ai/

　　阿里云百炼：

　　https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/detail/qwen3.6-plus一、可完成长链路任务与多轮工具调用，token效率有提升空间

　　在自然语言能力方面，Qwen3.6-Plus通过融合推理、记忆与执行能力，在编程智能体、通用智能体和工具调用上实现提升。

　　具体来看，在编程智能体维度其表现较Qwen3.5实现较大幅度的提升，得分略微高于GLM-5和Kimi-K2.5，略低于Claude Opus 4.5。

　　在通用智能体方面，其得分在部分基准测试中优于Claude Opus 4.5。在通用能力中，其得分和Qwen3.5基本一致。

　　在实测中，我们的这一案例融合考察了编程与工具调用能力，要求Qwen3.6-Plus统计A股目前股价最高的10家公司，并生成完整统计网页，带有每家公司的跳转链接。

　　在任务执行过程中，Qwen3.6-Plus调用了7轮搜索工具，统计了数十个网站的数据，最终交付了如下的结果，耗时大概7分钟左右。

　　▲Qwen3.6-Plus生成的排名

　　Qwen3.6-Plus选择了权威的数据来源，右侧查看详情链接的跳转正常，排名正确，数据则取的是近似值。在思维链中可以看到它多次在同一个问题上反复思考，搜索多次但获得的内容差不多，在任务执行速度和token效率上仍有一定提升空间。

　　▲右侧是Qwen3.6-Plus的思维链摘要

　　接下来，我们又要求Qwen3.6-Plus生成一个《潜水员戴夫》的同款游戏，不过，Qwen3.6-Plus先是拒绝了这一要求，称它无法直接生成可执行的游戏文件，但可以为我生成核心概念美术图，并提供一套完整的《潜水员戴夫》风格游戏设计蓝图+开发指南+基础代码框架，作为开发起点。

　　再次要求后，Qwen3.6-Plus开始了开发，但是在写到200多行代码时出现了问题，于是停止了开发。

　　之后我们尝试了通过API调用这一模型，完成同一任务。模型认为，打造《潜水员戴夫》同款独立游戏的核心在于复刻其“白天探索采集+夜晚模拟经营+轻叙事驱动+循环成长”的节奏，而非照搬题材或代码。它决定打造一个白天深入动态雾林采集食材与古物，夜晚经营一家能“烹饪记忆”的森林酒馆的游戏。

　　最终Qwen3.6-Plus交付的MVP版本（最小可用版本）如下，不过我们试玩了一下，这一游戏在可玩性上仍然需要持续迭代。

　　试玩链接：

　　https://mcp.edgeone.site/share/hkGsoqs3OCUQyXtxsYCal

　　二、实测高难度路径规划，被北京地铁转晕

　　在视觉语言能力方面，Qwen3.6-Plus的主要围绕着多模态推理、指令模式实用性进行改进，其在复杂文档理解、物理世界视觉理解、视频推理和视觉编程等任务上的得分有所提升。

　　为考察其视觉推理能力，我们在之前的地铁路径规划任务上加了点难度，假设某一线路遇到了极端天气停运了，看看模型还能不能反应过来。

　　Qwen3.6-Plus通过较长时间的思考后，得出了两个结论，第一个结论其实是正确的，但是它判断这条路线有点复杂，于是认为可以在“牡丹园站换乘昌平线”，这样更直接。Qwen3.6-Plus的最终结论有个bug，昌平线可能至少要等到2029年才能和19号线在牡丹园换乘。

　　在其他多模态能力方面，阿里官方还展示了多个demo。比如，Qwen3.6-Plus可以对视频进行分析，并生成图文并茂的讲义。

　　或是根据界面截图、产品原型、设计稿或自然图文描述，完成前端页面生成、代码补全、交互修改等任务。

　　结语：阿里全面押注原生多模态

　　随着Qwen3.6-Plus的发布，千问团队称，他们近期的工作重心将全面转向Qwen3.6系列的整体发布。在未来不久，千问还将开源更小规模的模型版本。同时，性能更强的旗舰模型Qwen3.6-Max也将很快亮相。

　　值得注意的是，自Qwen3.5发布后，千问已经全面将其主力模型Qwen转向了原生多模态。该团队称，他们希望模型逐步演进为一个能够在真实环境中持续感知、推理和行动的原生多模态智能体。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.