网易首页 > 网易号 > 正文 申请入驻

实测阿里Qwen3.6-Plus:8分钟做了个官网,被北京地铁绕晕

0
分享至

  
智东西
作者 陈骏达
编辑 心缘

  智东西4月2日报道,今天,阿里推出了新一代大语言模型Qwen3.6-Plus,这也是Qwen3.6系列的首个模型。与上一代模型相比,Qwen3.6-Plus重点提升了编程Coding能力、智能体Agent能力和工具调用能力,默认支持100万上下文窗口

  这一模型还适配了主流Agent框架,也就是各种“龙虾”和编程工具。官方提到的包括OpenClaw、Qwen Code、ClaudeCode、KiloCode、Cline和OpenCode。

  在大模型调用平台OpenRouter上,免费体验的Qwen3.6-Plus预览版调用量排名日榜第二。值得一提的是,前五名的模型中有四个都是国产模型。

  

  在SWE-bench Verified、Terminal-Bench 2、NL2Repo等编程基准测试中,Qwen3.6-Plus取得了超过GLM-5、Kimi K2.5的成绩,不过在部分基准测试中的得分仍低于Claude Opus 4.5。

  在Claw-Eval、QwenClawBench等真实世界Agent能力评测中,Qwen3.6-Plus的表现同样超过了多款国产模型,与Claude Opus 4.5同处一个梯队。

  

  ▲Qwen3.6-Plus基准测试对比(图源:阿里)

  不过,需要注意的是,这张基准测试图的图表纵轴刻度间隔并不一致,在SWE-bench Verified、MMMU、RealWorldQA、QwenClawBench等测试中,几个对比模型的实际得分差距并没有特别明显。

  智东西立刻上手体验了Qwen3.6-Plus的编程能力,让它在Claude官方的前端设计Skill指导下,打造了一个AI眼镜独立站,历经三轮对话,耗时8分钟左右,消耗2.5万个token(约等于0.15元)。

  可以看到在提示词的要求下它打造的网页完成度不错,根据Skill的要求避免了一些老掉牙的AI味设计风格,不过在字体选择上依然是较为常见的类型。

  

  实测结果:

  https://mcp.edgeone.site/share/57IuyACJqUk1GjKHY9I4c

  与上一代模型类似,Qwen3.6-Plus也是一个原生多模态模型。Qwen3.6-Plus这次重点提升了多模态推理和指令模式实用性。

  官方Demo中用北京地铁路径规划的题目考了考Qwen3.6-Plus,我们同样试了一下,让模型规划出从北京大兴机场到北京首都机场的最快路线,它的方案与高德上的最快路径一致。

  

  将编程能力与多模态能力结合后,Qwen3.6-Plus还解锁了视觉智能体编程能力,可基于界面截图、设计稿或自然图文描述,完成前端页面生成、代码补全、交互修改等任务。

  目前,Qwen3.6-Plus的API已经开放调用,用户可在Qwen Chat中体验到这一模型。这次阿里还为API引入了一项新功能“preserve_thinking”,可保留消息中所有前序轮次的思维内容,该功能推荐用于智能体任务。其API的原价为4元/百万输入tokens,12元/百万输出tokens,目前有限时5折的优惠。

  

  值得一提的是,阿里在企业级市场的AI应用“悟空”第一时间接入了Qwen3.6-Plus。

  

  Qwen Chat:

  https://chat.qwen.ai/

  阿里云百炼:

  https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/detail/qwen3.6-plus一、可完成长链路任务与多轮工具调用,token效率有提升空间

  在自然语言能力方面,Qwen3.6-Plus通过融合推理、记忆与执行能力,在编程智能体、通用智能体和工具调用上实现提升。

  具体来看,在编程智能体维度其表现较Qwen3.5实现较大幅度的提升,得分略微高于GLM-5和Kimi-K2.5,略低于Claude Opus 4.5。

  在通用智能体方面,其得分在部分基准测试中优于Claude Opus 4.5。在通用能力中,其得分和Qwen3.5基本一致。

  

  在实测中,我们的这一案例融合考察了编程与工具调用能力,要求Qwen3.6-Plus统计A股目前股价最高的10家公司,并生成完整统计网页,带有每家公司的跳转链接。

  在任务执行过程中,Qwen3.6-Plus调用了7轮搜索工具,统计了数十个网站的数据,最终交付了如下的结果,耗时大概7分钟左右。

  

  ▲Qwen3.6-Plus生成的排名

  Qwen3.6-Plus选择了权威的数据来源,右侧查看详情链接的跳转正常,排名正确,数据则取的是近似值。在思维链中可以看到它多次在同一个问题上反复思考,搜索多次但获得的内容差不多,在任务执行速度和token效率上仍有一定提升空间。

  

  ▲右侧是Qwen3.6-Plus的思维链摘要

  接下来,我们又要求Qwen3.6-Plus生成一个《潜水员戴夫》的同款游戏,不过,Qwen3.6-Plus先是拒绝了这一要求,称它无法直接生成可执行的游戏文件,但可以为我生成核心概念美术图,并提供一套完整的《潜水员戴夫》风格游戏设计蓝图+开发指南+基础代码框架,作为开发起点。

  

  再次要求后,Qwen3.6-Plus开始了开发,但是在写到200多行代码时出现了问题,于是停止了开发。

  

  之后我们尝试了通过API调用这一模型,完成同一任务。模型认为,打造《潜水员戴夫》同款独立游戏的核心在于复刻其“白天探索采集+夜晚模拟经营+轻叙事驱动+循环成长”的节奏,而非照搬题材或代码。它决定打造一个白天深入动态雾林采集食材与古物,夜晚经营一家能“烹饪记忆”的森林酒馆的游戏。

  最终Qwen3.6-Plus交付的MVP版本(最小可用版本)如下,不过我们试玩了一下,这一游戏在可玩性上仍然需要持续迭代。

  

  试玩链接:

  https://mcp.edgeone.site/share/hkGsoqs3OCUQyXtxsYCal

  二、实测高难度路径规划,被北京地铁转晕

  在视觉语言能力方面,Qwen3.6-Plus的主要围绕着多模态推理、指令模式实用性进行改进,其在复杂文档理解、物理世界视觉理解、视频推理和视觉编程等任务上的得分有所提升。

  

  为考察其视觉推理能力,我们在之前的地铁路径规划任务上加了点难度,假设某一线路遇到了极端天气停运了,看看模型还能不能反应过来。

  

  Qwen3.6-Plus通过较长时间的思考后,得出了两个结论,第一个结论其实是正确的,但是它判断这条路线有点复杂,于是认为可以在“牡丹园站换乘昌平线”,这样更直接。Qwen3.6-Plus的最终结论有个bug,昌平线可能至少要等到2029年才能和19号线在牡丹园换乘。

  

  在其他多模态能力方面,阿里官方还展示了多个demo。比如,Qwen3.6-Plus可以对视频进行分析,并生成图文并茂的讲义。

  

  或是根据界面截图、产品原型、设计稿或自然图文描述,完成前端页面生成、代码补全、交互修改等任务。

  

  结语:阿里全面押注原生多模态

  随着Qwen3.6-Plus的发布,千问团队称,他们近期的工作重心将全面转向Qwen3.6系列的整体发布。在未来不久,千问还将开源更小规模的模型版本。同时,性能更强的旗舰模型Qwen3.6-Max也将很快亮相。

  值得注意的是,自Qwen3.5发布后,千问已经全面将其主力模型Qwen转向了原生多模态。该团队称,他们希望模型逐步演进为一个能够在真实环境中持续感知、推理和行动的原生多模态智能体。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
安徽女童遇害案告破,女邻居凶手身份曝光,案件细节流出

安徽女童遇害案告破,女邻居凶手身份曝光,案件细节流出

陌上桃花开的
2026-04-08 02:52:14
全球同步收到消息,特朗普拱手把亚洲输给中国,大批涉华精英消失

全球同步收到消息,特朗普拱手把亚洲输给中国,大批涉华精英消失

华史谈
2026-04-08 15:11:22
装到了!卢指导曾豪言接下来35胜20负 提前3轮达成

装到了!卢指导曾豪言接下来35胜20负 提前3轮达成

体坛周报
2026-04-08 13:39:21
绝地求生48小时:美军F-15E飞行员伊朗腹地大营救全纪实

绝地求生48小时:美军F-15E飞行员伊朗腹地大营救全纪实

战刃
2026-04-05 20:06:10
2.0升!丰田新车官宣:17.98万元起

2.0升!丰田新车官宣:17.98万元起

手机评测室
2026-04-08 11:49:40
万科史诗级清算!9 大高管全军覆没,连退休 8 年的王石都跑不掉

万科史诗级清算!9 大高管全军覆没,连退休 8 年的王石都跑不掉

宏哥谈商道
2026-04-06 19:00:06
张雪峰离世15天,原配李丽婧发声谈张姩菡近况惹担忧

张雪峰离世15天,原配李丽婧发声谈张姩菡近况惹担忧

丁鸊惊悚影视解说
2026-04-08 11:09:20
美军最怕的事发生了

美军最怕的事发生了

燕梳楼频道
2026-04-07 14:59:03
一场119-105的21分大逆转让湖人绝望,西部首轮两组对决基本确定

一场119-105的21分大逆转让湖人绝望,西部首轮两组对决基本确定

毒舌NBA
2026-04-08 13:57:14
槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

极目新闻
2026-04-07 19:20:23
28万彩礼被父母扣下,女子10年不回娘家,母亲急了,她却说没退路

28万彩礼被父母扣下,女子10年不回娘家,母亲急了,她却说没退路

大鱼简科
2026-04-06 19:39:15
小米汽车卖不动了

小米汽车卖不动了

新浪财经
2026-04-05 18:47:28
里夫斯官宣赛季报销!5年2.4亿顶薪彻底泡汤,湖人或就此告别

里夫斯官宣赛季报销!5年2.4亿顶薪彻底泡汤,湖人或就此告别

林子说事
2026-04-08 11:13:15
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
凯恩一战3大神迹,姆巴佩建功难救主,拜仁2-1皇马破不胜魔咒

凯恩一战3大神迹,姆巴佩建功难救主,拜仁2-1皇马破不胜魔咒

钉钉陌上花开
2026-04-08 04:54:56
曾经的亚洲第一美人,年轻时倾国倾城,现在却老了。美人也会老啊

曾经的亚洲第一美人,年轻时倾国倾城,现在却老了。美人也会老啊

手工制作阿歼
2026-04-08 11:43:30
“乘风2026微博”,被封号

“乘风2026微博”,被封号

南方都市报
2026-04-08 12:19:01
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
台馆长送赖清德一记重拳!全岛接到大陆最新消息,统一红利公布

台馆长送赖清德一记重拳!全岛接到大陆最新消息,统一红利公布

朝子亥
2026-04-07 18:00:03
2026-04-08 17:36:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11532文章数 117025关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

女子打造"富婆"人设 假冒房东"一房多租"骗取上百万元

头条要闻

女子打造"富婆"人设 假冒房东"一房多租"骗取上百万元

体育要闻

40岁,但实力倒退12年

娱乐要闻

杨颖邓超低调现身观众席 支持陈赫话剧

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

5门5座/新复古造型 缤果Pro将于4月14日开启预售

态度原创

亲子
时尚
健康
房产
教育

亲子要闻

4岁女儿不睡觉偷吃面包,妈妈让她吃一口,结果她小心思太逗了

防晒专场|| 几十块到手,回购一年多才来推荐

干细胞抗衰4大误区,90%的人都中招

房产要闻

海南楼市最新热销榜单发布,三亚又卖爆了!

教育要闻

4月6日直播剪影

无障碍浏览 进入关怀版