网易首页 > 网易号 > 正文 申请入驻

Qwen3.6超大杯来了!我用这个“半成品”模型,亲手造了一个macOS桌面

0
分享至


智东西
作者 陈骏达
编辑 心缘

智东西4月20日报道,今天,阿里发布了其下一代旗舰模型的早期预览版:Qwen3.6-Max-Preview。在第三方评测榜单Artificial Analysis的智能指数排名中,Qwen3.6-Max-Preview的得分为52分,小幅超过GLM-5.1、MiniMax-M2.7,成为这一榜单上得分最高的国产模型。


阿里并未披露这一模型的过多技术细节,比如参数量、支持何种模态等等。不过根据我们的初步体验,这应该是一个纯文本模型,支持思考和非思考模式,不支持图像等多模态内容。

与之前发布的Qwen3.6-Plus相比,Qwen3.6-Max-Preview模型在智能体编程、世界知识和指令遵循方面均有明显可感的提升。

比如,我们让两个模型分别打造了一个3D赛车游戏。Qwen3.6-Max-Preview打造的项目,虽然谈不上精美,但核心运行逻辑正常,是一个还不错的原型,后续可以基于这一项目进行迭代。


Qwen3.6-Plus的结果基本没有可玩性,画面粗糙,暂时还没在这一任务中展现出从0到1完成项目的能力。


Qwen3.6-Max-Preview还支持preserve_thinking功能,也就是在消息中保留所有前序轮次的思考内容。这一功能推荐用于智能体任务。

阿里上一次更新旗舰模型是在1个月前,当时发布的模型是Qwen3.5-Max-Preview,也是预览版。今天发布的Qwen3.6-Max-Preview已在Qwen Studio上线供用户体验,同时也很快将上线阿里云百炼API。

体验链接:https://chat.qwen.ai/

一、智能体编程能力有提升,实测能one-shot复刻“macOS”

据阿里介绍,Qwen3.6-Max-Preview最大的性能提升在于智能体编程能力。

在六项主流编程基准测试(SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench和SciCode)中,Qwen3.6-Max-Preview取得了最高得分。这些测试覆盖了真实软件工程、终端与命令行交互、综合编程技能、OpenClaw类Agent以及科学计算等核心能力。


智东西第一时间用几个案例考察了Qwen3.6-Max-Preview的智能体编程能力,也就是其理解用户高层次需求,自主规划任务实现路径,并最终交付完整项目的能力。

案例1:模拟macOS桌面环境

提示词:生成一个macOS桌面环境,包含文件管理、浏览器、笔记等核心功能。

拿到这一任务后,Qwen3.6-Max-Preview首先进行了规划,它意识到了自己无法构建真实的操作系统或完整复刻,但可通过前端技术呈现其视觉与交互特征,并据此设定了可行的任务目标,包括重点实现外观与行为的仿真。

使用过程中,能感觉到Qwen3.6-Max-Preview的token效率不错,没有浪费过多的token在无谓的反复思考和自我核验上,而是很快进行到正式的开发环节。

Qwen3.6-Max-Preview用大概3分钟完成了原型的开发。其模拟出的macOS桌面效果逼真,交互方式与原版差异不大,浏览器功能也可以正常使用。


同样的任务交给Qwen3.6-Plus,它也能做出个大概的外观,甚至还配上了壁纸,乍一看效果更好。但实际使用后,Qwen3.6-Plus打造的系统还有不少bug,像是浏览器、便签这样的系统“应用”是无法正常运行的。


这两个模型的差异在于,Qwen3.6-Max-Preview能胜任更复杂的项目,考虑全面,而Plus更适合快速做原型,在具体的细节实现上还没有完全做到位。

案例2:打造MarkDown编辑器

如果说上方的这一案例更像是开放性的开发任务,那么下面这一案例则对技术要求做了十分详细的规定,不仅考察模型的编程能力,也对指令遵循提出了要求。

提示词:


Qwen3.6-Max-Preview和Qwen3.6-Plus都在理解提示词上花了不少时间,最终Qwen3.6-Plus先行交付了开发结果。其实,一开始Qwen3.6-Plus未能实现右侧的实时渲染和代码块功能,是在我们再次要求后才实现的,体现出它对仍然存在忽视部分提示词要求的可能。


Qwen3.6-Max-Preview则一次性完成了下方这一编辑器的开发,提示词中定义的快捷键、链接插入功能、代码块功能等都正常运转,并在示例文本中得到体现,让用户可以一眼了解这一编辑器所支持的核心功能。


这一案例证明,在需要精确遵循复杂指令的任务中,Qwen3.6-Max-Preview表现更优,体现出更强的指令理解与交付能力;而Qwen3.6-Plus虽然速度占优,但对细节的遗漏增加了沟通与修正成本。

其实,测试智能体编程能力的最佳场景,是将模型接入Claude Code或是OpenClaw这样的Agent,在本地进行大型项目的开发,不过由于Qwen3.6-Max-Preview的API暂未完全开放,我们并未进行这一测试。

二、成功破解洗车难题,讲解复杂论文深入浅出

除了智能体编程能力之外,我们也对Qwen3.6-Max-Preview的其他能力维度做了考察。

比如,在逻辑推理方面,它可以看穿洗车店难题中的陷阱,直接给出判断:“既然目的是洗车,那肯定是开车去呀——毕竟车得过去才能洗嘛。”


长文本能力方面,我们向Qwen3.6-Max-Preview甩了一篇复杂的大模型基础设施相关的论文,让它通俗地解释这篇论文的核心内容。这类任务不仅要求模型能捕捉长上下文中的核心信息,也考察了其逻辑理解与语境转换能力。

拿到任务后,Qwen3.6-Max-Preview决定用交通调度的类比来拆解这篇论文的核心思想。它的几个类比都较为准确,也抓住了论文提出的核心问题与解决思路,用词中没有堆砌原文的大量术语,而是做了解释,让非技术背景的读者也能理解这篇论文的内容。


结语:头部开源玩家,重新思考开源战略

目前,阿里已推出千问3.6系列的多个版本,包括Qwen3.6-Max-Preview、Qwen3.6-Plus、Qwen3.6-Flash,并开源了Qwen3.6-35B-A3B。值得注意的是,此前阿里旗下的Max系列模型(如Qwen3-Max)也属于开源范畴。

从这一新模式来看,阿里似乎调整了其开源策略:仅将小尺寸模型开源,而将超大参数量或高性能版本保留为商用产品。

这种“开源小尺寸+商业化大尺寸”的混合模式,正逐渐成为许多大模型厂商的共同选择。它或许也代表着开源生态与商业利益之间的一次再平衡。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
零跑D19开了七天,这五句话不要信了

零跑D19开了七天,这五句话不要信了

沙雕小琳琳
2026-06-27 18:53:57
金价6月28日,大家要有心理准备了,下周,金价或将迎来大风暴

金价6月28日,大家要有心理准备了,下周,金价或将迎来大风暴

时尚的弄潮
2026-06-28 10:09:53
彻底凉凉!爆火三个月的莫氏鸡煲现日销不足20只,网友:自找的

彻底凉凉!爆火三个月的莫氏鸡煲现日销不足20只,网友:自找的

雷科技
2026-06-25 18:26:47
白玉兰奖落幕:3人口碑暴涨,2人升咖,1人镀金失败,唯她被骂惨

白玉兰奖落幕:3人口碑暴涨,2人升咖,1人镀金失败,唯她被骂惨

荣亭小吏
2026-06-27 10:27:59
尴尬!穿光腿神器忘穿裙子;脏内裤挂在腰带外;裙子塞到丝袜里

尴尬!穿光腿神器忘穿裙子;脏内裤挂在腰带外;裙子塞到丝袜里

夜深爱杂谈
2026-06-27 22:06:34
感动?鸡汤?重庆八中致全体教职工的一封信(节选)

感动?鸡汤?重庆八中致全体教职工的一封信(节选)

一口娱乐
2026-06-28 03:24:56
原来他是迟蓬丈夫,怪不得能获白玉兰最佳女配,有个好丈夫太重要

原来他是迟蓬丈夫,怪不得能获白玉兰最佳女配,有个好丈夫太重要

丁丁鲤史纪
2026-06-28 12:14:15
一心上车!罗马诺:33岁扎卡明确想为阿隆索效力,桑德兰坚持高价

一心上车!罗马诺:33岁扎卡明确想为阿隆索效力,桑德兰坚持高价

砚底沉香
2026-06-28 12:13:14
对阵约旦任意球破门,梅西成为首位连续七场世界杯进球的球员

对阵约旦任意球破门,梅西成为首位连续七场世界杯进球的球员

懂球帝
2026-06-28 12:03:42
18岁被王全安选中,20岁登戛纳,后来为啥没人敢用她?

18岁被王全安选中,20岁登戛纳,后来为啥没人敢用她?

不似少年游
2026-05-21 14:26:19
炸完伊朗!美国害怕了?万斯喊话德黑兰,有事儿打电话,别互炸

炸完伊朗!美国害怕了?万斯喊话德黑兰,有事儿打电话,别互炸

遁走的两轮
2026-06-27 16:37:26
普京对俄中学毕业生说:你们有“胜利者基因”,转头学校军训加码

普京对俄中学毕业生说:你们有“胜利者基因”,转头学校军训加码

桂系007
2026-06-27 20:19:30
冯小刚导演的《抓特务》为何受到冷落?孙玉良:宣传导向出了问题

冯小刚导演的《抓特务》为何受到冷落?孙玉良:宣传导向出了问题

孙玉良
2026-06-28 08:43:41
娃半夜把金锁嚼碎吞了,妈妈崩溃送医,医生:不用治,回家等吧!

娃半夜把金锁嚼碎吞了,妈妈崩溃送医,医生:不用治,回家等吧!

菁妈育儿
2026-06-25 17:49:57
德天空:19岁突尼斯前锋费尔哈特即将转投德国国家队

德天空:19岁突尼斯前锋费尔哈特即将转投德国国家队

懂球帝
2026-06-28 06:00:12
尼克松晚年坦言:他后悔当年访问中国,只因毛主席识破了他的计谋

尼克松晚年坦言:他后悔当年访问中国,只因毛主席识破了他的计谋

晓风洞察
2026-05-20 14:35:33
特朗普怕输给中国,重启“中国行动计划2.0”,专打华裔学者

特朗普怕输给中国,重启“中国行动计划2.0”,专打华裔学者

潋滟晴方DAY
2026-06-28 12:43:11
今年90%的家长和“张雪峰们”都是用的AI志愿填报工具,最后反而丢掉了最大的捡漏机会

今年90%的家长和“张雪峰们”都是用的AI志愿填报工具,最后反而丢掉了最大的捡漏机会

帅领留学真话
2026-06-27 09:53:57
世界杯冷知识!梅西钦点英格兰史上第一人,不是凯恩鲁尼而是他

世界杯冷知识!梅西钦点英格兰史上第一人,不是凯恩鲁尼而是他

澜归序
2026-06-28 06:58:53
发达国家,碎了一地

发达国家,碎了一地

美第奇效应
2026-06-26 23:58:22
2026-06-28 13:31:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12141文章数 117113关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

三队出线世界杯32强席位正式落定 伊朗在最后一刻出局

头条要闻

三队出线世界杯32强席位正式落定 伊朗在最后一刻出局

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

白玉兰奖落幕,唯她被骂惨

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

蔚来ES大五座体验 全场景行李舱让你带着生活出发

态度原创

教育
房产
亲子
旅游
时尚

教育要闻

特级教师陈红梅:锻造“讲故事+演讲”引领力

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

亲子要闻

小卡蜜拉偷走了小格力乔的睡觉时间

旅游要闻

广州—基督城直航十年!中国成新西兰第三大国际游客消费市场

今年夏天被“这件单品”刷屏,时髦又气质!

无障碍浏览 进入关怀版