春节档，Qwen3.5，压轴登场！|推理|模态|新论文|qwen

分享至

今年这个春节档，让我觉得很幸运——

能在很近的距离，亲眼见证，那么多优秀的国产AI模型和产品的诞生。

就今天除夕，传闻已久的Qwen3.5，终于来了。

说不清为什么，千问大模型这时候发布，有种压轴出场、尘埃落定的很压秤的感觉。

尤其是旗舰模型Qwen3.5-397B-A17B，首次以开源权重亮相，最核心的概念是——原生多模态。

这个概念之前大家走的路线，大多是“拼接”。

想让模型看懂图，就在语言模型旁边外挂一个视觉 encoder，把图片转成 token 再塞进去。

本质上还是“看图说话”和“文字理解”两件事，最后把两件事的理解凑在一起。

但Qwen3.5这次玩的是，从预训练第一天起，就让文本、图像、音频、视频这些数据在一个统一的底层空间里共同学习，视觉和语言在早期就完成了深度融合。

这意味着什么？意味着模型不再是「看到」一张图，而是「理解」一张图，它理解图中的空间关系、逻辑顺序，甚至能结合上下文去做推理和执行。

在处理 GUI 理解、视频分析等多模态任务时，一个模型即可端到端完成，无需维护复杂的多模型 pipeline。

就在去年7月，黄仁勋跟王坚院士深谈的时候就谈过这个趋势：

“我们已经进入AI推理时代，下一波浪潮，是物理AI。”

现在回头看，Qwen3.5这一步，似乎就是冲着“物理AI”去的。

让AI从能说会道的聊天机器人，变成能触碰、能感知、能执行的智能体，去真正理解和操作那个三维的、实体的物理世界。

带大家一起盘一盘，Qwen3.5这块「原生多模态」的料，到底硬在哪儿。

01.当AI有了眼睛和手

咱们以前聊智能体，大多是文本层面的交互。

你跟AI说“帮我订个外卖”，它给你生成一段订外卖的步骤说明，或者最多调用个API接口。

这离我们想象中的数字助手，还有一段距离。

而Qwen3.5这次放出来的能力，是让模型自己有了眼睛和手，能直接像人一样操作手机和电脑屏幕，也可以进行多形态的互动。

我测试了几个例子，体验很不一样。

比如说我直接对Qwen3.5下达指令：“参考红包雨视频，做一个视觉捕捉手部动作的抓红包的游戏。”

这在过去是一个需要拆解成很多步骤的流程：

得先用一个模型学习红包雨视频，一个模型提取手部动态关键帧，再用一个模型做红包的视频动效，还得用一个模型写前端代码……最后还得找个工程师把代码跑起来看效果。

但在Qwen3.5这里，它就是一步到位。

它自己盯着屏幕看视频，理解时序关系和事件演变，然后同时处理视觉理解和代码生成，最后直接给出一个可运行的「新年抓红包」小游戏。

这种能力的背后，是原生多模态带来的「智能体推理」变化。

因为所有模态共享表征空间，它在看视频里那个按钮位置的同时，也在想这个按钮对应的代码逻辑，视觉信息和行动决策之间没有转译损耗。

在移动端，它能理解更复杂的跨应用指令；

在PC端，它能处理的不是简单的“打开网页”，而是像“把上周的销售数据从微信聊天记录里截图，提取数字做成表格，再贴进邮件发给老板”这种多步骤、跨应用的流程。

我还做了一个「手势音乐盒」，可以把不同的手指动作，和不同音符相对应。

进阶的版本是，可以把表格、数据、截图，按照对应关系下，都变成手势舞和音乐，还能切换不同的音色。

和简单的自动化映射还不一样，这是AI在通过视觉观察和理解，去驱动图形界面完成工作。

比较经典的场景，ORC识别，我直接用Qwen3.5做了一个弗兰克翻译器，可以识别任意图片当中的信息并翻译，结果也很精准。

Qwen3.5模型，总参数约400B的体量，加上混合注意力架构的调度，让它在这种强度的推理任务中，依然保持了足够的流畅度。

Gartner的数据显示，具备自主决策能力的AI Agent，其任务完成率已经从去年的65%提升至今年的82%，而Qwen3.5显然已经站在了这个趋势的前沿。

02.那道IMO几何题，它真的会做

如果说操作屏幕是动手能力，那做数学题就是智力的体现。

去年很多模型在文字逻辑题上已经能拿到高分，但一旦涉及到带有复杂图形的几何题，尤其是那种需要添加辅助线、进行多步空间想象的竞赛题，大多数模型就露怯了。

原因很简单，视觉和逻辑在两个系统里跑，图像特征和数学符号对不上。

我给Qwen3.5出了一道难题——韦东奕当年获得金牌的题目，第50届国际数学奥林匹克（IMO）题第6题。

请大家看这道题的题目：设a1，a2，…，an是互不相同的正整数。

M是有n-1个元素的正整数集，且不含数s=a1+az+…+an.一只蚱蜢沿着实数轴从原点0开始向右跳跃n步，它的跳跃距离是a1，a2…，an的某个排列。证明：可以选择一种排列，使得蚱蜢跳跃落下的点所表示的数都不在集合M中。

Qwen3.5给出的答案非常长，说实话，我没有完全看懂，大概能理解它的思路。

然后和标准答案一对，才发现解法很标准。

这道题在IMO竞赛里，页属于难度高的一档，需要建立坐标系、设定变量、进行严谨逻辑推导的难题。

在没有视频只有文案的情况下，我盯着那道题的文字描述“s=a1+az+…+an”都看了半天，脑子里才勉强有点思路。

而Qwen3.5的解题过程，清晰地还原了它的推理链条。

还有一道图形的题目，Qwen3.5解起来更是丝滑。

它先通过视觉系统识别了图形中的点、线、角关系，然后迅速在脑子里建立了一个虚拟的坐标系，把几何问题代数化，接着一步步推导，最终得出那个角度值。

这种能力的关键在于，它证明了模型在物理空间推理上的潜力。

王坚院士和黄仁勋对谈时提到的那句“下一波浪潮是物理AI”，核心就是让AI理解物理规律、空间逻辑。

Qwen3.5能解IMO几何题，就意味着它能在更复杂的真实场景里发挥作用。

比如让机器人理解“把这个箱子从那个架子后面绕过去，放在卡车的角落里”，它需要计算障碍物、承重面和运动轨迹。

这种从学科解题到任务规划的延伸，是通往通用人工智能的一个台阶。

被称为「数学莫扎特」的华人数学家陶哲轩，也一直对在IMO等数学竞赛取得成绩的AI模型，十分关注；他认为，人工智能技术，现已迅速接近从定性到定量成果的转型阶段。

模型不再只是匹配答案，而是在进行多步逻辑推导，这是过去那些外挂视觉模块的模型不容易做到的。

从行业竞争的维度看，某种程度上，也揭示了中美大模型发展路径的分化。

华泰证券的一份研报指出，在Scaling Law 2.0驱动下，海外重心由预训练转向后训练与强化学习，依靠算力堆砌取得性能优势；

而国内在算力受限的背景下，更侧重架构与算法的精修，以注意力优化技术提升训练推理的效率与性价比。

Qwen3.5在视觉推理上的突破，也是这种「精修路线」的成果——

用更合理的架构设计，在复杂推理任务上实现了对更大参数规模模型的超越。

路透社最近的一篇观察也印证了这一点：中国AI模型的推理能力不逊色于美国同行，但部署成本要低得多，这正在影响全球AI产业的成本效率曲线。

03.看电影、构思视频，不在话下

上下文窗口这个东西，以前我们关注它，是因为长篇小说翻译、财报分析这些纯文本任务。

但Qwen3.5这次直接把1M token的上下文能力和多模态视频理解结合起来。

1M token能一口气直接吃进去长达两小时的视频素材，不需要提前抽帧，不需要分段处理，就是完整地看完。

我拿了一部两个多小时的《盗梦空间》去试，让它分析“柯布心里那个关于梅尔的念想，在整个电影里是通过哪些视觉符号一步步呈现的？”。

这是个需要理解长时序关联的问题。

Qwen3.5的回复让我印象深刻。它不仅找到了陀螺第一次转动的开场画面，还捕捉到了不同层级梦境中“梅尔”出现时的光影变化、台词暗示。

甚至能对比现实世界和梦境中“戒指”这个道具出现的时机，最后生成了一篇既有细节截图又有分析的影评。

基于对《盗梦空间》的情节理解，我让Qwen3.5把电影转化成一个梦境主题的推理密室，并做成一个小游戏。

这种能力的实现，得益于它原生多模态架构下的时序关系捕捉能力。

视频不是图像的简单堆叠，而是有因果逻辑的时间序列。

Qwen3.5在处理视频时，能分析不同时刻的事件演变，把碎片化的镜头语言，串联成有逻辑的叙事整体。

这对于内容创作者、视频分析师，甚至是安防监控领域来说，是一个实用的工具。

以前需要一帧一帧看的监控录像，以后可能只需要一句话：

“把昨天下午三点到五点，那个穿红衣服的人出现的所有片段剪出来，并标记出他每次出现的具体位置。”Qwen3.5已经具备了这种潜力的雏形。

也许这也是一个更大的趋势：中国AI在多模态领域的突破正从“单点”走向“全面”。

这个春节档被外媒称为“中国AI超级周”。

智谱发布了新一代旗舰模型GLM-5，MiniMax也有M2.5的新动作，字节发布的Seedance 2.0同样引发了业界关注……马斯克都在社交媒体上感叹进展很快。

咨询公司Omdia的首席分析师苏廉节评价道：“开源获取、强大的推理能力与低部署成本的结合，已成为中国企业构建和推广基础模型的标志性模式”。

而Qwen3.5的视频理解能力，正是这种模式下的又一例证。

04.视觉编程，潦草变艺术

最后这块，是我觉得能触动普通用户和开发者爽点的功能——视觉编程能力。

文案里有个demo让我印象很深：把手绘界面草图直接转为可用的前端代码。

我在草稿纸上画了一个潦草的App界面，画了几个框框写“title”，打了个叉代表“商品主图”，底下歪歪扭扭写了“商品介绍”相关字。

拍照，发给Qwen3.5，给它指令：“做成一个网页”。

几秒钟后，它真的给你一个HTML文件，打开一看，布局是对的，甚至给你配上了符合现代审美的色彩和圆角。

更进一步的，你还可以通过截图告诉它“这里有个UI Bug，帮我修一下”，它能直接定位到代码里的问题，生成修复方案。

这背后是像素级位置信息和代码生成能力的融合。

模型在看那张草图的时候，不仅识别出“这是个按钮”，还能推理出这个按钮在2D空间中的坐标、大小、与周围元素的距离。

然后，这个带着空间属性的“视觉理解”，直接流向“代码生成”模块，自动计算布局参数，生成布局代码。

它甚至可以在推理过程中，对图像进行处理，比如自动裁剪局部区域放大细节，或者通过标注来强化关键特征，从而实现比传统方法更精细的视觉推理。

但这种能力真正的价值，不只在代码生成本身。把Qwen3.5放进阿里整个AI版图里看，它的战略意义才真正显现。

国泰海通的一份研报点出了一个趋势：阿里的顶层战略正在发生变化，从“比模型”转向“拼体系”，用“模型+生态+AI Infra”争夺下一代平台的主导权。

内部提出的“通云哥”概念，将通义实验室、阿里云、平头哥绑定为一体化“黄金三角”，强调算力供给、模型能力与系统工程的协同。

这意味着Qwen3.5的能力，未来将直接注入到整个阿里数字经济体的毛细血管里。

你可以想象这样的场景：在淘宝购物时，拍一张心仪的家具照片，Qwen3.5直接看懂你的风格偏好，自动在商品库中匹配，还能用AR能力帮你预览摆放效果；

在高德地图里，拍一下眼前的街景，它能识别地标并规划路线；在钉钉里，手绘一个流程图，它直接转成可执行的自动化工作流。

平头哥在底层提供算力支撑，阿里云负责规模化部署，千问模型打通应用层——这种从AI基础设施到上层应用的全链路打通，正是其他厂商短期内不容易复制的优势。

05.

测完Qwen3.5，我坐在电脑前想了很久。

当 AI 能够替代越来越多大家过去认为 “只有人才能做” 的事情，我们也不得不解构自己，被逼迫着回答 “自己作为人，到底还有什么独特的价值”。

去年的DeepSeek R1让大家看到了中国模型在单点推理能力上的突破，那是属于一个阶段的成果。

而今天的Qwen3.5，背靠阿里巴巴AI“大模型+云+芯片”的完整全栈阵型，向我们展示了一幅产业链协同作战的图景

终于，人工智能不只是单一的「语言脑」，还有了「视觉眼」和「行动手」。

从芯片在底层支撑海量多模态数据的训练，到模型本身原生支持图像、视频、代码，再到未来打通手机、电脑、智能家居乃至工业机器人的生态——

阿里正在做的，是让AI存在于对话框之外，慢慢渗透进生活的不同角落。

以开源为基础，衍生出种种不同的场景的模型和应用。

那种感觉就像是，去年我们还在为造出了一台跑得很快的引擎而高兴；

今年却发现，有人已经把这台引擎，装进了一辆可以适应不同路况的车里，并且开始规划更长远的路线。

Qwen3.5证明了中国AI在模型架构层面的创新能力，证明了我们不仅能跟跑，还能在「原生多模态」这个路径上找到自己的方向。

中原证券的一份报告甚至指出，2026年国产AI大模型将形成对海外头部模型的替代，或将影响全球AI模型竞争格局。

回过头看，从DeepSeek R1去年的亮相，到今天Qwen3.5的格局奠定，再到智谱、字节、腾讯在各自领域的进展，中国AI在2026年初呈现出的这股势头，比去年更加扎实。

我期待，未来当我们拿起手机，或者走进办公室，那个无处不在的AI助手，能真正看懂我们的手势，预判我们的需求。

让每个人的生活，因为这份源自中国的技术，变得更加简单而美好。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

春节档，Qwen3.5，压轴登场！

阿里除夕发布千问3.5，性能媲美Gemini 3

"王菲接了李谷一的班"上热搜 窦靖童发文"挖嘞个亲娘"

"王菲接了李谷一的班"上热搜 窦靖童发文"挖嘞个亲娘"

谷爱凌：'不小心"拿到了银牌 祝大家马年大吉

王菲六登春晚献唱 水滴钻石耳环再出圈

2025，中国商业十大意外，黄金只排第九

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

苹果watchOS 26.4开发者预览版Beta发布

记录最近收获很大的一次深度链接

春花齐放2026：《骏马奔腾迎新岁》

慕安会美国角色逆转 中国议题"打满全场"

"王菲接了李谷一的班"上热搜窦靖童发文"挖嘞个亲娘"

"王菲接了李谷一的班"上热搜窦靖童发文"挖嘞个亲娘"

谷爱凌：'不小心"拿到了银牌祝大家马年大吉

王菲六登春晚献唱水滴钻石耳环再出圈

叫停纯屏操作工信部拟推车内实体操作件强制国标

慕安会美国角色逆转中国议题"打满全场"