网易首页 > 网易号 > 正文 申请入驻

春节档,Qwen3.5,压轴登场!

0
分享至

今年这个春节档,让我觉得很幸运——

能在很近的距离,亲眼见证,那么多优秀的国产AI模型和产品的诞生。

就今天除夕,传闻已久的Qwen3.5,终于来了。

说不清为什么,千问大模型这时候发布,有种压轴出场、尘埃落定的很压秤的感觉。

尤其是旗舰模型Qwen3.5-397B-A17B,首次以开源权重亮相,最核心的概念是——原生多模态

这个概念之前大家走的路线,大多是“拼接”。

想让模型看懂图,就在语言模型旁边外挂一个视觉 encoder,把图片转成 token 再塞进去。

本质上还是“看图说话”和“文字理解”两件事,最后把两件事的理解凑在一起。


但Qwen3.5这次玩的是,从预训练第一天起,就让文本、图像、音频、视频这些数据在一个统一的底层空间里共同学习,视觉和语言在早期就完成了深度融合。

这意味着什么?意味着模型不再是「看到」一张图,而是「理解」一张图,它理解图中的空间关系、逻辑顺序,甚至能结合上下文去做推理和执行。

在处理 GUI 理解、视频分析等多模态任务时,一个模型即可端到端完成,无需维护复杂的多模型 pipeline。

就在去年7月,黄仁勋跟王坚院士深谈的时候就谈过这个趋势:

“我们已经进入AI推理时代,下一波浪潮,是物理AI。”

现在回头看,Qwen3.5这一步,似乎就是冲着“物理AI”去的。

让AI从能说会道的聊天机器人,变成能触碰、能感知、能执行的智能体,去真正理解和操作那个三维的、实体的物理世界。

带大家一起盘一盘,Qwen3.5这块「原生多模态」的料,到底硬在哪儿。


01.当AI有了眼睛和手

咱们以前聊智能体,大多是文本层面的交互。

你跟AI说“帮我订个外卖”,它给你生成一段订外卖的步骤说明,或者最多调用个API接口。

这离我们想象中的数字助手,还有一段距离。

而Qwen3.5这次放出来的能力,是让模型自己有了眼睛和手,能直接像人一样操作手机和电脑屏幕,也可以进行多形态的互动。

我测试了几个例子,体验很不一样。


比如说我直接对Qwen3.5下达指令:“参考红包雨视频,做一个视觉捕捉手部动作的抓红包的游戏。”


这在过去是一个需要拆解成很多步骤的流程:

得先用一个模型学习红包雨视频,一个模型提取手部动态关键帧,再用一个模型做红包的视频动效,还得用一个模型写前端代码……最后还得找个工程师把代码跑起来看效果。

但在Qwen3.5这里,它就是一步到位。

它自己盯着屏幕看视频,理解时序关系和事件演变,然后同时处理视觉理解和代码生成,最后直接给出一个可运行的「新年抓红包」小游戏。

这种能力的背后,是原生多模态带来的「智能体推理」变化。

因为所有模态共享表征空间,它在看视频里那个按钮位置的同时,也在想这个按钮对应的代码逻辑,视觉信息和行动决策之间没有转译损耗。

在移动端,它能理解更复杂的跨应用指令;

在PC端,它能处理的不是简单的“打开网页”,而是像“把上周的销售数据从微信聊天记录里截图,提取数字做成表格,再贴进邮件发给老板”这种多步骤、跨应用的流程。

我还做了一个「手势音乐盒」,可以把不同的手指动作,和不同音符相对应。

进阶的版本是,可以把表格、数据、截图,按照对应关系下,都变成手势舞和音乐,还能切换不同的音色。

和简单的自动化映射还不一样,这是AI在通过视觉观察和理解,去驱动图形界面完成工作。


比较经典的场景,ORC识别,我直接用Qwen3.5做了一个弗兰克翻译器,可以识别任意图片当中的信息并翻译,结果也很精准。

Qwen3.5模型,总参数约400B的体量,加上混合注意力架构的调度,让它在这种强度的推理任务中,依然保持了足够的流畅度。

Gartner的数据显示,具备自主决策能力的AI Agent,其任务完成率已经从去年的65%提升至今年的82%,而Qwen3.5显然已经站在了这个趋势的前沿。

02.那道IMO几何题,它真的会做

如果说操作屏幕是动手能力,那做数学题就是智力的体现。

去年很多模型在文字逻辑题上已经能拿到高分,但一旦涉及到带有复杂图形的几何题,尤其是那种需要添加辅助线、进行多步空间想象的竞赛题,大多数模型就露怯了。

原因很简单,视觉和逻辑在两个系统里跑,图像特征和数学符号对不上。

我给Qwen3.5出了一道难题——韦东奕当年获得金牌的题目,第50届国际数学奥林匹克(IMO)题第6题。

请大家看这道题的题目:设a1,a2,…,an是互不相同的正整数。

M是有n-1个元素的正整数集,且不含数s=a1+az+…+an.一只蚱蜢沿着实数轴从原点0开始向右跳跃n步,它的跳跃距离是a1,a2…,an的某个排列。证明:可以选择一种排列,使得蚱蜢跳跃落下的点所表示的数都不在集合M中。

Qwen3.5给出的答案非常长,说实话,我没有完全看懂,大概能理解它的思路。


然后和标准答案一对,才发现解法很标准。

这道题在IMO竞赛里,页属于难度高的一档,需要建立坐标系、设定变量、进行严谨逻辑推导的难题。

在没有视频只有文案的情况下,我盯着那道题的文字描述“s=a1+az+…+an”都看了半天,脑子里才勉强有点思路。

而Qwen3.5的解题过程,清晰地还原了它的推理链条。

还有一道图形的题目,Qwen3.5解起来更是丝滑。

它先通过视觉系统识别了图形中的点、线、角关系,然后迅速在脑子里建立了一个虚拟的坐标系,把几何问题代数化,接着一步步推导,最终得出那个角度值。


这种能力的关键在于,它证明了模型在物理空间推理上的潜力。

王坚院士和黄仁勋对谈时提到的那句“下一波浪潮是物理AI”,核心就是让AI理解物理规律、空间逻辑。

Qwen3.5能解IMO几何题,就意味着它能在更复杂的真实场景里发挥作用。

比如让机器人理解“把这个箱子从那个架子后面绕过去,放在卡车的角落里”,它需要计算障碍物、承重面和运动轨迹。

这种从学科解题到任务规划的延伸,是通往通用人工智能的一个台阶。


被称为「数学莫扎特」的华人数学家陶哲轩,也一直对在IMO等数学竞赛取得成绩的AI模型,十分关注;他认为,人工智能技术,现已迅速接近从定性到定量成果的转型阶段。

模型不再只是匹配答案,而是在进行多步逻辑推导,这是过去那些外挂视觉模块的模型不容易做到的。


从行业竞争的维度看,某种程度上,也揭示了中美大模型发展路径的分化。

华泰证券的一份研报指出,在Scaling Law 2.0驱动下,海外重心由预训练转向后训练与强化学习,依靠算力堆砌取得性能优势;

而国内在算力受限的背景下,更侧重架构与算法的精修,以注意力优化技术提升训练推理的效率与性价比。

Qwen3.5在视觉推理上的突破,也是这种「精修路线」的成果——

用更合理的架构设计,在复杂推理任务上实现了对更大参数规模模型的超越。

路透社最近的一篇观察也印证了这一点:中国AI模型的推理能力不逊色于美国同行,但部署成本要低得多,这正在影响全球AI产业的成本效率曲线。

03.看电影、构思视频,不在话下

上下文窗口这个东西,以前我们关注它,是因为长篇小说翻译、财报分析这些纯文本任务。

但Qwen3.5这次直接把1M token的上下文能力和多模态视频理解结合起来。

1M token能一口气直接吃进去长达两小时的视频素材,不需要提前抽帧,不需要分段处理,就是完整地看完。

我拿了一部两个多小时的《盗梦空间》去试,让它分析“柯布心里那个关于梅尔的念想,在整个电影里是通过哪些视觉符号一步步呈现的?”。

这是个需要理解长时序关联的问题。

Qwen3.5的回复让我印象深刻。它不仅找到了陀螺第一次转动的开场画面,还捕捉到了不同层级梦境中“梅尔”出现时的光影变化、台词暗示。

甚至能对比现实世界和梦境中“戒指”这个道具出现的时机,最后生成了一篇既有细节截图又有分析的影评。

基于对《盗梦空间》的情节理解,我让Qwen3.5把电影转化成一个梦境主题的推理密室,并做成一个小游戏。


这种能力的实现,得益于它原生多模态架构下的时序关系捕捉能力。

视频不是图像的简单堆叠,而是有因果逻辑的时间序列。

Qwen3.5在处理视频时,能分析不同时刻的事件演变,把碎片化的镜头语言,串联成有逻辑的叙事整体。

这对于内容创作者、视频分析师,甚至是安防监控领域来说,是一个实用的工具。

以前需要一帧一帧看的监控录像,以后可能只需要一句话:

“把昨天下午三点到五点,那个穿红衣服的人出现的所有片段剪出来,并标记出他每次出现的具体位置。”Qwen3.5已经具备了这种潜力的雏形。


也许这也是一个更大的趋势:中国AI在多模态领域的突破正从“单点”走向“全面”。

这个春节档被外媒称为“中国AI超级周”。

智谱发布了新一代旗舰模型GLM-5,MiniMax也有M2.5的新动作,字节发布的Seedance 2.0同样引发了业界关注……马斯克都在社交媒体上感叹进展很快。

咨询公司Omdia的首席分析师苏廉节评价道:“开源获取、强大的推理能力与低部署成本的结合,已成为中国企业构建和推广基础模型的标志性模式”。

而Qwen3.5的视频理解能力,正是这种模式下的又一例证。

04.视觉编程,潦草变艺术

最后这块,是我觉得能触动普通用户和开发者爽点的功能——视觉编程能力。

文案里有个demo让我印象很深:把手绘界面草图直接转为可用的前端代码。


我在草稿纸上画了一个潦草的App界面,画了几个框框写“title”,打了个叉代表“商品主图”,底下歪歪扭扭写了“商品介绍”相关字。

拍照,发给Qwen3.5,给它指令:“做成一个网页”。

几秒钟后,它真的给你一个HTML文件,打开一看,布局是对的,甚至给你配上了符合现代审美的色彩和圆角。

更进一步的,你还可以通过截图告诉它“这里有个UI Bug,帮我修一下”,它能直接定位到代码里的问题,生成修复方案。


这背后是像素级位置信息和代码生成能力的融合。

模型在看那张草图的时候,不仅识别出“这是个按钮”,还能推理出这个按钮在2D空间中的坐标、大小、与周围元素的距离。

然后,这个带着空间属性的“视觉理解”,直接流向“代码生成”模块,自动计算布局参数,生成布局代码。

它甚至可以在推理过程中,对图像进行处理,比如自动裁剪局部区域放大细节,或者通过标注来强化关键特征,从而实现比传统方法更精细的视觉推理。

但这种能力真正的价值,不只在代码生成本身。把Qwen3.5放进阿里整个AI版图里看,它的战略意义才真正显现。

国泰海通的一份研报点出了一个趋势:阿里的顶层战略正在发生变化,从“比模型”转向“拼体系”,用“模型+生态+AI Infra”争夺下一代平台的主导权。

内部提出的“通云哥”概念,将通义实验室、阿里云、平头哥绑定为一体化“黄金三角”,强调算力供给、模型能力与系统工程的协同。


这意味着Qwen3.5的能力,未来将直接注入到整个阿里数字经济体的毛细血管里。

你可以想象这样的场景:在淘宝购物时,拍一张心仪的家具照片,Qwen3.5直接看懂你的风格偏好,自动在商品库中匹配,还能用AR能力帮你预览摆放效果;

在高德地图里,拍一下眼前的街景,它能识别地标并规划路线;在钉钉里,手绘一个流程图,它直接转成可执行的自动化工作流。

平头哥在底层提供算力支撑,阿里云负责规模化部署,千问模型打通应用层——这种从AI基础设施到上层应用的全链路打通,正是其他厂商短期内不容易复制的优势。

05.

测完Qwen3.5,我坐在电脑前想了很久。

当 AI 能够替代越来越多大家过去认为 “只有人才能做” 的事情,我们也不得不解构自己,被逼迫着回答 “自己作为人,到底还有什么独特的价值”。

去年的DeepSeek R1让大家看到了中国模型在单点推理能力上的突破,那是属于一个阶段的成果。

而今天的Qwen3.5,背靠阿里巴巴AI“大模型+云+芯片”的完整全栈阵型,向我们展示了一幅产业链协同作战的图景

终于,人工智能不只是单一的「语言脑」,还有了「视觉眼」和「行动手」。


从芯片在底层支撑海量多模态数据的训练,到模型本身原生支持图像、视频、代码,再到未来打通手机、电脑、智能家居乃至工业机器人的生态——

阿里正在做的,是让AI存在于对话框之外,慢慢渗透进生活的不同角落。

以开源为基础,衍生出种种不同的场景的模型和应用。


那种感觉就像是,去年我们还在为造出了一台跑得很快的引擎而高兴;

今年却发现,有人已经把这台引擎,装进了一辆可以适应不同路况的车里,并且开始规划更长远的路线。

Qwen3.5证明了中国AI在模型架构层面的创新能力,证明了我们不仅能跟跑,还能在「原生多模态」这个路径上找到自己的方向。


中原证券的一份报告甚至指出,2026年国产AI大模型将形成对海外头部模型的替代,或将影响全球AI模型竞争格局。

回过头看,从DeepSeek R1去年的亮相,到今天Qwen3.5的格局奠定,再到智谱、字节、腾讯在各自领域的进展,中国AI在2026年初呈现出的这股势头,比去年更加扎实。

我期待,未来当我们拿起手机,或者走进办公室,那个无处不在的AI助手,能真正看懂我们的手势,预判我们的需求。

让每个人的生活,因为这份源自中国的技术,变得更加简单而美好。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春晚节目单公布:一共3个小品,没有相声!沈腾、马丽不演小品演“贺岁微电影”,宇树科技机器人将表演武术节目!央视记者实探春晚后台

春晚节目单公布:一共3个小品,没有相声!沈腾、马丽不演小品演“贺岁微电影”,宇树科技机器人将表演武术节目!央视记者实探春晚后台

每日经济新闻
2026-02-16 16:08:00
春节到了!成都上演空城计,往日繁忙的路口竟然20辆汽车都没有…

春节到了!成都上演空城计,往日繁忙的路口竟然20辆汽车都没有…

火山詩话
2026-02-16 11:24:30
小卡与杜兰特手掌对比惊人!看起来相当于KD两倍大 历史排名第9

小卡与杜兰特手掌对比惊人!看起来相当于KD两倍大 历史排名第9

罗说NBA
2026-02-17 08:14:09
2100万悬赏震动全球,李兆会神秘失踪已11年,行踪仍成谜

2100万悬赏震动全球,李兆会神秘失踪已11年,行踪仍成谜

别人都叫我阿腈
2026-02-13 18:05:57
黑龙江一男子捡到苹果手机,刷机送给外甥女使用,失主坚持不懈寻找2年追回:重要资料已被删,共赔偿8500元

黑龙江一男子捡到苹果手机,刷机送给外甥女使用,失主坚持不懈寻找2年追回:重要资料已被删,共赔偿8500元

大象新闻
2026-02-16 13:43:04
慕安会结束,王毅离开现场,日本对华提出抗议,沙利文措辞不寻常

慕安会结束,王毅离开现场,日本对华提出抗议,沙利文措辞不寻常

东极妙严
2026-02-16 14:15:46
春晚第一波梗出现了,网友:笑疯了

春晚第一波梗出现了,网友:笑疯了

91.6陕西交通广播
2026-02-16 22:55:14
短短2个小时,官媒5次“点名”李健,释放3大信号,王菲没说谎

短短2个小时,官媒5次“点名”李健,释放3大信号,王菲没说谎

不写散文诗
2026-02-14 16:54:24
2月16日起,微信支付宝银行转账规则全变了!

2月16日起,微信支付宝银行转账规则全变了!

我不叫阿哏
2026-02-16 22:33:20
编造谎言的“牢A”:到底是在揭露美国,还是在愚弄国人?

编造谎言的“牢A”:到底是在揭露美国,还是在愚弄国人?

涛哥锐评
2026-02-15 21:34:08
诡异,春联上没有汉字!越南去汉字化确实很成功

诡异,春联上没有汉字!越南去汉字化确实很成功

魔都姐姐杂谈
2026-02-15 14:12:14
中门对狙?中方刚给30天免签,英加却要对等不了了!

中门对狙?中方刚给30天免签,英加却要对等不了了!

达文西看世界
2026-02-16 12:58:03
央视春晚收视率破40%!王菲出场不到38%,知名乐评人吐槽王菲假唱

央视春晚收视率破40%!王菲出场不到38%,知名乐评人吐槽王菲假唱

古希腊掌管月桂的神
2026-02-16 23:36:38
董卿父亲董善祥:我这辈子最后悔的事,就是让宝贝女儿嫁给密春雷

董卿父亲董善祥:我这辈子最后悔的事,就是让宝贝女儿嫁给密春雷

古事寻踪记
2026-01-30 07:21:15
自由式滑雪女子第一人:中国运动员谷爱凌!

自由式滑雪女子第一人:中国运动员谷爱凌!

五星体育
2026-02-17 05:40:44
沦为歌舞剧的春晚,再也装不下观众的笑声

沦为歌舞剧的春晚,再也装不下观众的笑声

局部有语
2026-02-16 23:38:18
奥巴马:“外星人确实存在”

奥巴马:“外星人确实存在”

都市快报橙柿互动
2026-02-16 08:42:43
扣篮大赛该停办!美媒批星光黯淡失去魅力:是时候推出1v1单挑赛

扣篮大赛该停办!美媒批星光黯淡失去魅力:是时候推出1v1单挑赛

罗说NBA
2026-02-17 06:55:26
上百台四足机器人扮演机器熊猫亮相春晚,全球首次在公开舞台同步演绎

上百台四足机器人扮演机器熊猫亮相春晚,全球首次在公开舞台同步演绎

上游新闻
2026-02-16 22:44:08
2-1超级冷门!11.1亿卫冕冠军惨遭保级队逆转+绝杀 吞连败丢榜首

2-1超级冷门!11.1亿卫冕冠军惨遭保级队逆转+绝杀 吞连败丢榜首

狍子歪解体坛
2026-02-17 06:07:32
2026-02-17 08:28:49
AI异类 incentive-icons
AI异类
从硅谷到中关村,AI信息与测评
117文章数 5关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

"王菲接了李谷一的班"上热搜 窦靖童发文"挖嘞个亲娘"

头条要闻

"王菲接了李谷一的班"上热搜 窦靖童发文"挖嘞个亲娘"

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

数码
时尚
本地
公开课
军事航空

数码要闻

苹果watchOS 26.4开发者预览版Beta发布

记录最近收获很大的一次深度链接

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

慕安会美国角色逆转 中国议题"打满全场"

无障碍浏览 进入关怀版