网易首页 > 网易号 > 正文 申请入驻

阿里又一大模型开源,手机电脑样样玩的溜,多项测试秒GPT-5

0
分享至


智东西
作者 陈骏达
编辑 云鹏

智东西9月24日报道,今天,阿里通义大模型团队宣布推出全新升级的Qwen3-VL系列模型,并宣布旗舰版本Qwen3-VL-235B-A22B系列开源。这是Qwen系列中最强的视觉语言模型。

Qwen3-VL的目标,是让模型不仅能看到图像或视频,更能真正看懂世界、理解事件、做出行动。在官方演示中,Qwen3-VL已经展现出强大的视觉驱动推理与执行能力,可操作手机、电脑等设备。模型可以根据自然语言指令打开应用、点击按钮、填写信息等,帮你轻松完成航班的查询和预定。

Qwen3-VL也具备识别万物的能力,名人、美食、动植物、汽车品牌、动漫角色等均在其知识储备范围内。上传一张图片,模型就能准确报菜名,还是带定位框的那种。


在十个维度的全面评估中,Qwen3-VL-235B-A22B-Instruct在非推理类模型中,多数指标表现最优,超越了Gemini 2.5 Pro和GPT-5等闭源模型,同时刷新了开源多模态模型的最佳成绩,在复杂视觉任务上具备强大泛化能力与综合性能。

而在推理模型方面,Qwen3-VL-235B-A22B-Thinking同样在多数指标上创下开源多模态模型的新高,与Gemini 2.5 Pro和GPT-5等闭源顶尖模型相比各有胜负。虽然在多学科问题、视觉推理和视频理解方面与闭源SOTA模型仍存在一定差距,但在Agent能力、文档理解、2D/3D Grounding等任务上展现出明显优势。


▲左侧为Qwen3-VL-235B-A22B-Instruct等非推理模型得分,右侧为Qwen3-VL-235B-A22B-Thinking等推理模型得分

目前,Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-235B-A22B-Thinking均已开源至Github、Hugging Face、魔搭等开源平台,用户也可在Qwen Chat里直接体验模型表现。

开源地址:

https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

https://github.com/QwenLM/Qwen3-VL

体验链接:

https://chat.qwen.ai

一、八大能力效果惊艳,看截图用600行代码再造小红书

在博客中,阿里通义大模型团队介绍了Qwen3-VL系列模型的八大能力。

视觉智能体

Qwen3-VL能操作电脑和手机界面、识别GUI元素、理解按钮功能、调用工具、执行任务,在OS World等基准测试上达到世界顶尖水平,能通过调用工具有效提升在细粒度感知任务的表现。

官方Demo中,Qwen3-VL能在电脑中快速完成复制粘贴工作,还能把文件保存为Word文档。或是根据用户指令,输出航班出发地、到达地、时间等信息,帮用户节省繁琐的操作流程。

文本能力

Qwen3-VL在预训练早期即混合文本与视觉模态协同训练,在纯文本任务上表现与Qwen3-235B-A22B-2507纯文本旗舰模型不相上下。结合视觉能力后,它能根据图片或视频内容生成生动的文字描述,适用于故事创作、文案撰写、短视频脚本等创意场景。

官方Demo展现了一个非常实用的Case,可以直接把孩子的素描作业发给Qwen3-VL,模型能根据画面内容和用户提示词,给出准确的评价。


视觉Coding能力

Qwen3-VL能实现图像生成代码以及视频生成代码,例如看到设计图,代码生成Draw.io/HTML/CSS/JS代码,真正实现“所见即所得”的视觉编程。

智东西将一张小红书网页版的截图上传给Qwen3-VL,不过,首先遇到的是其安全机制。模型认为直接复制小红书的设计有侵权风险,多次拒绝此类任务。

随后,我们向模型保证了相关代码仅用于展示,模型这才同意上手开发。最终,Qwen3-VL用600多行代码实现了复刻,除了未能显示图片之外,网页基本实现了90%的还原度。


空间感知能力

Qwen3-VL在2D grounding任务上从绝对坐标变为相对坐标,支持判断物体方位、视角变化、遮挡关系。


它也同时支持直接预测3D边界框,还原物体在真实世界中的位置和大小。


长上下文支持和长视频理解

Qwen3-VL全系列模型原生支持256K tokens的上下文长度,并可扩展至1M token。这意味着,无论是几百页的技术文档、整本教材,还是长达两小时的视频,都能完整输入、全程记忆、精准检索。视频定位可精确到秒级别时刻。

例如,在256K tokens上下文的“视频大海捞针”实验中,Qwen3-VL的准确率达到100%;当上下文扩展至1M tokens时,对应视频时长约2小时,准确率仍保持在99.5%。

在官方Demo中,模型能看懂一条20多分钟的外语视频,并据此整理出一道菜谱。


甚至可以通过观看游戏视频自动生成对应的游戏代码。


多模态思考能力

Qwen3-VL系列的Thinking模型重点优化了STEM与数学推理能力。面对专业学科问题,模型能捕捉细节、抽丝剥茧、分析因果、给出有逻辑、有依据的答案,在MathVision、MMMU、MathVista等权威评测中达到领先水平。

智东西直接将官方Demo中的一则案例截图,考察模型能否正确解答。


模型准确地识别了图中的文字和画面,思考2-3分钟后,给出了正确答案。

视觉感知与识别能力

通过优化预训练数据的质量和广度,Qwen3-VL现在能识别更丰富的对象类别——从名人、动漫角色、商品、地标,到动植物等,覆盖日常生活与专业领域的“万物识别”需求。

官方Demo中,仅需上传一张吹风机的图片,模型就能主动进行图像感知,并调用搜索工具,给出品牌等信息,并提供是否值得购买的建议。


OCR支持更多语言及复杂场景

在复杂光线、模糊、倾斜等实拍挑战性场景下,Qwen3-VL的表现更稳定;对生僻字、古籍字、专业术语的识别准确率也有提升;超长文档理解和精细结构还原能力进一步提升。

例如,官方Demo中,这张实拍的挂号费收据字迹模糊,还有重叠,肉眼看着都有些费劲。但模型能准确识别字样,并根据指定格式输出。


Qwen3-VL能识别的非中文、英文语言从10种扩展到32种,覆盖更多国家和地区。在这32种语言上,模型的识别准确率已经超过70%,达到实际可用水平。这些语言包括瑞典语等欧洲语言、斯瓦西里语等非洲语言、越南语等东南亚语言、印地语和乌尔都语等南亚语言和日语韩语等东亚语言,基本覆盖了常用的小语种。


二、采用原生动态分辨率设计,结构迎来三大更新

在模型架构上,Qwen3-VL仍旧采用原生动态分辨率设计,但在结构设计上进行了更新:


一是采用MRoPE-Interleave,原始MRoPE将特征维度按照时间(t)、高度(h)和宽度(w)的顺序分块划分,使得时间信息全部分布在高频维度上。

Qwen3-VL中采取了t,h,w交错分布的形式,实现对时间,高度和宽度的全频率覆盖,这样更加鲁棒的位置编码能够保证模型在图片理解能力相当的情况下,提升对长视频的理解能力。

二是引入DeepStack技术,融合ViT多层次特征,提升视觉细节捕捉能力和图文对齐精度。阿里通义大模型团队沿用DeepStack的核心思想,将以往多模态大模型单层输入视觉tokens的范式,改为在大语言模型的多层中进行注入。这种多层注入方式旨在实现更精细化的视觉理解。

在此基础上,阿里通义大模型团队进一步优化了视觉特征token化的策略。具体而言,Qwen3-VL将来自ViT不同层的视觉特征进行token化,并以此作为视觉输入。这种设计能够有效保留从底层(low-level)到高层(high-level)的丰富视觉信息。实验结果表明,该方法在多种视觉理解任务上均展现出显著的性能提升。

三是将原有的视频时序建模机制T-RoPE升级为文本时间戳对齐机制。该机采用“时间戳-视频帧”交错的输入形式,实现帧级别的时间信息与视觉内容的细粒度对齐。

同时,模型原生支持“秒数”与“时:分:秒”(HMS)两种时间输出格式。这一改进提升了模型对视频中动作、事件的语义感知与时间定位精度,使其在复杂时序推理任务——如事件定位、动作边界检测、跨模态时间问答等——中表现更稳健、响应更精准。

结语:从多模态到智能体,VL模型展现庞大想象空间

生成式AI与真实世界场景的结合越来越密切,在文本模态之外,图像、视频等多模态任务,也正在成为AI落地的关键场景之一。

未来,VL模型的潜力不仅在于识别物体、理解文档或解析视频,更在于成为驱动Agent的大脑。它们将具备跨模态感知、跨任务推理、跨场景执行的能力,从个人助手到工业自动化、从教育科研到医疗健康,均有望释放出巨大价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大S女儿小玥穿8万外套陪后妈买东西 超有气质 网友:筱梅功不可没

大S女儿小玥穿8万外套陪后妈买东西 超有气质 网友:筱梅功不可没

史行途
2025-11-04 16:54:54
热搜!蒋欣喝醉后哭了,脸色苍白眼皮哭出三层褶,整个人瘦到脱相

热搜!蒋欣喝醉后哭了,脸色苍白眼皮哭出三层褶,整个人瘦到脱相

仙味少女心
2025-11-06 15:52:54
“不能让你白摸!女子晚上去理发店洗头,17岁男孩把毛巾塞进她衣领,第二日,女子上门索赔…

“不能让你白摸!女子晚上去理发店洗头,17岁男孩把毛巾塞进她衣领,第二日,女子上门索赔…

深度知局
2025-11-01 07:04:29
被西班牙王后惊艳了!国宴上她大波浪卷发配蓝裙,像童话世界中的

被西班牙王后惊艳了!国宴上她大波浪卷发配蓝裙,像童话世界中的

时尚丽人风行
2025-11-05 16:30:05
小伙背着40克黄金+2.5万现金打车!北京司机悄悄放慢车速……

小伙背着40克黄金+2.5万现金打车!北京司机悄悄放慢车速……

极目新闻
2025-11-06 19:58:25
何小鹏哽咽再辟谣“机器人内藏真人”

何小鹏哽咽再辟谣“机器人内藏真人”

新京报
2025-11-06 21:36:05
惯子如杀子,你舍不得让孩子吃苦,这世界会让他更苦

惯子如杀子,你舍不得让孩子吃苦,这世界会让他更苦

品读时刻
2025-11-06 09:04:47
任重正式官宣和孙骁骁结婚,自曝与岳父相处亲如父子,总一起聊天

任重正式官宣和孙骁骁结婚,自曝与岳父相处亲如父子,总一起聊天

易同学爱谈娱乐
2025-10-22 08:40:23
九三阅兵之际,6名间谍落网!带1448份机密出逃,泄露尖端武器

九三阅兵之际,6名间谍落网!带1448份机密出逃,泄露尖端武器

做一个合格的吃瓜群众
2025-09-07 06:08:46
被唱衰的全红婵,发胖、肿胀第2战!再次证明她翻滚并腿有多权威

被唱衰的全红婵,发胖、肿胀第2战!再次证明她翻滚并腿有多权威

山河月明史
2025-11-06 15:48:49
毛岸英牺牲后,江青向毛主席提出何种建议?书法字背后有何故事?

毛岸英牺牲后,江青向毛主席提出何种建议?书法字背后有何故事?

书画相约
2025-10-05 08:35:57
突然爆火!常州街头排队2小时!

突然爆火!常州街头排队2小时!

常州大喇叭
2025-11-06 17:02:34
一临时工结交总参少将,空降广西当副市长,颇得民心,后来怎样了

一临时工结交总参少将,空降广西当副市长,颇得民心,后来怎样了

老黄有话
2024-11-04 08:00:14
60岁后停止无效锻炼,真正惜命的是这5个懒人习惯,越简单越长寿

60岁后停止无效锻炼,真正惜命的是这5个懒人习惯,越简单越长寿

医学原创故事会
2025-11-06 23:42:05
杨瀚森连续被dnp,开拓者教练给出理由,听听媒体专家怎么说

杨瀚森连续被dnp,开拓者教练给出理由,听听媒体专家怎么说

邹维体育
2025-11-06 14:40:08
李云迪X侵司晓迪的后续瓜!

李云迪X侵司晓迪的后续瓜!

八卦疯叔
2025-11-01 10:50:45
韩德君4中4独砍10+7燃尽一战!末节主动下场休息大口喝水引热议

韩德君4中4独砍10+7燃尽一战!末节主动下场休息大口喝水引热议

狼叔评论
2025-11-06 18:14:08
25岁女儿带着男友回家,父亲总觉得眼熟,翻照片才知道缘分天注定

25岁女儿带着男友回家,父亲总觉得眼熟,翻照片才知道缘分天注定

白云故事
2025-11-06 17:35:03
郑丽文第五波人事安排出炉!赵少康面临羁押,连忙求饶!

郑丽文第五波人事安排出炉!赵少康面临羁押,连忙求饶!

南宫一二
2025-11-06 15:38:49
国民党主席郑丽文:将“一国两制”完美改变为“一家两制”

国民党主席郑丽文:将“一国两制”完美改变为“一家两制”

文史微鉴
2025-10-22 12:21:20
2025-11-07 04:15:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10708文章数 116894关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

美参议员提议:政府不“开门”国会议员就停薪

头条要闻

美参议员提议:政府不“开门”国会议员就停薪

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

本地
房产
游戏
时尚
公开课

本地新闻

这届干饭人,已经把博物馆吃成了食堂

房产要闻

锚定居住新趋势!广佛新世界重构湾区“理想生活投资学”

珍惜PS4会免!明年将大幅减少数量 只偶尔提供给PS+

大衣别这么穿,显黑又显胖!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版