网易首页 > 网易号 > 正文 申请入驻

阿里最强视觉理解模型Qwen3-VL发布

0
分享至

阿里开源最强视觉理解模型Qwen3-VL,Agent和空间感知能力大幅增强

9月24日的2025云栖大会上,阿里开源新一代视觉理解模型Qwen3-VL。该模型在视觉感知和多模态推理方面实现重大突破,在32项核心能力测评中超过Gemini2.5-Pro和GPT-5。同时,Qwen3-VL大幅提升了视觉Agent、视觉编程和空间感知等关键能力,不但可调用抠图、搜索等工具完成“带图推理”,也可以凭借一张设计草图或一段小游戏视频直接“视觉编程”,“所见即所得”地复刻图表、网页和复杂程序。

【Qwen3-VL-235B-A22 Instruct测评分数】

本次开源的是旗舰版Qwen3-VL-235B-A22B,有开源指令(Instruct)模型和推理(Thinking)模型两大版本。Qwen3-VL展现了在复杂视觉任务中的强大泛化能力与综合性能,在逻辑谜题、通用视觉问答、多语言文本识别与图表文档解析、二维与三维目标定位、具身与空间感知、视频理解等32项具体测评中,指令版Qwen3-VL超越了Gemini2.5-Pro 和 GPT5 等闭源模型,同时刷新了开源多模态模型的最佳成绩。推理版Qwen3-VL多模态思考能力显著增强,在 MathVision、MMMU、MathVista 等权威评测中达到领先水平。

Qwen3-VL拥有极强的视觉智能体和视觉Coding能力,几乎刷新所有相关评测的最佳性能。Qwen3-VL 不仅能看懂图片,还能像人一样操作手机和电脑,自动完成许多日常任务,例如打开应用、点击按钮、填写信息等,实现智能化的交互与自动化操作。输入一张图片,Qwen3-VL可自行调用Agent工具放大图片细节,通过更仔细的观察分析,推理出更好的答案;看到一张设计图,Qwen3-VL 就能生成Draw.io/HTML/CSS/JS 代码,“所见即所得”地完成视觉编程,真正推动大模型从“识别”迈向“推理与执行”。

Qwen3-VL可支持扩展百万tokens上下文,视频理解时长扩展到2小时以上。这意味着,无论是几百页的技术文档、整本教材,还是长达数小时的会议录像或教学视频,都能完整输入、全程记忆、精准检索。Qwen3-VL还能根据时间戳精确定位“什么时候发生了什么”,比如“第15分钟穿红衣服的人做了什么”、“球从哪个方向飞入画面”等,都能准确回答。

【Qwen3-VL的3D检测能力增强,未来可协助机器人等具身智能判断物体的方位】

大模型的空间理解能力是实现具身智能的基础,Qwen3-VL 专门增强了3D检测(grounding)能力,可以更好地感知空间。当前,机器人想要轻松抓住桌上的一个苹果,并不容易。凭借Qwen3-VL强大的3D检测能力,未来可让机器人更好地判断物体方位、视角变化和遮挡关系,从而准确判断苹果的位置与自身距离,实现精准抓取。

据了解,千问视觉理解模型已实现广泛落地,比如国家天文台联合阿里云发布的全球首个太阳大模型“金乌”,正是基于 Qwen-VL 等模型以超过 90 万张太阳卫星图像为样本完成微调训练。未来,Qwen3-VL模型还将开源更多尺寸版本。即日起,用户可在通义千问QwenChat上免费体验Qwen3-VL,也可通过阿里云百炼平台调用API服务。

阿里开源全模态大模型Qwen3-Omni,可像人类一样听说写

9月24日,2025年云栖大会开幕,阿里巴巴发布通义全模态预训练大模型Qwen3-Omni系列模型。通过引入多种架构升级和技术迭代,Qwen3-Omni系列的模型表现和效率大幅提升。在36个音视频基准测试中,22项达到SOTA水平,其中32项取得开源模型最佳效果。语音识别、音频理解与语音对话能力可比肩Gemini 2.5-Pro。

作为全模态模型,Qwen3-Omni能够实现全模态输入和全模态输出。类似于人类婴儿一出生就全方位感知世界,Qwen3-Omni一开始就加入了“听”、“说”、“写”多模态混合训练。在预训练过程中,Qwen3-Omni采用了混合单模态和跨模态数据。此前,模型在混合训练后,各个功能会相互掣肘甚至降智,比如音频理解能力提升,文字理解能力反而降低了。但Qwen3-Omni在实现强劲音频与音视频能力的同时,单模态文本与图像性能均保持稳定,这是业内首次实现这一训练效果。

Qwen3-Omni的优异表现源于多种架构升级。Qwen2.5-Omni采用了双核架构Thinker-Talker,让大模型拥有了人类的“大脑”和“发声器”。Qwen3-Omni的Thinker-Talker架构进一步加强,结合AuT预训练构建强通用表征,配合多码本设计,响应延迟压缩至最低。相较于半年前推出的Qwen2.5-Omni,Qwen3-Omni的交互速度更快,纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms;支持的语言更多,包括19种语言音频输入、10种语言输出。

作为一款“会说话”的模型,Qwen3-Omni应用场景广泛,未来可部署于车载、智能眼镜和手机等。用户还可设定个性化角色、调整对话风格,打造专属的个人IP。相较于传统的录音转文字软件,Qwen3-Omni能够处理长达 30 分钟的音频文件,无需切割音频,即可精准识别语音、深度理解内容。

目前,Qwen3-Omni系列已开源三款模型:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner,值得关注的是,擅长音频描述的模型Qwen3-Omni-30B-A3B-Captioner为全球首次开源的通用音频caption模型,可以清晰描述用户输入音频的特征,填补了开源社区空白。

Qwen3-Omni现已在Hugging Face和ModelScope上开放,用户可访问Qwen Chat免费体验Qwen3-Omni-Flash。

【Qwen3-Omni测评分数】

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1000亿背后的阳谋:拼多多利用中国制造的优势,要狂扫国外市场

1000亿背后的阳谋:拼多多利用中国制造的优势,要狂扫国外市场

风向观察
2026-03-25 20:46:14
油价涨了个寂寞!燃油车司机集体偷着乐,连夜囤油白忙活了!

油价涨了个寂寞!燃油车司机集体偷着乐,连夜囤油白忙活了!

今朝牛马
2026-03-25 17:10:30
国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

吉林乌拉侯
2026-03-25 02:56:11
美国想不通,伊朗为啥突然变强大了?靠山是谁?

美国想不通,伊朗为啥突然变强大了?靠山是谁?

凡人侃史
2026-03-25 10:55:46
是否有中国船只顺利通过霍尔木兹海峡?外交部回应

是否有中国船只顺利通过霍尔木兹海峡?外交部回应

财联社
2026-03-25 15:46:15
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
张雪峰抢救细节曝光!他认识的副院长参与抢救,用最好的救护手段

张雪峰抢救细节曝光!他认识的副院长参与抢救,用最好的救护手段

安宁007
2026-03-24 23:14:49
张雪峰登上这份死亡名单,他们有一个很玄的共同特点

张雪峰登上这份死亡名单,他们有一个很玄的共同特点

田先生研究室
2026-03-25 06:05:11
快讯!伊朗官方电视台宣布了!

快讯!伊朗官方电视台宣布了!

达文西看世界
2026-03-25 18:46:51
萨姆纳和徐杰救了广东!第三节赢23分打成垃圾时间,就该这么用!

萨姆纳和徐杰救了广东!第三节赢23分打成垃圾时间,就该这么用!

篮球资讯达人
2026-03-25 21:19:51
实锤了,日媒爆料六本木高级陪酒女广州运毒被捕,日本网友这样说

实锤了,日媒爆料六本木高级陪酒女广州运毒被捕,日本网友这样说

日本物语
2026-03-25 20:56:54
热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

小椰子专栏
2026-03-25 13:00:11
黄仁勋罕见谈生死:希望在工作中突然离世,重申不信任“继任者计划”

黄仁勋罕见谈生死:希望在工作中突然离世,重申不信任“继任者计划”

界面新闻
2026-03-25 12:15:45
伊朗:倡议建立“无美以联盟”!特朗普要谈判,以色列慌了,继续轰炸德黑兰!以军要强占黎巴嫩10%土地建“缓冲区”,真主党:抵抗到底

伊朗:倡议建立“无美以联盟”!特朗普要谈判,以色列慌了,继续轰炸德黑兰!以军要强占黎巴嫩10%土地建“缓冲区”,真主党:抵抗到底

每日经济新闻
2026-03-25 17:30:14
伊朗格斗冠军被捕!或被截肢+判处死刑 曾来中国参赛 击败5大高手

伊朗格斗冠军被捕!或被截肢+判处死刑 曾来中国参赛 击败5大高手

念洲
2026-03-25 17:59:21
张雪峰去世,他留下的10条志愿铁律,2026高考、考研依然封神

张雪峰去世,他留下的10条志愿铁律,2026高考、考研依然封神

寒律
2026-03-25 09:53:30
伊朗外交部发言人:“没人能相信美国的外交”

伊朗外交部发言人:“没人能相信美国的外交”

财联社
2026-03-25 14:54:10
奉劝所有中国人,大家一定要做好心理准备。

奉劝所有中国人,大家一定要做好心理准备。

安安说
2026-03-25 11:04:58
留几手谈张雪峰去世:死者又不是我爹,凭啥为大

留几手谈张雪峰去世:死者又不是我爹,凭啥为大

三言科技
2026-03-25 19:03:05
手机放床头辐射伤身?央视实验给出答案:这样放手机,辐射降10倍

手机放床头辐射伤身?央视实验给出答案:这样放手机,辐射降10倍

天气观察站
2026-03-24 19:02:53
2026-03-25 22:23:00
趣味科技 incentive-icons
趣味科技
十佳科技自媒体,冬奥会火炬手
5783文章数 6077关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

于东来:我从30岁开始吃药拍CT上百次 哪天说没就没了

头条要闻

于东来:我从30岁开始吃药拍CT上百次 哪天说没就没了

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

本地
艺术
旅游
教育
军事航空

本地新闻

来永泰同安 赴一场春天的约会

艺术要闻

《百花谱》,这个春天画花不用愁!

旅游要闻

北京花溪觅春:樱花河惊艳亮相,多处滨水空间成“赏花长廊”

教育要闻

2026高考倒计时!这条逆袭名校的赛道,藏不住了

军事要闻

伊朗重申非交战国家船只可安全通过霍尔木兹海峡

无障碍浏览 进入关怀版