网易首页 > 网易号 > 正文 申请入驻

阿里深夜开源Qwen2.5-VL新版本,视觉推理通杀,32B比72B更聪明

0
分享至

机器之心报道

机器之心编辑部

就在 DeepSeek V3「小版本更新」后的几个小时,阿里通义千问团队也开源了新模型。

择日不如撞日,Qwen2.5-VL-32B-Instruct就这么来了。

相比此前的 Qwen2.5-VL 系列模型,32B 模型有如下改进:

  • 回复更符合人类主观偏好:调整了输出风格,使回答更加详细、格式更规范,并更符合人类偏好。
  • 数学推理能力:复杂数学问题求解的准确性显著提升。
  • 图像细粒度理解与推理:在图像解析、内容识别以及视觉逻辑推导等任务中表现出更强的准确性和细粒度分析能力。

对于所有用户来说,在 Qwen Chat 上直接选中 Qwen2.5-VL-32B,即可体验:https://chat.qwen.ai/

32B 版本的出现,解决了「72B 对 VLM 来说太大」和「7B 不够强大」的问题。如这位网友所说,32B 可能是多模态 AI Agent 部署实践中的最佳选择:

不过团队也介绍了,Qwen2.5-VL-32B 在强化学习框架下优化了主观体验和数学推理能力,但主要还是基于「快速思考」模式。

下一步,通义千问团队将聚焦于长且有效的推理过程,以突破视觉模型在处理高度复杂、多步骤视觉推理任务中的边界。

32B 可以比 72B 更聪明

先来看看性能测试结果。

与近期的 Mistral-Small-3.1-24B、Gemma-3-27B-IT 等模型相比,Qwen2.5-VL-32B-Instruct 展现出了明显的优势,甚至超越了更大规模的 72B 模型。

如上图所示,在 MMMU、MMMU-Pro 和 MathVista 等多模态任务中,Qwen2.5-VL-32B-Instruct 均表现突出。

特别是在注重主观用户体验评估的 MM-MT-Bench 基准测试中,32B 模型相较于前代 Qwen2-VL-72B-Instruct 实现了显著进步。

视觉能力的进步,已经让用户们感受到了震撼:

除了在视觉能力上优秀,Qwen2.5-VL-32B-Instruct 在纯文本能力上也达到了同规模的最优表现。

实例展示

或许很多人还好奇,32B 版本的升级怎么体现呢?

关于「回复更符合人类主观偏好」、「数学推理能力」、「图像细粒度理解与推理」这三个维度,我们通过几个官方 Demo 来体会一番。

第一个问题,是关于「细粒度图像理解与推理」:我开着一辆卡车在这条路上行驶,现在是 12 点,我能在 13 点之前到达 110 公里外的地方吗?

显然,从人类的角度去快速判断,在限速 100 的前提下,卡车无法在 1 小时内抵达 110 公里之外的地方。

Qwen2.5-VL-32B-Instruct 给出的答案也是「否」,但分析过程更加严谨,叙述方式也是娓娓道来,我们可以做个参考:

第二个问题是「数学推理」:如图,直线 AB、CD 交于点 O,OD 平分∠AOE,∠BOC=50.0,则∠EOB=()

答案是「80」:

第三个题目的数学推理显然更上难度了:

模型给出的答案特别清晰,解题思路拆解得很详细:

在下面这个图片内容识别任务中,模型的分析过程也非常细致严谨:

关于 Qwen2.5-VL-32B-Instruct 的更多信息,可参考官方博客。

博客链接:https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
清华大学一院系毕业照中孩童坐第一排引关注,目前公众号该照片已删除;工作人员:不太了解相关情况

清华大学一院系毕业照中孩童坐第一排引关注,目前公众号该照片已删除;工作人员:不太了解相关情况

大象新闻
2026-06-30 23:58:19
突发!韩国股市闪崩

突发!韩国股市闪崩

互联网品牌官
2026-07-02 19:03:16
特朗普换新专机:太兴奋了,这是波音造过最好的747飞机;该机由卡塔尔赠送,改造后奢华程度前所未见,价值4亿美元

特朗普换新专机:太兴奋了,这是波音造过最好的747飞机;该机由卡塔尔赠送,改造后奢华程度前所未见,价值4亿美元

大风新闻
2026-07-02 11:02:45
杀疯了!马刺3100万签大哥!火箭抢湖人是专业的!

杀疯了!马刺3100万签大哥!火箭抢湖人是专业的!

贵圈真乱
2026-07-02 17:59:44
京圈大佬集体全哑火,3 部大片累计亏超 5 亿,观众凭啥买单?

京圈大佬集体全哑火,3 部大片累计亏超 5 亿,观众凭啥买单?

知法而形
2026-07-01 23:22:31
事实证明,已经“消失”7年的周立波,早已走上一条不归路

事实证明,已经“消失”7年的周立波,早已走上一条不归路

素衣读史
2026-04-16 19:41:20
新款丰田格瑞维亚上市,23.68万起解锁百万级移动座舱

新款丰田格瑞维亚上市,23.68万起解锁百万级移动座舱

南方都市报
2026-07-02 16:48:24
意媒:托纳利超1亿欧元转会热刺,米兰获966万欧元收入

意媒:托纳利超1亿欧元转会热刺,米兰获966万欧元收入

懂球帝
2026-07-02 19:24:46
血脂升高,腿先知!若双腿频繁出现4种异常,说明你的血脂偏高了

血脂升高,腿先知!若双腿频繁出现4种异常,说明你的血脂偏高了

芹姐说生活
2026-07-02 16:08:03
头条世界杯|英格兰比利时双双逆转:落后不可怕,谁菜谁尴尬

头条世界杯|英格兰比利时双双逆转:落后不可怕,谁菜谁尴尬

澎湃新闻
2026-07-02 07:24:27
立陶宛新总理上台,推翻前任对华缓和政策

立陶宛新总理上台,推翻前任对华缓和政策

梦的微尘
2026-07-02 01:33:19
WTI原油日内跌1%,现报67.89美元/桶

WTI原油日内跌1%,现报67.89美元/桶

每日经济新闻
2026-07-02 08:20:18
美军惨败收场?专家警告:这场战争或成历史最大败笔

美军惨败收场?专家警告:这场战争或成历史最大败笔

梦史
2026-07-02 16:45:33
中日之战明日打响,渡边:以我们的实力完全可以赢

中日之战明日打响,渡边:以我们的实力完全可以赢

刺猬篮球
2026-07-02 12:28:21
荷媒:霍芬海姆已向22岁日本中场佐野航大开出报价

荷媒:霍芬海姆已向22岁日本中场佐野航大开出报价

懂球帝
2026-07-02 17:59:08
又一起因结肠溃疡走了!医生劝告:一旦做肠息肉手术,2件事别做

又一起因结肠溃疡走了!医生劝告:一旦做肠息肉手术,2件事别做

侯医生谈健康
2026-07-02 17:30:06
今天刷屏了,12名中国人!到达澳洲就被全部遣返!澳洲留学真的太贵了...

今天刷屏了,12名中国人!到达澳洲就被全部遣返!澳洲留学真的太贵了...

澳洲红领巾
2026-07-02 15:48:57
赵薇前夫被曝曾2天赌输1.87亿,再借9360万继续赌到输光为止

赵薇前夫被曝曾2天赌输1.87亿,再借9360万继续赌到输光为止

开开森森
2026-06-30 22:33:55
泰国租妻产业,正在收割中国“退休老头”

泰国租妻产业,正在收割中国“退休老头”

毒sir财经
2026-06-30 22:38:02
郭碧婷一家与夕又米北京游玩,女儿好粘向佐,与儿子性格差距大

郭碧婷一家与夕又米北京游玩,女儿好粘向佐,与儿子性格差距大

八怪娱
2026-07-02 18:16:35
2026-07-02 20:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13419文章数 142686关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

患罕见病被背进考场男生考出643分 想报考中医药专业

头条要闻

患罕见病被背进考场男生考出643分 想报考中医药专业

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

本地
健康
时尚
艺术
军事航空

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

这4类消化病患者 吃粘食管住嘴

月入3万,时代红利砸向文科生

艺术要闻

元代高僧写的一卷行书,仙气飘飘胜赵孟頫!

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版