网易首页 > 网易号 > 正文 申请入驻

阿里深夜开源Qwen2.5-VL新版本,视觉推理通杀,32B比72B更聪明

0
分享至

机器之心报道

机器之心编辑部

就在 DeepSeek V3「小版本更新」后的几个小时,阿里通义千问团队也开源了新模型。

择日不如撞日,Qwen2.5-VL-32B-Instruct就这么来了。

相比此前的 Qwen2.5-VL 系列模型,32B 模型有如下改进:

  • 回复更符合人类主观偏好:调整了输出风格,使回答更加详细、格式更规范,并更符合人类偏好。
  • 数学推理能力:复杂数学问题求解的准确性显著提升。
  • 图像细粒度理解与推理:在图像解析、内容识别以及视觉逻辑推导等任务中表现出更强的准确性和细粒度分析能力。

对于所有用户来说,在 Qwen Chat 上直接选中 Qwen2.5-VL-32B,即可体验:https://chat.qwen.ai/

32B 版本的出现,解决了「72B 对 VLM 来说太大」和「7B 不够强大」的问题。如这位网友所说,32B 可能是多模态 AI Agent 部署实践中的最佳选择:

不过团队也介绍了,Qwen2.5-VL-32B 在强化学习框架下优化了主观体验和数学推理能力,但主要还是基于「快速思考」模式。

下一步,通义千问团队将聚焦于长且有效的推理过程,以突破视觉模型在处理高度复杂、多步骤视觉推理任务中的边界。

32B 可以比 72B 更聪明

先来看看性能测试结果。

与近期的 Mistral-Small-3.1-24B、Gemma-3-27B-IT 等模型相比,Qwen2.5-VL-32B-Instruct 展现出了明显的优势,甚至超越了更大规模的 72B 模型。

如上图所示,在 MMMU、MMMU-Pro 和 MathVista 等多模态任务中,Qwen2.5-VL-32B-Instruct 均表现突出。

特别是在注重主观用户体验评估的 MM-MT-Bench 基准测试中,32B 模型相较于前代 Qwen2-VL-72B-Instruct 实现了显著进步。

视觉能力的进步,已经让用户们感受到了震撼:

除了在视觉能力上优秀,Qwen2.5-VL-32B-Instruct 在纯文本能力上也达到了同规模的最优表现。

实例展示

或许很多人还好奇,32B 版本的升级怎么体现呢?

关于「回复更符合人类主观偏好」、「数学推理能力」、「图像细粒度理解与推理」这三个维度,我们通过几个官方 Demo 来体会一番。

第一个问题,是关于「细粒度图像理解与推理」:我开着一辆卡车在这条路上行驶,现在是 12 点,我能在 13 点之前到达 110 公里外的地方吗?

显然,从人类的角度去快速判断,在限速 100 的前提下,卡车无法在 1 小时内抵达 110 公里之外的地方。

Qwen2.5-VL-32B-Instruct 给出的答案也是「否」,但分析过程更加严谨,叙述方式也是娓娓道来,我们可以做个参考:

第二个问题是「数学推理」:如图,直线 AB、CD 交于点 O,OD 平分∠AOE,∠BOC=50.0,则∠EOB=()

答案是「80」:

第三个题目的数学推理显然更上难度了:

模型给出的答案特别清晰,解题思路拆解得很详细:

在下面这个图片内容识别任务中,模型的分析过程也非常细致严谨:

关于 Qwen2.5-VL-32B-Instruct 的更多信息,可参考官方博客。

博客链接:https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大家给孩子花过最亏的一笔钱是什么?网友:起码他不会怨你

大家给孩子花过最亏的一笔钱是什么?网友:起码他不会怨你

另子维爱读史
2026-03-10 22:08:04
又一外贸大厂倒闭,巅峰期曾有1000多名员工

又一外贸大厂倒闭,巅峰期曾有1000多名员工

派代
2026-04-25 16:05:20
韩国美女模特孙允珠067

韩国美女模特孙允珠067

美眉在线
2026-04-02 07:26:03
世界冠军1球不进!80后名将12-9夺赛点,罗伯逊3-1逆转韦克林!

世界冠军1球不进!80后名将12-9夺赛点,罗伯逊3-1逆转韦克林!

刘姚尧的文字城堡
2026-04-25 19:23:27
科学家发现:地球上所有复杂的生命都与北欧神话中的某个概念有关

科学家发现:地球上所有复杂的生命都与北欧神话中的某个概念有关

心中的麦田
2026-04-08 19:29:48
看王玉雯现身苏州,生图下锁骨凸起身材有料,才明白啥叫天选美人

看王玉雯现身苏州,生图下锁骨凸起身材有料,才明白啥叫天选美人

洲洲影视娱评
2026-04-25 19:17:58
台湾要求全军禁止下载使用高德,孙玉良:禁令神助攻,当天冲第一

台湾要求全军禁止下载使用高德,孙玉良:禁令神助攻,当天冲第一

孙玉良
2026-04-25 09:21:34
动脸最担忧的后果,还是在44岁的宋慧乔身上发生了!

动脸最担忧的后果,还是在44岁的宋慧乔身上发生了!

娱乐故事
2026-04-23 16:24:34
仅播4集就口碑大爆,评分高达9.5,这才是黑马古装剧该有的样子

仅播4集就口碑大爆,评分高达9.5,这才是黑马古装剧该有的样子

糊咖娱乐
2026-04-25 16:58:09
阿斯:巴萨全队在酒店看皇马比赛,贝莱林进绝平球后陷入狂欢

阿斯:巴萨全队在酒店看皇马比赛,贝莱林进绝平球后陷入狂欢

懂球帝
2026-04-25 10:11:10
50:48险胜,美投票结果出炉,多议员临阵反水,民主党摆烂

50:48险胜,美投票结果出炉,多议员临阵反水,民主党摆烂

黑鹰观军事
2026-04-25 15:25:52
福原爱生三胎后首次露面 日本网友称她与古贺纱里奈站一起像母女

福原爱生三胎后首次露面 日本网友称她与古贺纱里奈站一起像母女

劲爆体坛
2026-04-25 12:44:09
英超积分榜,利物浦3:1,升至第四,热刺1:0,16轮首胜仍在降级区

英超积分榜,利物浦3:1,升至第四,热刺1:0,16轮首胜仍在降级区

小彭美识
2026-04-26 00:18:42
iPhone电池大降价仅35元起,高容量续航更持久!

iPhone电池大降价仅35元起,高容量续航更持久!

果粉之家
2026-04-25 12:54:24
35岁男子常用微波炉加热食物,2年后确诊胃癌,医生:犯了3个错

35岁男子常用微波炉加热食物,2年后确诊胃癌,医生:犯了3个错

健康科普365
2026-04-22 15:25:03
2026款丰田纯电MPV实拍 座舱变化大 配主动悬架

2026款丰田纯电MPV实拍 座舱变化大 配主动悬架

沙雕小琳琳
2026-04-25 12:34:35
公交站台女子劝阻男子吸烟引争执,女子用携带的果汁饮料泼向男子持烟的右手,男子捡起该饮料杯扔向该女子;深圳官方通报:双方已达成和解

公交站台女子劝阻男子吸烟引争执,女子用携带的果汁饮料泼向男子持烟的右手,男子捡起该饮料杯扔向该女子;深圳官方通报:双方已达成和解

扬子晚报
2026-04-25 20:31:41
收官战拯救广东球队!37岁老将狂砍18分7助,亲手送前东家出局

收官战拯救广东球队!37岁老将狂砍18分7助,亲手送前东家出局

弄月公子
2026-04-25 21:47:30
中国需做最坏打算:俄罗斯解体后617万土地绝不能失守

中国需做最坏打算:俄罗斯解体后617万土地绝不能失守

王藁侃世界
2026-04-23 07:05:34
给湖人送分?火箭为什么要让状态不佳的替补锋线在关键时刻出场?

给湖人送分?火箭为什么要让状态不佳的替补锋线在关键时刻出场?

稻谷与小麦
2026-04-26 00:07:48
2026-04-26 02:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12852文章数 142636关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

手机
本地
教育
时尚
健康

手机要闻

iPhone Ultra机模上手:11mm厚、无长焦,苹果第一折就这?

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

教育要闻

一根风筝线,牵起一个校长的教育梦

这些穿搭适合春天!外套彩色内搭白色、裤子穿基础款,舒适大方

干细胞如何让烧烫伤皮肤"再生"?

无障碍浏览 进入关怀版