网易首页 > 网易号 > 正文 申请入驻

AI汪峰再上线,阿里全新大模型,32B 可以比 72B 更聪明

0
分享至

机器之心编辑部

就在 DeepSeek V3「小版本更新」后的几个小时,阿里通义千问团队也开源了新模型。

择日不如撞日,Qwen2.5-VL-32B-Instruct 就这么来了。

相比此前的 Qwen2.5-VL 系列模型,32B 模型有如下改进:

  • 回复更符合人类主观偏好:调整了输出风格,使回答更加详细、格式更规范,并更符合人类偏好。

  • 数学推理能力:复杂数学问题求解的准确性显著提升。

  • 图像细粒度理解与推理:在图像解析、内容识别以及视觉逻辑推导等任务中表现出更强的准确性和细粒度分析能力。

对于所有用户来说,在 Qwen Chat 上直接选中 Qwen2.5-VL-32B,即可体验:https://chat.qwen.ai/

32B 版本的出现,解决了「72B 对 VLM 来说太大」和「7B 不够强大」的问题。如这位网友所说,32B 可能是多模态 AI Agent 部署实践中的最佳选择:

不过团队也介绍了,Qwen2.5-VL-32B 在强化学习框架下优化了主观体验和数学推理能力,但主要还是基于「快速思考」模式。

下一步,通义千问团队将聚焦于长且有效的推理过程,以突破视觉模型在处理高度复杂、多步骤视觉推理任务中的边界。

32B 可以比 72B 更聪明

先来看看性能测试结果。

与近期的 Mistral-Small-3.1-24B、Gemma-3-27B-IT 等模型相比,Qwen2.5-VL-32B-Instruct 展现出了明显的优势,甚至超越了更大规模的 72B 模型。

如上图所示,在 MMMU、MMMU-Pro 和 MathVista 等多模态任务中,Qwen2.5-VL-32B-Instruct 均表现突出。

特别是在注重主观用户体验评估的 MM-MT-Bench 基准测试中,32B 模型相较于前代 Qwen2-VL-72B-Instruct 实现了显著进步。

视觉能力的进步,已经让用户们感受到了震撼:

除了在视觉能力上优秀,Qwen2.5-VL-32B-Instruct 在纯文本能力上也达到了同规模的最优表现。

实例展示

或许很多人还好奇,32B 版本的升级怎么体现呢?

关于「回复更符合人类主观偏好」、「数学推理能力」、「图像细粒度理解与推理」这三个维度,我们通过几个官方 Demo 来体会一番。

第一个问题,是关于「细粒度图像理解与推理」:我开着一辆卡车在这条路上行驶,现在是 12 点,我能在 13 点之前到达 110 公里外的地方吗?

显然,从人类的角度去快速判断,在限速 100 的前提下,卡车无法在 1 小时内抵达 110 公里之外的地方。

Qwen2.5-VL-32B-Instruct 给出的答案也是「否」,但分析过程更加严谨,叙述方式也是娓娓道来,我们可以做个参考:

第二个问题是「数学推理」:如图,直线 AB、CD 交于点 O,OD 平分∠AOE,∠BOC=50.0,则∠EOB=()

答案是「80」:

第三个题目的数学推理显然更上难度了:

模型给出的答案特别清晰,解题思路拆解得很详细:

在下面这个图片内容识别任务中,模型的分析过程也非常细致严谨:

关于 Qwen2.5-VL-32B-Instruct 的更多信息,可参考官方博客。

博客链接:https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泽连斯基对普京的回应

泽连斯基对普京的回应

名人苟或
2026-06-30 17:27:45
国务院最新发文:探索延长义务教育年限,稳步扩大免费教育范围

国务院最新发文:探索延长义务教育年限,稳步扩大免费教育范围

南方都市报
2026-06-30 12:44:12
韩国足协恐怕要跟国际足联撕破脸了…

韩国足协恐怕要跟国际足联撕破脸了…

理想闲谈
2026-06-30 11:18:06
特斯拉宣布 7 月份降价优惠,热门产品被取消!

特斯拉宣布 7 月份降价优惠,热门产品被取消!

XCiOS俱乐部
2026-06-30 19:37:58
“老登”变“小登”市值猛涨1700亿!京东方A创18年新高,仅次于07年大牛市时期,95万股民狂欢,400亿天量成交创历史记录

“老登”变“小登”市值猛涨1700亿!京东方A创18年新高,仅次于07年大牛市时期,95万股民狂欢,400亿天量成交创历史记录

金融界
2026-06-30 14:54:23
太罕见!今夜,67家A股公司提示风险

太罕见!今夜,67家A股公司提示风险

中国基金报
2026-07-01 01:37:08
深夜,4个龙头提前公布中报,这2个增长超过300%,资源股增471%

深夜,4个龙头提前公布中报,这2个增长超过300%,资源股增471%

风风顺
2026-06-30 04:10:03
女演员千万别整容,看42岁王佳佳和40岁江疏影同框,就知道了

女演员千万别整容,看42岁王佳佳和40岁江疏影同框,就知道了

芬霏剧时光
2026-06-26 11:31:34
安徽一女子在酒吧被陌生男子投放“伟哥”,警方不予立案,双方签署调解协议后男方赔偿1.3万元,女子回应:已撤销协议,正在走法律程序

安徽一女子在酒吧被陌生男子投放“伟哥”,警方不予立案,双方签署调解协议后男方赔偿1.3万元,女子回应:已撤销协议,正在走法律程序

大风新闻
2026-06-29 22:09:46
狗狗币跌了90%想抄底?先看这个数字:1240万美元,它不会骗人

狗狗币跌了90%想抄底?先看这个数字:1240万美元,它不会骗人

爬虫饲养员
2026-06-29 01:15:14
世界杯淘汰赛预测:法国3-1瑞典,挪威2-1科特迪瓦,墨西哥1-1

世界杯淘汰赛预测:法国3-1瑞典,挪威2-1科特迪瓦,墨西哥1-1

慢歌轻步谣
2026-06-30 12:45:55
央视罕见公开西太对峙细节!日舰模拟攻击辽宁舰,结果沉默?

央视罕见公开西太对峙细节!日舰模拟攻击辽宁舰,结果沉默?

青青衫书生
2026-06-30 13:24:21
姆巴佩差1球成世界杯淘汰赛射手王,瑞典防线堪忧

姆巴佩差1球成世界杯淘汰赛射手王,瑞典防线堪忧

凡人说体育
2026-07-01 02:08:55
俄罗斯预警的事果然发生了,美国以切断天然气供应为由,威胁欧盟

俄罗斯预警的事果然发生了,美国以切断天然气供应为由,威胁欧盟

起喜电影
2026-06-30 01:40:33
弗兰:穆斯莱拉发烧到41度,贝尔萨却半场才知情

弗兰:穆斯莱拉发烧到41度,贝尔萨却半场才知情

懂球帝
2026-06-30 21:07:09
卫冕冠军压力大,三盘过关后斯瓦泰克抱毛巾痛哭,首秀暴露一问题

卫冕冠军压力大,三盘过关后斯瓦泰克抱毛巾痛哭,首秀暴露一问题

网球之家
2026-06-30 23:28:56
克洛普:如果塔的进球是犯规在先,那么阿森纳就不是英超冠军;太阳报:曼联确信乌加特的伤情不会影响俱乐部的夏窗转会运作

克洛普:如果塔的进球是犯规在先,那么阿森纳就不是英超冠军;太阳报:曼联确信乌加特的伤情不会影响俱乐部的夏窗转会运作

MUREDS
2026-07-01 02:22:48
新晋广州首富落幕,身价625亿股神张劲,终审被判无期徒刑

新晋广州首富落幕,身价625亿股神张劲,终审被判无期徒刑

别人都叫我阿腈
2026-07-01 01:26:49
齐达内替C罗说了句公道话,一句话点透葡萄牙的死穴!

齐达内替C罗说了句公道话,一句话点透葡萄牙的死穴!

曹老师评球
2026-06-30 08:43:39
603137,重大资产重组!拟收购存储公司100%股权!  

603137,重大资产重组!拟收购存储公司100%股权!  

证券时报e公司
2026-06-30 21:44:16
2026-07-01 02:39:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3449文章数 11169关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

健康
教育
手机
家居
艺术

狂吃“糯叽叽”小心肠梗阻!

教育要闻

最新试卷+官方答案|2026年高考广东地理试卷!情境为王、重思轻背:2026 广东高考地理卷深度点评

手机要闻

REDMI K90至尊版已正式发布:对比上代,到底有多少区别?

家居要闻

传奇筑 日常诗

艺术要闻

18幅 现当代著名画家作品

无障碍浏览 进入关怀版