网易首页 > 网易号 > 正文 申请入驻

阿里巴巴推出最强开源视觉大模型Qwen-VL:实用性前所未有,推理超越GPT4- V

0
分享至

   本文为 1457 ,建议阅读 5分钟

  昨天,阿里巴巴团队重磅推出 Qwen-VL-PlusQwen-VL-Max模型,这两个模型不仅大幅超越此前所有开源 LVLM 模型的最佳水平,并且在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT4-v 的水准。 甚至,Qwen-VL-Max 在中文问答、中文文字理解相关的任务上超越了 OpenAI的 GPT4-v 和 Google 的 Gemini-Pro,而且是开源的,现在你可以在Hugging Face上亲自尝试

  所有详细信息:https://github.com/QwenLM/Qwen-VL/blob/master/README_CN.md

  值得注意的是:

它主要是一款图像理解模型 它能够对图像进行标注和回应。当输入是一张图像并带有提示“找到红色汽车”时,该模型可以做出相关的标注和回答

它能够理解图像中各部分的重要性。如果在本地部署的优化模型将在自动驾驶方面将会发挥关键作用,看下面的例子:

  用户:目前车速为150公里/小时。根据图片,应该如何操作车辆? A. 加速 B. 减速 C. 保持原速 D. 停车 请做出选择并附上理由。

  Qwen:B. 减速

  根据图片中的交通标志,当前车道的最高限速是100公里/小时。由于当前车速为150公里/小时,超过了限速,因此应该减速以符合交通规定。

它能够理解流程图、图表、表格和图形,并且可以进行推理。它可以解决小学数学问题(不要看不起小学数学哈哈,这对模型数学推理很重要)。

  用户:阅读图像并逐步解决。- 此提示足以让 Qwen 根据问题求出两个物体的表面积和体积

理解并能解释流程图

  用户:解释这张图:

  Qwen:这张图呈现了Qwen-VL系列的三阶段训练流程,这是一种视觉语言模型。每个阶段都用标有“QwenLM”的方框表示,并伴随一个小方框,说明该阶段使用的数据类型。

  在第一阶段,模型通过图文对进行预训练。这一阶段涉及从大量图像及其相应的文本描述中学习,以理解视觉和语言信息之间的关系。

  第二阶段是多任务预训练,使用多任务和交叉的VL数据。在这里,模型同时在多个任务上进行训练,例如图像字幕生成、视觉问题回答和指代表达理解。采用交叉数据的方式有助于模型高效地学会在不同任务之间切换。

  最后,在第三阶段,模型通过带有交叉对话的VL数据进行监督微调。这个阶段涉及使用标记数据来改进模型在特定任务上的性能。交叉对话数据为模型提供更富有对话性的语境,增强了其理解和回应自然语言查询的能力。

  总体而言,这个三阶段的训练流程旨在培养一个强大的视觉语言模型,能够理解并以人类般的方式生成对视觉和语言输入的回应。

它具备理解、解析和转换图表数据的能力。按照这个速度2025年麦肯锡分析师恐怕要失业,看下面的例子

它能够从图表中进行推理。下面的例子类似于瑞文标准逐步矩阵,这是一种广泛使用的智力测试。

  用户:观察这个由三个形状组成的序列。第四个形状应该是什么?请详细描述前三个形状,并解释你的推理过程。

  Qwen-VL

  形状的序列是一个三角形,正方形和五边形,然后是一个问号。这个模式表明,序列中的下一个形状应该是一个六边形。该模式似乎基于每个形状的边数,每个后续形状的边数比前一个多一个。

  因此,第四个形状应该有六个边,使其成为一个六边形。

它在从图像中提取结构化数据方面表现得非常出色。下面的例子中的结果是过去几年中许多初创AI公司努力开发的成果

  总体而言,Qwen将成为许多企业任务的极为实用的模型,甚至在某些方面已经超越了GPT-4V。虽然其语言能力尚未达到GPT-4的水平,但在智能推理方面却已经取得了相当进展,必须要说一句Qwen是中国也是世界的,给阿里团队点赞!!!

  有网友做了Qwen-VL in ComfyUI,将阿里 QWen-VL 双模型(Plus & Max)通过 API 调用引入到 ComfyUI 中,初测下来 QWen-VL 是目前开源世界最好的视觉模型

  项目地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-VL-API

   赶紧体验吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
家暴丈夫,被指藏匿1400万元

家暴丈夫,被指藏匿1400万元

中国新闻周刊
2026-06-25 22:39:13
全球能源告急!中国瞒了世界 30 年,如今用两桶油让世界刮目相看

全球能源告急!中国瞒了世界 30 年,如今用两桶油让世界刮目相看

蜉蝣说
2026-06-22 11:42:34
高考721分!全国同专业第一 郭斌(6岁永久失明)已被录取 成为一名盲人双学位大学生#郭斌被录取

高考721分!全国同专业第一 郭斌(6岁永久失明)已被录取 成为一名盲人双学位大学生#郭斌被录取

每日经济新闻
2026-06-25 00:35:45
马云预言又应验!若无意外,2026年起,中国房地产或迎来3大转变

马云预言又应验!若无意外,2026年起,中国房地产或迎来3大转变

科技故事聚焦
2026-06-23 09:37:13
先5-0,再1-0!世界杯K组太乱,C罗这次没退路,想进16强要拿3分

先5-0,再1-0!世界杯K组太乱,C罗这次没退路,想进16强要拿3分

生活新鲜市
2026-06-26 01:29:00
世界杯看台抢镜一幕:贝克汉姆捧着“一缸红酒”看巴西队大胜

世界杯看台抢镜一幕:贝克汉姆捧着“一缸红酒”看巴西队大胜

红星新闻
2026-06-25 09:45:40
广州市一栋3层大别墅拍卖,被人捡漏152万元就竞得

广州市一栋3层大别墅拍卖,被人捡漏152万元就竞得

老覃讲历史
2026-06-25 17:16:50
北京车牌租金今年直接跌了一半|新能源指标年租掉到一万上下

北京车牌租金今年直接跌了一半|新能源指标年租掉到一万上下

右耳远闻
2026-06-24 19:05:03
IBM印度裔CEO三分钟裁中国千人团队,印裔管理者的裙带套路太现实

IBM印度裔CEO三分钟裁中国千人团队,印裔管理者的裙带套路太现实

行者聊官
2026-06-25 10:33:59
冯小刚近些年血亏的影片:最新的《抓特务》砸了三个亿,离回本的七亿门槛差得老远。

冯小刚近些年血亏的影片:最新的《抓特务》砸了三个亿,离回本的七亿门槛差得老远。

TVB的四小花
2026-06-25 05:38:41
出自温州!浙江唯一高考数学满分

出自温州!浙江唯一高考数学满分

大永强
2026-06-25 16:40:55
轮到西方眼红!中国突破顶尖技术,地位堪比光刻机,明令禁止出口

轮到西方眼红!中国突破顶尖技术,地位堪比光刻机,明令禁止出口

迷彩前沿
2026-06-23 14:02:20
“建议取消私生子继承权!”专家话炸翻全网:凭什么要为背叛买单

“建议取消私生子继承权!”专家话炸翻全网:凭什么要为背叛买单

一丝不苟的法律人
2026-06-25 11:22:53
C罗进球瞬间,妻子一个举动让亿万人感动:难怪浪子收心只选她

C罗进球瞬间,妻子一个举动让亿万人感动:难怪浪子收心只选她

东方不败然多多
2026-06-25 15:42:51
2026高考分数线一览

2026高考分数线一览

界面新闻
2026-06-25 17:39:26
威胁过梅西的阿根廷悍将,却是C罗的铁杆,还对曼联恩将仇报

威胁过梅西的阿根廷悍将,却是C罗的铁杆,还对曼联恩将仇报

足篮大世界
2026-06-25 23:37:05
美国科技巨头推出全球首款亚1纳米芯片,集成近1000亿个晶体管仅指甲盖大小!公司股价盘前大涨

美国科技巨头推出全球首款亚1纳米芯片,集成近1000亿个晶体管仅指甲盖大小!公司股价盘前大涨

每日经济新闻
2026-06-25 20:59:06
国际篮联重磅宣布,中国男篮碾压日本韩国,冲亚洲地区第一

国际篮联重磅宣布,中国男篮碾压日本韩国,冲亚洲地区第一

宗介说体育
2026-06-25 11:29:38
贪污上亿,假慈善,身体出问题?54岁的韩红到底动了谁的蛋糕?

贪污上亿,假慈善,身体出问题?54岁的韩红到底动了谁的蛋糕?

TVB的四小花
2026-06-24 17:59:14
韩国媒体:希望日本队帮忙!

韩国媒体:希望日本队帮忙!

体育哲人
2026-06-25 20:41:51
2026-06-26 04:28:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1042文章数 395关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

数码
健康
亲子
游戏
教育

数码要闻

徕卡SL3-P全画幅相机发布:售45000元 1.76亿像素超高分辨率

医生如何快速诊断脑梗和脑出血?

亲子要闻

儿科其实是一个接近动物学的专科!来看看大家的经历吧!

R星官宣《GTA6》开启预购!官网现已开放购买入口

教育要闻

每晚带背真的给我学上瘾了!!!不知道暑期背什么的新传人请看这里!!!

无障碍浏览 进入关怀版