网易首页 > 网易号 > 正文 申请入驻

阿里开源视觉大模型Qwen2-VL:可理解20分钟长视频,性能比肩GPT-4o

0
分享至


智东西
编译 Vendii
编辑 漠影

智东西8月30日消息,阿里通义千问于昨日开源新一代视觉语言模型Qwen2-VL。其中,Qwen2-VL-72B在大部分指标上都达到了最优,刷新了开源多模态模型的最好表现,甚至超过了GPT-4o和Claude 3.5 Sonnet等闭源模型。

据官方博客文章介绍,Qwen2-VL基于Qwen2打造,相比第一代Qwen-VL,Qwen2-VL具有以下特点:

1、能读懂不同分辨率和不同长宽比的图片:Qwen2-VL在多个视觉理解基准测试中取得了全球领先的表现,其中包括但不限于考察数学推理能力的MathVista、考察文档图像理解能力的DocVQA、考察真实世界空间理解能力的RealWorldQA、考察多语言理解能力的MTVQA。

2、能理解20分钟以上的长视频:Qwen2-VL可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。

3、能够操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。

4、多语言支持:除英语和中文外,Qwen2-VL现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

通义千问团队以Apache 2.0协议开源了Qwen2-VL-2B和Qwen2-VL-7B,并发布了Qwen2-VL-72B的API。开源代码已集成到Hugging Face Transformers、vLLM和其他第三方框架中。

GitHub项目地址:https://github.com/QwenLM/Qwen2-VL

一、媲美GPT-4o!多个指标刷新最好表现,3种规模模型开源

通义千问团队从6个方面来评估Qwen2-VL分别在72B、7B、2B三种规模上的视觉能力,包括复杂的大学水平问题解决、数学能力、文档和表格的理解、多语言文本图像的理解、通用场景问答、视频理解、视觉智能代理(Visual AI Agent)能力。

整体来看,Qwen2-VL-72B在大部分指标上都达到了最优,甚至超过了GPT-4o和Claude 3.5 Sonnet等闭源模型。

具体而言,该模型在文档理解方面优势明显,仅在复杂的大学水平问题解决方面和GPT-4o还有差距。同时,Qwen2-VL 72B也刷新了开源多模态模型的最好表现。

▲Qwen2-VL-72B模型能力分数比较(图源:通义千问团队官方博客文章)

在7B规模上,Qwen2-VL同样支持单图、多图、视频的输入,在更经济的规模上也实现了有竞争力的性能表现。

比如,Qwen2-VL-7B在DocVQA考察的文档理解能力,以及MTVQA考察的多语言文本图片理解能力都处于SOTA水平。在AI领域,SOTA模型通常是指在特定任务或数据集上性能表现最优的模型。

▲Qwen2-VL-7B模型能力分数比较(图源:通义千问团队官方博客文章)

除此之外,通义千问团队还提供了一个更小的2B规模的模型,以此支持移动端的丰富应用。Qwen2-VL-2B具备完整图像视频多语言的理解能力,特别在视频文档和通用场景问答方面,相较同规模模型优势明显。

▲Qwen2-VL-2B模型能力分数比较(图源:通义千问团队官方博客文章)

二、手写字体、公式代码、网页截屏、视频影像……多场景识别理解不在话下

在官方博客文章列举的多个模型能力案例中,Qwen2-VL覆盖了广阔的应用场景:能识别手写文字、图中文字,能转写数学公式、多种语言文字,能解数学几何题、LeetCode编程题,能读懂不同分辨率和不同长宽比的图片,能用特定格式输出答案,还能对视频内容进行总结和解读。

1、准确识别图中文字,轻松转写数学公式

对于下图列举出来的手写文字、融合在图像中的文字,Qwen2-VL都能准确地识别出对应的语种和文字内容(图中分别涉及到葡萄牙语、中文)。对于下图右下角,Qwen2-VL不只能识别出具体的数字,还能识别出各个数字对应的盒子的颜色。


▲Qwen2-VL能够准确识别图中的文字(图源:通义千问团队官方博客文章)

对于下图左半边中涉及到的复杂数学公式,Qwen2-VL可以轻松地用Markdown格式转写出来。对于下图右半边中涉及到的中文、日语、韩语、西班牙语、葡萄牙语、爱尔兰语、英语、德语、波兰语、希腊语、越南语、蒙古语、俄语、印地语、斯瓦希里语,Qwen2-VL也能一字不落地转录出来。


▲Qwen2-VL能够准确转录图中的复杂公式和多语种(图源:通义千问团队官方博客文章)

2、理解现实世界信息,准确输出问题答案

对于数学平面几何题目、LeetCode平台的编程题目、1792×14400尺寸的技术文档截图,Qwen2-VL也能识别理解并回答用户的提问。


▲Qwen2-VL能够解决的各种问题(图源:通义千问团队官方博客文章)

Qwen2-VL还能基于天气预报软件的截屏、网页搜索结果的截屏、Linux官方档案库的截屏等等抓取用户需要的信息,用特定格式(如表格、段落编号方式、JSON格式的数组)输出。


▲Qwen2-VL回答支持多种格式(图源:通义千问团队官方博客文章)

3、总结视频要点,解读视频内容

此外,除了静态图像,Qwen2-VL还能进行视频内容分析。它能够总结视频要点、即时回答相关问题,并维持连贯对话,帮助用户从视频中获取有价值的信息。

比如下图中,用户上传了一段2分57秒的视频,并让Qwen2-VL描述这段视频,描述的内容非常详细且准确。然后用户提问了视频中人物穿着的衣服的颜色,Qwen2-VL也给到了符合视频内容的回答。


▲Qwen2-VL能够识别视频,并围绕该视频回答相应问题(图源:通义千问团队官方博客文章)

三、实时数据检索+实时环境交互,或将碰撞出更多可能性

据官方博客文章介绍,Qwen2-VL在作为视觉代理方面展现出潜力,能初步利用视觉能力实现一些自动化工具的调用和交互。

视觉代理(Visual Agent)通常指的是一种AI系统,它能够处理和理解视觉信息(如图像或视频),并在此基础上进行决策或执行任务。

Qwen2-VL支持函数调用,使其能够利用外部工具进行实时数据检索,比如航班状态、天气预报、包裹追踪。

▲Qwen2-VL根据用户提供的航班信息调用“weather_hour24”工具查询天气状况(图源:通义千问团队官方博客文章)

通义千问团队还初步做了一些简单的探索,让模型能够更像人一样和环境交互。“使得Qwen2-VL不仅作为观察者,而是能有代替人做更多的执行者的可能。”官方博客文章写道。

在以下视频中,Qwen2-VL可以直接代替人类操作手机。

//oss.zhidx.com/uploads/2024/08/66d1849a8bb52_66d1849a87e91_66d1849a87e69_Qwen2-VL-更清晰地看世界-Qwen1.mp4

▲Qwen2-VL进行视觉交互并自主操作手机(图源:通义千问团队官方博客文章)

以及以下视频中,Qwen2-VL能根据识别到的场上信息和提示词描述进行“24点”游戏的决策,并且取得了胜利。

//oss.zhidx.com/uploads/2024/08/66d183a39e476_66d183a3990d6_66d183a3990b0_Qwen2-VL-更清晰地看世界-Qwen2.mp4

▲Qwen2-VL进行视觉交互并完成纸牌游戏(图源:通义千问团队官方博客文章)

结语:语言能力已经远远不够!模型正在卷向多模态

随着AI技术的飞速发展,语言模型曾一度成为技术竞争的焦点,但自2023年3月15日OpenAI发布了能够读图的GPT-4后,多模态模型的战鼓也是越敲越响。模型不再局限于处理单一的文本数据,而是通过整合图像、视频、音频等多种信息源,展现出更为强大的认知和理解能力。

视觉语言模型是多模态模型领域内的一个重要细分方向。这些模型通过结合计算机视觉与自然语言处理技术,在图像理解、生成及跨模态交互等领域展现出巨大潜力。它们可以被应用于视觉问答(VQA)、图像分类、目标检测、图像分割等多种任务,未来有望在医疗诊断、机器人技术等领域内实现更加广泛的应用。

来源:GitHub

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我卧底边境六年终于回家,饭桌上父亲用摩斯密码敲击桌子:赶快跑

我卧底边境六年终于回家,饭桌上父亲用摩斯密码敲击桌子:赶快跑

千秋文化
2026-05-14 20:24:09
美国已拒绝伊朗就结束战争提出的书面方案,并“重申其强硬立场”尤其是在核问题上,黄金、白银大跌,原油飙升

美国已拒绝伊朗就结束战争提出的书面方案,并“重申其强硬立场”尤其是在核问题上,黄金、白银大跌,原油飙升

每日经济新闻
2026-05-15 18:51:36
标价15元结账收29.9元,超市阴阳价格套路曝光,网友齐呼离谱……

标价15元结账收29.9元,超市阴阳价格套路曝光,网友齐呼离谱……

柴狗夫斯基
2026-05-14 20:42:23
黄仁勋在北京逛街,勇敢尝试了豆汁,喝完脸都皱了…

黄仁勋在北京逛街,勇敢尝试了豆汁,喝完脸都皱了…

微微热评
2026-05-15 15:31:59
拒绝被挑拨站队!12岁小玥儿戳破与马筱梅真实交情,成年人别加戏

拒绝被挑拨站队!12岁小玥儿戳破与马筱梅真实交情,成年人别加戏

橙星文娱
2026-05-15 13:59:15
90后博士后读研读博期间,套取科研经费1426万,被判有期徒刑8年!

90后博士后读研读博期间,套取科研经费1426万,被判有期徒刑8年!

高分子科学前沿
2026-05-14 20:16:04
再见湖人!再见东契奇!詹姆斯新合同曝光,网友:白菜价

再见湖人!再见东契奇!詹姆斯新合同曝光,网友:白菜价

野渡舟山人
2026-05-15 18:19:22
串通投标全川35个工程项目、涉案110亿余元,四川公安发布十起经济犯罪典型案例

串通投标全川35个工程项目、涉案110亿余元,四川公安发布十起经济犯罪典型案例

封面新闻
2026-05-15 17:36:02
俄罗斯超大舰队进入东海

俄罗斯超大舰队进入东海

烽火观天下
2026-05-14 10:58:42
《桃花坞6》很明显,徐志胜对方媛很无语!

《桃花坞6》很明显,徐志胜对方媛很无语!

糊咖娱乐
2026-05-15 15:20:24
球队高管:詹姆斯能卖票签他稳赚 只要是一年合同他要多少给多少

球队高管:詹姆斯能卖票签他稳赚 只要是一年合同他要多少给多少

罗说NBA
2026-05-15 20:13:16
敬完了酒,特朗普访华画上句号,从中国临走之前,终于吐露真心话

敬完了酒,特朗普访华画上句号,从中国临走之前,终于吐露真心话

赵昉是个热血青年
2026-05-15 20:50:12
加速心梗恶化的原因:饮酒排第8,排第1的,很多朋友天天做

加速心梗恶化的原因:饮酒排第8,排第1的,很多朋友天天做

芹姐说生活
2026-05-15 15:08:06
队记:火箭或与范弗利特重签合同,三年5000万美元加球员选项

队记:火箭或与范弗利特重签合同,三年5000万美元加球员选项

懂球帝
2026-05-15 11:07:10
腾讯掉队,马化腾戳破真相

腾讯掉队,马化腾戳破真相

虎嗅APP
2026-05-15 16:31:10
为什么航母速度都在30节左右,30节换成汽车的速度是多快?

为什么航母速度都在30节左右,30节换成汽车的速度是多快?

吴王旅行ing
2026-05-12 23:36:17
被马斯克和库克夹在中间的女人!“玻璃女王”周群飞,仅大专学历

被马斯克和库克夹在中间的女人!“玻璃女王”周群飞,仅大专学历

观察者海风
2026-05-15 12:43:32
马斯克:真正的狠人,都是从地狱里爬出来的

马斯克:真正的狠人,都是从地狱里爬出来的

阿胖读书
2025-08-24 00:39:48
特朗普松口:中国买伊朗石油,可能不制裁了

特朗普松口:中国买伊朗石油,可能不制裁了

桂系007
2026-05-15 21:40:19
岳母住我家做饭月给四千,我换亲妈来,十五天就后悔的想撞墙

岳母住我家做饭月给四千,我换亲妈来,十五天就后悔的想撞墙

麦子情感故事
2026-05-15 14:20:13
2026-05-15 23:03:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11836文章数 117077关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

王毅:中美元首会晤 台湾问题是重点议题之一

头条要闻

王毅:中美元首会晤 台湾问题是重点议题之一

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

家居
艺术
本地
时尚
公开课

家居要闻

110㎡淡而有致的生活表达

艺术要闻

中式美学火了!特朗普、鲁比奥、马斯克小儿子点赞

本地新闻

用苏绣的方式,打开江西婺源

顶级团队拍出来的作品不如素人,问题出在哪儿了?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版