网易首页 > 网易号 > 正文 申请入驻

阿里QVQ-Max来了!超绝视觉推理模型,会看网课学编程,免费可用

0
分享至

智东西3月28日报道,阿里大模型表情包军团再添猛将!今日凌晨,大模型“劳模”阿里云通义团队发布其首款视觉推理模型QVQ-Max

在数学问题、生活常识、编程代码、艺术创作等场景,该模型可以看懂图片和视频里的内容,还能结合这些信息进行分析、推理,并给出解决方案

例如,QVQ-Max可以协助用户在工作中完成数据分析、信息整理、编程写代码等任务,帮助学生解答配有图表的数学、物理等科目的难题,并通过直观的方式讲解复杂概念,在生活中根据衣柜照片推荐穿搭方案、基于食谱图片指导用户烹饪

用户只需上传任何图像或视频然后提出问题,点击 “思考 ”按钮,即可查看它如何逐步处理视觉信息。

多模态数学问题的数据集MathVision可以用来评估模型解决复杂数学问题的能力,研究人员发现,模型思考的token数越长,其MathVision的准确度就会越高。

博客中提到,他们设计QVQ-Max的目标,就是让它成为一个既“眼尖”又“脑快”的助手,帮助用户解决各种实际问题。

体验地址:https://chat.qwen.ai/ 一、秀多图识别、数学推理、看视频学习编程技能

阿里通义团队在博客中放出了几个新鲜的QVQ-Max演示案例。

首先是多图识别,QVQ-Max可以描述图片中的景色,并且通过分析图片信息找到这两张图片的相关之处。

其次是数学推理,这道难题需要模型从图片中找问题和答案,QVQ-Max通过分析其余8个数字之间的关系,得出了最后一格的数字应该是10的正确答案。

第三个是让QVQ-Max看手相,感情线、生命线、事业线分析得头头是道。

第四个考验了模型的视频理解能力,演示中模型对一个简笔画的蜗牛视频进行了分析,然后为这条视频创建了贴合的字幕。

二、观察细致入微、深入分析,还能灵活创作

QVQ-Max的能力可以总结为三个方面:细致观察、深入推理和灵活应用

细致观察方面,QVQ-Max能快速识别出复杂图表、日常随手拍照片中的关键元素,例如它可以找到图片中有哪些物品、有什么文字标识等。

深入推理就是让模型基于看到的内容进行分析,然后结合背景知识得出结论。例如,在一道几何题中,它可以根据题目附带的图形推导出答案;在一段视频里,它能根据画面内容推测出接下来可能发生的情节。

除了分析和推理,QVQ-Max还可以灵活应用这些能力进行创作,例如帮助用户设计插画、生成短视频脚本、创作角色扮演的内容,或者化身评论家、占卜师。

这使得其在用户工作、学习、生活中的应用场景增多。

一般而言,大模型在回答问题、写文章、生成代码时主要依赖文字输入。

但现实生活中,很多信息并不只是用文字表达,而是图片、图表、视频、文字交互出现,并且图片中包含的信息会比文字更直观、更复杂,如其中的颜色、形状、位置关系等。例如用户分析建筑图纸时,仅靠文字描述是无法判断其合理性的,需要结合图纸以及专业知识分析,这也是阿里通用团队研究视觉推理模型的原因。

结语:视觉推理模型的演进方向:更准确观察、视觉Agent、交互多元

目前发布的QVQ-Max是阿里通义视觉推理模型的第一版,未来,研究人员会重点关注以下几个方向:通过视觉内容的校验来检查观察内容的准确性提高识别能力;通过视觉Agent提升模型在处理多步和更复杂的任务,如手机电脑操控,玩游戏;让模型在思考和交互中不局限于文字,还可以涵盖更多的模态,比如工具校验,视觉生成等。

作为一款能看懂又能深度推理的视觉模型,QVQ-Max已经展现出了完成创造性任务的应用潜力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

大卫聊科技
2026-03-25 12:22:18
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
小伙领证5小时后失踪,新婚妻子继承全部遗产,真相让人不寒而栗

小伙领证5小时后失踪,新婚妻子继承全部遗产,真相让人不寒而栗

碎碎纪实
2026-03-26 11:07:33
一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

谷盟a
2026-03-24 13:43:01
Manus两名高管禁止离境? 外交部回应

Manus两名高管禁止离境? 外交部回应

每日经济新闻
2026-03-26 16:36:02
国际油价暴涨,国内油价却“压着不涨”!国家出手了:每吨少涨1000多块

国际油价暴涨,国内油价却“压着不涨”!国家出手了:每吨少涨1000多块

思如哲思
2026-03-26 06:36:02
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

哈萨克斯坦也没想到,跟着中国混来混去,结果自己也混成了个霸主

花颜蕴韵
2026-03-26 03:37:13
山东“老头乐”公司起诉小米汽车,当事企业称已和解

山东“老头乐”公司起诉小米汽车,当事企业称已和解

界面新闻
2026-03-26 16:30:03
1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

文史明鉴
2026-03-24 18:49:17
神笔警探林宇辉再绘“梅姨”老年画像:她年龄增大,精神也受折磨,面貌应该变化很大

神笔警探林宇辉再绘“梅姨”老年画像:她年龄增大,精神也受折磨,面貌应该变化很大

极目新闻
2026-03-26 11:14:21
特斯拉 Model 3 标准版要来了!配置太离谱

特斯拉 Model 3 标准版要来了!配置太离谱

花果科技
2026-03-25 16:23:07
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

李橑在北漂
2026-03-25 23:30:59
旧电脑别急着扔!2026年3月起,4GB内存就能装的鸿蒙PC系统真来了

旧电脑别急着扔!2026年3月起,4GB内存就能装的鸿蒙PC系统真来了

小蜜情感说
2026-03-25 03:20:43
女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

女人爱听这些两性关系中的“下流话”,尤其是过了中年的女人

i书与房
2026-03-25 16:30:22
伊朗进入伊拉克模式

伊朗进入伊拉克模式

墨心人
2026-03-26 21:47:55
张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

光影新天地
2026-03-24 22:25:14
女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

复转这些年
2026-03-23 20:48:15
伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

高博新视野
2026-03-24 08:00:16
2026-03-26 22:47:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11441文章数 117016关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
本地
游戏
公开课
军事航空

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

50万销量达成!这款IGN 9分独游走红 官方发推庆贺

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版