网易首页 > 网易号 > 正文 申请入驻

年轻人的第一个多模态大模型,1080Ti轻松运行,已开源在线可玩

0
分享至

Vary-toy团队 投稿
量子位 | 公众号 QbitAI

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!

模型大小不到2B,消费级显卡可训练,GTX1080ti、8G的老显卡轻松运行。

想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。

现在只需一句话命令:

无论中英文,图片中的大段文字都能分分钟提取出来:

对一张图做对象检测,还是能给出具体坐标的那种:

这项研究由来自旷视、国科大、华中大的研究人员共同提出。

据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)。

现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。

网友一边表示感兴趣,一边关注点在于旧·GTX1080,心情belike:

“缩小版”Vary

其实,早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。

Vary发布后得到广泛关注,目前Github 1.2k+ star,但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。

那这究竟是如何做到的?

Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。

首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:

而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:

Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:

MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

项目链接:
[1]https://arxiv.org/abs/2401.12503
[2]https://varytoy.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾琦和院长的视频透露出重要信号,为何他们与毛奇佩霞事件不一样

曾琦和院长的视频透露出重要信号,为何他们与毛奇佩霞事件不一样

李昕言温度空间
2025-11-07 22:42:06
又是一边倒!辽宁25分擒强敌,下一场碰上四川队,老帅能爆冷吗?

又是一边倒!辽宁25分擒强敌,下一场碰上四川队,老帅能爆冷吗?

萌兰聊个球
2025-11-08 18:06:17
未来两年,武汉大拆迁,有你家吗?

未来两年,武汉大拆迁,有你家吗?

光华楼评
2025-11-08 09:42:06
98年去相亲,岳父让我和他儿媳睡在一屋,那晚的情形让我终生难忘

98年去相亲,岳父让我和他儿媳睡在一屋,那晚的情形让我终生难忘

云端小院
2025-11-06 11:09:52
0-3溃败国乒未来之星首战出局!网友:外战不稳内战软,该回炉了

0-3溃败国乒未来之星首战出局!网友:外战不稳内战软,该回炉了

番茄体坛
2025-11-08 18:49:15
浙江见义勇为钱开红去世,仅41岁,因帮邻居烧伤89%,4个月花百万

浙江见义勇为钱开红去世,仅41岁,因帮邻居烧伤89%,4个月花百万

裕丰娱间说
2025-11-08 09:32:17
不怕特朗普变卦,中国手中还藏了三大“王炸”,张张直击美国命门

不怕特朗普变卦,中国手中还藏了三大“王炸”,张张直击美国命门

罗富强说
2025-11-08 18:26:22
贝巴:C罗对曼联的批评很中肯,年轻球员要明白为何C罗这么说

贝巴:C罗对曼联的批评很中肯,年轻球员要明白为何C罗这么说

懂球帝
2025-11-08 03:20:08
白百何开撕王传君和沪圈,暗示自己被当垫脚石,范冰冰也发文暗讽

白百何开撕王传君和沪圈,暗示自己被当垫脚石,范冰冰也发文暗讽

花哥扒娱乐
2025-11-06 21:56:32
继S家心疼具俊晔后,林志玲力挺小S,玥儿又出招,汪小菲一招制敌

继S家心疼具俊晔后,林志玲力挺小S,玥儿又出招,汪小菲一招制敌

动物奇奇怪怪
2025-11-08 12:47:10
福建舰入列后,美国人感叹:要么击沉它,要么我们就得学会用筷子

福建舰入列后,美国人感叹:要么击沉它,要么我们就得学会用筷子

小童历史
2025-11-08 15:06:57
艳冠群芳!北京这一夜,珠光宝气的杨幂和白鹿,全败给了42岁蒋欣

艳冠群芳!北京这一夜,珠光宝气的杨幂和白鹿,全败给了42岁蒋欣

温柔娱公子
2025-11-07 20:45:03
36岁361天!威少连续3场20+5+5创控卫历史最高龄纪录

36岁361天!威少连续3场20+5+5创控卫历史最高龄纪录

北青网-北京青年报
2025-11-08 15:27:04
已经退休的“飞天将军”聂海胜,如今过着怎样的生活?

已经退休的“飞天将军”聂海胜,如今过着怎样的生活?

粤语音乐喷泉
2025-11-04 07:20:43
61年造币厂职工偷走800两黄金,19年后兑换,银行一眼识破

61年造币厂职工偷走800两黄金,19年后兑换,银行一眼识破

兴趣知识
2025-11-06 03:15:03
给足排面!总台记者哽咽暖心寄语全红婵,未来的路交给你自己选择

给足排面!总台记者哽咽暖心寄语全红婵,未来的路交给你自己选择

春序娱乐
2025-11-08 19:04:41
原来升级矛盾就是解决的终极手段!网友分享绝了,以牙还牙最管用

原来升级矛盾就是解决的终极手段!网友分享绝了,以牙还牙最管用

夜深爱杂谈
2025-11-05 07:56:38
于和伟说:“我上大一,我大姐去世,肺癌,我愣坐着,没有眼泪”

于和伟说:“我上大一,我大姐去世,肺癌,我愣坐着,没有眼泪”

百态人间
2025-11-04 15:58:52
提升自己,比仰望别人更实在

提升自己,比仰望别人更实在

加油丁小文
2025-10-31 08:30:03
她这大体格真绝了,目测身高180,无数人心中的女神形象 就是这种

她这大体格真绝了,目测身高180,无数人心中的女神形象 就是这种

乡野小珥
2025-11-08 08:21:31
2025-11-08 20:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
11646文章数 176329关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

"全网最像夫妻"被喊话测DNA 妻子:做过婚检 越长越像

头条要闻

"全网最像夫妻"被喊话测DNA 妻子:做过婚检 越长越像

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

数码
教育
艺术
游戏
时尚

数码要闻

Abxylute 3D One掌机规格确认,本月开启众筹

教育要闻

大部分父母都容易“踩坑”:你越优秀,为啥孩子的心理压力越大?

艺术要闻

40岁老板娘风流成性,同时交往多名男友!被情人痛下杀手...

玩家破译出《质量效应5》隐藏截图:暗示游戏剧情?

推广 || 断舍离N次也不会断了它,买过最值的冬日单品之一

无障碍浏览 进入关怀版