网易首页 > 网易号 > 正文 申请入驻

年轻人的第一个多模态大模型,1080Ti轻松运行,已开源在线可玩

0
分享至

Vary-toy团队 投稿
量子位 | 公众号 QbitAI

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!

模型大小不到2B,消费级显卡可训练,GTX1080ti、8G的老显卡轻松运行。

想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。

现在只需一句话命令:

无论中英文,图片中的大段文字都能分分钟提取出来:

对一张图做对象检测,还是能给出具体坐标的那种:

这项研究由来自旷视、国科大、华中大的研究人员共同提出。

据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)。

现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。

网友一边表示感兴趣,一边关注点在于旧·GTX1080,心情belike:

“缩小版”Vary

其实,早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。

Vary发布后得到广泛关注,目前Github 1.2k+ star,但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。

那这究竟是如何做到的?

Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。

首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:

而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:

Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:

MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

项目链接:
[1]https://arxiv.org/abs/2401.12503
[2]https://varytoy.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
收评|充满爱芯!A股调整!这个方向又爆了!

收评|充满爱芯!A股调整!这个方向又爆了!

龙行天下虎
2026-05-12 15:12:41
估价8万!带有麒麟号的100元纸币,谁有就发了!

估价8万!带有麒麟号的100元纸币,谁有就发了!

富哥爱收藏
2026-05-10 14:09:59
张艺谋新剧《主角》爆火,张嘉益刘浩存表现平平,37岁女配却出圈

张艺谋新剧《主角》爆火,张嘉益刘浩存表现平平,37岁女配却出圈

冷紫葉
2026-05-11 18:12:37
短剧女神郭宇欣私下照曝光!素颜图美到犯规,和镜头里反差超大。

短剧女神郭宇欣私下照曝光!素颜图美到犯规,和镜头里反差超大。

手工制作阿歼
2026-05-12 15:44:58
盐城盒马新辰里店被曝熟食区苍蝇乱飞,食品卫生安全谁来把关?

盐城盒马新辰里店被曝熟食区苍蝇乱飞,食品卫生安全谁来把关?

俯瞰江苏
2026-05-12 15:41:08
雷霆4比0湖人:如果这是勒布朗在洛杉矶的最后

雷霆4比0湖人:如果这是勒布朗在洛杉矶的最后

张佳玮写字的地方
2026-05-12 14:08:02
不出意外的话,中国未来有超过一半的人口,或将会流入到这些地方

不出意外的话,中国未来有超过一半的人口,或将会流入到这些地方

墨兰史书
2026-05-11 20:00:09
貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

纸鸢奇谭
2026-04-13 16:06:54
乔治娜出镜比基尼宣传片,极致身材尽显品牌代言人魅力

乔治娜出镜比基尼宣传片,极致身材尽显品牌代言人魅力

懂球帝
2026-05-12 11:59:09
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-31 15:11:31
美财长登门下警告,高市急了,咽下日元暴跌苦果,下令扩军赌国运

美财长登门下警告,高市急了,咽下日元暴跌苦果,下令扩军赌国运

璀璨幻行者
2026-05-12 14:06:04
中方通告191国拒台湾参会,赖清德受挫,郑丽文挺一中

中方通告191国拒台湾参会,赖清德受挫,郑丽文挺一中

小彭的灿烂笔记1
2026-05-12 11:49:19
让朝鲜同志帮忙来测试,人民海军0111甲型护卫艇首批定型艇的故事

让朝鲜同志帮忙来测试,人民海军0111甲型护卫艇首批定型艇的故事

顾氏造船厂厂长
2026-05-09 08:00:22
猝不及防!三胎仅6个月,方媛又官宣喜讯,郭富城也倍感意外

猝不及防!三胎仅6个月,方媛又官宣喜讯,郭富城也倍感意外

草莓解说体育
2026-05-10 14:55:22
小米粥再次被关注!医生发现:糖尿病患者喝小米粥时要重视这6点

小米粥再次被关注!医生发现:糖尿病患者喝小米粥时要重视这6点

芹姐说生活
2026-04-25 12:32:30
黑尾酱,彻底消失了?

黑尾酱,彻底消失了?

生如稗草
2026-03-15 08:48:11
联盟未来将被以下三支球队统治!雷霆马刺不可阻挡,爵士一鸣惊人

联盟未来将被以下三支球队统治!雷霆马刺不可阻挡,爵士一鸣惊人

老癘体育解说
2026-05-12 15:02:37
过来人忠告:初中掉队的孩子90%都栽在一个习惯,现在改还来得及

过来人忠告:初中掉队的孩子90%都栽在一个习惯,现在改还来得及

蓁蓁心理抚养
2026-05-12 12:30:11
男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

心理观察局
2026-05-04 08:20:08
张国焘拥兵十万设局拉拢,聂荣臻与林彪激烈争吵砸碎盘子,关键时刻名将究竟如何抉择

张国焘拥兵十万设局拉拢,聂荣臻与林彪激烈争吵砸碎盘子,关键时刻名将究竟如何抉择

寄史言志
2026-05-09 19:45:16
2026-05-12 16:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12608文章数 176461关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

女子立遗嘱遗产归弟弟 其女起诉两人返还857万及房产

头条要闻

女子立遗嘱遗产归弟弟 其女起诉两人返还857万及房产

体育要闻

总是掉链子的“倒霉蛋”,闯进了欧战决赛

娱乐要闻

刘涛晒妈祖诞辰活动照 评论区变许愿池

财经要闻

黄仁勋真是被白宫彻底封杀了

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

数码
家居
本地
亲子
公开课

数码要闻

雷军晒小米电竞鼠标2拆解图:是不是很高级

家居要闻

极简主义下的居住场域与空间

本地新闻

用苏绣的方式,打开江西婺源

亲子要闻

三岁分床,五岁分房,真的有必要吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版