网易首页 > 网易号 > 正文 申请入驻

年轻人的第一个多模态大模型,1080Ti轻松运行,已开源在线可玩

0
分享至

Vary-toy团队 投稿
量子位 | 公众号 QbitAI

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!

模型大小不到2B,消费级显卡可训练,GTX1080ti、8G的老显卡轻松运行。

想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。

现在只需一句话命令:

无论中英文,图片中的大段文字都能分分钟提取出来:

对一张图做对象检测,还是能给出具体坐标的那种:

这项研究由来自旷视、国科大、华中大的研究人员共同提出。

据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)。

现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。

网友一边表示感兴趣,一边关注点在于旧·GTX1080,心情belike:

“缩小版”Vary

其实,早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。

Vary发布后得到广泛关注,目前Github 1.2k+ star,但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。

那这究竟是如何做到的?

Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。

首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:

而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:

Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:

MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

项目链接:
[1]https://arxiv.org/abs/2401.12503
[2]https://varytoy.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为啥说医学的尽头是玄学?网友:宁可信其有不可信其无!

为啥说医学的尽头是玄学?网友:宁可信其有不可信其无!

带你感受人间冷暖
2026-03-16 00:25:57
为嫁给美国人,56岁南京大妈奔赴美国,2年后嫁给70岁美国老头

为嫁给美国人,56岁南京大妈奔赴美国,2年后嫁给70岁美国老头

情感艺术家
2026-03-08 22:07:38
315过后良心红榜来了!这些老牌国货值得信赖,老百姓可以放心买

315过后良心红榜来了!这些老牌国货值得信赖,老百姓可以放心买

鲸探所长
2026-03-17 14:22:10
交通部新规:高速收费站拆栏杆,不停车不扫码直接过,时间表定了

交通部新规:高速收费站拆栏杆,不停车不扫码直接过,时间表定了

复转这些年
2026-03-17 10:54:47
东航场站回应航班超售:已当场赔付旅客提出金额并协助改签升舱

东航场站回应航班超售:已当场赔付旅客提出金额并协助改签升舱

新京报
2026-03-17 15:05:11
核武器专家赵宪庚等3名工程院院士被官网除名!

核武器专家赵宪庚等3名工程院院士被官网除名!

核电那些事
2026-03-15 14:48:53
知名企业暴雷,爱尔眼科市值蒸发3000亿,违规造假背后藏多少猫腻

知名企业暴雷,爱尔眼科市值蒸发3000亿,违规造假背后藏多少猫腻

有范又有料
2026-03-17 17:01:05
2026年国家免费电视普及:无需缴纳有线电视费,98.2%家庭可使用

2026年国家免费电视普及:无需缴纳有线电视费,98.2%家庭可使用

阅微札记
2026-03-16 14:31:29
散步几分钟,救了一命!伊朗新领袖死里逃生内幕曝光

散步几分钟,救了一命!伊朗新领袖死里逃生内幕曝光

浯江孤舟
2026-03-17 09:55:43
快看!分期乐、小赢卡贷等20余家网贷开始“退钱”啦

快看!分期乐、小赢卡贷等20余家网贷开始“退钱”啦

呼呼历史论
2026-03-17 18:14:28
击败中国女篮,却无缘世界杯?日本队出线形势曝光:需靠2队帮忙

击败中国女篮,却无缘世界杯?日本队出线形势曝光:需靠2队帮忙

何老师呀
2026-03-17 14:59:02
湖南省商务厅原厅长徐湘平被查

湖南省商务厅原厅长徐湘平被查

上海法治声音
2026-03-17 17:42:06
伊朗最高领袖重要人事任命,其人是谁?

伊朗最高领袖重要人事任命,其人是谁?

极目新闻
2026-03-17 13:29:50
突然,伊朗出现了戏剧性的变化!

突然,伊朗出现了戏剧性的变化!

财经要参
2026-03-17 16:00:03
美国海军是最强大的海军,但为什么美国在霍尔木兹海峡如此吃力?

美国海军是最强大的海军,但为什么美国在霍尔木兹海峡如此吃力?

小萝卜丝
2026-03-17 14:50:46
一锤定音!高速收费改革落地了,2026年车主将享更人性化减免政策

一锤定音!高速收费改革落地了,2026年车主将享更人性化减免政策

另子维爱读史
2026-03-16 21:26:43
书法对决!王洪文江青的字竟比颜真卿差那么多?

书法对决!王洪文江青的字竟比颜真卿差那么多?

书画相约
2026-03-17 08:44:28
黑人男子娶成都女大学生,回赞比亚疯狂炫耀:留个学回来啥都有了

黑人男子娶成都女大学生,回赞比亚疯狂炫耀:留个学回来啥都有了

社会日日鲜
2026-03-16 06:57:15
撕破伪装!伊朗高官嘴上反西方,家人却在欧美享受顶级生活

撕破伪装!伊朗高官嘴上反西方,家人却在欧美享受顶级生活

老马拉车莫少装
2026-03-16 21:02:01
我从油车换到电车后,终于明白:还有那么多人不换车,不是傻,而是聪明

我从油车换到电车后,终于明白:还有那么多人不换车,不是傻,而是聪明

刘哥谈体育
2026-02-16 20:29:51
2026-03-17 22:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
12299文章数 176415关注度
往期回顾 全部

科技要闻

3万字实录|黄仁勋:每家公司都必须懂养虾

头条要闻

男子捉奸妻子收情夫补偿费获罪 改判无罪后又有新进展

头条要闻

男子捉奸妻子收情夫补偿费获罪 改判无罪后又有新进展

体育要闻

那个男人34岁拒绝买断 他要给状元当导师

娱乐要闻

姚晨曹郁发离婚声明 凌潇肃评论区沦陷

财经要闻

多款药品被曝线上线下价差巨大

汽车要闻

10分钟电量20%→97% 低温实测比亚迪闪充

态度原创

亲子
艺术
健康
本地
公开课

亲子要闻

万豆与文文进行触球挑战,谁将胜出?

艺术要闻

捐赠文物3900余件,六莹堂主何许人也?

转头就晕的耳石症,能开车上班吗?

本地新闻

春天出门像出舱?一个过敏星人的装备进化史

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版