网易首页 > 网易号 > 正文 申请入驻

年轻人的第一个多模态大模型,1080Ti轻松运行,已开源在线可玩

0
分享至

Vary-toy团队 投稿
量子位 | 公众号 QbitAI

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!

模型大小不到2B,消费级显卡可训练,GTX1080ti、8G的老显卡轻松运行。

想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。

现在只需一句话命令:

无论中英文,图片中的大段文字都能分分钟提取出来:

对一张图做对象检测,还是能给出具体坐标的那种:

这项研究由来自旷视、国科大、华中大的研究人员共同提出。

据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)。

现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。

网友一边表示感兴趣,一边关注点在于旧·GTX1080,心情belike:

“缩小版”Vary

其实,早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。

Vary发布后得到广泛关注,目前Github 1.2k+ star,但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。

那这究竟是如何做到的?

Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。

首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:

而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:

Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:

MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

项目链接:
[1]https://arxiv.org/abs/2401.12503
[2]https://varytoy.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台海还没开战,另一场恶仗已逼近中国,美撕下伪装,基辛格没说错

台海还没开战,另一场恶仗已逼近中国,美撕下伪装,基辛格没说错

霁寒飘雪
2026-01-10 16:12:58
周小平发表逆天神论:世界没有阿拉伯数字,是西方“剽窃”中国

周小平发表逆天神论:世界没有阿拉伯数字,是西方“剽窃”中国

知鉴明史
2025-12-30 18:33:55
钱再多有什么用?有一个朋友,今年42岁, 存款有700万元

钱再多有什么用?有一个朋友,今年42岁, 存款有700万元

时尚的弄潮
2026-01-07 10:00:25
13日斯诺克大师赛:斯佳辉挑战世界第2,中国3将晋级8强

13日斯诺克大师赛:斯佳辉挑战世界第2,中国3将晋级8强

阿心文史
2026-01-13 08:02:18
和闫俊杰一起敲钟的她:31岁,身价48亿

和闫俊杰一起敲钟的她:31岁,身价48亿

量子位
2026-01-12 17:12:18
2000万粉丝演员哭穷炫富,多个账号被禁言,代言产品全线停产

2000万粉丝演员哭穷炫富,多个账号被禁言,代言产品全线停产

21世纪经济报道
2026-01-10 15:33:36
科贝记者:皇马高层不认同输巴萨方式,像是小球队的应对方式

科贝记者:皇马高层不认同输巴萨方式,像是小球队的应对方式

懂球帝
2026-01-13 04:21:05
人民币现金收付新规!2月起实施!

人民币现金收付新规!2月起实施!

我爱大招远
2026-01-12 17:50:26
勇士交易小波特或迎意外收获:有望促成巴特勒与前热火队友重聚

勇士交易小波特或迎意外收获:有望促成巴特勒与前热火队友重聚

夜白侃球
2026-01-12 21:18:05
利物浦4-1巴恩斯利热议焦点:英甲球队反帮大忙?斯洛特另生担忧

利物浦4-1巴恩斯利热议焦点:英甲球队反帮大忙?斯洛特另生担忧

桥看世界
2026-01-13 07:04:48
新中国成立后,清政府遗留7.3亿两白银烂账,主席一招便成功化解

新中国成立后,清政府遗留7.3亿两白银烂账,主席一招便成功化解

唠叨说历史
2026-01-07 14:51:34
中国的稀土公司,如果绕开国内管制,向西方继续出口就是资敌行为

中国的稀土公司,如果绕开国内管制,向西方继续出口就是资敌行为

墨兰史书
2026-01-13 08:20:05
1950年,林彪摆出4条铁证拒不出兵,毛主席熬红双眼拍板硬打,基辛格:这眼光毒得让人后背发凉

1950年,林彪摆出4条铁证拒不出兵,毛主席熬红双眼拍板硬打,基辛格:这眼光毒得让人后背发凉

清风鉴史
2026-01-12 23:23:16
闫学晶毫发无伤?辽宁卫视关评不回应,佐香园官网首页还是闫学晶

闫学晶毫发无伤?辽宁卫视关评不回应,佐香园官网首页还是闫学晶

萌神木木
2026-01-12 18:07:22
伊朗政府出手了

伊朗政府出手了

陆弃
2026-01-13 08:30:03
1949年六大名著改为四大名著,去掉的那两本家喻户晓,你可能想不到

1949年六大名著改为四大名著,去掉的那两本家喻户晓,你可能想不到

历史回忆室
2026-01-09 20:33:14
全世界就中国有!曾被老百姓当柴烧,2023年洞庭湖又发现两三百棵

全世界就中国有!曾被老百姓当柴烧,2023年洞庭湖又发现两三百棵

北纬的咖啡豆
2026-01-04 14:49:26
不到48小时,闫学晶再迎2大噩耗,何庆魁也被牵连

不到48小时,闫学晶再迎2大噩耗,何庆魁也被牵连

兴史兴谈
2026-01-11 01:30:59
老太因吃6颗荔枝进ICU,女儿让摊贩赔66万,荔枝化验结果让她愣住

老太因吃6颗荔枝进ICU,女儿让摊贩赔66万,荔枝化验结果让她愣住

青青会讲故事
2025-07-01 12:39:56
干部退休的我,晚年做过最蠢的事,就是卖掉单位房和儿子住上下楼

干部退休的我,晚年做过最蠢的事,就是卖掉单位房和儿子住上下楼

人间百态大全
2026-01-13 06:40:03
2026-01-13 09:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12006文章数 176358关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

针对中国稀土 贝森特很恼火:其它国家怎么一点不着急

头条要闻

针对中国稀土 贝森特很恼火:其它国家怎么一点不着急

体育要闻

一场安东尼奥式胜利,给中国足球带来惊喜

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

年化400% 高利网贷“变形记”

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

房产
游戏
健康
艺术
军事航空

房产要闻

重磅调规!417亩商改住+教育地块!海口西海岸又要爆发!

LPL公布新赛季赞助商名单,四大金主确认撤资,Doinb原来没骗人?

血常规3项异常,是身体警报!

艺术要闻

Andrew Festing:当代英国肖像画家

军事要闻

官方确认:歼10CE在空战中击落多架战机

无障碍浏览 进入关怀版