网易首页 > 网易号 > 正文 申请入驻

年轻人的第一个多模态大模型,1080Ti轻松运行,已开源在线可玩

0
分享至

Vary-toy团队 投稿
量子位 | 公众号 QbitAI

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!

模型大小不到2B,消费级显卡可训练,GTX1080ti、8G的老显卡轻松运行。

想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。

现在只需一句话命令:

无论中英文,图片中的大段文字都能分分钟提取出来:

对一张图做对象检测,还是能给出具体坐标的那种:

这项研究由来自旷视、国科大、华中大的研究人员共同提出。

据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)。

现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。

网友一边表示感兴趣,一边关注点在于旧·GTX1080,心情belike:

“缩小版”Vary

其实,早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。

Vary发布后得到广泛关注,目前Github 1.2k+ star,但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。

那这究竟是如何做到的?

Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。

首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:

而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:

Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:

MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

项目链接:
[1]https://arxiv.org/abs/2401.12503
[2]https://varytoy.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老道士揭秘:家中这三样东西消失,一定是被人借运了!千万要小心

老道士揭秘:家中这三样东西消失,一定是被人借运了!千万要小心

古怪奇谈录
2026-01-05 11:32:51
2026社区上门登记别乱填!这2种调查要分清,关系你的福利

2026社区上门登记别乱填!这2种调查要分清,关系你的福利

娱乐的硬糖吖
2026-01-12 14:44:31
哈国突然断气,中国稀土受挫,美国 9 亿拿下七成矿权,地缘棋局再变

哈国突然断气,中国稀土受挫,美国 9 亿拿下七成矿权,地缘棋局再变

花小猫的美食日常
2026-01-12 05:45:02
一笔巨款曝光,特朗普父子这件事,终于惊动整个美国金融圈

一笔巨款曝光,特朗普父子这件事,终于惊动整个美国金融圈

近史博览
2026-01-12 14:16:19
赵丽颖、黄晓明真给配角抬轿子?《小城大事》配角团“杀疯了”!

赵丽颖、黄晓明真给配角抬轿子?《小城大事》配角团“杀疯了”!

肆季娱乐
2026-01-12 17:00:23
13日零时起 成都重污染天气将升级为橙色预警

13日零时起 成都重污染天气将升级为橙色预警

财联社
2026-01-12 22:34:15
国家标准全文免费公开 成效显著 全年浏览量达1亿多次

国家标准全文免费公开 成效显著 全年浏览量达1亿多次

每日经济新闻
2026-01-12 13:01:22
网传《歌手2026》阵容,可信度太高,谁会得“冠军”呼之欲出

网传《歌手2026》阵容,可信度太高,谁会得“冠军”呼之欲出

楚楚号
2026-01-12 06:48:55
2026择业大变革!国家发文打通体制内外,编制不再是唯一铁饭碗

2026择业大变革!国家发文打通体制内外,编制不再是唯一铁饭碗

马蹄烫嘴说美食
2026-01-13 00:48:00
中方是否计划采取行动帮助马杜罗夫妇获释?外交部回应

中方是否计划采取行动帮助马杜罗夫妇获释?外交部回应

新京报政事儿
2026-01-07 15:41:25
A股彻底癫了!17连阳又见证历史!

A股彻底癫了!17连阳又见证历史!

老A情报圈
2026-01-13 00:12:40
我国发电装备制造关键核心技术取得重大突破

我国发电装备制造关键核心技术取得重大突破

财联社
2026-01-12 23:18:19
老太因吃6颗荔枝进ICU,女儿让摊贩赔66万,荔枝化验结果让她愣住

老太因吃6颗荔枝进ICU,女儿让摊贩赔66万,荔枝化验结果让她愣住

青青会讲故事
2025-07-01 12:39:56
1.13股市早8点丨股市最好下场雨·好让大家喘口气

1.13股市早8点丨股市最好下场雨·好让大家喘口气

沙黾农
2026-01-13 06:26:40
不续约!樊振东回答是暂不考虑!球迷急呼:王励勤该给台阶了

不续约!樊振东回答是暂不考虑!球迷急呼:王励勤该给台阶了

最爱乒乓球
2026-01-12 08:31:45
曝某头部新势力将关店、裁员!

曝某头部新势力将关店、裁员!

电动知家
2026-01-11 13:59:09
慈禧人生最后一天:上午处理光绪的后事,下午删改遗诏穿上了寿衣

慈禧人生最后一天:上午处理光绪的后事,下午删改遗诏穿上了寿衣

铭记历史呀
2026-01-12 15:12:59
唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

章眽八卦
2026-01-05 12:27:07
去年上海结婚登记125102对,比2024年增长38.7%

去年上海结婚登记125102对,比2024年增长38.7%

澎湃新闻
2026-01-12 20:34:28
51岁迪拜前王妃哈雅现身,又老又胖,女儿逃离王室后面相也变了

51岁迪拜前王妃哈雅现身,又老又胖,女儿逃离王室后面相也变了

笑傲春秋
2026-01-12 15:19:36
2026-01-13 07:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12006文章数 176358关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

"摇人杀猪"女孩一天涨粉150万:我捅了大娄子

头条要闻

"摇人杀猪"女孩一天涨粉150万:我捅了大娄子

体育要闻

一场安东尼奥式胜利,给中国足球带来惊喜

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

房产
家居
健康
艺术
教育

房产要闻

重磅调规!417亩商改住+教育地块!海口西海岸又要爆发!

家居要闻

包络石木为生 野性舒适

血常规3项异常,是身体警报!

艺术要闻

Andrew Festing:当代英国肖像画家

教育要闻

孩子教会我们,失误无需畏惧

无障碍浏览 进入关怀版