网易首页 > 网易号 > 正文 申请入驻

年轻人的第一个多模态大模型,1080Ti轻松运行,已开源在线可玩

0
分享至

Vary-toy团队 投稿
量子位 | 公众号 QbitAI

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!

模型大小不到2B,消费级显卡可训练,GTX1080ti、8G的老显卡轻松运行。

想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。

现在只需一句话命令:

无论中英文,图片中的大段文字都能分分钟提取出来:

对一张图做对象检测,还是能给出具体坐标的那种:

这项研究由来自旷视、国科大、华中大的研究人员共同提出。

据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)。

现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。

网友一边表示感兴趣,一边关注点在于旧·GTX1080,心情belike:

“缩小版”Vary

其实,早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。

Vary发布后得到广泛关注,目前Github 1.2k+ star,但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。

那这究竟是如何做到的?

Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。

首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:

而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:

Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:

MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

项目链接:
[1]https://arxiv.org/abs/2401.12503
[2]https://varytoy.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
过来人的忠告:和女婿相处,永远不要表现出这3种行为,记住了

过来人的忠告:和女婿相处,永远不要表现出这3种行为,记住了

大熊欢乐坊
2026-06-27 10:29:42
91岁传奇记者提问,阿根廷主帅破例泄漏消息:梅西明天不首发,“因为是您提问的,您值得这个答案”

91岁传奇记者提问,阿根廷主帅破例泄漏消息:梅西明天不首发,“因为是您提问的,您值得这个答案”

红星新闻
2026-06-27 11:18:38
道德败坏,是个例还是普遍现象?

道德败坏,是个例还是普遍现象?

通往远方的路
2026-06-26 09:32:55
真不惯着你!字母刚来热火就吃闭门羹,特权没了,球队还想省钱

真不惯着你!字母刚来热火就吃闭门羹,特权没了,球队还想省钱

你的篮球频道
2026-06-27 08:40:09
高市早苗宣称出席APEC但不见中方,日媒都看不下去

高市早苗宣称出席APEC但不见中方,日媒都看不下去

透视到底
2026-06-27 12:11:17
中国正式改口,不再称"日本政府",新称呼的杀伤力,比制裁还大

中国正式改口,不再称"日本政府",新称呼的杀伤力,比制裁还大

伴史缘
2026-06-27 10:35:00
“欠下”10000亿!雷军做什么都是错的

“欠下”10000亿!雷军做什么都是错的

鸣金网
2026-06-24 20:20:42
山姆确认,尚未调价!全国多地门店iPad及Mac遭疯抢,网友:比618还是贵了

山姆确认,尚未调价!全国多地门店iPad及Mac遭疯抢,网友:比618还是贵了

都市快报橙柿互动
2026-06-26 22:35:20
韩红回应走个面:浑身在发抖

韩红回应走个面:浑身在发抖

老吴教育课堂
2026-06-26 12:03:07
30家A股公司集体提示风险,8股发布利好

30家A股公司集体提示风险,8股发布利好

21世纪经济报道
2026-06-27 07:46:23
小国奇迹!佛得角不败出线,1/16决赛将面对卫冕冠军阿根廷

小国奇迹!佛得角不败出线,1/16决赛将面对卫冕冠军阿根廷

红星新闻
2026-06-27 10:37:43
外媒:中国不可怕,可怕的是中国用太阳能电池板,消灭了沙漠!

外媒:中国不可怕,可怕的是中国用太阳能电池板,消灭了沙漠!

离离言几许
2026-06-26 00:36:23
美股存储芯片全线重挫,安森美半导体暴跌近24%,闪迪跌近11%,中国资产走强,国际油价跳水,美军称对伊朗实施打击

美股存储芯片全线重挫,安森美半导体暴跌近24%,闪迪跌近11%,中国资产走强,国际油价跳水,美军称对伊朗实施打击

21世纪经济报道
2026-06-27 06:53:24
中国观众认定的烂片,海外观众当成宝,票房破21亿夺北美冠军‍

中国观众认定的烂片,海外观众当成宝,票房破21亿夺北美冠军‍

靠谱电影君
2026-06-26 21:55:28
韩国球迷指责德日澳放水FIFA,却绝口不提撤主力输南非

韩国球迷指责德日澳放水FIFA,却绝口不提撤主力输南非

丁隗解说
2026-06-27 04:37:27
大家提前做好准备,不出意外的话,7月开始中国或将出现4大变化

大家提前做好准备,不出意外的话,7月开始中国或将出现4大变化

笑熬浆糊111
2026-06-27 12:00:27
乌拉圭罪人?40岁门将3场3次离谱失误:5次送礼历史最差 不停抱怨

乌拉圭罪人?40岁门将3场3次离谱失误:5次送礼历史最差 不停抱怨

风过乡
2026-06-27 09:18:27
中国网友的造梗能力能拿世界杯冠军

中国网友的造梗能力能拿世界杯冠军

雷斯林
2026-06-25 14:27:51
高考最难省份诞生!家长欲哭无泪:高考600分,却连一本都上不了

高考最难省份诞生!家长欲哭无泪:高考600分,却连一本都上不了

凯旋学长
2026-06-25 17:18:12
《教父》当你接触的人够多,就会发现:低层次的人,爱占便宜;中等层次的人,热衷价值交换;高层次的人都在做这两件事

《教父》当你接触的人够多,就会发现:低层次的人,爱占便宜;中等层次的人,热衷价值交换;高层次的人都在做这两件事

心理观察局
2026-06-27 06:16:04
2026-06-27 13:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12850文章数 176505关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

中国"避暑神器"在欧洲卖爆 生产企业:正加班加点补货

头条要闻

中国"避暑神器"在欧洲卖爆 生产企业:正加班加点补货

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

杨紫获白玉兰最佳女主角奖,泪洒现场

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

艺术
本地
教育
时尚
公开课

艺术要闻

李晓林 2026年人物写生新作

本地新闻

世界杯球迷节:比球赛更好玩的派对

教育要闻

安徽中医药大学招生计划是多少?今年新增哪些专业?来看官方解答!(编辑:小yu)

“这件衣服”今年夏天越来越流行!简单穿就很好看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版