网易首页 > 网易号 > 正文 申请入驻

上海AI Lab开源首个可替代GPT-4V的多模态大模型

0
分享至

大数据文摘受权转载自夕小瑶科技说
作者 | 任同学

与开源和闭源模型相比,InternVL 1.5 在 OCR、多模态、数学和多轮对话等 18 个基准测试中的 8 个中取得了最先进的结果。

上海AI Lab 推出的 InternVL 1.5 是一款开源的多模态大语言模型 (MLLM),旨在弥合开源模型和专有商业模型在多模态理解方面的能力差距。


论文称,InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型,特别是在与 OCR 相关的数据集中。

论文用下面一张图非常生动地展示了他们为 达到 AGI 星球 所做的努力:


图中主要涉及 InternVL 的三个改进:(1)强视觉编码器:为大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略,提高了其视觉理解能力,并使其可以在不同的LLM中迁移和重用。(2)动态高分辨率:根据输入图像的长宽比和分辨率,将图像划分为1到40个448×448像素的图块,最高支持4K分辨率输入。(3)高质量的双语数据集:收集了高质量的双语数据集,涵盖常见场景、文档图像,并用英文和中文问答对进行注释,显着提高了 OCR 和中文相关任务的性能。


总体的结构则是采用与流行的多模态大模型类似的 ViT-MLP-LLM 架构,通过MLP映射器将预训练好的InternViT-6B与InternLM2-20b结合在一起。同时还使用一个简单的Pixel Shuffle 技巧将视觉标记的数量减少到四分之一。

对于动态高分辨率,研究人员则是从预定义的比例中动态匹配最佳宽高比,将图像划分为448×448像素大小的块,并为全局上下文创建缩略图。该方法最大限度地减少了纵横比失真,并在训练期间适应不同的分辨率。

▲图4.动态分辨率。

在训练过程中,视觉标记的数量范围为 256 到 3,328。在测试过程中,图块数量最多可以增加到 40 个,从而产生 10,496 个视觉标记,从而实现最高4K分辨率的输入。

论文中也提供了模型在预训练和微调阶段使用的各类任务以及对应的数据集,并且都是公开数据集。为了构建大规模 OCR 数据集,研究人员还利用 PaddleOCR 对 Wukong 数据集的图像执行中文 OCR,对 LAION-COCO 数据集的图像执行英文 OCR。

▲图5.(a) 预训练阶段使用的数据集

▲图5.(b) 微调阶段使用的数据集。

而InternVL 1.5 的具体性能表现如何?如下图所示,InternVL 1.5 在大多数基准测试中都表现出领先的性能!

▲图6.在 16 个多模式基准上与 SoTA 模型进行比较。

与 TextMonkey、DocOwl-1.5 和 LLaVA-NeXT 等其他开源模型相比,InternVL 1.5 在这些基准测试中显着缩小了与专有模型的差距。

然而,虽然 InternVL 1.5 超越了 MM1,并且在 MMMU 上与 Gemini Pro 1.0 相当,但它比其前身 InternVL 1.2 略有下降。作者也对此进行了分析,并称这可以被认为是适当的降低,且可以归因于语言模型规模较小,这种现象也可以在下图中的 MMT-Bench 结果中观察到。

▲图7. 在ConvBench和MMT-Bench上与SoTA模型的比较。

针对InternVL在不同分辨率下的性能,研究人员也进行了实验。论文称,尽管在训练期间仅使用 1 到 12 个图块,但可以在测试期间将零样本任务扩展到 40 个图块(即,4K分辨率)。

但是作者也发现并不是所有任务都需要高分辨率,从图8来看,与 OCR 相关的任务(例如 DocVQA、InfoVQA、TextVQA 和 OCRBench)受益于分辨率的提高,而 AI2D、MMMU、MMBench 和 HallusionBench 等任务在更高分辨率下表现出轻微下降。

▲图8.不同图像分辨率下 InternVL 1.5 性能的比较。X 轴代表图块数量,Y 轴代表基准性能。最高值及其相应的图块数量会突出显示。

总体而言,InternVL 1.5 对动态分辨率表现出很强的鲁棒性。它可以根据每项任务的具体要求调整分辨率,确保在高分辨率有利的情况下实现最佳性能,在不利于高分辨率的情况下节省资源。

为了充分践行自己对标 GPT-4V的目标,论文中的 General QA、OCR-related QA、科学理解、中国传统文化、目标定位、多图像对话的示例上均与 GPT-4V进行对比,蓝色字体显示出色的答案,而红色字体显示错误的答案。

为了方便读者阅读,(如果非中文)下面的蓝色(或红色)字体的部分均进行中文翻译。

▲General QA 的示例。

▲OCR-related QA 示例。

▲科学理解的例子。

▲中国传统文化的范例。蓝色突出显示了出色的答案

▲目标定位的示例。

▲多图像对话示例。

最后,我们也可以在官方demo中进行试玩:

https://internvl.opengvlab.com

不得不说,这个效果真的很惊喜!不过也存在一些问题,比如说当用 InternVL 1.5 的 arxiv 首页询问的时候,它居然杜撰了自己的作者!看来多模态大模型上的幻觉问题也要赶紧着手研究了~

参考资料

[1]https://arxiv.org/abs/2312.14238
[2]https://github.com/OpenGVLab/InternVL
[3]https://internvl.opengvlab.com
[4]https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“用猪肉反制”丹麦?台当局遭群嘲

“用猪肉反制”丹麦?台当局遭群嘲

环球时报国际
2026-03-31 13:57:41
小孩子能口无遮拦到什么程度!网友:恨不得当场找个地缝钻进去

小孩子能口无遮拦到什么程度!网友:恨不得当场找个地缝钻进去

夜深爱杂谈
2026-03-28 19:52:52
吉林男子吃霸王餐后续!对着警察放狠话,正脸曝光,被拘只是开始

吉林男子吃霸王餐后续!对着警察放狠话,正脸曝光,被拘只是开始

奇思妙想草叶君
2026-03-30 17:09:56
毛主席曾预言:这两个国家将来对中国最大威胁,如今果然应验

毛主席曾预言:这两个国家将来对中国最大威胁,如今果然应验

锅锅爱历史
2026-03-27 10:28:43
16胜5负!还反超老詹纪录,哈登影响力真大,阿特金森也听他建议

16胜5负!还反超老詹纪录,哈登影响力真大,阿特金森也听他建议

巴叔GO聊体育
2026-03-31 13:47:39
公司裁掉了在岗17年的门口保安,老板正庆幸省钱了,保安这时说道

公司裁掉了在岗17年的门口保安,老板正庆幸省钱了,保安这时说道

小秋情感说
2026-03-29 09:53:37
随着辽宁客场102-94击败福建,赛后乌戈最该感谢的非这四人莫属!

随着辽宁客场102-94击败福建,赛后乌戈最该感谢的非这四人莫属!

田先生篮球
2026-03-30 22:11:54
特朗普没料到,5万名美军刚到位,就等来伊朗的导弹和最后通牒

特朗普没料到,5万名美军刚到位,就等来伊朗的导弹和最后通牒

梁蜱爱玩车
2026-03-31 10:27:58
美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

徐云流浪中国
2026-03-04 15:30:07
拖垮一个普通家庭,只需要一台20万的车。

拖垮一个普通家庭,只需要一台20万的车。

老陆不老
2026-03-24 20:20:23
3-2险爆冷,蒯曼赛后回应!张本美和狂轰18-16!王楚钦今晚登场!

3-2险爆冷,蒯曼赛后回应!张本美和狂轰18-16!王楚钦今晚登场!

好乒乓
2026-03-31 12:33:23
轮到伊朗斩首了,导弹砸向美以指挥官卧室,普通政客也被锁定

轮到伊朗斩首了,导弹砸向美以指挥官卧室,普通政客也被锁定

黑鹰观军事
2026-03-30 20:13:13
开拓者:杨瀚森技犯撤销,本周将完成出售,伤病名单更新

开拓者:杨瀚森技犯撤销,本周将完成出售,伤病名单更新

郭夷包工头
2026-03-31 09:16:17
第84波打击!特朗准备最后一击,伊朗已向中国求援,中方斩钉截铁

第84波打击!特朗准备最后一击,伊朗已向中国求援,中方斩钉截铁

辉辉历史记
2026-03-29 14:52:14
斯诺克战报:吴宜泽8-2胜韦克林,特鲁姆普晋级8强

斯诺克战报:吴宜泽8-2胜韦克林,特鲁姆普晋级8强

老壥说体育
2026-03-31 05:50:56
女候选人两败特朗普,民主党拟推2028基督教白男候选人

女候选人两败特朗普,民主党拟推2028基督教白男候选人

流年恰似繁花汐
2026-03-31 13:06:52
国务院里,为啥有的叫“部”,有的叫“委”?

国务院里,为啥有的叫“部”,有的叫“委”?

核电那些事
2026-03-31 07:10:28
绝不惯着!NeurIPS封杀华为、大疆等中企,中国反制,仅4天就道歉

绝不惯着!NeurIPS封杀华为、大疆等中企,中国反制,仅4天就道歉

通鉴史智
2026-03-30 11:33:19
74岁港星施明病逝,儿子未见最后一面,李家鼎无法接受

74岁港星施明病逝,儿子未见最后一面,李家鼎无法接受

阿紵美食
2026-03-31 10:22:54
败退台湾的蒋介石,看到上甘岭战报,含泪说出了15个字的高度评价

败退台湾的蒋介石,看到上甘岭战报,含泪说出了15个字的高度评价

史韵流转
2026-03-30 09:22:48
2026-03-31 14:47:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6844文章数 94536关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

旅游
健康
数码
教育
手机

旅游要闻

“登遍四川”怎能少了蜀山之王?贡嘎山盛邀:人间四月天,海螺看杜鹃

干细胞抗衰4大误区,90%的人都中招

数码要闻

炬芯端侧AI ATS3231单芯片高端游戏耳机方案西伯利亚重磅首发!

教育要闻

别让生病拖垮成绩!春季流感+超短学期,聪明家长都在这样追进度

手机要闻

四曲面屏重出江湖!iPhone 20将搭载1.1毫米极窄边框

无障碍浏览 进入关怀版