网易首页 > 网易号 > 正文 申请入驻

开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

开源多模态SOTA模型再易主!

Hugging Face开发者大使刚刚把王冠交给了CogVLM2,来自大模型创业公司智谱AI

CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro,还不是超过一点,是大幅领先。



网友闻讯而来,发现ChatGPT新绝技之“AI挑瓜”,我们开源届也不缺了。





更复杂的学术图表,它也能理解并给出详细解释。



CogVLM2整体模型参数量仅19B,却能在多项指标取得接近或超过GPT-4V的水平,此外还有几大亮点:

  • 支持8K文本长度
  • 支持高达1344*1344的图像分辨率
  • 提供支持中英文双语的开源模型版本
  • 开源可商用



英文版经网友测试也有不错的表现。



特别值得注意的是,尽管CogVLM2的总参数量为19B,但得益于精心设计的多专家模块结构,每次进行推理时实际激活的参数量仅约12B,这样一来,全量推理(BF16/PF16)需要42GB 显存。

接下来划重点了:

Int4量化版本,仅需要16GB显存。

也就是一张英伟达RTX4080,或者刚出不久的RTX4070 Ti SUPER就能搞定了。

性能不俗,算力需求也不离谱,以至于刚开源不久就在GitHub上小火了一把,各类开发者带着自己的场景来找团队咨询。



团队也贴心的表示,考虑到很多实际场景需要微调,专门给大家提供了Lora微调代码

  • 冻结视觉部分,BF16 Lora微调仅需57GB显存
  • 如果同时对视觉部分进行 BF16 Lora微调,则至少需要80GB显存



CogVLM2也提供在线Demo,感兴趣的话可以先试玩一下。

(试玩地址在文末领取)



好嘛,一般的小诡计还真骗不过它~

大模型整合视觉专家模块

其实去年10月,团队就发布了CogVLM一代,量子位当时也介绍过。

系列的核心思路,是给大语言模型的每一层都添加可训练的视觉专家模块,以实现图像特征和文本特征的深度对齐,而不会牺牲NLP任务的性能。

可以说是把视觉语言模型的训练方式,从图像文本的浅层对齐,转向了深度融合。



CogVLM2在继承这一经典架构的基础上,做了不少优化和改进。

语言模型基座升级成最新的Llama3-8B-Instruct视觉编码器升级到5B、视觉专家模块也升级到7B,支持更高的图像分辨率等等。

特别是视觉专家模块,通过独特的参数设置精细地建模了视觉与语言序列的交互,确保了在增强视觉理解能力的同时,不会削弱模型在语言处理上的原有优势。

升级后能力有多强?

在不损失任何通用能力的前提下,在许多关键指标上有了显著提升,如在 OCRbench基准上性能提升32%,在TextVQA基准上性能提升21.9%,且模型具备了较强的文档图像理解能力(DocVQA)等。

也可以来个更直观的展示:

现在,复杂的模型架构图都可以让CogVLM2自己描述一遍,而一代的时候我们也测试过,当时还是有难度的。



为了更为严格地验证CogVLM的性能和泛化能力,一系列多模态基准上的定量评估更能说明问题。

CogVLM2的两个模型,尽管具有较小的模型尺寸,但在多个基准中取得 SOTA性能;而在其他性能上,也能达到与闭源模型(例如GPT-4V、Gemini Pro等)接近的水平。



中文能力到位,模型代码试玩开放

可能有人会疑惑,Llama3系列是出了名的能看懂中文,但死活不愿意用中文完整回答,有一种各说各话、跨服交流的美。

怎么到CogVLM2这里,加入视觉专家模块之后,中文输出能力也这么6了?

我们就这个问题询问了智谱团队,他们表示为了解决这个问题可费了不少功夫。

团队判断Llama 3 8B Instruct模型的训练数据中可能包含了大量英文数据,而中文数据的比例相对较低

找到问题,就能对症下药了:

首先,在预训练阶段,团队收集了大量的中文图文数据,涵盖了中文场景的各种情况。
特别是针对中文场景进行了OCR和文档等类型的数据收集。通过这些数据,我们使得模型在预训练阶段就能够充分接触和理解中文语境。
其次,在指令微调阶段也构造了一些高质量的中文数据。这些数据包含了各种中文指令和对应的回答,使得模型能够更好地理解和回答中文问题。在这个过程中确保中英数据的比例在一个合理的范围内,从而使得模型在处理中文问题时能够更加得心应手。

通过这些措施,CogVLM2在支持中文方面就有了显著的提升,无论是在理解中文问题还是在用中文回答问题方面,都成了亮点和优势

比如识别火车票信息,再整理成json格式,部分文字反光或者掉色也不受影响。



又或者识别并描述复杂户型图,连注释和水印都不放过。



又或者识别中文手写字体。



甚至古代字体。



最后,奉上CogVLM2开源相关的一系列链接,感兴趣的朋友可以自取。

团队还透露,GLM新版本会内嵌CogVLM2能力,在智谱清言App智谱AI大模型MaaS开放平台上线。

代码仓库:
github.com/THUDM/CogVLM2

模型下载:
Huggingface:huggingface.co/THUDM
魔搭社区:modelscope.cn/models/ZhipuAI
始智社区:wisemodel.cn/models/ZhipuAI

Demo体验:
http://36.103.203.44:7861

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
扎心了!山东34岁大龄剩女相亲看中年薪50万上海剩男,被嫌弃太老

扎心了!山东34岁大龄剩女相亲看中年薪50万上海剩男,被嫌弃太老

四象八卦
2024-06-15 02:01:53
大气!刘奔博士回应因姜萍走红,赞姜萍有实力,我却笑死在评论区

大气!刘奔博士回应因姜萍走红,赞姜萍有实力,我却笑死在评论区

综艺拼盘汇
2024-06-15 15:34:19
F-16登场,留给侵略者耀武扬威的时间不多喽

F-16登场,留给侵略者耀武扬威的时间不多喽

临墨有余
2024-06-13 09:06:39
最新情况!前京东副总裁蔡磊5月10日转入协和ICU,曾经考虑气切!

最新情况!前京东副总裁蔡磊5月10日转入协和ICU,曾经考虑气切!

谈娱新语
2024-06-14 22:02:42
中国女排决战土耳其有变,郎平督战,蔡斌挑战世界第一,朱婷拼了

中国女排决战土耳其有变,郎平督战,蔡斌挑战世界第一,朱婷拼了

宗介说体育
2024-06-15 17:20:38
一边出口创新高,一边大量的企业迁离倒闭,工人失业,原因是什么

一边出口创新高,一边大量的企业迁离倒闭,工人失业,原因是什么

创作者朱海平
2024-06-15 13:18:49
江宏杰秀刺青,将儿女纹在胸口,发文不怕刺激到福原爱?

江宏杰秀刺青,将儿女纹在胸口,发文不怕刺激到福原爱?

素素娱乐
2024-06-14 07:48:51
欧洲杯首轮:CCTV5直播,黄金时间,西班牙、意大利奋战死亡之组

欧洲杯首轮:CCTV5直播,黄金时间,西班牙、意大利奋战死亡之组

侧身凌空斩
2024-06-15 12:41:41
人类为什么没有生殖隔离?

人类为什么没有生殖隔离?

读史
2024-06-14 07:00:30
“今年真不好报”,张雪峰透露报考变化:生物被抛弃,工科变化大

“今年真不好报”,张雪峰透露报考变化:生物被抛弃,工科变化大

熙熙说教
2024-06-14 15:29:17
现在是6月15日夜晚,突发一个重大消息,或将引发重大影响?

现在是6月15日夜晚,突发一个重大消息,或将引发重大影响?

股市皆大事
2024-06-15 16:12:25
俄乌局势升级!梅德韦杰夫将被逮捕?紧张时刻,王毅直飞俄罗斯

俄乌局势升级!梅德韦杰夫将被逮捕?紧张时刻,王毅直飞俄罗斯

壹号评论
2024-06-14 04:50:02
为什么现在的人难找工作?知乎高赞回答揭晓真相!

为什么现在的人难找工作?知乎高赞回答揭晓真相!

月影说职场
2024-06-13 10:50:50
北约高官透露:北约30天内可派出超30万大军

北约高官透露:北约30天内可派出超30万大军

海外网
2024-06-14 17:02:02
真没白等!10个连续跌停,抄底大军涌进5700%,撬开45万手封单

真没白等!10个连续跌停,抄底大军涌进5700%,撬开45万手封单

惜别的海岸
2024-06-15 08:10:41
温州六中46名学生意外溺亡,头七集体出现在教室,背后真相是什么

温州六中46名学生意外溺亡,头七集体出现在教室,背后真相是什么

二十一号故事铺
2024-06-12 11:09:36
美媒:中国北斗导航系统已逐步取代GPS,美国或有巨大风险!

美媒:中国北斗导航系统已逐步取代GPS,美国或有巨大风险!

吾天
2024-06-14 00:03:56
6月14日俄乌最新:历史性的一天

6月14日俄乌最新:历史性的一天

西楼饮月
2024-06-14 14:42:16
已做牺牲准备!央视曝光东部战区激烈对峙, 外机亮导弹被轰6逼退

已做牺牲准备!央视曝光东部战区激烈对峙, 外机亮导弹被轰6逼退

影孖看世界
2024-06-11 20:33:13
中国锁定总决赛,塞尔维亚出局,八强已定六席,世联最新排名

中国锁定总决赛,塞尔维亚出局,八强已定六席,世联最新排名

撒丁岛体育
2024-06-14 22:40:48
2024-06-15 20:40:49
量子位
量子位
追踪人工智能动态
9534文章数 175378关注度
往期回顾 全部

科技要闻

TikTok开始找退路了?

头条要闻

美军被指曾在菲律宾开展行动抹黑中国疫苗 科兴回应

头条要闻

美军被指曾在菲律宾开展行动抹黑中国疫苗 科兴回应

体育要闻

残暴的德国战车,和苏格兰的祖传倒霉蛋

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

新情况!高层对人民币的态度180°转弯

汽车要闻

东风奕派eπ008售21.66万元 冰箱彩电都配齐

态度原创

游戏
时尚
艺术
手机
房产

《赛博朋克》被取消DLC:登月&第二次企业大战

伊姐周六热推:电影《爸爸是外星人》;电视剧《玫瑰的故事》......

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

手机要闻

曝小米15计划9月量产:首发骁龙8 Gen4

房产要闻

万华对面!海口今年首宗超百亩宅地,重磅挂出!

无障碍浏览 进入关怀版