网易首页 > 网易号 > 正文 申请入驻

横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

0
分享至

新智元报道

编辑:LRS

【新智元导读】哈工深发布全新多模态大语言模型九天(JiuTian-LION),融合细粒度空间感知和高层语义视觉知识,在13个评测任务上实现了sota性能。

为了应对多模态大语言模型中视觉信息提取不充分的问题,哈尔滨工业大学(深圳)的研究人员提出了双层知识增强的多模态大语言模型-九天(JiuTian-LION)。

论文链接: https://arxiv.org/abs/2311.11860

GitHub: https://github.com/rshaojimmy/JiuTian

项目主页: https://rshaojimmy.github.io/Projects/JiuTian-LION

与现有的工作相比,九天首次分析了图像级理解任务和区域级定位任务之间的内部冲突,提出了分段指令微调策略和混合适配器来实现两种任务的互相提升。

通过注入细粒度空间感知和高层语义视觉知识,九天实现了在包括图像描述、视觉问题、和视觉定位等17个视觉语言任务上显著的性能提升( 比如Visual Spatial Reasoning 上高达5% 的性能提升),在其中13个评测任务上达到了国际领先水平,性能对比如图1所示。

图1:对比其他MLLMs,九天在大部分任务上都取得了最优的性能。

九天JiuTian-LION

借助大型语言模型(LLMs)惊人的语言理解能力,一些工作开始通过赋予 LLM 多模态感知能力,来生成多模态大语言模型(MLLMs),并在很多视觉语言任务上取得突破性进展。但是现有的MLLMs大多采用图文对预训练得到的视觉编码器,比如 CLIP-ViT。

这些视觉编码器主要学习图像层面的粗粒度图像文本模态对齐,而缺乏全面的视觉感知和信息抽取能力,包括细粒度视觉理解。

这种视觉信息抽取不足,理解程度不够的问题,在很大程度上会导致MLLMs存在视觉定位偏差,空间推理不足,物体幻觉等诸多缺陷,如图2所示。

图2:双层视觉知识增强的多模态大语言模型-九天(JiuTian-LION)。

与现有的多模态大语言模型(MLLMs)相比,九天通过注入细粒度空间感知视觉知识和高层语义视觉证据,有效地提升了MLLMs的视觉理解能力,生成更准确的文本回应,减少了MLLMs的幻觉现象。

双层视觉知识增强的多模态大语言模型-九天(JiuTian-LION)

为了弥补MLLMs中视觉信息提取不足,理解程度不够的问题,研究人员提出了双层视觉知识增强的MLLMs,简称九天(JiuTian-LION),方法框架如图3所示。

该方法主要从两方面增强MLLMs,渐进式融合细粒度空间感知视觉知识(Progressive Incorporation of Fine-grained Spatial-aware Visual knowledge)和软提示下的高层语义视觉证据(Soft Prompting of High-level Semantic Visual Evidence)。

具体来说,研究人员提出了分段指令微调策略来解决图像级理解任务和区域级定位任务之间存在的内部冲突,渐进式地将细粒度空间感知知识注入到 MLLMs 中。同时将图像标签作为高层语义视觉证据加入到 MLLMs,并利用软提示方法来减轻不正确标签带来的潜在负面影响。

图3:九天( JiuTian-LION) 模型框架图。

该工作通过分段式训练策略先分别基于Q-Former 和 Vision Aggregator – MLP 两个分支学习图像级理解和区域级定位任务,然后在最后训练阶段利用具有路由机制的混合适配器来动态融合不同分支的知识提升模型在两种任务的表现。

该工作还通过 RAM 提取图像标签作为高层语义视觉证据,然后提出软提示方法提升高层语义注入的效果。

渐进式融合细粒度空间感知视觉知识

当直接将图像级理解任务(包括图像描述和视觉问答)与区域级定位任务(包括指示表达理解,指示表达生成等)进行单阶段混合训练时,MLLMs 会遭遇两种任务之间存在的内部冲突,从而不能在所有任务上取得较好的综合性能。

研究人员认为这种内部冲突主要由两个问题引起。第一个问题是缺少区域级的模态对齐预训练,当前具有区域级定位能力的 MLLMs 大多先使用大量相关数据进行预训练,不然很难在有限地训练资源下让基于图像级模态对齐的视觉特征适应区域级任务。

另一个问题是图像级理解任务和区域级定位任务之间的输入输出模式差异,后者需要模型额外理解关于物体坐标的特定短句(以的形式)。为了解决以上问题,研究人员提出了分段式指令微调策略,以及具有路由机制的混合适配器。

如图4所示,研究人员将单阶段指令微调过程拆分为三阶段:

阶段1,利用 ViT,Q-Former,和image-level adapter 来学习图像级理解任务中包含的全局视觉知识;阶段2,利用Vision Aggregator, MLP,和 region-level adapter 去学习区域级定位任务中包含的细粒度空间感知视觉知识;阶段3,提出了具有路由机制的混合适配器来动态融合不同分支中学习到的不同粒度的视觉知识。表3展示了分段式指令微调策略相比较单阶段训练的性能优势。

图4:分段式指令微调策略

软提示下的高层语义视觉证据注入

作为一个有力的补充,研究人员提出利用图像标签作为高层语义视觉证据来进一步增强 MLLMs 的全局视觉感知理解能力。

具体来说,首先通过 RAM 提取图像的标签,然后利用特定的指令模版“According to , you are allowed to use or partially use the following tags:”包装图像标签。该指令模版中的“”会被替换为一个可学习的软提示向量。

配合模版中特定短语“use or partially use”,软提示向量可以指导模型减轻不正确标签带来的潜在负面影响。

实验结果

研究人员在包括图像描述(image captioning)、视觉问答(VQA)、和指示表达理解(REC)等17个任务基准集上进行了评测。

实验结果表明,九天在13个评测集上达到了国际领先水平。特别的,相比较 InstructBLIP 和 Shikra,九天分别在图像级理解任务和区域级定位任务上取得了全面且一致的性能提升,在 Visual Spatial Reasoning (VSR) 任务上可达到最高5%的提升幅度。

图5提供了在不同视觉语言多模态任务上,九天和其他 MLLMs 的能力差异,说明了九天可以取得更优的细粒度视觉理解和视觉空间推理能力,并且输出具有更少幻觉的文本回应。

图5:定性分析九天大模型和 InstructBLIP、Shikra 的能力差异

图6通过样本分析,表明了九天模型在图像级和区域级视觉语言任务上都具有优秀的理解和识别能力。

图6:更多例子分析,从图像和区域级视觉理解层面展现九天大模型的能力

总结

(1)该工作提出了一个新的多模态大语言模型-九天:通过双层视觉知识增强的多模态大语言模型。

(2)该工作在包括图像描述、视觉问答和指示表达理解等17个视觉语言任务基准集上进行评测,其中13个评测集达到了当前最好的性能。

(3)该工作提出了一个分段式指令微调策略来解决图像级理解和区域级定位任务之间的内部冲突,实现了两种任务的互相提升。

(4)该工作成功将图像级理解和区域级定位任务进行整合,多层次全面理解视觉场景,未来可以将这种全面的视觉理解能力应用到具身智能场景,帮助机器人更好、更全面地识别和理解当前环境,做出有效决策。

参考资料:

https://arxiv.org/abs/2311.11860

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
核圈失守!以色列防空神话被击穿,伊朗打击圈冲出中东近4000公里,美以伊三方棋局彻底乱了!

核圈失守!以色列防空神话被击穿,伊朗打击圈冲出中东近4000公里,美以伊三方棋局彻底乱了!

国是直通车
2026-03-22 16:00:02
炸!炸!炸!接连发射!日本都蒙圈了!

炸!炸!炸!接连发射!日本都蒙圈了!

安安说
2026-03-18 10:57:06
一定要好好活着,人一死啥都没了。

一定要好好活着,人一死啥都没了。

老陆不老
2026-03-21 15:50:43
美为打通霍尔木兹海峡“不择手段” 伊朗或“鱼死网破”

美为打通霍尔木兹海峡“不择手段” 伊朗或“鱼死网破”

大象新闻
2026-03-22 19:53:04
两头堵,油价上涨,电车充电上涨,还是百姓买了单,不止是尴尬!

两头堵,油价上涨,电车充电上涨,还是百姓买了单,不止是尴尬!

眼光很亮
2026-03-22 12:47:44
长春路虎哥刚被刑拘,人民网出手!多人受牵连,更严重的还在后面

长春路虎哥刚被刑拘,人民网出手!多人受牵连,更严重的还在后面

奇思妙想草叶君
2026-03-22 00:49:16
国安部郑重提醒:手机这些功能别常开,及时关闭更安全

国安部郑重提醒:手机这些功能别常开,及时关闭更安全

Thurman在昆明
2026-03-22 21:15:07
上海出了一家水变油的“科技”公司?财联社还帮忙宣传,全是一伙诈骗犯

上海出了一家水变油的“科技”公司?财联社还帮忙宣传,全是一伙诈骗犯

回旋镖
2026-03-22 10:31:37
黄金,狂跌不止

黄金,狂跌不止

云观新闻
2026-03-22 13:49:45
女教师卖自拍淫秽视频获利24万,将自己裸体视频与和他人的性爱视频通过发送链接,出售给他人观看

女教师卖自拍淫秽视频获利24万,将自己裸体视频与和他人的性爱视频通过发送链接,出售给他人观看

观威海
2026-03-22 07:59:02
“这真是玩手机玩的”,8岁女孩吃饭姿势怪异,网友都看不下去了

“这真是玩手机玩的”,8岁女孩吃饭姿势怪异,网友都看不下去了

妍妍教育日记
2026-03-22 08:30:09
撕破脸!巴拿马总统公开痛骂长和,138亿仲裁案突然反转这下慌了

撕破脸!巴拿马总统公开痛骂长和,138亿仲裁案突然反转这下慌了

陈博世财经
2026-03-22 14:09:07
美伊这一战,已经永久改变了世界

美伊这一战,已经永久改变了世界

求实处
2026-03-23 00:05:36
名嘴郭正亮解释“为什么不上少康战情室节目了”

名嘴郭正亮解释“为什么不上少康战情室节目了”

总在茶余后
2026-03-23 01:15:52
浙江一车主崩溃求救:车上有只“超凶大老鼠”!消防员苦战20分钟发现竟是……

浙江一车主崩溃求救:车上有只“超凶大老鼠”!消防员苦战20分钟发现竟是……

台州交通广播
2026-03-22 00:25:57
伊朗提出停战六项条件!内塔尼亚胡:将直接打击伊朗伊斯兰革命卫队领导人

伊朗提出停战六项条件!内塔尼亚胡:将直接打击伊朗伊斯兰革命卫队领导人

上观新闻
2026-03-22 21:16:08
马斯克发布全球最大2nm芯片工厂!年产算力1万亿瓦 美国全国电力都喂不饱 他想了个绝招

马斯克发布全球最大2nm芯片工厂!年产算力1万亿瓦 美国全国电力都喂不饱 他想了个绝招

快科技
2026-03-22 12:47:28
特朗普要炸电厂伊朗要炸水厂,波斯湾更危险了 | 京酿馆

特朗普要炸电厂伊朗要炸水厂,波斯湾更危险了 | 京酿馆

新京报评论
2026-03-22 17:39:56
人社部悄悄公布一条消息,事关养老金,家里有老人的得注意

人社部悄悄公布一条消息,事关养老金,家里有老人的得注意

社保精算师
2026-03-22 21:06:05
反转太突然!重庆举报案:上午道歉,下午纪委火速介入

反转太突然!重庆举报案:上午道歉,下午纪委火速介入

陈博世财经
2026-03-22 10:49:17
2026-03-23 04:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14786文章数 66706关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

媒体:特朗普48小时通牒砸向伊朗 不排除美国铤而走险

头条要闻

媒体:特朗普48小时通牒砸向伊朗 不排除美国铤而走险

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

艺术
旅游
手机
数码
本地

艺术要闻

如此美妙的光影,安静而温暖,真令人折服!

旅游要闻

这么近那么美 京津冀“周末串门游”走起

手机要闻

华为蝉联榜首,苹果紧追不舍,OPPO、vivo、小米、荣耀差距不大!

数码要闻

古尔曼:苹果Apple TV、HomePod和HomePod mini库存告急

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

无障碍浏览 进入关怀版