网易首页 > 网易号 > 正文 申请入驻

用两个简单模块实现双重SOTA!华科大白翔团队等推出多模态新框架

0
分享至

LIRA团队 投稿量子位 | 公众号 QbitAI

多模态大模型需要干的活,已经从最初的文生图,扩展到了像素级任务(图像分割)。

不过,无论是OMG-LLaVA,还是提出了embedding-as-mask范式的LISA(CVPR 2024),都还存在分割结果不够精确,以及理解过程中出现幻觉两大痛点。

这主要源于现有模型在物体属性理解上的不足,以及细粒度感知能力的局限。

为缓解上述问题,华中科技大学团队和金山办公团队联合提出了两个核心模块:

语义增强特征提取器(SEFE)和交错局部视觉耦合(ILVC)。

前者融合语义特征与像素级特征,提升物体属性推理能力,从而获得更精确的分割结果。

后者基于分割掩码提取局部特征后,自回归生成局部描述,为模型提供细粒度监督,从而有效减少理解幻觉。

最终,研究团队构建了在分割和理解两项任务上均取得SOTA的多模态大模型LIRA



与InternVL2相比,LIRA在保持理解性能的同时,额外支持图像分割任务;与OMG-LLaVA相比,LIRA在图像分割任务上平均提升8.5%,在MMBench上提升33.2%。

目前,LIRA项目已被ICCV 2025录用。

现有方法仍常常无法准确分割目标

通过将分割模块和多模态大模型结合,多模态大模型的能力已从视觉理解拓展至像素级分割

LISA(CVPR 2024)首次提出“embedding-as-mask”范式,通过引入 token解锁了分割能力。

OMG-LLaVA 则采用通用分割模型作为视觉编码器,并将图像特征与感知先验融合,从而在分割与理解任务上实现更优的协同表现。

尽管现有方法已取得显著进展,但在复杂场景下仍常常无法准确分割目标

下图Figure 2中,OMG-LLaVA就未能正确分割出“最靠近白色汽车的红色公交车”。



为探究分割错误的原因,研究团队提取了多模态大模型在第一列图像上生成的token embedding,并直接用于第二列和第三列图像的分割。

有趣的是,在 (1) 行的所有图像中,左侧公交车始终被分割出来,这表明 token可能包含了与原图像无关的语义信息。

进一步分析token的logits发现,与“left”相关的值显著偏高,从而导致左侧公交车被分割出来。

研究团队推测,产生分割错误的原因是多模态大模型在token中未能有效编码准确的位置信息,反映其视觉理解能力存在局限。

此外,现有方法通常依赖位置查询来指示目标位置,但并不能在局部描述与对应图像区域特征之间建立明确联系,从而可能引发幻觉。

这引出了一个重要问题:

  • 是否应直接将局部图像特征输入文本大模型,让模型基于该区域生成描述,从而在视觉特征与语义之间建立更明确的映射?

同时支持理解和分割任务的多模态大模型LIRA

依循这个思路,研究团队提出了同时支持理解和分割任务的多模态大模型LIRA。

如下面Figure 2所示,研究团队进一步分析了token的logits。

结果表明,当“right”对应的logits更高时右边的bus被分割出,“left”对应的logits更高时,左边的bus被分割出,这可能表明 token实际上包含了被分割物体丰富的语义信息。

LIRA能够准确地将诸如“离白色汽车最近的红色巴士”等查询解释为指向“右边的巴士”,从而实现精确分割。

这个过程涉及根据用户query和图像信息来理解物体属性,以实现准确的分割,研究团队称之为“Inferring Segmentation”。

这一定义可能与LISA Reasoning Segmentation中所使用的定义有所不同,后者依赖于外部世界知识或常识来对隐式查询(例如,“请分割图中富含维生素C的食物”)进行推理。



此外,研究者还提出了语义增强特征提取器(SEFE)和交错局部视觉耦合机制(ILVC),旨在提升多模态大模型分割精度和缓解理解幻觉。

SEFE通过融合高层语义信息与细粒度像素特征,增强模型的属性理解能力从而提高分割性能。

ILVC通过显式绑定局部图像区域与对应文本描述,为多模态大模型提供更细粒度的监督,从而缓解幻觉现象。



语义增强特征提取器(SEFE)

该模块融合了来自预训练多模态大模型的语义编码器和分割模型的像素编码器。

给定全局图像,语义编码器和像素编码器分别提取特征,经过多层感知机(MLP)转换为相同维度的特征:



随后,利用多头交叉注意力融合语义特征和像素特征:



最终将融合后的特征拼接为全局特征后送入LLM中:



交错局部视觉耦合模块(ILVC)

在多模态大模型中,将局部特征与对应的局部描述对齐对于精确理解目标至关重要。

然而现有的方法(Figure 4(a))通常仅提取 token处的embedding,将其输入解码器生成分割掩码。

这种方法并未明确地将局部图像区域与其对应的文本描述直接关联。

受到人类的感知通常是先关注感兴趣的区域,再进行描述的启发,本文提出了交错局部视觉耦合模块帮助将局部图像区域与对应的文本描述进行耦合(Figure 4(b))。



具体而言,LIRA使用token生成分割掩码,基于该掩码从原始图像中裁剪出对应区域,并将裁剪区域调整为448 x 448大小后输入SEFE提取局部特征。

随后,将编码后的局部特征重新输入文本大模型,以生成该图像区域的描述并预测后续内容。

通过这种交错的训练范式,ILVC模块成功建立了局部图像区域与文本描述的显式联系,为局部图像特征引入了细粒度监督,从而缓解了幻觉。

实验结果:优于先前最佳方法

实验结果表明,LIRA能够同时支持理解和分割任务,并且在多个理解和分割数据集上取得了不错的性能。



为验证SEFE的有效性本文基于InternLM2-1.8B和InternLM2.5-7B骨干网络进行了消融实验。

结果显示,采用InternLM2-1.8B时,整合SEFE在理解任务上平均提升5.7%,分割任务提升3.8%。

采用InternLM2.5-7B时,理解任务和分割任务的平均提升分别为5.1%和3.4%。



在SEFE的基础上,本文进一步验证整合ILVC的效果。

结果表明,采用ILVC后,在数据集ChairS上,1.8B和7B规模的模型幻觉率分别降低了3.0%和4.8%。



将LIRA同时用理解数据和分割数据进行联合训练,性能仅较单独用理解数据训练略微下降0.2%,优于先前最佳方法OMG-LLaVA在五个理解数据集上近15%的性能下降。



综上,丰富的实验结果验证了LIRA在多个理解与分割基准上的优异表现。

此外,研究团队还在论文中探讨了token在分割任务中的作用,发现其logits能够准确反映被分割物体的属性,推测其可能蕴含更丰富的物体语义信息。

未来研究中,深入探索文本与视觉token之间的关联,可能为提升多模态大模型的理解和分割能力带来新的启发。

总体而言,LIRA实现了理解与分割任务性能的协同提升,提出了在细粒度多模态大模型中缓解幻觉的新视角,并将分割多模态大模型中token的语义内涵纳入研究视野,可能为后续相关探索提供了启示。

arXiv:
https://arxiv.org/abs/2507.06272

GitHub:
https://github.com/echo840/LIRA

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
好消息!菲律宾宣布:11月1日起,恢复中国公民电子签证服务!

好消息!菲律宾宣布:11月1日起,恢复中国公民电子签证服务!

王爷说图表
2025-11-01 22:38:46
1957年,章士钊说共产党不能学宋太祖杀功臣,毛主席:他没有恶意

1957年,章士钊说共产党不能学宋太祖杀功臣,毛主席:他没有恶意

帝哥说史
2025-11-01 06:35:03
MEGA召回1.1万辆真的是冷却液问题?听听网友怎么说

MEGA召回1.1万辆真的是冷却液问题?听听网友怎么说

鞭牛士
2025-10-31 21:22:08
许绍雄出殡时间已定,家属呼吁:别送花篮直接给钱,原因让人泪目

许绍雄出殡时间已定,家属呼吁:别送花篮直接给钱,原因让人泪目

柠檬有娱乐
2025-11-01 13:48:49
别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

东方不败然多多
2025-10-28 09:12:19
你听过最离谱的事是什么?网友:抱着她,她和老公打电话

你听过最离谱的事是什么?网友:抱着她,她和老公打电话

带你感受人间冷暖
2025-08-31 17:45:25
福特号为什么不学福建舰?不是技术落后,是被15年前的选择锁死了

福特号为什么不学福建舰?不是技术落后,是被15年前的选择锁死了

辉辉历史记
2025-10-31 15:57:36
一句话的信息量能有多恐怖?网友:简直神仙打架,句句封喉!

一句话的信息量能有多恐怖?网友:简直神仙打架,句句封喉!

夜深爱杂谈
2025-11-01 20:57:21
“大衣哥被网暴案”宣判!代理律师称网暴者认罪认罚已被羁押

“大衣哥被网暴案”宣判!代理律师称网暴者认罪认罚已被羁押

南方都市报
2025-11-01 19:46:05
有点意思!吴宗宪复播,先表态自己是中国人,后又隔空称赞大小S

有点意思!吴宗宪复播,先表态自己是中国人,后又隔空称赞大小S

娱圈小愚
2025-11-01 13:16:20
散是满天星,聚是苏大强。苏超决赛现场彩排,江苏十三太保到齐

散是满天星,聚是苏大强。苏超决赛现场彩排,江苏十三太保到齐

游说历史
2025-11-01 19:09:05
终于定了!投资575亿,工期8年,四川要给3400万人再造一条“生命线”!

终于定了!投资575亿,工期8年,四川要给3400万人再造一条“生命线”!

行走的知识库
2025-11-02 06:31:16
长沙店铺外墙坍塌致2名女孩惨死!网友哭诉:她在趴那里一动不动

长沙店铺外墙坍塌致2名女孩惨死!网友哭诉:她在趴那里一动不动

火山诗话
2025-11-02 07:17:45
不宣而战,以军袭击联合国维和部队,法军不忍了,开火击落无人机

不宣而战,以军袭击联合国维和部队,法军不忍了,开火击落无人机

boss外传
2025-10-31 14:47:27
西媒:亚马尔米兰寻欢丑闻让巴萨挨批,俱乐部已联系其经纪人

西媒:亚马尔米兰寻欢丑闻让巴萨挨批,俱乐部已联系其经纪人

雷速体育
2025-10-31 10:02:11
上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

上海专家发现:吃甜食的老人,健康指数是吃蔬菜的人的8倍不止?

霹雳炮
2025-10-17 21:31:29
黑色网纱连衣裙真的是又性感又有高级感

黑色网纱连衣裙真的是又性感又有高级感

美女穿搭分享
2025-10-31 19:32:13
婆婆总把我女儿奶粉送小姑子,我没吱声,悄悄将奶粉换成名牌

婆婆总把我女儿奶粉送小姑子,我没吱声,悄悄将奶粉换成名牌

船长与船1
2025-11-02 08:09:54
Lisa被曝靠在三公子肩膀上撒娇,网友:两人会结婚吗?

Lisa被曝靠在三公子肩膀上撒娇,网友:两人会结婚吗?

韩小娱
2025-11-01 07:56:19
《依依向北风》要不是王潇婚内出轨!盛雪竹到死不知俞乐山另一面

《依依向北风》要不是王潇婚内出轨!盛雪竹到死不知俞乐山另一面

妙知
2025-11-02 08:01:46
2025-11-02 09:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
11614文章数 176319关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

牛弹琴:高市早苗上台后 中国作出第一次强烈抗议

头条要闻

牛弹琴:高市早苗上台后 中国作出第一次强烈抗议

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

健康
教育
时尚
本地
公开课

核磁VS肌骨超声,谁更胜一筹?

教育要闻

让教育回归生活本质:西安浐灞三小跨学科课程的七年实践与蜕变

松弛感穿搭太适合秋冬了,减龄又好看

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版