网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

用两个简单模块实现双重SOTA！华科大白翔团队等推出多模态新框架

2025-10-03 12:52:49　来源: 量子位

北京举报

0

分享至

LIRA团队投稿量子位 | 公众号 QbitAI

多模态大模型需要干的活，已经从最初的文生图，扩展到了像素级任务（图像分割）。

不过，无论是OMG-LLaVA，还是提出了embedding-as-mask范式的LISA（CVPR 2024），都还存在分割结果不够精确，以及理解过程中出现幻觉两大痛点。

这主要源于现有模型在物体属性理解上的不足，以及细粒度感知能力的局限。

为缓解上述问题，华中科技大学团队和金山办公团队联合提出了两个核心模块：

语义增强特征提取器（SEFE）和交错局部视觉耦合（ILVC）。

前者融合语义特征与像素级特征，提升物体属性推理能力，从而获得更精确的分割结果。

后者基于分割掩码提取局部特征后，自回归生成局部描述，为模型提供细粒度监督，从而有效减少理解幻觉。

最终，研究团队构建了在分割和理解两项任务上均取得SOTA的多模态大模型LIRA

与InternVL2相比，LIRA在保持理解性能的同时，额外支持图像分割任务；与OMG-LLaVA相比，LIRA在图像分割任务上平均提升8.5%，在MMBench上提升33.2%。

目前，LIRA项目已被ICCV 2025录用。

现有方法仍常常无法准确分割目标

通过将分割模块和多模态大模型结合，多模态大模型的能力已从视觉理解拓展至像素级分割

LISA（CVPR 2024）首次提出“embedding-as-mask”范式，通过引入 token解锁了分割能力。

OMG-LLaVA 则采用通用分割模型作为视觉编码器，并将图像特征与感知先验融合，从而在分割与理解任务上实现更优的协同表现。

尽管现有方法已取得显著进展，但在复杂场景下仍常常无法准确分割目标

下图Figure 2中，OMG-LLaVA就未能正确分割出“最靠近白色汽车的红色公交车”。

为探究分割错误的原因，研究团队提取了多模态大模型在第一列图像上生成的token embedding，并直接用于第二列和第三列图像的分割。

有趣的是，在 (1) 行的所有图像中，左侧公交车始终被分割出来，这表明 token可能包含了与原图像无关的语义信息。

进一步分析token的logits发现，与“left”相关的值显著偏高，从而导致左侧公交车被分割出来。

研究团队推测，产生分割错误的原因是多模态大模型在token中未能有效编码准确的位置信息，反映其视觉理解能力存在局限。

此外，现有方法通常依赖位置查询来指示目标位置，但并不能在局部描述与对应图像区域特征之间建立明确联系，从而可能引发幻觉。

这引出了一个重要问题：

是否应直接将局部图像特征输入文本大模型，让模型基于该区域生成描述，从而在视觉特征与语义之间建立更明确的映射？

同时支持理解和分割任务的多模态大模型LIRA

依循这个思路，研究团队提出了同时支持理解和分割任务的多模态大模型LIRA。

如下面Figure 2所示，研究团队进一步分析了token的logits。

结果表明，当“right”对应的logits更高时右边的bus被分割出，“left”对应的logits更高时，左边的bus被分割出，这可能表明 token实际上包含了被分割物体丰富的语义信息。

LIRA能够准确地将诸如“离白色汽车最近的红色巴士”等查询解释为指向“右边的巴士”，从而实现精确分割。

这个过程涉及根据用户query和图像信息来理解物体属性，以实现准确的分割，研究团队称之为“Inferring Segmentation”。

这一定义可能与LISA Reasoning Segmentation中所使用的定义有所不同，后者依赖于外部世界知识或常识来对隐式查询（例如，“请分割图中富含维生素C的食物”）进行推理。

此外，研究者还提出了语义增强特征提取器（SEFE）和交错局部视觉耦合机制（ILVC），旨在提升多模态大模型分割精度和缓解理解幻觉。

SEFE通过融合高层语义信息与细粒度像素特征，增强模型的属性理解能力从而提高分割性能。

ILVC通过显式绑定局部图像区域与对应文本描述，为多模态大模型提供更细粒度的监督，从而缓解幻觉现象。

语义增强特征提取器（SEFE）

该模块融合了来自预训练多模态大模型的语义编码器和分割模型的像素编码器。

给定全局图像，语义编码器和像素编码器分别提取特征，经过多层感知机（MLP）转换为相同维度的特征：

随后，利用多头交叉注意力融合语义特征和像素特征：

最终将融合后的特征拼接为全局特征后送入LLM中：

交错局部视觉耦合模块（ILVC）

在多模态大模型中，将局部特征与对应的局部描述对齐对于精确理解目标至关重要。

然而现有的方法（Figure 4（a））通常仅提取 token处的embedding，将其输入解码器生成分割掩码。

这种方法并未明确地将局部图像区域与其对应的文本描述直接关联。

受到人类的感知通常是先关注感兴趣的区域，再进行描述的启发，本文提出了交错局部视觉耦合模块帮助将局部图像区域与对应的文本描述进行耦合（Figure 4（b））。

具体而言，LIRA使用token生成分割掩码，基于该掩码从原始图像中裁剪出对应区域，并将裁剪区域调整为448 x 448大小后输入SEFE提取局部特征。

随后，将编码后的局部特征重新输入文本大模型，以生成该图像区域的描述并预测后续内容。

通过这种交错的训练范式，ILVC模块成功建立了局部图像区域与文本描述的显式联系，为局部图像特征引入了细粒度监督，从而缓解了幻觉。

实验结果：优于先前最佳方法

实验结果表明，LIRA能够同时支持理解和分割任务，并且在多个理解和分割数据集上取得了不错的性能。

为验证SEFE的有效性本文基于InternLM2-1.8B和InternLM2.5-7B骨干网络进行了消融实验。

结果显示，采用InternLM2-1.8B时，整合SEFE在理解任务上平均提升5.7%，分割任务提升3.8%。

采用InternLM2.5-7B时，理解任务和分割任务的平均提升分别为5.1%和3.4%。

在SEFE的基础上，本文进一步验证整合ILVC的效果。

结果表明，采用ILVC后，在数据集ChairS上，1.8B和7B规模的模型幻觉率分别降低了3.0%和4.8%。

将LIRA同时用理解数据和分割数据进行联合训练，性能仅较单独用理解数据训练略微下降0.2%，优于先前最佳方法OMG-LLaVA在五个理解数据集上近15%的性能下降。

综上，丰富的实验结果验证了LIRA在多个理解与分割基准上的优异表现。

此外，研究团队还在论文中探讨了token在分割任务中的作用，发现其logits能够准确反映被分割物体的属性，推测其可能蕴含更丰富的物体语义信息。

未来研究中，深入探索文本与视觉token之间的关联，可能为提升多模态大模型的理解和分割能力带来新的启发。

总体而言，LIRA实现了理解与分割任务性能的协同提升，提出了在细粒度多模态大模型中缓解幻觉的新视角，并将分割多模态大模型中token的语义内涵纳入研究视野，可能为后续相关探索提供了启示。

arXiv：
https://arxiv.org/abs/2507.06272

GitHub：
https://github.com/echo840/LIRA

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

机器之心Pro 2026-01-13 18:26:48
0 跟贴 0
25起+超25亿！量子科技赛道加速升温|聚焦

财联社 2026-02-22 20:30:15
9 跟贴 9

SpaceX催生首次太空垃圾空气污染，100公里高处锂浓度暴涨10倍

DeepTech深科技 2026-02-22 21:41:44
0 跟贴 0

尿越浓，电越多？科学家找到尿液发电的最佳配方

DeepTech深科技 2026-02-21 18:32:38
7 跟贴 7
80后"量子鬼才"陆朝阳，中国自己的爱因斯坦

雷科技 2025-12-15 20:25:30
0 跟贴 0

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

机器之心Pro 2025-11-11 12:49:23
0 跟贴 0

面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

量子位 2026-02-05 23:20:12
0 跟贴 0
3D版ControlNet突破多模态控制，实现高精度3D资产生成

机器之心Pro 2025-09-29 16:10:08
0 跟贴 0

年轻丈夫意外去世，婆家却将矛头指向儿媳，公公：我都想打死她

三只豆芽菜 2026-02-22 10:27:13
1 跟贴 1
让扩散模型「可解释」不再降质，开启图片编辑新思路

机器之心Pro 2025-12-16 14:37:44
0 跟贴 0
【足坛进球视觉盛宴】每一粒都堪称是艺术品，谁才是你心中的最佳

白嫖的小知识 2026-02-19 08:42:00
0 跟贴 0
揭秘硬币还原魔术，原来是靠视觉差，欺骗观众大半辈子！

搞笑派大星 2026-02-20 09:50:00
0 跟贴 0
AI上春晚：一场十四亿人的验收

36氪 2026-02-18 10:56:31
16 跟贴 16
大年初二，日本传来两个坏消息，指向同一个问题，中方亮明立场

火星方阵 2026-02-21 22:26:43
0 跟贴 0
顶级视觉盛宴！有且只有，唯一的一次

啊哒体育 2026-02-20 22:46:33
1 跟贴 1
婆婆嫌弃家里异味重，矛头直接指向狗子，接下来的举动丧良心

热点推送 2026-02-22 08:11:42
1 跟贴 1
加州男子用枪状物指向路人，警察到场发现是一把伞，猛冲扑倒在地

业健影视 2026-02-22 15:12:56
1 跟贴 1
哈尔滨冰雪大世界：正式闭园

大风新闻 2026-02-21 20:36:03
1869 跟贴 1869
i-dle薇娟29岁50亿购龙山豪宅，疑零贷款现金成交

生命之泉的奥秘 2026-02-22 14:06:08
0 跟贴 0
让LLM不再话痨，快手HiPO框架来了

机器之心Pro 2025-11-03 15:10:48
0 跟贴 0
你刷到的视频是真的么？用物理规律拆穿Sora谎言

机器之心Pro 2025-11-05 16:27:02
0 跟贴 0
三亚至深圳最高票价达14460元

第一财经资讯 2026-02-22 12:34:38
1387 跟贴 1387
三维量子双缝干涉实验（网格版）

帆雨动画 2026-02-19 15:22:04
4 跟贴 4
488愈演愈烈随着皇帝的到来，宜修逐渐把矛头指向了

平姐电影 2026-02-22 16:46:06
1 跟贴 1
某米员工：过年十几个下属，四个没发祝福。优化两个，绩效都给B-

蚂蚁大喇叭 2026-02-22 17:48:41
632 跟贴 632
中美AI同步加速：47天30次更新，中国AI的最强主场究竟在哪？

量子位 2026-02-22 18:31:31
5 跟贴 5
你不看小莎打球，自然不懂小莎退后两步的完美正手框架

九分看世界 2026-02-19 10:59:47
3 跟贴 3
幸运儿免费飞，泰旅局携手亚航再掀“跟随Lisa游泰国”热潮

无力的滋味 2026-02-22 15:44:15
0 跟贴 0
高速春节堵车一老板原地卖甘蔗，目击者发声：10元一根，不称重，选好就走

环球网资讯 2026-02-22 12:21:07
616 跟贴 616
美国载人绕月任务又推迟了

每日经济新闻 2026-02-22 08:04:05
461 跟贴 461
人气火爆！江苏无锡一景区发布限流公告

现代快报 2026-02-19 22:42:05
703 跟贴 703
大超市爆改文商旅综合体，“金陵长乐坊”开市首日人气爆棚

现代快报 2026-02-19 22:53:05
602 跟贴 602
谷歌突发Gemini 3.1 Pro！推理性能×2

量子位 2026-02-20 09:24:13
25 跟贴 25
“走路去洗车”热帖离谱刷屏，人类头一回被它耍得这么惨

新周刊 2026-02-21 16:06:14
58 跟贴 58
新郎投壶未进，箭矢恰巧指向新娘，网友称真爱自有天意与轨迹

星视频 2026-02-22 17:28:30
0 跟贴 0
20天狂更超10次，OpenClaw接入Gemini 3.1和Apple Watch

新智元 2026-02-22 19:07:49
0 跟贴 0
金铭42岁单身亦精彩，精神富足超越世俗框架

娱乐呱叫 2026-02-22 13:18:00
0 跟贴 0
中国量子计算机崛起！10分钟干完超级计算机1.6万年的活

雷科技 2025-11-28 19:11:16
24 跟贴 24
凌晨3点就上山，有人爬5小时才喝到山顶咖啡！杭州“天下第一财神庙”劝返游客：回家吧

环球网资讯 2026-02-22 08:06:08
414 跟贴 414
广东官宣：全省大会将于初八召开

政知新媒体 2026-02-22 11:21:20
58 跟贴 58

史诗级封杀！2000万网红“听风的蚕”彻底凉了

史诗级封杀！2000万网红“听风的蚕”彻底凉了

互联网品牌官

2026-02-12 01:17:23

中国小伙在韩国租女友，2000块一天陪吃陪玩，分手时小伙依依不舍

中国小伙在韩国租女友，2000块一天陪吃陪玩，分手时小伙依依不舍

胡一舸南游y

2026-02-11 13:49:10

官媒发文！宗馥莉再破天花板，让亲叔宗泽后和整个商界沉默了

官媒发文！宗馥莉再破天花板，让亲叔宗泽后和整个商界沉默了

老沮系戏精北鼻

2026-01-08 11:59:03

“三年了，妈妈每天听书10小时，到底正不正常？”网友回复扎心了

“三年了，妈妈每天听书10小时，到底正不正常？”网友回复扎心了

夜深爱杂谈

2026-02-19 22:16:53

人狂必有祸！47岁“跌落神坛”的李玉刚，终是活成了“笑话”

人狂必有祸！47岁“跌落神坛”的李玉刚，终是活成了“笑话”

春之韵

2026-02-20 04:16:52

最高院：合同仅盖公章无法定代表人或授权代表签字的，是否有效？

最高院：合同仅盖公章无法定代表人或授权代表签字的，是否有效？

周军律师聊案子

2026-02-21 09:44:03

三方共赢！布尼亚明再次感恩恒大：恒大足校未来或赚取高额分成

三方共赢！布尼亚明再次感恩恒大：恒大足校未来或赚取高额分成

邱泽云

2026-02-22 15:37:13

新一轮楼市风暴，又要开始了!

巢客HOME

2026-02-22 09:50:05

输球压力加倍：克洛普与皇马的传闻，正在从流言升级为潜在选项

输球压力加倍：克洛普与皇马的传闻，正在从流言升级为潜在选项

里芃芃体育

2026-02-23 03:00:07

人生的七大真相，读到一半就泪崩了！

人生的七大真相，读到一半就泪崩了！

水木然

2026-02-22 23:43:41

军长见形势不利，擅自下令全军撤退，却创造一个载入史册的奇迹！

军长见形势不利，擅自下令全军撤退，却创造一个载入史册的奇迹！

芊芊子吟

2026-02-23 03:45:04

待了几天石家庄我要曝光一下当地人的素质全然颠覆我此前的认知

待了几天石家庄我要曝光一下当地人的素质全然颠覆我此前的认知

笔墨V

2026-02-22 19:50:10

武统、和统都没希望了？台湾军事专家：中国已经走上了第三条路

武统、和统都没希望了？台湾军事专家：中国已经走上了第三条路

余們搞笑段子

2026-02-19 05:03:10

阿里出手了！终于不怕OpenClaw烧token啦，直接算力自由～

阿里出手了！终于不怕OpenClaw烧token啦，直接算力自由～

袋鼠帝

2026-02-22 17:56:33

美国冰球夺金后举起已故队友格德罗球衣，后者因车祸逝世

美国冰球夺金后举起已故队友格德罗球衣，后者因车祸逝世

懂球帝

2026-02-23 01:17:24

中美黄海对峙内幕曝光！B-52曾逼近中国领空！日本自卫队也来了？

中美黄海对峙内幕曝光！B-52曾逼近中国领空！日本自卫队也来了？

健身狂人

2026-02-23 04:16:42

出事了，F35进入德黑兰，伊朗雷达全程失灵！

出事了，F35进入德黑兰，伊朗雷达全程失灵！

爱吃醋的猫咪

2026-02-18 21:03:10

创新成果落地中国创新药企全球化进阶——科伦博泰总裁兼首席执行官葛均友博士

创新成果落地中国创新药企全球化进阶——科伦博泰总裁兼首席执行官葛均友博士

动脉新医药

2026-02-22 18:05:05

两个女婿睡车里被嘲笑，网友：这家人还没意识到问题严重性

两个女婿睡车里被嘲笑，网友：这家人还没意识到问题严重性

西莫的艺术宫殿

2026-02-15 14:26:15

台岛海峡发生激烈对峙，直10打开应答器高速冲入，澳军舰紧急避让

台岛海峡发生激烈对峙，直10打开应答器高速冲入，澳军舰紧急避让

头条爆料007

2026-02-22 13:42:26

追踪人工智能动态

12189文章数 176388关注度

往期回顾全部

科技要闻

马斯克：星舰每年将发射超过10000颗卫星

头条要闻

男子持霰弹枪燃烧罐闯特朗普私宅被击毙细节披露

头条要闻

男子持霰弹枪燃烧罐闯特朗普私宅被击毙细节披露

体育要闻

谷爱凌：6次参赛6次夺牌我对自己非常自豪

娱乐要闻

谷爱凌：真正的强大敢接纳生命的节奏

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km！smart精灵#6 EHD超级电混2026年上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

房产

游戏

教育

时尚

旅游要闻

挤哭了！夫子庙初五45万客流，游客：拍照全是人！

房产要闻

窗前即地标！独占三亚湾C位自贸港总裁行宫亮相

《GTA6》的第二天发售？《宝可梦》新作爆料来了！

教育要闻

计算机专业竞争激烈？桂电计算机学院超高就业率！

50+女人更适合基础款，掌握3个高段位搭配思路，轻松提升品味

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版