网易首页 > 网易号 > 正文 申请入驻

F1暴涨20分,推理速度恒定!新架构VGent:多目标定位又快又准

0
分享至


新智元报道

编辑:LRST

【新智元导读】多目标(Multi-target) 以及 视觉参照(Visual Reference) 为视觉定位(Visual Grounding)任务的推理速度和性能同时带来了全新的挑战。 为了解决这一难题,来自UIC和Adobe的研究团队提出了VGent模型。这是一种兼顾速度与性能的模块化设计,旨在将模型的推理与预测能力解耦,并辅以多种模块化增强方案 。最终,VGent凭借不到16B的参数量,在多目标及带视觉参照的视觉定位基准(Omnimodal Referring Expression Segmentation, ORES)上,大幅超越了Qwen3-VL-30B,实现了平均+18.24 F1的巨大提升!

在多模态大模型(MLLM)时代,视觉定位是MLLM细粒度推理能力的重要一环,同时也是实现人机交互和具身智能的核心能力。

现有的解决方案主要分为两类:

原生Token派(Native-token):像 Qwen2.5-VL 或 Ferret-v2 这样的模型,通过自回归(auto-regressive)的方式利用原有的词表逐个生成边界框坐标 。这种方式不仅速度慢(推理时间随目标数量线性增加),而且在多目标场景下容易产生幻觉(Hallucinations),即模型可能会在列举完所有目标对象之前就过早停止,或者在目标密集的场景中陷入无限生成的死循环。如图一所示,随着目标数量的增加,这类方法在多目标场景下的低效和不稳定性变得尤为明显。

新增Token派(New-token):另一类方法尝试通过引入特殊的token(如[SEG]或 object token)来指代目标物。他们需要收集大规模的数据集、从LLM起重新构建一个能理解这些新增token的MLLM。因此,这种方法不可避免地会破坏LLM在预训练阶段获得的通用推理能力。更严重的是,其导致无法直接利用现有的、先进的、进行了更大规模预训练的开源MLLM(如 QwenVL系列)。

来自UIC(伊利诺伊大学芝加哥分校) 和Adobe的研究团队提出一种模块化的编码器-解码器(Encoder-Decoder)架构VGent,其核心思想是:将高层的语义推理交给MLLM,将底层的像素预测交给目标检测器(detector),最终通过hidden state将这种解耦后的关系进行连接。


论文地址:https://arxiv.org/abs/2512.11099

研究人员认为,语义推理和精准定位是两种截然不同的能力,强迫训练一个单一的整体模型去同时精通抽象的语义推理和像素级别的底层预测,会导致性能和效率上的权衡。

更符合直觉的方式,应该是由不同的组件做各自擅长的事。

基于这一洞察,VGent提出了一种模块化的编码器-解码器设计,利用现成的MLLM和detector将高层多模态推理与底层预测解耦。

其核心理念在于MLLM和detector的优势是互补的:MLLM擅长多模态语义对齐和推理,而detector则擅长高效地提供精准的多目标检测框


图一:VGent(蓝色)与现有先进的MLLM(Qwen2.5-VL,灰色)在多目标视觉定位任务上的对比。左图显示VGent的推理时间恒定且迅速,而 MLLM 随目标数量增加呈线性增长;右图显示VGent在F1分数上实现了显著提升,特别是在多目标场景下。

方法

基础架构

VGent主要由图二所示的encoder和decoder两部分组成,并引入了三种模块化增强机制(图三、四和五)。


图二:VGent框架概览

如图二所示,左侧encoder是一个 MLLM,使用QuadThinker来提升其多目标推理能力。冻结的encoder输出hidden states并存储下来给到decoder。右侧decoder初始化自encoder的LLM 层,其将detector生成的object proposal作为query,通过cross-attention与encoder的hidden states交互。

研究人员在decoder内部新增了self-attention层(参数初始化自同一层的cross-attention),用于促进query之间的信息交流。 最终的输出进行yes / no的二元判断来选择每个proposal是否属于目标。相应的segmentation mask则通过 prompt SAM 得到。

QuadThinker:强化多目标推理能力

针对MLLM在多目标场景下推理能力下降的问题,研究人员提出了一种基于 GRPO 的强化学习训练范式QuadThinker,通过设计特定的prompt和reward functions,引导模型执行区域到全局、分步推理的过程:先分别统计图像四个象限内的目标数量,再汇总总数,最后预测具体坐标。


图三:QuadThinker所使用的prompt。

Mask-aware Label:解决检测与分割的歧义

在多目标场景中,检测(Box)与分割(Mask)任务的定义存在一定的差别。检测通常优化「一对一」的匹配,而分割则旨在召回所有前景像素。


图四:Mask-aware Label示意图。基于IoA的标签分配策略能召回被传统IoU忽略的细粒度部件。

这种差异导致了标注歧义:例如图四(左)中,检测器可能将「鹿头装饰」与其「挂绳」视为两个独立的框。

在检测任务的 IoU 标准下,由于挂绳的框比较小、相对于整体真值框的重叠率过低,往往会被当作负样本在标注阶段被过滤掉(被标上负标签)。但是对于分割任务来说,这个挂绳属于前景,其应该被标上正标签。

为此,VGent引入了Mask-aware Label,使用IoA (Intersection-over-Area) 指标进行额外的标签分配。如图四(右),IoA通过计算候选mask (通过proposal prompt SAM得到)与多目标真值的union mask的交集,并除以候选mask自身的面积得到。

因为IoA的分母是候选mask自身面积,该机制能精准召回那些虽然只覆盖了部分目标群(如细小的挂绳)但依然有效的 proposal。模型使用另一个独立的MLP head专门预测这种分割导向的标签,用于解决视觉定位中分割类型的输出。

Global Target Recognition:增强全局感知

为了提升候选框选择的准确性,VGent 引入了Global Target Recognition模块。


图五:Global Target Recognition示意图。利用Learnable Queries注入全局目标数量信息,并聚合多个detector的结果以提升召回率。

为了提高召回率,研究人员聚合了来自多个detector的proposal形成一个统一的query set,之后引入了额外的 learnable queries与这些proposal queries拼接作为decoder的输入。

这组query被专门训练用于预测目标的总数以及正样本proposal的数量。通过decoder层内的self-attention机制,这些包含全局统计信息的learnable query能够与proposal query进行交互,将「全局线索」传播给每一个候选框,从而增强其对目标群体的整体理解,实现更精准的选择。

实验结果

研究人员在最新的多目标视觉定位基准 ORES (MaskGroups-HQ) 以及传统的单目标数据集上进行了广泛评估。

多目标视觉定位(Multi-target Visual Grounding)


图六:在 Omnimodal Referring Expression Segmentation (ORES) 上的性能对比。ORES是多目标以及存在视觉参照(w/ < mask-ref >)的视觉定位基准。

如图六所示,在极具挑战的ORES基准上,VGent 取得了全新的SOTA成绩。相比之前的最佳方法RAS13B,VGent在F1分数上实现了+20.58%的巨大提升。VGent在gIoU和cIoU上都带来了明显的提升。

值得注意的是,即使对比参数量更大的Qwen3-VL-30B,VGent 依然保持显著优势。同时,得益于模块化设计,VGent 在目标数量增加时保持恒定且快速的推理速度,避免了自回归模型随目标增加而线性增长的推理延迟(如图一所示)。

单目标视觉定位(Single-target Visual Grounding)


图七:在referring expression comprehension (REC) 上的性能对比。

VGent在传统单目标基准(RefCOCO, RefCOCO+, RefCOCOg)上也表现卓越。

VGent实现了90.1%的平均准确率,超越了InternVL3.5-20B和38B等更大规模的模型 。相比其backbone (Qwen2.5-VL-7B),VGent带来了+3.5%的平均性能提升。

可视化


图八:VGent在不同挑战下的预测结果可视化。

VGent在复杂场景中展现了极强的鲁棒性。

如图八(上)所示,VGent精准定位所有方形钟表,即使存在大量相似的钟表作为干扰项,展现了VGent在密集多目标场景下的优越表现。

图八(下)中,VGent 成功定位了视觉参照(蓝色 mask),并继续推断出左侧穿裙子的女士,排除了右侧的干扰项。

参考资料:

https://arxiv.org/abs/2512.11099

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰二婚妻子颜值高,正面照片流出,遗产继承恐陷纷争

张雪峰二婚妻子颜值高,正面照片流出,遗产继承恐陷纷争

老猫观点
2026-03-26 07:35:34
200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

罗说NBA
2026-03-26 06:21:27
卡塔尔向伊朗交60亿美元保护费? 伊朗打击升级: 瞄准以色列往死里打

卡塔尔向伊朗交60亿美元保护费? 伊朗打击升级: 瞄准以色列往死里打

起喜电影
2026-03-26 13:20:15
中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

带你感受人间冷暖
2026-03-23 00:02:19
陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

陈明仁起义开价:保留兵团司令,林彪看完只说了4个字

史海孤雁
2026-03-24 17:26:17
50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

50岁何润东做梦也没想到,因张凌赫一个造型,让他的口碑一夜暴涨

八卦南风
2026-03-24 15:15:25
“上海实体交通卡,为啥退不了?”73岁老伯来沪遭遇引发质疑,记者调查:确实难

“上海实体交通卡,为啥退不了?”73岁老伯来沪遭遇引发质疑,记者调查:确实难

新民晚报
2026-03-25 18:45:33
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

沧海旅行家
2026-03-26 13:11:41
估价32万!这4种年份的1元硬币,可要留好了!

估价32万!这4种年份的1元硬币,可要留好了!

富哥爱收藏
2026-03-26 13:51:45
爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

宗介说体育
2026-03-25 10:31:37
稀土案告破:截获220吨,够造90架F-35核心材料

稀土案告破:截获220吨,够造90架F-35核心材料

策略述
2026-03-26 13:45:33
62年胡宗南病逝,死前高举左手惊叫数声,其子:他常恨自己没早死

62年胡宗南病逝,死前高举左手惊叫数声,其子:他常恨自己没早死

云霄纪史观
2026-03-26 11:47:26
女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

游民星空
2026-03-25 20:08:13
如今三大战场同时开打,中国一个举动,却是让西方悟了一个道理

如今三大战场同时开打,中国一个举动,却是让西方悟了一个道理

近史谈
2026-03-25 20:26:28
海关总署署长孙梅君到广东调研

海关总署署长孙梅君到广东调研

证券时报
2026-03-26 13:26:01
49年上海解放第三天,李克农密电陈毅:不惜全部代价,找着李静安

49年上海解放第三天,李克农密电陈毅:不惜全部代价,找着李静安

让时间说真话
2024-03-26 15:23:22
张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

哲学船
2026-03-25 00:44:19
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
留意!局部暴雨+短时大风,3月27日起广东降水将趋于频密

留意!局部暴雨+短时大风,3月27日起广东降水将趋于频密

新浪财经
2026-03-26 03:04:38
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
2026-03-26 14:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
游戏
房产
时尚
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

2026年了,最好看的还是“这件针织”!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版