网易首页 > 网易号 > 正文 申请入驻

CVPR 2026 | 解决推理分割推理发散难题!DPAD 以判别感知实现精准目标区分

0
分享至

来源:市场资讯

(来源:小白学视觉)

在计算机视觉领域,推理分割任务一直是极具挑战性的研究方向——模型需要读懂复杂的语言查询,在杂乱的视觉场景里精准定位目标并生成像素级掩码。以往基于强化学习的方法,总绕不开「推理链发散、冗长」的痛点,就像一个思路混乱的侦探,在案发现场抓不住关键线索,反而被无关细节干扰。

近期,一篇发表于CVPR 2026的论文提出了全新的DPAD框架,首次引入「判别性感知」概念,给推理分割模型装上了能精准区分目标与背景的「大脑」。实验结果惊艳:在ReasonSeg基准上cIoU提升3.09%,推理链长度平均缩短约42%,还能生成可解释的锚定描述,让模型推理过程既高效又透明!

论文信息

题目: Discriminative Perception via Anchored Description for Reasoning Segmentation

基于锚定描述实现判别性感知的推理分割

作者:Tao Yang, Qing Zhou, Yanliang Li, Qi Wang

源码:https://github.com/mrazhou/DPAD

一、现有方法的致命短板:推理链跑偏,分割精度拉胯

推理分割的核心诉求,是让模型通过解读上下文依赖的语言查询,在复杂场景中精准隔离目标。早期方法依赖监督微调,泛化能力有限;后来转向强化学习范式,虽然实现了零样本性能提升,但核心问题始终没解决——奖励信号只看IoU、L1距离这类几何指标。

这些几何奖励只能指导最终的定位结果,却无法判断模型的中间推理过程:是始终锚定目标区域,还是跑偏到无关的上下文里?就像图1展示的那样,缺乏判别性指导的模型,推理链会充斥无关信息,不仅冗长,还会污染语义线索,最终导致模型在复杂场景中根本找不到真正的目标。


图1:传统强化学习方法推理链发散问题示意,无关上下文干扰导致模型无法精准定位目标

正是看到这一关键短板,论文作者提出:必须给推理分割的学习目标做补充——除了几何精度,还要主动培养模型的「判别性感知」能力,也就是让模型能主动把目标和背景上下文区分开。而实现这一能力的核心,就是DPAD框架。

二、DPAD框架核心:用锚定描述打造判别性感知(附总体结构图)

DPAD的核心思路,是在强化学习框架中加入「判别性感知奖励」,强制模型生成聚焦目标的推理链。先来看DPAD的总体结构图(图2),从整体上理解这个框架的工作逻辑:


图2:DPAD框架总体结构,包含锚定描述生成、判别性奖励计算、复合奖励优化三大核心模块

整个DPAD框架基于解耦的强化学习架构设计,核心分为三个关键环节:

1. 锚定描述性标题:给推理加个「聚焦锚点」

在传统强化学习生成推理链、几何定位的基础上,DPAD要求多模态大语言模型额外生成一个「锚定描述性标题」。这个标题不是随便写的,它需要精准描述模型自己定位出的目标对象,有两个核心作用:

  • 可解释性:作为人类能看懂的依据,解释模型的定位结果,让推理过程不再「黑箱」;

  • 语义基础:为后续计算判别性奖励提供核心素材,是实现判别性感知的关键。

2. 判别性感知奖励:给模型的「聚焦能力」打分

这是DPAD最核心的技术创新,目的是量化模型的判别性感知能力,并转化为奖励信号引导训练。具体做法很直观:

  • 先定义两个区域:ROI(目标真实边界框内的区域)和AOI(整幅图像区域);

  • 用预训练的视觉语言模型(如CLIP)提取标题的文本特征,以及ROI、AOI的视觉特征;

  • 计算标题与ROI的语义相似度(S1)、标题与AOI的语义相似度(S2);

  • 只有当S1 > S2(即标题更贴近目标而非整图背景)时,模型才能获得正向的判别性奖励。

这个奖励的逻辑很简单:逼着模型只关注目标的独特属性,而不是被背景里的无关元素带偏。

3. 复合最终奖励:多维度校准模型

DPAD的最终奖励由三部分组成,确保模型既合规又精准:

  • 格式验证奖励:检查输出是否符合预设结构(比如特定标签的顺序、标题是否存在),保证模型输出规范;

  • 几何定位奖励:基于IoU、L1距离评估定位精度,守住空间准确性的底线;

  • 判别性感知奖励:也就是前面提到的核心奖励,引导模型聚焦目标。

三者结合,让模型在训练中同时满足「格式对、定位准、推理聚焦」三大要求,最终通过GRPO算法优化,学到最优的推理策略。

三、实验结果:精度、效率、鲁棒性全面碾压SOTA

为了验证DPAD的效果,作者做了大量实验,不仅用了ReasonSeg这个核心基准,还在RefCOCO、RefCOCO+、RefCOCOg等数据集上测试零样本泛化能力,硬件和训练设置也足够轻量化——仅用RefCOCOg的3000个样本训练,批次大小16,初始学习率1e-6。

1. 分割性能:全基准登顶SOTA

对比OVSeg、ReLA、Seg-Zero-7B等10余种主流方法,DPAD-7B表现一骑绝尘:

  • 在ReasonSeg上,gIoU从57.7提升到60.8,cIoU从54.4提升到57.5,涨幅均超3个百分点;

  • 在RefCOCO系列零样本测试中,RefCOCO达到79.3、RefCOCO+达到74.7、RefCOCOg达到72.6,全部超越Seg-Zero-7B基线。

这意味着DPAD的判别性感知能力,让模型在复杂场景中消歧目标的能力大幅提升,哪怕没见过的数据集也能表现出色。

2. 推理效率:链长缩短42%,还更稳定

最直观的提升是推理链的长度——传统方法在复杂逻辑查询上,推理链平均超过110个标记,而DPAD直接压缩了约38%;在全数据集上,推理链长度平均缩短42%。

从图4的散点图能清晰看到:DPAD的推理标记数量集中在低数值区间,方差极小;而基线模型不仅标记数高,还波动剧烈,说明推理过程极不稳定。图5则进一步验证,在5个不同基准上,DPAD始终保持低且稳定的平均标记数,而基线模型的标记数又高又乱。


表1:DPAD与主流方法在ReasonSeg上的分割性能对比,DPAD各项指标均为最优


图4:ReasonSeg测试集每个样本的推理标记数量分布,DPAD标记数更低且更集中


图5:不同基准上推理标记数量对比,DPAD始终保持低标记数和低方差

3. 判别性感知:SNR/TSNR稳定超1.0

作者专门设计了语义信噪比(SNR/TSNR)指标,衡量模型生成的标题、推理链与目标ROI的相关性是否高于背景AOI。结果显示,DPAD的SNR和TSNR始终超过1.0(比如ReasonSeg上SNR=1.16、TSNR=1.04),而基线模型始终低于1.0。

这是最直接的定量证据:DPAD真的学会了区分目标和背景,不再被无关上下文干扰。

4. 消融实验:二进制奖励是最优选择

为了验证判别性奖励的设计,作者对比了二进制奖励、差异奖励、缩放奖励三种方案。结果显示,二进制奖励表现最好——在ReasonSeg上验证gIoU达到63.1,cIoU达到61.2,远超其他方案。

原因很简单:二进制奖励的「非黑即白」信号,和基于GRPO的强化学习优化机制高度兼容,能提供明确的反馈,避免连续奖励的数值噪声干扰模型收敛。

四、定性分析:推理链更聚焦,可解释性拉满

从图3的直观对比能看到,基线模型的推理链充斥着无关的全局场景描述、冗余的自我确认,而DPAD的推理链只聚焦目标的核心属性,简洁又精准。


图3:DPAD(右)与基线模型(左)推理链对比,DPAD推理更聚焦目标,无冗余信息

这种聚焦不仅让推理链变短,还提升了可解释性——模型生成的锚定标题能精准对应目标,比如「红色屋顶的白色小房子」「叼着飞盘的金毛犬」,人类能一眼看懂模型的定位逻辑。

五、总结:判别性感知,让推理分割更「聪明」

这篇论文的核心贡献,是首次把「判别性感知」引入推理分割任务,通过DPAD框架将锚定描述和判别性奖励结合,解决了传统强化学习方法推理链发散的核心痛点。

DPAD的成功证明:给模型加一个「区分目标与背景」的学习目标,不仅能提升分割精度,还能让推理过程更高效、更透明。这种思路不仅适用于推理分割,也为其他需要多模态推理的视觉任务(如视觉问答、指代表达理解)提供了新方向。

未来,随着判别性感知的进一步优化,或许能让多模态大语言模型在复杂视觉推理任务中,真正实现「精准、高效、可解释」的统一。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:人工智能0基础学习攻略手册

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奥迪Q5L价格再下探,优惠11.08万,网友:奔驰这下真急了

奥迪Q5L价格再下探,优惠11.08万,网友:奔驰这下真急了

汽车网评
2026-04-11 21:30:13
毛不易追求单依纯?赘婿和白富美都有新欢!

毛不易追求单依纯?赘婿和白富美都有新欢!

八卦疯叔
2026-04-12 11:42:18
688709,大幅下修业绩预告!公司致歉!

688709,大幅下修业绩预告!公司致歉!

证券时报e公司
2026-04-12 19:52:48
演员陈学冬:11部作品被下架,两年4次手术,今35岁生活无法自理

演员陈学冬:11部作品被下架,两年4次手术,今35岁生活无法自理

以茶带书
2026-04-03 19:40:21
寿命与大便次数有关?研究发现:寿命长的人,每天排便在这个次数

寿命与大便次数有关?研究发现:寿命长的人,每天排便在这个次数

DrX说
2025-10-24 14:15:19
Surfshark把VPN压到2美元/月

Surfshark把VPN压到2美元/月

闪存猎手
2026-04-11 09:40:51
向太太敢说了!向华强今年已经78了,但是她和向华强还有X生活!

向太太敢说了!向华强今年已经78了,但是她和向华强还有X生活!

心静物娱
2025-12-24 11:02:28
绝不能让中国赢!打伊朗打太烂,美高官急了:美国越来越不懂中国

绝不能让中国赢!打伊朗打太烂,美高官急了:美国越来越不懂中国

游古史
2026-04-12 23:57:32
三野名将不听粟裕调遣,出言不逊后甩手离去,主席:立刻撤职 

三野名将不听粟裕调遣,出言不逊后甩手离去,主席:立刻撤职 

纪实文录
2025-05-10 17:45:35
湖北美女护士付雪飞去世,仅24岁,生前爱喂流浪猫,死因令人惋惜

湖北美女护士付雪飞去世,仅24岁,生前爱喂流浪猫,死因令人惋惜

她时尚丫
2026-04-12 21:13:24
吴邦国的狂草技艺,让书坛惊叹不已!

吴邦国的狂草技艺,让书坛惊叹不已!

书画相约
2026-04-07 07:08:05
这张才是真实的赵四小姐——张学良的妻子,她的样子并非演员所扮

这张才是真实的赵四小姐——张学良的妻子,她的样子并非演员所扮

阿废冷眼观察所
2026-04-12 20:13:20
苏联绝密档案:预言家死前神秘手稿,2025年中国高原将现惊天秘密

苏联绝密档案:预言家死前神秘手稿,2025年中国高原将现惊天秘密

大耳朵老师
2024-11-09 16:55:37
中共中央批准:张玲任天津市委常委

中共中央批准:张玲任天津市委常委

新京报政事儿
2026-04-11 15:24:04
深夜利好,5个龙头提前发一季报,龙头增长3281%,全线大增

深夜利好,5个龙头提前发一季报,龙头增长3281%,全线大增

风风顺
2026-04-13 00:00:04
46号令来了!国企全面清查,所有人自查照着做就行

46号令来了!国企全面清查,所有人自查照着做就行

奇思妙想生活家
2026-04-12 04:55:26
热衷“打篮球”的云南农信社,取消招聘运动员

热衷“打篮球”的云南农信社,取消招聘运动员

财经众议院
2026-04-12 13:03:52
爷爷4套学区房全给堂弟,我八十大寿回:护照已剪祝你们吃得开心

爷爷4套学区房全给堂弟,我八十大寿回:护照已剪祝你们吃得开心

兰姐说故事
2026-03-30 10:30:15
行程结束,郑丽文访陆画上句号,从北京临走之前,终于看到了答案

行程结束,郑丽文访陆画上句号,从北京临走之前,终于看到了答案

笑谈历史阿晡
2026-04-12 19:19:25
美伊未达成协议后,特朗普转发了一个媒体报道链接,标题为《如果伊朗不屈服,总统持有的王牌是海上封锁》

美伊未达成协议后,特朗普转发了一个媒体报道链接,标题为《如果伊朗不屈服,总统持有的王牌是海上封锁》

都市快报橙柿互动
2026-04-12 12:51:34
2026-04-13 03:32:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2837112文章数 6605关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

数码
亲子
教育
手机
公开课

数码要闻

苹果版套娃 买台Mac Pro回家:打开一看里面还藏着一台Mac Pro

亲子要闻

“晚上疼得睡不着”!8岁女童双眼、身上被灼伤!警惕这东西,不少人家里有

教育要闻

小班教学,9月开校,树德派校长!这所中学,正在招老师

手机要闻

华为阔折叠设计图曝光!这外观你喜欢吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版