网易首页 > 网易号 > 正文 申请入驻

北大团队提出CPL++框架,实现视觉定位模型的自知之明和自我纠错

0
分享至



本文是北京大学彭宇新教授团队在视觉定位方向的最新研究成果,相关论文已被顶级国际期刊 IEEE TPAMI 接收。为视觉定位模型赋予「自知之明」能力 —— 通过自监督的关联校正与验证模块,在训练过程中动态识别、衰减并纠正错误的监督信号。大量实验证明,让模型学会「自我纠错」,是突破弱监督视觉定位瓶颈的有效途径。



  • 论文标题:Confidence-aware Pseudo-label Self-Correction for Weakly Supervised Visual Grounding
  • 论文链接:https://ieeexplore.ieee.org/document/11433810/
  • 开源代码:https://github.com/oceanflowlab/CPL
  • 实验室网址:http://mipl.pku.edu.cn

背景与动机

视觉定位(Visual Grounding)旨在根据自然语言查询准确定位图像中的目标区域。然而,全监督方法严重依赖密集的「图像 - 文本 - 物体框」细粒度标注,这在处理大规模复杂场景时面临巨大的标注成本挑战。因此,仅利用「图像 - 文本」进行训练的弱监督视觉定位受到了广泛关注。

现有弱监督方法通常将该任务视为一个目标检索过程,依赖跨模态匹配分数或重构损失来挑选候选区域。但语言描述的高层抽象概念与图像区域的像素级特征之间存在着巨大的「异构鸿沟」,这使得跨模态匹配往往极不可靠。模型在训练中一旦学到了这些错误的「伪关联」,就会陷入错误传播和累积的死循环。此前的无监督方法尝试用模板生成伪查询,但生成的句子生硬且缺乏多样性,同样忽略了错误关联对模型的严重影响。

针对这一难题,北京大学彭宇新教授团队提出了置信度感知的伪标签学习框架(CPL)及其进阶版 CPL++,通过引入大模型生成多样化描述,并结合「自监督关联验证」机制,让模型在训练过程中学会动态发现并纠正自己的错误,实现弱监督视觉定位性能的提升。

技术方案

本文提出的 CPL 框架不仅能过滤错误的区域 - 文本关联,更能利用模型自身在训练中不断增强的定位能力,动态地「纠正」这些错误标签。其核心亮点包含以下几个方面:



图 1. 置信度感知的伪标签学习框架 CPL

1. 高质量伪查询生成与单模态匹配

由于跨模态匹配的困难,本文转换思路,利用单模态内的匹配构造伪标签。如上图所示,CPL 框架提出了三条互补的生成管线(启发式增强 Heuristic+、以对象为中心描述 Object-Centric、以关系为中心描述 Relation-Aware),为图像中的每个候选区域生成描述性强、真实且多样化的伪查询文本。随后,模型在文本特征空间内计算真实查询与伪查询之间的单模态相似度,挑选最匹配的区域作为初始伪标签,从而避开了跨模态对齐带来的挑战。

2. 静态跨模态验证模块



虽然 CPL 取得了显著效果,但其验证模块是孤立于定位模型之外的「静态」评估,不仅无法在训练中动态发挥作用,更缺乏对错误关联的「纠正」机制。为此,研究团队进一步扩展得到 CPL++ 框架,在以下核心方面进行了自监督升级。



图 2. 置信度感知的伪标签学习框架的进阶版本 CPL++

3. 自监督关联校正与动态伪标签优化

为了纠正错误的「区域 - 查询」关联,CPL++ 进一步引入了自监督关联校正模块。首先,模型不仅仅依赖检测器的置信度,而是结合了查询文本中的类别、属性和空间关系,构建了一个高质量的语义感知候选池。其综合评分函数定义为:



该评估函数综合性地结合了查询文本和候选区域在类别、属性、空间关系上的匹配程度,并结合检测器的置信度,对「区域 - 查询」伪标签提供了全面、可靠的评估手段,用于发现可能错误的「区域 - 查询」关联,过滤得到高质量的伪查询候选池,用于训练模型。





4. 自监督关联验证





这种自监督验证机制巧妙融合了强大的静态预训练模型的先验知识与不断动态进化的定位模型的能力,降低了误差传播的风险。

实验结果

本文在弱监督视觉定位领域的五大数据集(RefCOCO、RefCOCO+、RefCOCOg、ReferItGame、Flickr30K Entities)上进行了全面评估。

CPL 基础框架在这五个数据集的测试集上超越现有的弱监督与无监督方法。具备自纠错能力的 CPL++ 框架在 CPL 的基础上进一步实现了 2.78%、5.81%、1.08%、2.03% 和 2.55% 的绝对性能提升。CPL++ 框架将弱监督方法与全监督方法之间的性能差距缩小,展现了伪标签自校正机制的巨大潜力。



表 1:RefCOCO、RefCOCO+、RefCOCOg 数据集结果



表 2:ReferItGame、Flickr30K Entities 数据集结果

为了进一步直观展示模型生成伪标签的实际效果,图 3 中给出了伪标签的可视化结果,可以看出,CPL 能够为图像候选区域生成描述准确、句式丰富且包含复杂交互关系的高质量伪查询,提供了高度互补的多样化监督信息。此外,图 4 展示了自监督关联校正模块的动态纠错全过程:从图 4(a)中最初建立的初步伪查询关联,到图 4(b)中经过单模态匹配后可能产生的偏差关联,最终在校正模块的干预下,图 4(c)中模型的预测框被成功纠正并精准锁定到了与图 4(d)中的真实文本完全对应的正确目标区域上。这些案例证明了 CPL++ 框架在动态识别并修正错误监督信号方面的强大能力。



图 3:CPL 框架伪标签可视化



图 4:CPL++ 框架自监督关联校正可视化

总结

本文提出了一种弱监督视觉定位框架 CPL++ 。该框架不仅通过单模态匹配建立了更可靠的初始区域 - 文本关联,更重要的是,它为模型赋予了「自知之明」能力 —— 通过自监督的关联校正与验证模块,在训练过程中动态识别、衰减并纠正错误的监督信号。大量实验证明,让模型学会「自我纠错」,是突破弱监督视觉定位瓶颈的有效途径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“天津突发8.8级地震”?警方通报

“天津突发8.8级地震”?警方通报

大象新闻
2026-04-16 17:41:08
匈牙利撤军:人还没走,茶就凉了

匈牙利撤军:人还没走,茶就凉了

寰宇大观察
2026-04-16 17:20:43
惨败!6亿豪阵啊!输得太扎心了!又要重建了?

惨败!6亿豪阵啊!输得太扎心了!又要重建了?

篮球盛世
2026-04-16 12:36:36
任正非小女儿代言华为炸场!网友:代言人都自研,你们拿什么和我争...

任正非小女儿代言华为炸场!网友:代言人都自研,你们拿什么和我争...

品牌新
2026-04-16 12:10:00
已公布MVP票数:亚历山大14张第一选票161分 大幅领先约基奇文班

已公布MVP票数:亚历山大14张第一选票161分 大幅领先约基奇文班

醉卧浮生
2026-04-16 22:01:32
男子因噪音过敏住5年隔音舱:自己设计,已接上百个订单,帮噪音受困者找回睡眠

男子因噪音过敏住5年隔音舱:自己设计,已接上百个订单,帮噪音受困者找回睡眠

半岛官网
2026-04-16 11:20:50
广西靖西一地多名男子持手电筒拦车,当地镇政府:他们想当路霸,警方已到场处理

广西靖西一地多名男子持手电筒拦车,当地镇政府:他们想当路霸,警方已到场处理

潇湘晨报
2026-04-16 15:55:11
4年战争,乌克兰杀疯了!海陆空无人武器全面进化,打到莫斯科已成现实

4年战争,乌克兰杀疯了!海陆空无人武器全面进化,打到莫斯科已成现实

网易新闻出品
2026-04-16 13:47:19
张雪峰接班人自曝只睡三小时,压力很大,但公司稳定!网友:现代版诸葛亮...

张雪峰接班人自曝只睡三小时,压力很大,但公司稳定!网友:现代版诸葛亮...

品牌新
2026-04-16 20:03:27
山东淄博一化工厂发生火情,未致人员伤亡

山东淄博一化工厂发生火情,未致人员伤亡

界面新闻
2026-04-16 22:05:10
杭州一诊所用一个针头给15人采血,居民担心传染疾病,诊所负责人:已开除涉事员工,并带采血居民体检打疫苗

杭州一诊所用一个针头给15人采血,居民担心传染疾病,诊所负责人:已开除涉事员工,并带采血居民体检打疫苗

极目新闻
2026-04-16 18:04:42
不可思议!蒙古国三百万人去年生了8万,内蒙两千多万人才生了10万

不可思议!蒙古国三百万人去年生了8万,内蒙两千多万人才生了10万

西游日记
2026-04-16 20:53:41
后续!孕妇花198买水果被骂:已终止妊娠并准备离婚,老公崩溃了

后续!孕妇花198买水果被骂:已终止妊娠并准备离婚,老公崩溃了

不写散文诗
2026-04-16 16:18:47
央视官宣:意甲直播版权正式回归,至此五大联赛转播权已集齐

央视官宣:意甲直播版权正式回归,至此五大联赛转播权已集齐

懂球帝
2026-04-16 21:15:11
一个30吨钢卷,滚出了2026最“重量级”的地狱笑话

一个30吨钢卷,滚出了2026最“重量级”的地狱笑话

果壳
2026-04-16 12:17:28
美军扩大对伊朗航运物资封锁范围

美军扩大对伊朗航运物资封锁范围

新华社
2026-04-16 20:07:20
快船赛季总结:小卡时代两次无缘季后赛 队内麻烦不断或开启重建

快船赛季总结:小卡时代两次无缘季后赛 队内麻烦不断或开启重建

醉卧浮生
2026-04-16 13:07:14
最新:同济大学已成立调查组

最新:同济大学已成立调查组

南方都市报
2026-04-16 16:57:13
鞠婧祎方回应“丝芭创始人王子杰去世”:不与争论,生命为大,愿安息;王子杰曾创立SNH48,打造鞠婧祎“四千年美女”标签,推动其成顶流

鞠婧祎方回应“丝芭创始人王子杰去世”:不与争论,生命为大,愿安息;王子杰曾创立SNH48,打造鞠婧祎“四千年美女”标签,推动其成顶流

大风新闻
2026-04-16 14:09:04
脸没恢复就别出来拍剧了,顶着膨胀脸、说话嘴歪全是痘坑,太出戏

脸没恢复就别出来拍剧了,顶着膨胀脸、说话嘴歪全是痘坑,太出戏

翰飞观事
2026-04-16 17:03:30
2026-04-17 00:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12780文章数 142631关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

东北男子投诉公交提前发车丢工作 单位被施压将其解雇

头条要闻

东北男子投诉公交提前发车丢工作 单位被施压将其解雇

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰生意迷雾

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

本地
游戏
时尚
亲子
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

T1选手被送花圈、网暴、堵大楼!官方怒发声明

爆火的前额叶梗,让多少年轻人主动确诊「脑残」?

亲子要闻

有两娃的家庭每天都有断不完的官司

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版