网易首页 > 网易号 > 正文 申请入驻

ICCV 2025 | 基于时序增强关系敏感知识迁移弱监督动态场景图生成

0
分享至

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所,第一作者为博士生徐铸,通讯作者为博士生导师刘洋。团队近年来在 TPAMI、IJCV、CVPR、ICML 等顶会上有多项代表性成果发表,多次荣获国内外多模态理解预生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。

本文主要介绍来自该团队的最新论文:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring。该任务针对弱监督动态场景图任务展开研究,发现目前的性能瓶颈在场景中目标检测的质量,因为外部预训练的目标检测器在需要考虑关系信息和时序上下文的场景图视频数据上检测结果欠佳。

本文针对该问题提出了一种时序增强关系敏感知识迁移的方法,通过获取关系和时序信息感知的注意力图来优化外部目标检测器的检测结果,从而提升在场景图数据上目标检测质量,进而提升最终的生成场景图效果。

目前该研究已被 ICCV 2025 正式接收,相关代码与模型已全部开源。

  • 论文标题:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring
  • 论文链接:https://arxiv.org/abs/2508.04943
  • 代码链接:https://github.com/XZPKU/TRKT.git
  • 项目主页:https://sites.google.com/view/trkt-official

动态场景图生成任务旨在通过检测物体并预测它们之间的关系,为视频的每一帧生成对应场景图。 弱监督动态场景图生成要求模型在训练阶段只使用来自视频单帧的无物体位置信息的场景图标签作为监督进行训练,从而减少标注工作量。现有的弱监督动态场景图生成方法依赖于预训练的外部目标检测器生成物体标签,进而构造伪场景图标签用于后续场景图生成模型的训练。

然而,在动态、关系感知的动态场景图生成场景中,训练于静态、以物体为中心图像上的目标检测器可能出现物体定位不准确以及对部分物体置信度过低,从而导致物体漏检的问题。本文通过分析目标检测结果和关系预测结果对最终场景图质量的影响(如下图 1 所示),可以发现目标检测质量是目前弱监督动态场景图生成任务的主要瓶颈。

图 1:使用不同目标检测结果和关系预测结果的动态场景图性能对比

针对上述问题,该论文提出了一种时序增强且关系敏感的知识迁移方法 TRKT,该方法能够有效增强在关系感知的动态场景中的目标检测性能。

具体来讲,TRKT 首先通过物体和关系类别解码器生成类别特定的注意力图,以突出物体区域和交互区域,从而使注意力图具备关系感知能力,同时利用邻近帧和光流信息对注意力图进行时序增强,使它们具备运动感知能力,并对运动模糊具有较强的鲁棒性。进一步,TRKT 还设计了一个双流融合模块,综合利用类别特定的注意力图与外部检测结果,提升物体定位精度和部分物体的置信度分数。实验表明,TRKT 通过提升目标检测性能为弱监督动态场景图生成的训练提供了更准确和更高质量的伪标签,进而提升最终动态场景图的生成质量。

一、方法介绍

图 2:基于时序增强关系敏感知识迁移的弱监督动态场景图生成方法框架图

本文方法如图 2 所示,它主要由两个设计组成:关系敏感的知识挖掘(Relation-aware Knowledge Mining)和双流融合模块(Dual-stream Fusion Module)。在关系敏感的知识挖掘中,我们利用图像编码器将每帧输入图像处理成若干块,然后分别通过物体和关系类别解码器对这些块进行解码,生成注意力图,用于高亮物体及其交互关系的相关区域。编码器和解码器仅通过图像的物体和关系类别标签进行监督。这些注意力图包含物体语义和潜在的关系上下文,从而增强了模型在数据中识别和理解复杂关系的能力。进一步地,跨帧的光流被用来提供时序信息以进一步增强注意力图。通过这些方法,我们获得既具备关系感知又具备运动感知的注意力图,包含时序增强和关系敏感的知识。在双流融合模块中,我们设计了并行的定位优化模块(Localization Refinement Module,LRM)和置信度提升模块(Confidence Boosting Module,CBM)用于最大化注意力图在增强外部检测结果中的效果。LRM 通过利用注意力图来定位物体区域,从而提供外部检测的边界框坐标的准确度;CBM 则增强由类别解码器识别的物体类别的置信度分数。关系敏感的知识挖掘和双流融合模块有效地减轻了外部检测结果中存在的偏差,最终产生了更可靠的物体检测结果。最后我们使用和基线模型相同的方法,将检测结果组织为场景图伪标签,以全监督的方式训练动态场景图检测模型。

关系敏感的知识挖掘

双流融合模块

双流融合模块(DFM)用于结合时序感知且关系敏感的知识,来提升外部检测器的结果质量。DFM 包含了定位修正模块和置信度提升模块。

图 3:定位修正模块示意图

图 4:置信度提升模块示意图

二、实验结果

①对比方法

我们对比了两大类方法,第一类是已有最优的弱监督动态场景图生成方法,包括 PLA [1] 和 NL-VSGG;第二类是擅长关系理解的视觉语言模型,包括 RLIP 和 RLIPv2 [4]。

②评价指标

评价指标分为两部分,第一部分是测评方法在 DSGG 数据中的目标检测性能,指标为 Average Precision (AP) 和 Average Recall (AR);第二部分是测评方法在动态场景图生成任务上的性能,我们通过场景图检测(SGDET)任务进行评估。SGDET 旨在检测物体对并预测它们之间的关系,并以 Recall@K 为指标进行评估。

③与现有方法的对比及分析

表 1:与基线模型在 Action Genome [3] 数据集上目标检测性能对比实验结果

表 2:与对比方法在 Action Genome [3] 数据集上动态场景图生成性能对比实验结果

我们首先对比了目标检测的性能,结果如表 1 所示。我们提出的方法在 Average Precision 和 Average Recall 上分别提高了 13.0%/1.3%,验证了我们的方法能够有效提升动态和需要关系理解场景下的目标检测性能。

对于弱监督动态场景图生成任务,性能对比如表 2 所示。和我们的基线模型 PLA 相比,结果显示,我们在所有评估指标上都取得了性能提升(1.72%/2.42%),这表明,通过改进物体检测结果,生成的伪场景图标签质量得到了提高,从而在最终的 DSGG 性能上获得了性能提升。此外,我们还与 NL-VSGG 进行了比较,NL-VSGG 使用视频字幕来构建伪场景图进行模型训练,也使用外部物体检测器进行物体检测,但由于相同的物体检测质量问题,其 DSGG 性能低于我们的方法。我们还与 RLIP 和 RLIPv2 进行了比较,它们以零样本方式进行场景图预测,将每一帧视为静态图像。然而,它们的性能较差,进一步说明了时序和动态信息和时序增强且关系敏感的知识对于动态场景图任务的必要性。

④消融实验

表 3:不同模块的消融实验结果

为了验证本文所提出的各个模块的有效性,本文进行了消融实验。CBM, LRM 和 IAA 分别代表置信度提升模块,定位修正模块以及帧间注意力增强策略,消融结果如表 3 所示。我们可以得出以下结论:(1)分别采用 CBM 和 LRM 作为知识迁移策略,分别带来了 1.2% 和 2.0% 的平均精度提升,进而在 SGDET 任务上获得了性能提升,这表明物体检测质量在边界框置信度分数和定位精度方面得到了改善。(2)通过结合 CBM 和 LRM,物体检测的 AP 平均提升了 2.8%,在有约束 / 无约束场景下,DSGG 任务的表现分别提升了 1.48%/1.94%。这表明,边界框精度的提升和置信度分数的增强可以相互补充,生成质量更高的物体检测结果,从而带来更大的性能提升。(3)融入 IAA 策略后,物体检测性能进一步提升,AP 提升了 8.9%/10.6%,表明 IAA 有效缓解了模糊和遮挡问题,生成了更好的检测结果,从而进一步提升了最终场景图生成的表现。

⑤可视化结果

图 5:动态场景图生成结果可视化

如图 5 所示,我们给出了和基线模型 PLA [1] 生成动态场景图效果的对比,得益于我们引入的时序增强关系敏感的知识和我们设计的双流融合模块,我们的方法能够得到更完整的场景图,并且其中人和物体的定位更加准确,从而使得得到的场景图质量更高。

更多研究细节,可参考原论文。

参考文献

[1] Siqi Chen, Jun Xiao, and Long Chen. Video scene graph generation from single-frame weak supervision. In The Eleventh International Conference on Learning Representations,2023.

[2] Zachary Teed and Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow, 2020.

[3] Jingwei Ji, Ranjay Krishna, Li Fei-Fei, and Juan Carlos Niebles. Action genome: Actions as compositions of spatio temporal scene graphs. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10236–10247, 2020.

[4] Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, and Deli Zhao. Rlipv2: Fast scaling of relational language-image pre-training, 2023.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不管你信不信,生肖属鸡人:5月13日后,大事即将发生!

不管你信不信,生肖属鸡人:5月13日后,大事即将发生!

阿龙美食记
2026-05-08 18:46:10
央视主持人朱迅:生命终点将结束,为何不勇敢面对生命的终点呢?

央视主持人朱迅:生命终点将结束,为何不勇敢面对生命的终点呢?

吃青菜长高
2026-05-10 06:28:57
结不起还是结不动?一季度全国结婚登记再创纪录新低

结不起还是结不动?一季度全国结婚登记再创纪录新低

听心堂
2026-05-10 17:04:06
外交部:中美元首将就事关中美关系以及世界和平与发展的重大问题深入交换意见

外交部:中美元首将就事关中美关系以及世界和平与发展的重大问题深入交换意见

澎湃新闻
2026-05-11 15:26:31
首尾大战,央视直播!CCTV5+聚焦津蓉对决,CCTV16播鲁渝交锋

首尾大战,央视直播!CCTV5+聚焦津蓉对决,CCTV16播鲁渝交锋

实事球是
2026-05-11 08:38:25
寒武纪成交额超250亿元

寒武纪成交额超250亿元

证券时报
2026-05-11 15:04:04
原来娱乐圈不仅有“白手套”,还有“绿手套”!

原来娱乐圈不仅有“白手套”,还有“绿手套”!

麦杰逊
2026-05-11 13:58:04
郑丽文神预言!“内鬼”摊上大事、1把好牌打稀碎,绿营1人狂挖苦

郑丽文神预言!“内鬼”摊上大事、1把好牌打稀碎,绿营1人狂挖苦

生活魔术专家
2026-05-11 12:35:33
貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

纸鸢奇谭
2026-04-13 16:06:54
惯子如杀子!孩子这几种表现说明已经被惯坏了,再不改就来不及了

惯子如杀子!孩子这几种表现说明已经被惯坏了,再不改就来不及了

木言观
2026-04-29 22:28:49
难以置信!上海雇主怒斥保姆打开全屋灯光“费电”,背后真相扎心

难以置信!上海雇主怒斥保姆打开全屋灯光“费电”,背后真相扎心

火山詩话
2026-05-11 06:42:40
[视频]【树立和践行正确政绩观】以学促干 将学习教育成效落到实处

[视频]【树立和践行正确政绩观】以学促干 将学习教育成效落到实处

国际在线
2026-05-10 20:59:33
特朗普访华携庞大代表团,但国务卿鲁比奥为何缺席?

特朗普访华携庞大代表团,但国务卿鲁比奥为何缺席?

天气观察站
2026-05-10 19:38:45
上骗中央,下骗百姓,三回入狱,从首富到首骗,把他吹的太神了!

上骗中央,下骗百姓,三回入狱,从首富到首骗,把他吹的太神了!

纵拥千千晚星
2026-04-20 04:45:06
转账5千要查祖宗,内鬼卷走1800万却一路绿灯!银行双标太离谱了

转账5千要查祖宗,内鬼卷走1800万却一路绿灯!银行双标太离谱了

今朝牛马
2026-05-06 21:00:56
开发者怒停更!华为被指套取合作信息,用于鸿蒙适配招标!

开发者怒停更!华为被指套取合作信息,用于鸿蒙适配招标!

云头条
2026-05-09 23:07:28
最坏的5个生肖 谁是有坏人潜质的属相

最坏的5个生肖 谁是有坏人潜质的属相

缘道堂每日一说
2026-05-11 15:09:37
5.11竞彩足球赛事推荐:精选赛事解析附胜平负进球数比分参考

5.11竞彩足球赛事推荐:精选赛事解析附胜平负进球数比分参考

足球老牛哥
2026-05-11 14:38:49
他离开司令员岗位,生活急转直下,为了改善生活,让儿女南下打拼

他离开司令员岗位,生活急转直下,为了改善生活,让儿女南下打拼

微野谈写作
2026-05-10 13:00:08
演员拍这种全身湿透的吻戏,要是起反应了,会不会很尴尬?

演员拍这种全身湿透的吻戏,要是起反应了,会不会很尴尬?

老吴教育课堂
2026-05-11 08:40:10
2026-05-11 16:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12968文章数 142648关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

家居
教育
房产
数码
公开课

家居要闻

多元生活 此处无声

教育要闻

鸡娃放养,都不如养个“晨型人格”的孩子,他会自信又自律

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

数码要闻

努比亚推出GT Buds耳机:支持35dB降噪,269元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版