网易首页 > 网易号 > 正文 申请入驻

ICCV 2025 | 基于时序增强关系敏感知识迁移弱监督动态场景图生成

0
分享至



该论文的第一作者和通讯作者均来自北京大学王选计算机研究所,第一作者为博士生徐铸,通讯作者为博士生导师刘洋。团队近年来在 TPAMI、IJCV、CVPR、ICML 等顶会上有多项代表性成果发表,多次荣获国内外多模态理解预生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。

本文主要介绍来自该团队的最新论文:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring。该任务针对弱监督动态场景图任务展开研究,发现目前的性能瓶颈在场景中目标检测的质量,因为外部预训练的目标检测器在需要考虑关系信息和时序上下文的场景图视频数据上检测结果欠佳。

本文针对该问题提出了一种时序增强关系敏感知识迁移的方法,通过获取关系和时序信息感知的注意力图来优化外部目标检测器的检测结果,从而提升在场景图数据上目标检测质量,进而提升最终的生成场景图效果。

目前该研究已被 ICCV 2025 正式接收,相关代码与模型已全部开源。



  • 论文标题:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring
  • 论文链接:https://arxiv.org/abs/2508.04943
  • 代码链接:https://github.com/XZPKU/TRKT.git
  • 项目主页:https://sites.google.com/view/trkt-official

动态场景图生成任务旨在通过检测物体并预测它们之间的关系,为视频的每一帧生成对应场景图。 弱监督动态场景图生成要求模型在训练阶段只使用来自视频单帧的无物体位置信息的场景图标签作为监督进行训练,从而减少标注工作量。现有的弱监督动态场景图生成方法依赖于预训练的外部目标检测器生成物体标签,进而构造伪场景图标签用于后续场景图生成模型的训练。

然而,在动态、关系感知的动态场景图生成场景中,训练于静态、以物体为中心图像上的目标检测器可能出现物体定位不准确以及对部分物体置信度过低,从而导致物体漏检的问题。本文通过分析目标检测结果和关系预测结果对最终场景图质量的影响(如下图 1 所示),可以发现目标检测质量是目前弱监督动态场景图生成任务的主要瓶颈。



图 1:使用不同目标检测结果和关系预测结果的动态场景图性能对比

针对上述问题,该论文提出了一种时序增强且关系敏感的知识迁移方法 TRKT,该方法能够有效增强在关系感知的动态场景中的目标检测性能。

具体来讲,TRKT 首先通过物体和关系类别解码器生成类别特定的注意力图,以突出物体区域和交互区域,从而使注意力图具备关系感知能力,同时利用邻近帧和光流信息对注意力图进行时序增强,使它们具备运动感知能力,并对运动模糊具有较强的鲁棒性。进一步,TRKT 还设计了一个双流融合模块,综合利用类别特定的注意力图与外部检测结果,提升物体定位精度和部分物体的置信度分数。实验表明,TRKT 通过提升目标检测性能为弱监督动态场景图生成的训练提供了更准确和更高质量的伪标签,进而提升最终动态场景图的生成质量。

一、方法介绍



图 2:基于时序增强关系敏感知识迁移的弱监督动态场景图生成方法框架图

本文方法如图 2 所示,它主要由两个设计组成:关系敏感的知识挖掘(Relation-aware Knowledge Mining)和双流融合模块(Dual-stream Fusion Module)。在关系敏感的知识挖掘中,我们利用图像编码器将每帧输入图像处理成若干块,然后分别通过物体和关系类别解码器对这些块进行解码,生成注意力图,用于高亮物体及其交互关系的相关区域。编码器和解码器仅通过图像的物体和关系类别标签进行监督。这些注意力图包含物体语义和潜在的关系上下文,从而增强了模型在数据中识别和理解复杂关系的能力。进一步地,跨帧的光流被用来提供时序信息以进一步增强注意力图。通过这些方法,我们获得既具备关系感知又具备运动感知的注意力图,包含时序增强和关系敏感的知识。在双流融合模块中,我们设计了并行的定位优化模块(Localization Refinement Module,LRM)和置信度提升模块(Confidence Boosting Module,CBM)用于最大化注意力图在增强外部检测结果中的效果。LRM 通过利用注意力图来定位物体区域,从而提供外部检测的边界框坐标的准确度;CBM 则增强由类别解码器识别的物体类别的置信度分数。关系敏感的知识挖掘和双流融合模块有效地减轻了外部检测结果中存在的偏差,最终产生了更可靠的物体检测结果。最后我们使用和基线模型相同的方法,将检测结果组织为场景图伪标签,以全监督的方式训练动态场景图检测模型。

关系敏感的知识挖掘











双流融合模块

双流融合模块(DFM)用于结合时序感知且关系敏感的知识,来提升外部检测器的结果质量。DFM 包含了定位修正模块和置信度提升模块。



图 3:定位修正模块示意图







图 4:置信度提升模块示意图







二、实验结果

①对比方法

我们对比了两大类方法,第一类是已有最优的弱监督动态场景图生成方法,包括 PLA [1] 和 NL-VSGG;第二类是擅长关系理解的视觉语言模型,包括 RLIP 和 RLIPv2 [4]。

②评价指标

评价指标分为两部分,第一部分是测评方法在 DSGG 数据中的目标检测性能,指标为 Average Precision (AP) 和 Average Recall (AR);第二部分是测评方法在动态场景图生成任务上的性能,我们通过场景图检测(SGDET)任务进行评估。SGDET 旨在检测物体对并预测它们之间的关系,并以 Recall@K 为指标进行评估。

③与现有方法的对比及分析



表 1:与基线模型在 Action Genome [3] 数据集上目标检测性能对比实验结果



表 2:与对比方法在 Action Genome [3] 数据集上动态场景图生成性能对比实验结果

我们首先对比了目标检测的性能,结果如表 1 所示。我们提出的方法在 Average Precision 和 Average Recall 上分别提高了 13.0%/1.3%,验证了我们的方法能够有效提升动态和需要关系理解场景下的目标检测性能。

对于弱监督动态场景图生成任务,性能对比如表 2 所示。和我们的基线模型 PLA 相比,结果显示,我们在所有评估指标上都取得了性能提升(1.72%/2.42%),这表明,通过改进物体检测结果,生成的伪场景图标签质量得到了提高,从而在最终的 DSGG 性能上获得了性能提升。此外,我们还与 NL-VSGG 进行了比较,NL-VSGG 使用视频字幕来构建伪场景图进行模型训练,也使用外部物体检测器进行物体检测,但由于相同的物体检测质量问题,其 DSGG 性能低于我们的方法。我们还与 RLIP 和 RLIPv2 进行了比较,它们以零样本方式进行场景图预测,将每一帧视为静态图像。然而,它们的性能较差,进一步说明了时序和动态信息和时序增强且关系敏感的知识对于动态场景图任务的必要性。

④消融实验



表 3:不同模块的消融实验结果

为了验证本文所提出的各个模块的有效性,本文进行了消融实验。CBM, LRM 和 IAA 分别代表置信度提升模块,定位修正模块以及帧间注意力增强策略,消融结果如表 3 所示。我们可以得出以下结论:(1)分别采用 CBM 和 LRM 作为知识迁移策略,分别带来了 1.2% 和 2.0% 的平均精度提升,进而在 SGDET 任务上获得了性能提升,这表明物体检测质量在边界框置信度分数和定位精度方面得到了改善。(2)通过结合 CBM 和 LRM,物体检测的 AP 平均提升了 2.8%,在有约束 / 无约束场景下,DSGG 任务的表现分别提升了 1.48%/1.94%。这表明,边界框精度的提升和置信度分数的增强可以相互补充,生成质量更高的物体检测结果,从而带来更大的性能提升。(3)融入 IAA 策略后,物体检测性能进一步提升,AP 提升了 8.9%/10.6%,表明 IAA 有效缓解了模糊和遮挡问题,生成了更好的检测结果,从而进一步提升了最终场景图生成的表现。

⑤可视化结果



图 5:动态场景图生成结果可视化

如图 5 所示,我们给出了和基线模型 PLA [1] 生成动态场景图效果的对比,得益于我们引入的时序增强关系敏感的知识和我们设计的双流融合模块,我们的方法能够得到更完整的场景图,并且其中人和物体的定位更加准确,从而使得得到的场景图质量更高。

更多研究细节,可参考原论文。

参考文献

[1] Siqi Chen, Jun Xiao, and Long Chen. Video scene graph generation from single-frame weak supervision. In The Eleventh International Conference on Learning Representations,2023.

[2] Zachary Teed and Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow, 2020.

[3] Jingwei Ji, Ranjay Krishna, Li Fei-Fei, and Juan Carlos Niebles. Action genome: Actions as compositions of spatio temporal scene graphs. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10236–10247, 2020.

[4] Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, and Deli Zhao. Rlipv2: Fast scaling of relational language-image pre-training, 2023.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
普通家庭美丽子女勿入娱乐圈!于朦胧遇难、乔任梁抑郁,她更悲惨

普通家庭美丽子女勿入娱乐圈!于朦胧遇难、乔任梁抑郁,她更悲惨

陈意小可爱
2025-09-16 01:39:01
给多少钱也不卖!阿森纳明确思路,18岁小将会是“下个萨卡”么

给多少钱也不卖!阿森纳明确思路,18岁小将会是“下个萨卡”么

里芃芃体育
2025-09-16 05:00:03
罗永浩:决定放弃进一步追究西贝

罗永浩:决定放弃进一步追究西贝

界面新闻
2025-09-15 18:44:26
9月开学后,整个教育方向都要变了。

9月开学后,整个教育方向都要变了。

玉辞心
2025-09-12 07:19:15
“三只羊”复播,三名主播着装一样,专注讲品,带货风格改变较大

“三只羊”复播,三名主播着装一样,专注讲品,带货风格改变较大

极目新闻
2025-09-15 23:12:38
10月高速将调整!限速、收费、免费全有新说法

10月高速将调整!限速、收费、免费全有新说法

汽车网评
2025-09-13 23:37:01
可用额度600多元却被盗刷将近2万元,浦发信用卡被集中盗刷之谜

可用额度600多元却被盗刷将近2万元,浦发信用卡被集中盗刷之谜

大风新闻
2025-09-15 11:33:04
罗永浩公开担心自己可能失踪,继续闹下去可能性很大

罗永浩公开担心自己可能失踪,继续闹下去可能性很大

深度财线
2025-09-15 22:18:55
英格兰赛:塞尔比四连鞭血洗海菲尔德,吴宜泽赢德比世界第二爆冷

英格兰赛:塞尔比四连鞭血洗海菲尔德,吴宜泽赢德比世界第二爆冷

世界体坛观察家
2025-09-16 00:26:24
重大发现!就在杭州!

重大发现!就在杭州!

浙江之声
2025-09-15 11:21:33
为什么欧美电影喜欢露点?看欧美电影都挺喜欢露点的感觉

为什么欧美电影喜欢露点?看欧美电影都挺喜欢露点的感觉

动物奇奇怪怪
2025-08-25 08:03:46
被传因第二次肝移植手术并发症去世,阿比达尔辟谣:我还活着

被传因第二次肝移植手术并发症去世,阿比达尔辟谣:我还活着

懂球帝
2025-09-16 02:13:22
安徽男子怀疑自己是释永信私生子,母亲30年前怀孕,两人五官神似

安徽男子怀疑自己是释永信私生子,母亲30年前怀孕,两人五官神似

不八卦掌门人
2025-08-22 14:15:10
都是场均十几分!都是没投射,威少无球可打,为什么他能拿1亿

都是场均十几分!都是没投射,威少无球可打,为什么他能拿1亿

球毛鬼胎
2025-09-15 19:37:26
脚法依然在线!39岁的鲁尼顶着大肚子,打出世界波洞穿卡西大门

脚法依然在线!39岁的鲁尼顶着大肚子,打出世界波洞穿卡西大门

直播吧
2025-09-15 14:48:25
张本智和啊张本智和,看看雨果这段感言,再看你,从不自身找问题

张本智和啊张本智和,看看雨果这段感言,再看你,从不自身找问题

振华观史
2025-09-15 11:15:20
塞蒂恩即将下课!输河南把高层气坏了,连夜开会想让他走人

塞蒂恩即将下课!输河南把高层气坏了,连夜开会想让他走人

茜子足球
2025-09-15 14:11:24
成毅《赴山海》首播收视第1,却差评一片,古装丑男再添三员猛将

成毅《赴山海》首播收视第1,却差评一片,古装丑男再添三员猛将

查尔菲的笔记
2025-09-13 11:11:24
辛苦了,王楚钦夺冠深夜宣布新决定,喊话孙颖莎,瞄准中国大满贯

辛苦了,王楚钦夺冠深夜宣布新决定,喊话孙颖莎,瞄准中国大满贯

二哥聊球
2025-09-15 09:29:42
笑掉大牙!满脸皱纹尬扮“少女”?拜托《灼灼韶华》别再盲选演员

笑掉大牙!满脸皱纹尬扮“少女”?拜托《灼灼韶华》别再盲选演员

草莓解说体育
2025-09-16 01:44:01
2025-09-16 06:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11296文章数 142449关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

中美就妥善解决TikTok问题达成基本框架共识

头条要闻

中美就妥善解决TikTok问题达成基本框架共识

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

本地
教育
家居
时尚
公开课

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

教育要闻

十五岁为什么非常重要天才不是越小越可喜而是这一年最关键

家居要闻

典雅大气 舒适中带童趣

日常穿衣其实一点都不难,看看这些气质女性,穿得大方高级

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版