网易首页 > 网易号 > 正文 申请入驻

ICCV 2025 | 基于时序增强关系敏感知识迁移弱监督动态场景图生成

0
分享至



该论文的第一作者和通讯作者均来自北京大学王选计算机研究所,第一作者为博士生徐铸,通讯作者为博士生导师刘洋。团队近年来在 TPAMI、IJCV、CVPR、ICML 等顶会上有多项代表性成果发表,多次荣获国内外多模态理解预生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。

本文主要介绍来自该团队的最新论文:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring。该任务针对弱监督动态场景图任务展开研究,发现目前的性能瓶颈在场景中目标检测的质量,因为外部预训练的目标检测器在需要考虑关系信息和时序上下文的场景图视频数据上检测结果欠佳。

本文针对该问题提出了一种时序增强关系敏感知识迁移的方法,通过获取关系和时序信息感知的注意力图来优化外部目标检测器的检测结果,从而提升在场景图数据上目标检测质量,进而提升最终的生成场景图效果。

目前该研究已被 ICCV 2025 正式接收,相关代码与模型已全部开源。



  • 论文标题:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring
  • 论文链接:https://arxiv.org/abs/2508.04943
  • 代码链接:https://github.com/XZPKU/TRKT.git
  • 项目主页:https://sites.google.com/view/trkt-official

动态场景图生成任务旨在通过检测物体并预测它们之间的关系,为视频的每一帧生成对应场景图。 弱监督动态场景图生成要求模型在训练阶段只使用来自视频单帧的无物体位置信息的场景图标签作为监督进行训练,从而减少标注工作量。现有的弱监督动态场景图生成方法依赖于预训练的外部目标检测器生成物体标签,进而构造伪场景图标签用于后续场景图生成模型的训练。

然而,在动态、关系感知的动态场景图生成场景中,训练于静态、以物体为中心图像上的目标检测器可能出现物体定位不准确以及对部分物体置信度过低,从而导致物体漏检的问题。本文通过分析目标检测结果和关系预测结果对最终场景图质量的影响(如下图 1 所示),可以发现目标检测质量是目前弱监督动态场景图生成任务的主要瓶颈。



图 1:使用不同目标检测结果和关系预测结果的动态场景图性能对比

针对上述问题,该论文提出了一种时序增强且关系敏感的知识迁移方法 TRKT,该方法能够有效增强在关系感知的动态场景中的目标检测性能。

具体来讲,TRKT 首先通过物体和关系类别解码器生成类别特定的注意力图,以突出物体区域和交互区域,从而使注意力图具备关系感知能力,同时利用邻近帧和光流信息对注意力图进行时序增强,使它们具备运动感知能力,并对运动模糊具有较强的鲁棒性。进一步,TRKT 还设计了一个双流融合模块,综合利用类别特定的注意力图与外部检测结果,提升物体定位精度和部分物体的置信度分数。实验表明,TRKT 通过提升目标检测性能为弱监督动态场景图生成的训练提供了更准确和更高质量的伪标签,进而提升最终动态场景图的生成质量。

一、方法介绍



图 2:基于时序增强关系敏感知识迁移的弱监督动态场景图生成方法框架图

本文方法如图 2 所示,它主要由两个设计组成:关系敏感的知识挖掘(Relation-aware Knowledge Mining)和双流融合模块(Dual-stream Fusion Module)。在关系敏感的知识挖掘中,我们利用图像编码器将每帧输入图像处理成若干块,然后分别通过物体和关系类别解码器对这些块进行解码,生成注意力图,用于高亮物体及其交互关系的相关区域。编码器和解码器仅通过图像的物体和关系类别标签进行监督。这些注意力图包含物体语义和潜在的关系上下文,从而增强了模型在数据中识别和理解复杂关系的能力。进一步地,跨帧的光流被用来提供时序信息以进一步增强注意力图。通过这些方法,我们获得既具备关系感知又具备运动感知的注意力图,包含时序增强和关系敏感的知识。在双流融合模块中,我们设计了并行的定位优化模块(Localization Refinement Module,LRM)和置信度提升模块(Confidence Boosting Module,CBM)用于最大化注意力图在增强外部检测结果中的效果。LRM 通过利用注意力图来定位物体区域,从而提供外部检测的边界框坐标的准确度;CBM 则增强由类别解码器识别的物体类别的置信度分数。关系敏感的知识挖掘和双流融合模块有效地减轻了外部检测结果中存在的偏差,最终产生了更可靠的物体检测结果。最后我们使用和基线模型相同的方法,将检测结果组织为场景图伪标签,以全监督的方式训练动态场景图检测模型。

关系敏感的知识挖掘











双流融合模块

双流融合模块(DFM)用于结合时序感知且关系敏感的知识,来提升外部检测器的结果质量。DFM 包含了定位修正模块和置信度提升模块。



图 3:定位修正模块示意图







图 4:置信度提升模块示意图







二、实验结果

①对比方法

我们对比了两大类方法,第一类是已有最优的弱监督动态场景图生成方法,包括 PLA [1] 和 NL-VSGG;第二类是擅长关系理解的视觉语言模型,包括 RLIP 和 RLIPv2 [4]。

②评价指标

评价指标分为两部分,第一部分是测评方法在 DSGG 数据中的目标检测性能,指标为 Average Precision (AP) 和 Average Recall (AR);第二部分是测评方法在动态场景图生成任务上的性能,我们通过场景图检测(SGDET)任务进行评估。SGDET 旨在检测物体对并预测它们之间的关系,并以 Recall@K 为指标进行评估。

③与现有方法的对比及分析



表 1:与基线模型在 Action Genome [3] 数据集上目标检测性能对比实验结果



表 2:与对比方法在 Action Genome [3] 数据集上动态场景图生成性能对比实验结果

我们首先对比了目标检测的性能,结果如表 1 所示。我们提出的方法在 Average Precision 和 Average Recall 上分别提高了 13.0%/1.3%,验证了我们的方法能够有效提升动态和需要关系理解场景下的目标检测性能。

对于弱监督动态场景图生成任务,性能对比如表 2 所示。和我们的基线模型 PLA 相比,结果显示,我们在所有评估指标上都取得了性能提升(1.72%/2.42%),这表明,通过改进物体检测结果,生成的伪场景图标签质量得到了提高,从而在最终的 DSGG 性能上获得了性能提升。此外,我们还与 NL-VSGG 进行了比较,NL-VSGG 使用视频字幕来构建伪场景图进行模型训练,也使用外部物体检测器进行物体检测,但由于相同的物体检测质量问题,其 DSGG 性能低于我们的方法。我们还与 RLIP 和 RLIPv2 进行了比较,它们以零样本方式进行场景图预测,将每一帧视为静态图像。然而,它们的性能较差,进一步说明了时序和动态信息和时序增强且关系敏感的知识对于动态场景图任务的必要性。

④消融实验



表 3:不同模块的消融实验结果

为了验证本文所提出的各个模块的有效性,本文进行了消融实验。CBM, LRM 和 IAA 分别代表置信度提升模块,定位修正模块以及帧间注意力增强策略,消融结果如表 3 所示。我们可以得出以下结论:(1)分别采用 CBM 和 LRM 作为知识迁移策略,分别带来了 1.2% 和 2.0% 的平均精度提升,进而在 SGDET 任务上获得了性能提升,这表明物体检测质量在边界框置信度分数和定位精度方面得到了改善。(2)通过结合 CBM 和 LRM,物体检测的 AP 平均提升了 2.8%,在有约束 / 无约束场景下,DSGG 任务的表现分别提升了 1.48%/1.94%。这表明,边界框精度的提升和置信度分数的增强可以相互补充,生成质量更高的物体检测结果,从而带来更大的性能提升。(3)融入 IAA 策略后,物体检测性能进一步提升,AP 提升了 8.9%/10.6%,表明 IAA 有效缓解了模糊和遮挡问题,生成了更好的检测结果,从而进一步提升了最终场景图生成的表现。

⑤可视化结果



图 5:动态场景图生成结果可视化

如图 5 所示,我们给出了和基线模型 PLA [1] 生成动态场景图效果的对比,得益于我们引入的时序增强关系敏感的知识和我们设计的双流融合模块,我们的方法能够得到更完整的场景图,并且其中人和物体的定位更加准确,从而使得得到的场景图质量更高。

更多研究细节,可参考原论文。

参考文献

[1] Siqi Chen, Jun Xiao, and Long Chen. Video scene graph generation from single-frame weak supervision. In The Eleventh International Conference on Learning Representations,2023.

[2] Zachary Teed and Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow, 2020.

[3] Jingwei Ji, Ranjay Krishna, Li Fei-Fei, and Juan Carlos Niebles. Action genome: Actions as compositions of spatio temporal scene graphs. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10236–10247, 2020.

[4] Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, and Deli Zhao. Rlipv2: Fast scaling of relational language-image pre-training, 2023.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
史无前例!安理会15:0,中俄美罕见一致通过,以色列被孤立了?

史无前例!安理会15:0,中俄美罕见一致通过,以色列被孤立了?

铁锤简科
2025-09-15 17:46:11
特雷-杨:施罗德在FIBA比赛里真的把所有人都打爆了!

特雷-杨:施罗德在FIBA比赛里真的把所有人都打爆了!

直播吧
2025-09-15 04:49:02
北京8岁女孩少年宫失踪,失联7天给爸爸7次托梦:爸爸冰柜里好冷

北京8岁女孩少年宫失踪,失联7天给爸爸7次托梦:爸爸冰柜里好冷

古怪奇谈录
2025-09-06 10:25:06
联合国安理会上,以色列不仅怒怼五常,还当众威胁卡塔尔

联合国安理会上,以色列不仅怒怼五常,还当众威胁卡塔尔

三叔的装备空间
2025-09-13 20:26:34
脑梗谨记,早晨1大忌,中午2不要,晚上3不做

脑梗谨记,早晨1大忌,中午2不要,晚上3不做

医学原创故事会
2025-09-12 13:53:42
六台:姆巴佩训练迟到两分钟,皇马今天训练定于上午10点

六台:姆巴佩训练迟到两分钟,皇马今天训练定于上午10点

直播吧
2025-09-15 16:54:04
“几乎没人”!西贝客流断崖式减少,门店负责人:羊肉每年一次集采冷冻发往全国,我们不可能天天杀羊

“几乎没人”!西贝客流断崖式减少,门店负责人:羊肉每年一次集采冷冻发往全国,我们不可能天天杀羊

大风新闻
2025-09-14 10:53:30
菲律宾即将“变天”,12万军队蓄势待发时,中方突然做了个大动作

菲律宾即将“变天”,12万军队蓄势待发时,中方突然做了个大动作

荷兰豆爱健康
2025-09-15 16:13:50
事关中小学秋假,南京市教育局最新回应

事关中小学秋假,南京市教育局最新回应

扬子晚报
2025-09-15 15:07:51
重大发现!就在杭州!

重大发现!就在杭州!

浙江之声
2025-09-15 11:21:33
空警-3000再次试飞,有望在2027年服役,届时将领先美国整整两代!

空警-3000再次试飞,有望在2027年服役,届时将领先美国整整两代!

战争与帝国
2025-09-14 22:12:23
贾国龙认错,馊主意害人害己,供应商瑟瑟发抖,中央厨房不能曝光

贾国龙认错,馊主意害人害己,供应商瑟瑟发抖,中央厨房不能曝光

眼光很亮
2025-09-15 03:43:54
“北航又如何?连美国都去不了”,985新生刚开学就后悔:想退学

“北航又如何?连美国都去不了”,985新生刚开学就后悔:想退学

妍妍教育日记
2025-09-13 12:36:10
重磅加码成都国际消费中心建设 成都希尔顿酒店重返原址释放行业信心

重磅加码成都国际消费中心建设 成都希尔顿酒店重返原址释放行业信心

封面新闻
2025-09-15 14:25:07
实习女幼师凌晨点外卖,餐送达后女子收到商家短信:千万不要去拿

实习女幼师凌晨点外卖,餐送达后女子收到商家短信:千万不要去拿

罪案洞察者
2025-09-12 14:41:34
iPhone 17首发直降 900 元,5099 元起!简直太香了...

iPhone 17首发直降 900 元,5099 元起!简直太香了...

数码盖饭官方号
2025-09-15 08:44:40
乌方:至少要1200亿美元

乌方:至少要1200亿美元

环球时报国际
2025-09-15 00:07:43
法国7460万美元卖出鸡肋直升机,本以为坑了中国,中国却玩出了花

法国7460万美元卖出鸡肋直升机,本以为坑了中国,中国却玩出了花

盒子里的密探
2025-09-15 16:19:05
国产机麻烦了:iPhone17太抢手,预约量是去年10倍,官网被挤崩

国产机麻烦了:iPhone17太抢手,预约量是去年10倍,官网被挤崩

互联网.乱侃秀
2025-09-13 10:07:37
70岁米歇尔表白52岁巩俐:嫁给我,我年入5亿!巩俐:我每周做4次有氧运动,你跟得上吗?

70岁米歇尔表白52岁巩俐:嫁给我,我年入5亿!巩俐:我每周做4次有氧运动,你跟得上吗?

广电新视网
2025-09-13 12:04:43
2025-09-15 18:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11294文章数 142450关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

排除近期新刻可能 "秦始皇遣使采药昆仑石刻"鉴定为真

头条要闻

排除近期新刻可能 "秦始皇遣使采药昆仑石刻"鉴定为真

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

时尚
艺术
亲子
本地
教育

别再买“网红同款”了,显胖又低级!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

换个思路,几十块的儿童霜把我们全家人的脸都养“老实”了

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

教育要闻

这样练习考场不慌!高考俄语一轮复习核心:课本和题型一起抓!

无障碍浏览 进入关怀版