网易首页 > 网易号 > 正文 申请入驻

ICCV 2021 | MultiSports:面向体育运动场景的细粒度多人时空动作检测数据集

0
分享至

今天介绍一个我们新提出的时空动作检测数据集MultiSports,同时也是DeeperAction比赛的赛道二。首先介绍一下什么是时空动作检测任务 (Spatio-Temporal Action Detection): 输入一段未剪辑的视频 (untrimmed video),输出视频中人物的动作类别、动作发生的时序区间以及在此区间内的人物框。

现有数据集主要分为两大类:

  • 以UCF101-24和JHMDB为代表的密集标注数据集 (25FPS),这类数据集每个视频只有一种动作,大部分视频是单人在做一些语义简单的重复动作,动作类别与背景高度相关。

  • 以AVA为代表的稀疏标注数据集 (1FPS),由于稀疏标注,他们没有给出明确的动作边界,现有的方法更像是instance级别的动作识别,弱化时序定位;同时动作类别是日常的原子动作,运动速度慢、形变小,跟踪难度较低,分类不需要复杂的人与物与环境的建模和推理。

论文信息

论文链接: MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions

比赛主页链接: DeeperAction/MultiSports

GitHub链接: MCG-NJU/MultiSports

MultiSports可视化视频

研究动机

基于对现有数据集的分析,我们认为他们不能满足现实应用对时空动作检测技术的需求,需要提出一个新的数据集来推动这个领域的进步,我们希望这个数据集满足以下特征:

  • 多人: 在同一场景下,不同的人做不同的细粒度动作,减少背景提供的信息。

  • 分类: 细粒度动作类别,定义准确,需要刻画人物本身动作,长时信息建模,人与人、与物、与环境的关系建模,推理。

  • 时序: 动作边界定义准确。

  • 跟踪: 运动速度快,形变大,存在遮挡。

基于以上特点我们以集体运动作为数据集背景,选择了足球、篮球、排球、健美操四种运动共66种动作。

应用场景

除了学术研究,我们的MultiSports还有很多的落地场景。结合Re-ID技术,球类领域我们可以做每位球员的技术统计 (目前是人工统计),例如在篮球中如果一个人接到队友传球之后没有任何其他动作直接投篮成功,则记为传球队友的一次助攻,如果一个人在投篮时有人来干扰投篮,那么这个投篮的难度指数会随着干扰投篮人数的增多而增大,这位球员成功后投篮技术评估则会更高,这些为制定训练计划、比赛策略和俱乐部之间球员交易提供信息,同时也可用于比赛解说、特效制作等;多人操领域我们可以做AI裁判,对运动员表现进行打分,在即将到来的东京奥运会,已将AI裁判引入了单人体操运动。我们相信竞技体育是计算机视觉一个很好的落地场景,而时空动作检测是其中一个很重要的技术。

标注手册

(a) 类别结构图 (b) 标注用户界面

为了保证专业性,健美操我们采用了官方手册FIG[1]。对于三大球,我们邀请了南京大学足、篮、排校队的高水平运动员为我们制定了手册。我们采用迭代的方式,首先根据运动员们的专业建议给出初始动作列表、类别定义以及边界定义,生成初版手册,然后根据初版手册让运动员对具体数据进行试标,并且提出类别定义混淆、边界定义不准确、遗漏的动作类别等问题,根据运动员的反馈我们不断调整类别列表、类别定义和边界定义,迭代多次直到无歧义存在,敲定最终手册,开始大规模标注,四种运动包含66个动作,如上图(a)。

数据收集

对于每种运动,我们在YouTube上搜索运动+比赛类别,比如volleyball+World Cup或者是volleyball+Olympics,根据搜索热度收集数据,共收集了247场比赛。我们选取的是1080P或者720P的高质量比赛视频,然后手工把整场比赛切割成短视频便于标注,我们只关注比赛部分,因此无关片段全部被切除,例如入场、颁奖、暂停休息等内容。同时我们手工控制了参赛国家、比赛等级以及性别的多样性。

数据标注

由于我们既需要拥有专业知识的细粒度类别标注,又需要密集的25FPS人物框标注,我们采用了两阶段标注。第一阶段由专业运动员根据手册标注动作类别和边界,以及边界内第一帧的人物框;第二阶段我们首先采用单目标跟踪器FCOT[2]在每个动作区间内初步生成人物框,然后采用众包的方式对人物框进行调整 (25FPS),这些标注人员不需要专业知识。

质量控制

第一阶段,每段视频至少有一个有专业知识的人进行二次检查,修改错误类别,不准确的边界,增加漏标的动作等;对于第二阶段,每段视频以5FPS的方式播放进行二次检查,修改不准确的框。

数据统计

MutliSports有66个动作类别,每种运动800个片段,共3200个片段。Table 1将MultiSports与现有数据集进行了对比,由于AVA、DALY和AVA-Kinetics是稀疏标注我们不进行直接对比,其中AVA-Kinetics是在AVA基础上,加入了部分Kinetics的裁剪好的数据(trimmed video),每个视频只标注一个关键帧,更关注动作识别而不是时空动作检测。

与JHMDB和UCF101-24对比,我们有更长的视频(21.0s vs. 1.2s vs. 6.9s),更多的细粒度类别(66 vs. 21 vs. 24),更多的实例个数(37790 vs. 928 vs. 4458),每个视频平均实例个数也更多(11.8 vs. 1 vs. 1.4)。同时在所有数据集中我们包含最多的人物框。为了对动作边界进行精准定义,我们只标注了同一种动作普遍存在的部分,例如篮球中的传球,从球员胳膊向外伸直开始,球离手结束,不包含手拿球和做假动作的部分。因此我们的动作平均长度短于UCF和JHMDB,他们有很多重复性动作(骑马或者击剑),虽然动作长,但是很短的时间就可以确定类别。

从Fig.3中我们可以看出,每个动作类别实例个数从3到3514,呈长尾分布,这符合现实规律,为数据集带来了挑战。Fig 4.统计了动作长度的分布,动作长度跨度大以及不同运动之间长度分布的不同为准确检测动作时序边界带来新的挑战。

实验分析

我们在MultiSports上跑了几个UCF和AVA的典型方法,结果如Table 3.所示,对于UCF101-24的方法,我们发现他们在MultiSports上效果都大幅减低,其中ROAD降幅最大,video-mAP为0,这是一个只依靠单帧输入进行识别的方法,对于UCF和JHMDB,粗粒度动作类别与场景信息高度相关,单帧可以提供很多信息,但是MutliSports是在类似的背景下,多人做不同的动作,单帧信息无法识别动作类别。

对于AVA的方法,slowfast和slowonly效果的差距在MultiSports上比在AVA上大很多,因为MultiSports比AVA运动速度和形变大很多,需要更密集的时序信息。从Fig 5.可以看出健美操是结果涨幅最大的运动,因为健美操是四种运动中速度和形变最大的运动。其他运动中一些时序长度短但是动作剧烈的类别涨幅也很大,例如篮球中的传球,足球中的解围,排球中的二次进攻。

错误分析

为了更好地分析数据集的难点,我们基于ACT[3]提出了一种更全面的错误分析方法,包含了十种错误,其中ER代表一个预测结果命中了一个已经被检测到的GT;EN代表一个预测结果和任何GT没有时空重合;EL代表了一个预测结果分类正确,时序定位准确,空间定位不准确;EC代表了一个预测结果分类错误,时空定位准确;ET代表了一个预测结果分类正确,时序定位不准确,空间定位准确;ECT,ETL,ECL,ECTL,代表了一个预测结果在某几个方面不准确;EM代表了没有被预测到的GT;错误分类可以被组织成一个决策树,具体在论文附录中提供。

SlowFast和MOC对比,我们发现SlowFast虽然AP值高于MOC,但是recall值(1-EM)比MOC低,因为其第一步person detector在MultiSports进行finetune,抑制了很多没有动作的人物框,减少了假阳例,但是很多难样例还是没有检测出来。对于MOC来说,错的最多的是EN和EC,显示了细粒度动作分类的困难,EN代表算法可以对人进行定位,但是无法准确地把他的动作识别为背景类,也属于分类问题。

这也与MOC的训练策略有关系,MOC只在动作时序范围内采帧进行训练,虽然有其他位置有没有动作的人作为负样本,但是人物没有做任何动作的负样本仍然不够。另外可以看出,ECT,ECTL和ET也占了很大的一部分,显示时序检测比空间定位要难,因此更好地建模时序信息是很必要的。

消融实验

探究长时信息的重要性: K是MOC中一个很重要的参数,代表了输入帧的长度。从frame-mAP来看,虽然MultiSports比UCF101-24平均动作长度短,但是更需要长时信息建模。

对于video-mAP来说,在MutliSports上的结果没有跟着K变大而变好,我们分析主要有两个原因: 一是,MOC指出随着K变大,位移估计精度会下降,而MultiSports运动速度和形变都很大,位移分支不能准确的预测位移,对video-mAP的影响很大;二是MultiSports动作长度跨度很大,有9.2%的样例小于7帧,23.2%的样例小于11帧,固定长度K(如11)会损害时序定位的精度,影响video-mAP。总的来说,我们数据集需要更长的时序建模,更精确的位移估计以及更灵活的时序定位。

什么类别更具有挑战性: 通过观察Fig 5.我们发现并不是数据越多的类别效果越好,与场景信息高度相关的类别(例如篮球中的罚篮(free throw))和健美操的基本动作(例如horizontal support和v support)虽然数量少但是效果好,健美操包含了基本动作和复合动作,复合动作包含了基本动作和自己的核心动作,因此识别复合动作需要更长时的建模。而对于长度短但是动作剧烈的一些类别(例如足球传球(pass)、篮球传球(pass)、足球拦截(interception))虽然数量多但是效果差。观察下面的混淆矩阵我们分析出一些挑战:

  • 环境建模: 例如篮球的三分投篮(3-point shot)和二分投篮(2-point shot),动作基本一致,需要区分投篮位置。

  • 推理: 例如排球的保护(protect)和防守(defend),动作基本一致,我们需要判断球是自家队友进攻但是被拦网拦回,还是对面进攻打过网的。

  • 长时建模: 例如足球的短传(pass)和长传(long ball),动作基本一致,我们需要判断球被传了多远来区分。

探究时序定位的重要性: 我们分别采用trimmed和untrimmed的方式测试了SlowFast在AVA和MultiSports的结果。trimmed方式只评估有标注的帧的预测结果,untrimmed方式评估所有帧的预测结果。我们发现AVA只降了2% 而MultiSports降了11%,说明时序定位在我们数据集中非常重要。同时我们发现video-mAP@0.5降的值远大于video-mAP@0.2,说明精准的时序定位对高精度的时空动作检测至关重要。

探究清晰定义、高质量标注时序边界的作用: 我们在训练集的GT中加入一些时序噪声,对于一个长度为L帧的视频,我们从(1, L)中随机选取一个新长度new_L,然后从(0, L-new_L)中随机选取开始点的位移,从原GT中采样,不改变空间信息。其他一切的设置保持一致,从下表中我们可以发现没有清晰的边界定义后,结果下降非常多,证明了MultiSports高质量时序边界的重要。

可视化

典型错误可视化:绿色的框代表GT,黄色的框代表预测结果,红色的框代表被漏检的结果。第一第二行:由于遮挡造成了漏检。第三第四行:ECT:突破(drive)被错分成了运球(dribble),同时时序边界不准确;EM:挡拆(screen),挡拆防守(pick-and-roll defensive)和协防(sag)漏检。

参考文献

[1] Federation Internationale de Gymnastique. Aerobic gymnastics-code of points. FIG Aerobic Gymnastics FIG Executive Committee, 2017.

[2] Yutao Cui, Cheng Jiang, Limin Wang, and Gangshan Wu. Fully convolutional online tracking, 2021.

[3] Vicky Kalogeiton, Philippe Weinzaepfel, Vittorio Ferrari, and Cordelia Schmid. Action tubelet detector for spatiotemporal action localization. In ICCV, pages 4415–4423. IEEE Computer Society, 2017.

来源:知乎

作者:王利民

深延科技|

深延科技成立于2018年,是深兰科技(DeepBlue)旗下的子公司,以“人工智能赋能企业与行业”为使命,助力合作伙伴降低成本、提升效率并挖掘更多商业机会,进一步开拓市场,服务民生。公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,涵盖从数据标注及处理,到模型构建,再到行业应用和解决方案的全流程服务,一站式助力企业“AI”化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
简直铁人,湖人队詹姆斯表示,过去五年他一直饱受同一伤病的困扰

简直铁人,湖人队詹姆斯表示,过去五年他一直饱受同一伤病的困扰

好火子
2026-04-30 00:23:48
郑丽文官宣,即将访美!大陆的回应绝了,国民党高层是该清醒了

郑丽文官宣,即将访美!大陆的回应绝了,国民党高层是该清醒了

共工之锚
2026-04-30 00:05:06
400亿,潮汕中专生去敲钟了

400亿,潮汕中专生去敲钟了

融资中国
2026-04-29 12:29:28
彻底闹掰了?伊朗261名议员,联名支持卡利巴夫,站在军方对立面

彻底闹掰了?伊朗261名议员,联名支持卡利巴夫,站在军方对立面

阿芒娱乐说
2026-04-29 21:59:22
心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

德鲁克博雅管理
2026-04-28 17:04:30
解放军的真正对手是这三位国民党!薛岳、张灵甫都不够资格!

解放军的真正对手是这三位国民党!薛岳、张灵甫都不够资格!

北海史记
2026-04-01 14:40:10
官方:山东泰山U20主教练崔鹏因试图冲击主裁判被禁赛6场

官方:山东泰山U20主教练崔鹏因试图冲击主裁判被禁赛6场

懂球帝
2026-04-29 19:33:37
这些菜隔天吃一次,一降血脂、二降血糖、三降胆固醇,别错过

这些菜隔天吃一次,一降血脂、二降血糖、三降胆固醇,别错过

江江食研社
2026-04-19 00:30:03
表姑向我借了85000,17年没还,我去银行注销旧卡时,柜员看了眼卡说:女士,最后一笔转账留言您要看吗?

表姑向我借了85000,17年没还,我去银行注销旧卡时,柜员看了眼卡说:女士,最后一笔转账留言您要看吗?

品读时刻
2026-03-09 09:04:10
3+1!中国男篮,爽了!未来第一攻击型后卫

3+1!中国男篮,爽了!未来第一攻击型后卫

篮球实战宝典
2026-04-29 22:27:31
第一夫人扛不住了!布丽吉特开口谈婚姻:9年没有正常夫妻生活

第一夫人扛不住了!布丽吉特开口谈婚姻:9年没有正常夫妻生活

白露文娱志
2026-04-29 14:05:20
王健林时代落幕,输给了这个靠赵薇起家、截胡许家印的湖北富豪!

王健林时代落幕,输给了这个靠赵薇起家、截胡许家印的湖北富豪!

小娱乐悠悠
2026-04-29 10:58:49
米饭被点名!医生直言:米饭冷冻24小时,抗性淀粉翻倍控糖护肠

米饭被点名!医生直言:米饭冷冻24小时,抗性淀粉翻倍控糖护肠

路医生健康科普
2026-04-26 19:55:03
6000 万!维拉锁定曼城失意王牌,沃特金斯或遭取代

6000 万!维拉锁定曼城失意王牌,沃特金斯或遭取代

澜归序
2026-04-29 01:58:15
郑晓龙新剧开播就爆,这剧能上央视是应该的!

郑晓龙新剧开播就爆,这剧能上央视是应该的!

草莓解说体育
2026-04-28 01:38:15
《乘风2026》 安崎崩溃落泪,萧蔷当场翻脸制止,这才是大女主风范!

《乘风2026》 安崎崩溃落泪,萧蔷当场翻脸制止,这才是大女主风范!

喜欢历史的阿繁
2026-04-29 14:12:54
俄罗斯人大量涌入中国,却发现中俄差距越来越大

俄罗斯人大量涌入中国,却发现中俄差距越来越大

杰丝聊古今
2026-04-28 03:43:50
场均21分9板4帽,季后赛第一档超巨!NBA新门面,离冠军越来越近

场均21分9板4帽,季后赛第一档超巨!NBA新门面,离冠军越来越近

老梁体育漫谈
2026-04-30 00:03:37
这下麻烦大了!不到24小时,白冰再迎3大噩耗,个个戳他心窝

这下麻烦大了!不到24小时,白冰再迎3大噩耗,个个戳他心窝

八斗小先生
2026-04-29 16:16:19
呼伦贝尔市委书记王旺盛,被查

呼伦贝尔市委书记王旺盛,被查

观察者网
2026-04-29 21:19:08
2026-04-30 01:39:00
深兰深延AI
深兰深延AI
让AI赋能更简单!
71文章数 0关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

伊朗提出先解除封锁 特朗普回应

头条要闻

伊朗提出先解除封锁 特朗普回应

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

教育
本地
亲子
数码
公开课

教育要闻

高考地理中的艺术治疗

本地新闻

用青花瓷的方式,打开西溪湿地

亲子要闻

近年来屡上“黑榜”,十月结晶再因婴幼儿背带pH值不合格被通报

数码要闻

极米推出X50 Ultra / Max投影仪,15499-19499元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版