这篇文章为人群定位任务设计了一种反焦距的输出预测图,这种图可以表示出人群的密集程度,同时相比密度图更加分散,便于定位任务。
主要思路和创新点
可以看一张和高斯核平滑生成密度图的对比:
(d) 就是本文提出的焦点反距离图 (FIDT: Focal Inverse Distance Transform),首先说一下标注真值图的生成方式。先计算每个像素点与其最近标注点的欧式距离:
然后就可以先定义反距离图 (IDT: Inverse Distance Transform):
C 为一个固定参数,可以设置为 1,只是为了方式分母为 0。像素点距离标注点越近,则值越大,其实理解起来也是一种分布。因为高斯分布后也是距离越近值越大,只是一定要设置一个核,同时要经过 e 次方平滑。
之后作者进一步提出了焦点反距离图 FIDT,多了一个 Focal,旨在希望在距离人头较近的地方衰减的没那么快,在较远的地方尽快置零,公式如下:
α 和 β 分别为 0.02 和 0.75,这个细节变化可以看一下下图:
本文基础骨架结构使用了 HRNET,之后生成 FIDT 图使用了一层卷积和两层转置卷积。对于从图中提取人群位置则采用了局部最大,首先使用大小为 3*3 的最大池化层,然后筛选那些经过池化和原来值还一样的像素点,就是局部最大的点。
但通过实验发现这些点依然很多,于是会设定一个阈值将值较低的点排除在外,阈值设定为 100/255 倍的最大值,如果这个最大值小于 0.1,则认为这个图中没有人。这部分算法流程可以参考一下:
然后因为人群密集程度有时也会反应其尺度大小,因此在得到预测的人群位置后还可以根据预测大小生成检测框,大小预测方式为:
d 为 k 近邻的距离,但尺度最大不会超过 0.05*最小边。
上述是从预测 FIDT 图中提取位置的方式以及如何计算检测框的大小,之后再介绍一下使用的损失函数:
作者决定使用 SSIM 损失来检测生成图的质量,两个 λ 参数分别设置为 0.001 和 0.009 防止分母为 0。当然,损失要取反:
之后作者还对这个损失做了一点调整,因为更希望聚焦于真值附近的点,而不是与背景区域一视同仁。于是每个 SSIM 损失将以标注点附近 30*30 的区域做损失:
N 为标注点数量
最后,总体损失函数还要加一个全局的 MSE 损失:
I-S 是 Independent SSIM 的缩写
实验结果和可视化
NWPU-Crowd 数据集上的定位实验结果
UCF-QNRF 数据集上的定位实验结果
做计数任务的精度也很高:
NWPU-Crowd 数据集上的计数实验结果
在其他三个数据集上的计数实验结果
与标注真值 / LSCCNN 方法的标注框可视化对比
与密度图及其他方法的可视化对比
论文信息:Focal Inverse Distance Transform Maps for Crowd Localization and Counting in Dense Crowd
来源:知乎
原文地址:https://arxiv.org/pdf/2102.07925.pdf
作者:煎饼果子不要果子
|深延科技|
深延科技成立于2018年,是深兰科技(DeepBlue)旗下的子公司,以“人工智能赋能企业与行业”为使命,助力合作伙伴降低成本、提升效率并挖掘更多商业机会,进一步开拓市场,服务民生。公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,涵盖从数据标注及处理,到模型构建,再到行业应用和解决方案的全流程服务,一站式助力企业“AI”化。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.