【焦点反距离】密集人群定位与计数|真值|算法|最大值

【焦点反距离】密集人群定位与计数

2021-11-25 09:09:47　来源: 深兰深延AI 举报

分享至

这篇文章为人群定位任务设计了一种反焦距的输出预测图，这种图可以表示出人群的密集程度，同时相比密度图更加分散，便于定位任务。

主要思路和创新点

可以看一张和高斯核平滑生成密度图的对比：

(d) 就是本文提出的焦点反距离图 (FIDT: Focal Inverse Distance Transform)，首先说一下标注真值图的生成方式。先计算每个像素点与其最近标注点的欧式距离：

然后就可以先定义反距离图 (IDT: Inverse Distance Transform)：

C 为一个固定参数，可以设置为 1，只是为了方式分母为 0。像素点距离标注点越近，则值越大，其实理解起来也是一种分布。因为高斯分布后也是距离越近值越大，只是一定要设置一个核，同时要经过 e 次方平滑。

之后作者进一步提出了焦点反距离图 FIDT，多了一个 Focal，旨在希望在距离人头较近的地方衰减的没那么快，在较远的地方尽快置零，公式如下：

α 和 β 分别为 0.02 和 0.75，这个细节变化可以看一下下图：

本文基础骨架结构使用了 HRNET，之后生成 FIDT 图使用了一层卷积和两层转置卷积。对于从图中提取人群位置则采用了局部最大，首先使用大小为 3*3 的最大池化层，然后筛选那些经过池化和原来值还一样的像素点，就是局部最大的点。

但通过实验发现这些点依然很多，于是会设定一个阈值将值较低的点排除在外，阈值设定为 100/255 倍的最大值，如果这个最大值小于 0.1，则认为这个图中没有人。这部分算法流程可以参考一下：

然后因为人群密集程度有时也会反应其尺度大小，因此在得到预测的人群位置后还可以根据预测大小生成检测框，大小预测方式为：

d 为 k 近邻的距离，但尺度最大不会超过 0.05*最小边。

上述是从预测 FIDT 图中提取位置的方式以及如何计算检测框的大小，之后再介绍一下使用的损失函数：

作者决定使用 SSIM 损失来检测生成图的质量，两个 λ 参数分别设置为 0.001 和 0.009 防止分母为 0。当然，损失要取反：

之后作者还对这个损失做了一点调整，因为更希望聚焦于真值附近的点，而不是与背景区域一视同仁。于是每个 SSIM 损失将以标注点附近 30*30 的区域做损失：

N 为标注点数量

最后，总体损失函数还要加一个全局的 MSE 损失：

I-S 是 Independent SSIM 的缩写

实验结果和可视化

NWPU-Crowd 数据集上的定位实验结果

UCF-QNRF 数据集上的定位实验结果

做计数任务的精度也很高：

NWPU-Crowd 数据集上的计数实验结果

在其他三个数据集上的计数实验结果

与标注真值 / LSCCNN 方法的标注框可视化对比

与密度图及其他方法的可视化对比

论文信息：Focal Inverse Distance Transform Maps for Crowd Localization and Counting in Dense Crowd

来源：知乎

原文地址：https://arxiv.org/pdf/2102.07925.pdf

作者：煎饼果子不要果子

｜深延科技｜

深延科技成立于2018年，是深兰科技（DeepBlue）旗下的子公司，以“人工智能赋能企业与行业”为使命，助力合作伙伴降低成本、提升效率并挖掘更多商业机会，进一步开拓市场，服务民生。公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台，涵盖从数据标注及处理，到模型构建，再到行业应用和解决方案的全流程服务，一站式助力企业“AI”化。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.