基于深度学习的机器人目标识别和跟踪（2）|算法|神经网络|计算机视觉

基于深度学习的机器人目标识别和跟踪（2）

2022-06-30 21:12:58　来源: Zonking

湖北举报

分享至

目标识别与跟踪技术的发展
1 深度学习主流算法结构
1.1卷积神经网络
在21世纪初期，卷积神经网络主要应用于任务分配以及视觉识别。图像分类是机器中类别的问题用以提取特征以及辨别图像。新型的CNN 神经网络架构表现出以多个网络或多种网络级联组合应用的新态势，神经网络形态的快速进化为纷繁复杂的科研领域提供了智能高效的数据分析手段。卷积神经网络(CNN) 算法是用于识别和分类图像等高维数据的新兴技术，具有相对较低的计算成本和较高的准确性。CNN 的隐藏层是卷积层和池化层。这些层可以提取图像的潜在特征，并通过训练映射输入图像和输出类别之间的函数关系。也就是说，这些层可以从人工分类中学习分类标准。
1.2RBM (受限玻尔兹曼机)
在过去十年中，RBM 的理论和应用得到了广泛的研究。以图像处理为例，原来的 RBM 只适用于处理二值图像。为了处理真实图像，提出了一系列 RBM 变体，如高斯二进制 RBM（GRBM）、协方差 RBM（cRBM）、均值和协方差 RBM (mcRBM) 和尖峰板 RBM (ssRBM)。受限玻尔兹曼机 (RBM) 是具有二分交互作用的概率图模型，这些模型的一个特征是观察到的单位给定隐藏单元的状态，它们是独立的，反之亦然。这是由于交互图的二部性，并且不依赖于单元的状态空间。通常RBM 是用二进制单位定义的，但也考虑了其他类型的单位，包括连续、离散和混合类型单位。
1.3 AE (自动编码器)
自编码器是一类人工神经网络，由编码器和解码器这两个主要组件组成。编码器是一组神经层，将其输入的原始维度限制为一个更小的维度，称为潜在空间。解码器是一组层，其目的是将潜在空间扩展回输入的原始维度。自动编码器通常使用反向传播算法进行训练，其中所需的输出与输入相同，这使其成为一种无监督学习方法。
1.4 RNN (循环神经网络)
循环神经网络(RNN) 对于处理数据的顺序性质至关重要，其中时间序列类型的数据就是一个典型示例。RNN 具有一种具有循环连接的神经元。这些连接用作内存，使 RNN 能够从顺序数据中学习时间动态性。目前，LSTM神经网络模型在人类活动识别方面表现出最先进的性能。
2 目标识别算法模型
Wenling Xue等学者为了减少不同天气条件的影响，提出了一种新方法GMM来模拟包含不同天气数据的目标。高斯分量密度的加权和可用于表示 GMM，GMM是参数概率密度函数。GMM可用于在不同天气条件下拟合目标的特性;功能数量越多，系统性能越高。为了估计GMM参数，使用训练有素的先前模型和训练数据。GMM是围绕用于检测的最佳似然比测试构建的，使用简单但有效的贝叶斯适应模型来推导天气影响。与SVM相比，GMM的识别率提高了。但存在着如何选择正确的阈值以及如何对背景噪声进行建模以提高识别率等问题。Fan Zhang等学者提出一种改进的YOLO深度学习模型，自动识别玉米叶片的气孔，并采用熵率超像素算法对气孔参数进行精确测量。根据气孔图像数据集的特点，对YOLOv5的网络结构进行了修改，在不影响识别性能的情况下，大大缩短了训练时间。优化YOLO深度学习模型中的预测因子，降低了误检率。同时，根据气孔物体的特点，对16倍和32倍的下采样层进行了简化，提高了识别效率。实验表明该方法快速可靠。Hui Zeng等学者对非结构化网络物理系统环境交际机器人多模态感知模型进行构建。改进的PSOBT-SVM 在不改变SVM分类器数量的情况下优化了分类精度，并证明了其在多模态触觉信号分类方面的准确性。
3目标识别和跟踪技术
运动物体检测是识别给定区域或区域中物体的物理运动的任务。在过去的几年中，移动物体检测因其广泛的应用而受到广泛关注，如视频监控、人体运动分析、机器人导航、事件检测、异常检测、视频会议、交通分析和安全。此外，运动目标检测是计算机视觉和视频处理领域非常重要和有效的研究课题，因为它是视频目标分类和视频跟踪活动等许多复杂过程的关键步骤。因此，从给定的视频帧序列中识别移动对象的实际形状变得相关。然而，由于动态场景变化、光照变化、阴影的存在、伪装和引导问题等各种挑战，检测运动中物体的实际形状的任务变得很棘手。帧间差分法是检测运动物体最常用的方法，它分别找到当前帧和前一个连续帧以及当前帧和下一个连续帧之间的差异，然后，该算法选择两个不同帧之间的最大像素强度值，接下来，将得到的差异帧划分为不重叠的块，并计算每个块的强度总和和平均值，随后，它使用阈值和强度平均值找到每个块的前景和背景像素。
帧间差分方法的缺点是在目标细节识别中比较粗糙。传统的帧间差分方法对阈值的选择范围要求较高。如果阈值不合理，则检测效果不理想，轮廓不清晰、破损。然而，帧间差分算法相对简单、速度快、易于硬件实现，能够适应实时性要求高的应用环境。因此，该算法具有很强的实用性。
可以在帧间差分算法的基础上提出一种优化改进的目标检测与跟踪算法，构建两次区域限定与Kalman滤波算法融合的检测方法。该算法能够迅速、准确地提取目标区域，且对目标位置具有较高的可预测性。
基于深度学习的机器人目标识别和发展趋势
目标检测是计算机视觉、深度学习、人工智能等。它是更复杂的计算机视觉任务的重要前提，例如目标跟踪、事件检测、行为分析和场景语义理解。它旨在定位从图像中提取感兴趣目标，准确确定类别并给出每个目标的边界框目标。已广泛应用于汽车自动驾驶、视频图像检索、智能视频监控、医学图像分析、工业检测等领域。传统的人工提取特征检测算法主要包括预处理、窗口滑动、特征提取、特征选择、特征分类和后处理六个步骤，一般针对特的识别任务。它的缺点主要是数据量小，可移植性差，没有针对性，时间复杂度高，窗口冗余，对多样性没有鲁棒性变化，只有在特定的简单环境下才有良好的性能。目标检测作为计算机视觉中最基本和最具挑战性的问题之一近年来备受关注。基于深度学习的检测算法已被广泛应用在很多领域，但深度学习还有一些问题有待探索：
1）减少对数据的依赖。
2）实现小物体的高效检测。
3）多类别目标检测的实现。
现如今随着科学技术的进步，以前很多机器视觉领域的技术都得到了长足的发展，但是在某些方面还是存在着一定的不足。比如说机器人的目标识别方面：机器人在对物体进行识别时，大目标通常都能正常检测出来，但是对于小目标受限于目标大小和周围环境影响等等会出现漏检等情况。在目标跟踪方面
(1)专门应用于目标跟踪任务的训练集较少，无法适应当前多变的跟踪环境，完成训练任务。
(2)当前的训练模型受限于目标的遮挡、外观的强烈变化等等问题，使得算法无法实现长时间的精确跟踪。除此以外跟踪时，由于受到外界因素影响，可能会有一些相似对象，从而使得跟踪出现错误。
但是我相信经过人们对于机器视觉领域的不断研究，未来会有越来越多的基于深度学习的方法去优化目标跟踪任务中出现的一系列情况，比如说采用大规模视频数据的数据集进行离线训练等等，在目标识别领域未来也将会降低环境对检测的影响能更加精准的检测各种大小的目标，并且最终将两种技术更好的结合在一起应用到机器人技术应用的各个方面。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.