视觉智能感知技术和目标视追踪技术制造技术

技术编号：44422369 阅读：5 留言：0更新日期：2025-02-28 18:37

本申请一种视觉智能感知技术和目标视跟踪技术，针对任务区的视频监控是本项目构建预警体系作为群体性突发事件的行为主体，人及车辆等个体单元是最重要的分析对象。而分析的先决条件是需要完成对这些主要单元的检测识别、属性提取以及定位跟踪。为了更加精确地对目标行为进行分析，我们将目标行为根据其发生过程中是否伴随着运动轨迹的变化而区分为运动行为和微行为。无论是运动行为和微行为的异常，均会为我们后续在进行事件分析预警时提供线索和依据。因此，在完成目标检测后，本项目将同步开展对每个主体目标的运动行为和微行为的分析识别，通过分别训练针对性的深度智能模型，完成对发生特定异常行为的识别。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及一种基于计算机视觉的目标检测技术和目标跟踪技术，具体涉及采用目标检测及目标跟踪技术实时监控摄像画面，并第一时间发现目标异常状态，并且能够以最快的方式发出预警和提供有用的信息，高效的协助监控人员获取准确信息和处理突发事件。

技术介绍

1、为了利用人工智能视频分析技术实现对任务区可能发生的群体性突发事件做到监控预警，理论上需要大量的针对该任务区的突发事件的视频数据作为样本进行模型训练。然而，现实情况是每一起突发性事件都有其独特性和不可预见性，仅通过前期收集的群体性突发事件的视频图像数据，不足以保证高精度的视频分析智能模型的训练。

2、基于此，本项目拟主要研究在不确定环境下的监控目标的行为状态，需要在使用目标检测技术准确的捕捉到监控目标，在使用跟踪技术定位监控目标的：行走轨迹，行走速度，社交距离，行走方向，用这些信息分析出监控目标的行为状态。

技术实现思路

1、本申请的目的在于提出一种基于计算机视觉目标检测技术和目标跟踪技术，能够实现对图像中的监控目标进行实时监控并分析出目标人物的一个行为状态。

2、为了实现上述目的，本申请结合计算机视觉技术，提出了基于计算机视觉视觉目标检测技术和目标跟踪技术。首先使用labelimg进行图片标注，将标注好的数据集脚本划分为训练集、验证集和测试集，如图一。

3、技术算法计算出监控目标的行为状态。所以在进行实时监控之前需要配置好训练所需要的数据跟所搭配的文件。从而为后续推理的时候提升我们的鲁棒性跟准确率。本申请

4、对本申请方法中目标检测算法使用的yolo模型算法的架构进行详细的描述，其深度学习模型的架构如图2所示。yolo v5的网络结构分为三部分：backbone骨干网络、neck颈部结构、head头部结构，如图2。

5、1.backbone骨干网络

6、骨干网络是指用来提取图像特征的网络，它的主要作用是将原始的输入图像转化为多层特征图，以便后续的目标检测任务使用。在yolov5中，使用的是cspdarknet53或resnet骨干网络，这两个网络都是相对轻量级的，能够在保证较高检测精度的同时，尽可能地减少计算量和内存占用。

7、backbone中的主要结构有conv模块、c3模块、sppf模块。

8、conv模块是卷积神经网络中常用的基础模块，它通过卷积操作提取局部空间信息，并通过bn层规范化特征值分布，最后通过激活函数引入非线性变换能力，从而实现对输入特征的转换和提取。

9、c3模块通过增加网络的深度和感受野，提高了特征提取的能力。这对于目标检测等计算机视觉任务来说非常重要，因为这些任务需要对物体进行准确的识别和定位，而准确的识别和定位需要良好的特征提取能力。

10、spp模块是一种池化模块，通常应用于卷积神经网络中，旨在实现输入数据的空间不变性和位置不变性，以便于提高神经网络的识别能力。其主要思想是将不同大小的感受野应用于同一张图像，从而能够捕捉到不同尺度的特征信息。在spp模块中，首先对输入特征图进行不同大小的池化操作，以得到一组不同大小的特征图。然后将这些特征图连接在一起，并通过全连接层进行降维，最终得到固定大小的特征向量。

11、2.neck特征金字塔

12、由于物体在图像中的大小和位置是不确定的，因此需要一种机制来处理不同尺度和大小的目标。特征金字塔是一种用于处理多尺度目标检测的技术，它可以通过在骨干网络上添加不同尺度的特征层来实现。在yolov5中，采用的是fpn(feature pyramidnetwork)特征金字塔结构，通过上采样和下采样操作将不同层次的特征图融合在一起，生成多尺度的特征金字塔。自顶向下部分主要是通过上采样和与更粗粒度的特征图融合来实现不同层次特征的融合，而自下向上则是通过使用一个卷积层来融合来自不同层次的特征图。

13、在目标检测算法中，neck模块通常被用于将不同层级的特征图结合起来，生成具有多尺度信息的特征图，以提高目标检测的准确率。在yolov5中，使用了一种名为panet的特征融合模块作为neck模块。

14、具体来说，自顶向下部分是通过上采样和与更粗粒度的特征图融合来实现不同层次特征的融合，主要分为以下几步：

15、●对最后一层特征图进行上采样，得到更精细的特征图；

16、●将上采样后的特征图与上一层特征图进行融合，得到更丰富的特征表达；

17、●重复以上两个步骤，直到达到最高层。

18、自下向上部分主要是通过使用一个卷积层来融合来自不同层次的特征图，主要分为以下几步：

19、●对最底层特征图进行卷积，得到更丰富的特征表达；

20、●将卷积后的特征图与上一层特征图进行融合，得到更丰富的特征表达；

21、●重复以上两个步骤，直到达到最高层。

22、最后，自顶向下部分和自下向上部分的特征图进行融合，得到最终的特征图，用于目标检测。

23、3.head目标检测头

24、目标检测头是用来对特征金字塔进行目标检测的部分，它包括了一些卷积层、池化层和全连接层等。在yolov5模型中，检测头模块主要负责对骨干网络提取的特征图进行多尺度目标检测。该模块主要包括三个部分，此外，yolov5还使用了一些技巧来进一步提升检测精度，比如giou loss、mish激活函数和多尺度训练等。

25、anchors：用于定义不同大小和长宽比的目标框，通常使用k-means聚类对训练集的目标框进行聚类得到，可以在模型训练之前进行计算，存储在模型中，用于预测时生成检测框。

26、classification：用于对每个检测框进行分类，判断其是否为目标物体，通常采用全连接层加softmax函数的形式对特征进行分类。

27、regression：用于对每个检测框进行回归，得到其位置和大小，通常采用全连接层的形式对特征进行回归。

28、yolov5的检测层由几个重要的组成部分构成，包括：

29、●anchors(锚框)：

30、锚框是预定义的一组边界框，用于在特征图上生成候选框。

31、yolov5通过提前定义不同比例和尺寸的锚框来适应不同大小的目标。

32、●convolutional layers(卷积层)：

33、yolov5的检测层包含一系列卷积层，用于处理特征图和提取特征。

34、这些卷积层可以通过调整通道数和核大小来适应不同的检测任务。

35、●prediction layers(预测层)：

36、每个预测层负责预测一组边界框和类别。

37、每个预测层通常由卷积层和一个输出层组成。...

【技术保护点】

1.视觉智能感知技术和目标视追踪技术，其特征在于：针对监控系统中的目标进行识别，并持续跟踪目标分析目标的行为状态，确保在第一时间对异常行为进行处理，具体步骤如下：

2.根据权利要求1所述的基于计算机视觉的目标检测和目标跟踪技术(其特征在于步骤1)，使用labelimg标注工具进行数据表述，其标签各位为yolo格式。

3.根据权利要求1所述的基于计算机视觉的目标检测和目标跟踪技术(其特征在于步骤2)，将标注好的数据文件划分为：训练集，测试集，验证集，并在yaml文件中记录：数据地址，类别数量，类别名字，根据需求配置train.py文件。

4.根据权利要求1所述的基于计算机视觉的目标检测和目标跟踪技术(其特征在于步骤3)，使用train.py进行训练并对训练后的：map，loss，ap值进行分析，是否达到需求。

5.根据权利要求1所述的基于计算机视觉的目标检测和目标跟踪技术(其特征在于步骤4)准备需要检测图片，根据需求更改detect.py检测文件。

6.根据权利要求1所述的基于计算机视觉的目标检测和目标跟踪技术(其特征在于

7.根据权利要求1所述的基于计算机视觉的目标检测和目标跟踪技术(其特征在于步骤6)准备训练好的权重文件对检测图片进行推理检测。

...

【技术特征摘要】

2.根据权利要求1所述的基于计算机视觉的目标检测和目标跟踪技术(其特征在于步骤1)，使用labelimg标注工具进行数据表述，其标签各位为yolo格式。

4.根据权利要求1所述的基于计算...

【专利技术属性】
技术研发人员：张毅，刘家铖，马敏先，
申请(专利权)人：中芯未来北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人