一种基于ZYNQ平台的目标跟踪方法及系统技术方案

技术编号：44836650 阅读：3 留言：0更新日期：2025-04-01 19:36

本发明专利技术公开了一种基于ZYNQ平台的目标跟踪方法及系统，方法包括：通过在PC端训练并优化神经网络模型生成权重和查表文件，将其下载至SD卡并传输至ZYNQ平台；摄像头捕获视频流后进行数据类型转换并分路处理；PS端通过配置卷积加速器与DMA实现特征图生成，并对输出数据进行激活函数处理、最大池化、边界框解码及非极大值抑制，最终获得类别标签和边界框坐标；PS端通过PID算法计算误差生成控制信号，实时调整云台摄像头，使目标始终保持居中；系统将目标检测结果实时叠加到视频画面，并输出至显示设备，提供清晰的目标跟踪反馈。本发明专利技术在ZYNQ平台上实现了高效、能效优化的边缘计算目标跟踪，适用于多种目标跟踪场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及目标检测与跟踪，特别是涉及一种基于zynq平台的目标跟踪方法及系统。

技术介绍

1、当前，目标检测与跟踪系统已广泛应用于需要边缘计算的场景中，如智能监控、自动驾驶、无人机视觉等，而这些设备对功耗和体积要求极为严格。现有的目标检测系统通常依赖高性能gpu来运行神经网络模型(如yolo)，在计算资源充足的情况下能实现较高的精度和实时性。然而，gpu的高功耗会显著缩短电池寿命，难以满足系统长时间、不间断工作的需求。同时，gpu的体积较大，限制了其在空间受限设备中的部署。因此，为解决这些问题，边缘计算亟需一种能够在资源受限环境中高效运行的目标检测方案，以实现更低功耗和紧凑设计。

2、另一方面，zynq平台以其低功耗和高灵活性，成为基于边缘计算的目标检测系统的理想选择。然而，zynq的计算能力和存储资源有限，直接部署复杂的神经网络模型(如yolo)在zynq上会面临多重挑战。首先，基于卷积神经网络的算法模型的卷积层数量多且运算复杂，zynq的fpga资源难以支撑浮点计算和大规模权重存储，容易出现资源不足的问题。其次，模型需要实时处理视频流，fpga的计算能力有限，缺乏并行结构会导致运算速度降低，无法满足实时性需求。此外，模型中的卷积计算需要大量乘加运算，若缺乏专门的行缓冲机制和并行设计，计算效率会进一步受限，增加延迟。浮点运算的高资源消耗和功耗问题也限制了直接部署的可行性，而fpga不擅长高位宽浮点运算，额外的功耗会加剧散热难题。模型生成的多层特征图大小不一，占用片上存储资源大，没有动态分块处理会导致存储瓶颈。最

3、因此，如何在zynq平台上高效运行神经网络模型，实现基于边缘计算的目标跟踪系统，成为现有技术的挑战。

技术实现思路

1、本专利技术主要解决的技术问题是提供一种基于zynq平台的目标跟踪方法及系统，实现了多维度并行处理、量化推理优化以及ping-pong buffer并行传输，确保数据处理的连续性和精确度，能够提高目标跟踪的速度、准确性和降低系统的功耗，特别是通过优化dsp48资源、采用三叉树加法结构和灵活的行缓冲机制，确保了高吞吐量和计算精度，同时有效解决了片上存储不足问题，使其在资源受限的边缘计算设备上运行神经网络模型时更具实时性和效率。

2、为解决上述技术问题，本专利技术采用的一个技术方案是：提供一种基于zynq平台的目标跟踪方法，其特征在于，高效运行神经网络模型，实现基于边缘计算的实时目标跟踪系统，所述方法包括如下步骤：

3、步骤1：在pc端对神经网络模型进行训练和优化，包括权重量化和运算简化，生成8位整数权重文件和sigmoid激活函数的查表文件，下载到sd卡，以适应zynq部署；

4、步骤2：利用摄像头捕获视频流数据，将所述视频流数据进行数据类型转换，并分成两路处理：一路传输至视频直接存储器访问模块(vdma)，缓存至ddr4存储器中，另一路进入预处理模块，完成预处理后再次传输至vdma进行缓存；

5、步骤3：通过sd卡将权重和查表文件传输到zynq的ps端，ps端通过axi4-lite总线配置卷积加速器模块和直接存储器访问(dma)，从而实现卷积加速器的输入图像数据和输出卷积操作后的特征图数据；

6、步骤4：ps端接收卷积加速器输出的特征图数据后，依次进行激活函数处理、最大池化层处理以及边界框解码，最后类别预测和非极大值抑制，获取类别标签和边界框坐标(x,y,w,h)；

7、步骤5：ps端计算目标中心与图像中心的差值，通过pid算法来处理这些误差并生成控制信号，从而对二维云台上的摄像头进行实时调整；

8、步骤6：边界框绘制模块将目标检测结果实时叠加到视频画面上，并通过显示驱动模块处理，把视频流数据转换为tmds信号并输出至显示设备，提供清晰的目标跟踪反馈。

9、进一步地，步骤2具体为：

10、摄像头用于实时采集视频流数据，这些数据经过视频流数据类型转换模块，转换为axi4-stream数据流并复制成两路输出。一条路径通过vdma传输至ddr4存储器进行缓存；在此过程中，ps端配置的vdma模块设定了帧缓冲区的地址、数据宽度、分辨率和行间隔参数。另一条路径则通过pl端的视频预处理模块对数据进行处理，包括去马赛克、伽马校正、分辨率调整和缩放操作。最终，通过vdma，预处理后的视频数据被缓存至ddr4存储器，为卷积加速器模块提供连续、稳定的输入数据源。

11、进一步地，步骤3具体为：

12、ps端通过axi4-lite总线配置卷积加速器的7个寄存器和dma模块，实现对权重数据读取、池化操作及卷积运算的全面控制，并将缓存于ddr4存储器中的视频数据传输至卷积加速器模块以生成特征图。

13、所述7个寄存器中，第一个寄存器是控制寄存器。前5位为控制字，分别控制ifm数据，weight数据，bias数据的接收，ofm数据的发送，和卷积运算的使能。后五位为状态字，分别指示当前的卷积结果是否需要池化，是否是第一次或者是最后一次卷积，ping-pongbuffer的指针指向的内存区域，和当前数据是否有效。该卷积加速器有5种类型的任务，每一种任务使能之后，需要外部进行手动复位。任务完成之后，该卷积加速器通过拉高ap_done信号触发ps端的中断，告知cpu完成当前设定的任务，从而实现反馈。

14、第二个寄存器用于设置卷积运算的具体参数。前16位指示要对缓存中长度为多少的数据进行卷积，后12位指示当前的特征图中一行有多少个数据。最后三位指示当前特征图所对应的行缓存的类型。

15、第三个寄存器用于设置量化参数中的scaling factor。

16、第四个寄存器用于设置量化参数中的输入零点与输出零点。

17、第五，第六，第七个寄存器提供卷积加速器所需的一些地址信息。

18、进一步地，该卷积加速器模块通过行缓冲机制及dsp48资源优化卷积运算，且具备动态调整行缓冲深度的能力，以适应不同卷积核大小(如3x3、1x1等)和特征图尺寸的需求。行缓冲机制还支持并行展开策略，使卷积计算在卷积核的行列维度和特征图维度上实现同步并行操作；在3x3卷积核的并行计算中，每个时钟周期生成一个3x3大小的数据窗口，使用9个乘法器同时进行计算。

19、进一步地，卷积加速器模块通过矩形分块策略处理大尺寸特征图，每次仅卷积若干行。所述卷积加速器模块采用全流水线结构设计，支持ping-pong buffer结构，实现卷积操作与数据传输的并行，确保数据处理过程无阻塞。所述全流水线结构设计包括行缓冲、乘法器、加法树、累加和量化紧密衔接的阶段，模块具备多通道处理能力，可同时处理多个输入特征图通道，并采用三叉树结构进行高效的通道累加。

20、进一步地，卷积加速器模块采用int8量化推理技术，将32位浮点类型的权重值和激活值转换为8位整数本文档来自技高网...

【技术保护点】

1.一种基于ZYNQ平台的目标跟踪方法，其特征在于，高效运行神经网络模型，实现基于边缘计算的实时目标跟踪系统，所述方法包括如下步骤：

2.根据权利要求1所述的基于ZYNQ平台的目标跟踪方法，其特征在于：步骤2具体为：摄像头用于实时采集视频流数据，这些数据经过视频流数据类型转换模块，转换为AXI4-Stream数据流并复制成两路输出，一条路径通过VDMA传输至DDR4存储器进行缓存；在此过程中，PS端配置的VDMA设定了帧缓冲区的地址、数据宽度、分辨率和行间隔参数；另一条路径则通过PL端的视频预处理模块对数据进行处理，包括去马赛克、伽马校正、分辨率调整和缩放操作，最终，VDMA把预处理后的视频数据缓存至DDR4存储器，为卷积加速器模块提供连续、稳定的输入数据源。

3.根据权利要求1所述的基于ZYNQ平台的目标跟踪方法，其特征在于：步骤3具体为：PS端通过AXI4-Lite总线配置卷积加速器的7个寄存器和DMA模块，实现对权重数据读取、池化操作及卷积运算的全面控制，并将缓存于DDR4存储器中的视频数据传输至卷积加速器模块以生成特征图；

4.根据权利

5.根据权利要求4所述的基于ZYNQ平台的目标跟踪方法，其特征在于，所述卷积加速器模块通过矩形分块策略处理大尺寸特征图，每次仅卷积若干行，所述卷积加速器模块采用全流水线结构设计，支持Ping-Pong Buffer结构，实现卷积操作与数据传输的并行，确保数据处理过程无阻塞，所述全流水线结构设计包括行缓冲、乘法器、加法树、累加和量化紧密衔接的阶段，模块具备多通道处理能力，可同时处理多个输入特征图通道，并采用三叉树结构进行高效的通道累加。

6.根据权利要求5所述的基于ZYNQ平台的目标跟踪方法，其特征在于，所述卷积加速器模块采用INT8量化推理技术，将32位浮点类型的权重值和激活值转换为8位整数类型，INT8值与INT8值的乘积使用INT16存储，并将乘积结果进行累加，累加后的结果以INT18类型存储，累加完成后的INT18结果通过以下步骤进行伸缩变换，最终转换为INT8类型：

7.根据权利要求1所述的基于ZYNQ平台的目标跟踪方法，其特征在于：步骤4具体为：

8.根据权利要求1所述的基于ZYNQ平台的目标跟踪方法，其特征在于：步骤5具体为：PS端通过PID控制算法，计算摄像头捕获的图像中心与目标中心之间的差值(ex，ey)，生成两组PWM信号分别传递给云台的水平旋转舵机和垂直旋转舵机，调整其旋转角度，使目标始终保持居中。

9.根据权利要求1所述的基于ZYNQ平台的目标跟踪方法，其特征在于：步骤6具体为：VDMA模块从DDR4存储器中读取视频流数据，并通过边界框绘制模块将目标检测结果实时叠加到视频画面上，在此过程中，PS端通过AXI4-Lite总线将类别标签和边界框坐标(x,y,w,h)，传输到边界框绘制模块，然后经过显示驱动模块处理，视频流数据被转换为TMDS信号并输出至显示设备。

10.一种基于ZYNQ平台的目标跟踪系统，其特征在于，所述系统包括PC端、云台摄像头模组、ZYNQ平台、卷积加速器模块和显示模块组成；

...

【技术特征摘要】

1.一种基于zynq平台的目标跟踪方法，其特征在于，高效运行神经网络模型，实现基于边缘计算的实时目标跟踪系统，所述方法包括如下步骤：

2.根据权利要求1所述的基于zynq平台的目标跟踪方法，其特征在于：步骤2具体为：摄像头用于实时采集视频流数据，这些数据经过视频流数据类型转换模块，转换为axi4-stream数据流并复制成两路输出，一条路径通过vdma传输至ddr4存储器进行缓存；在此过程中，ps端配置的vdma设定了帧缓冲区的地址、数据宽度、分辨率和行间隔参数；另一条路径则通过pl端的视频预处理模块对数据进行处理，包括去马赛克、伽马校正、分辨率调整和缩放操作，最终，vdma把预处理后的视频数据缓存至ddr4存储器，为卷积加速器模块提供连续、稳定的输入数据源。

3.根据权利要求1所述的基于zynq平台的目标跟踪方法，其特征在于：步骤3具体为：ps端通过axi4-lite总线配置卷积加速器的7个寄存器和dma模块，实现对权重数据读取、池化操作及卷积运算的全面控制，并将缓存于ddr4存储器中的视频数据传输至卷积加速器模块以生成特征图；

4.根据权利要求3所述的基于zynq平台的目标跟踪方法，其特征在于，所述卷积加速器模块通过行缓冲机制及dsp48资源优化卷积运算，且具备动态调整行缓冲深度的能力，以适应不同卷积核大小和特征图尺寸的需求，行缓冲机制还支持并行展开策略，使卷积计算在卷积核的行列维度和特征图维度上实现同步并行操作；在3x3卷积核的并行计算中，每个时钟周期生成一个3x3大小的数据窗口，使用9个乘法器同时进行计算。

5.根据权利要求4所述的基于zynq平台的目标跟踪方法，其特征在于，所述卷积加速器模块通过矩形分块策略处理大尺寸特征图，每次仅卷积若干行，所述卷积加速器模块采...

【专利技术属性】
技术研发人员：蔡渊，钟沃楼，蒋胜广，刘仁森，郭万鹏，周炫廷，刘峰钦，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人