一种高帧频低时延目标检测推理NPU加速处理方法技术

技术编号：40104348 阅读：10 留言：0更新日期：2024-01-23 18:11

本发明专利技术涉及一种高帧频低时延目标检测推理NPU加速处理方法，包括：对输入图像采用冗余的方式切割成2n幅然后进行预处理，将预处理完的图像放入预处理消息队列；将预处理消息队列中的图像输入第一NPU单元中得到特征图，所述第一NPU单元中运行训练好的目标检测模型的骨干网络；将特征图输入第二NPU单元中得到推理图，所述第二NPU单元中运行训练好的目标检测模型的头部网络；采用2n个线程对推理图进行并行后处理，将后处理完的图像分别放入2n个后处理消息队列；将2n个后处理消息队列中的图像进行合并然后去除冗余的检测框得到目标检测图像。本发明专利技术实现了在高帧频不丢帧的情况下大幅提升单张图像的推理速度，并且推理中不出现堆积现象。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及目标检测，尤其涉及一种高帧频低时延目标检测推理npu加速处理方法。

技术介绍

1、近年来目标检测技术不断发展，目标检测技术已经广泛应用于自动驾驶、视频监控等领域。为了满足视频监控高分辨率、高帧频图像目标检测的需求，如何提高图像推理速度成为了目标检测领域的研究热点。由于npu是用于神经网络计算的ai芯片，在推理延迟和功耗上优于cpu、gpu，因此，基于npu的推理加速方法具有非常重要的意义。

2、目前现有的图像目标检测方法一般基于单个npu，通过对目标检测模型剪枝实现推理加速；或者基于多个npu，同时对多张图像进行推理实现推理加速。目前现有的图像目标检测方法只是对多张图像总的推理时间进行缩减，而不是对单张图像的推理时间进行缩减，在高分辨率、高帧频的情况下容易出现丢帧或堆积现象。

3、现有技术主要存在以下缺陷，一是现有的图像目标检测方法无法对单张图像的推理时间进行缩减；二是现有的图像目标检测方法，在高分辨率、高帧频的情况下容易出现丢帧或堆积现象。

技术实现思路

1、鉴于上述的分析，本专利技术旨在提供一种高帧频低时延目标检测推理npu加速处理方法，用以解决现有图像目标检测方法无法对单张图像的推理时间进行缩减，在高分辨率、高帧频的情况下容易出现丢帧或堆积现象的问题。

2、本专利技术提供了一种高帧频低时延目标检测推理npu加速处理方法，所述方法包括以下步骤：

3、对输入图像采用冗余的方式切割成2n幅然后进行预处理，将预处理完的图像放入预处理消息队列；

4、将预处理消息队列中的图像输入第一npu单元中得到特征图，所述第一npu单元中运行训练好的目标检测模型的骨干网络；

5、将特征图输入第二npu单元中得到推理图，所述第二npu单元中运行训练好的目标检测模型的头部网络；

6、采用2n个线程对推理图进行并行后处理，将后处理完的图像分别放入2n个后处理消息队列；

7、将2n个后处理消息队列中的图像进行合并然后去除冗余的检测框得到目标检测图像。

8、进一步地，所述第一npu单元通过如下方式得到特征图：

9、第一npu单元获取预处理消息队列中的图像，并将所述图像输入训练好的目标检测模型的骨干网络；

10、通过所述骨干网络依次连接的卷积特征提取单元和三个池化特征提取单元分别输出特征图t1、t2、t3、t4。

11、进一步地，所述第二npu单元通过如下方式得到推理图：

12、第二npu单元获取骨干网络输出的特征图，并将所述特征图输入训练好的目标检测模型的头部网络；

13、头部网络中的池化层特征提取模块对t4进行特征提取得到特征图m4；

14、m4与t3通过第一上采样融合单元得到特征图m3，m3与t2通过第二上采样融合单元得到特征图m2，m2与t1通过第三上采样融合单元得到特征图m1；

15、m1与m2通过第一池化融合单元得到特征图p2，p2与m3通过第二池化融合单元得到特征图p3，p3与m4通过第三池化融合单元得到特征图p4；

16、m1、p2、p3、p4各自通过一个推理卷积层，分别得到推理图s1、s2、s3、s4。

17、进一步地，所述头部网络的卷积层采用下述激活函数：

18、

19、其中，xc,i,j为输入特征图第c个通道上以(i,j)为中心的窗口的像素值，pc为第c个通道上以(i,j)为中心的窗口的参数，γ为放缩参数，β为位移参数。

20、进一步地，采用下述方法去除冗余的检测框：

21、为图像中的每个检测框计算得分，并对所述检测框按得分从高到低进行排序；

22、从得分最高的检测框开始，对所有的检测框删除与其重叠程度大于阈值的检测框。

23、进一步地，采用如下方式获得检测框的得分：

24、s＝a*z+b*f，

25、其中，s为检测框的得分，z为该检测框的置信度分数，f为该检测框所属分类类别对应的分数，a、b为权重。

26、进一步地，所述采用2n个线程对推理图进行并行后处理，将后处理完的图像分别放入2n个后处理消息队列包括：

27、建立2n个线程同时对推理图进行拼接、坐标转换及去除冗余的检测框；

28、将同一输入图像对应的2n幅后处理完的图像分别放入2n个后处理消息队列中。

29、进一步地，读取2n个后处理消息队列中位置排序相同的图像，若任一对应位置中的图像为空则进行等待，否则进行合并。

30、进一步地，所述第一npu单元、第二npu单元均包括并联的2n个npu，每个npu处理其中一个切割后的图像。

31、进一步地，通过去均值、归一化、转变图像通道对输入图像进行预处理；所述去均值为基于imagenet数据集的均值对输入图像去除均值；所述归一化为将输入图像的像素值进行归一化，归一到0～1之间；所述转变图像通道为将bgr转换为rgb图像通道格式。

32、与现有技术相比，本专利技术至少可实现如下有益效果之一：

33、1、本专利技术对输入图像进行切割，并对目标检测模型进行切割，使骨干网络和头部网络分别运行于不同的npu上，从而使特征提取和推理同时进行，大幅缩减了对单张图像的推理时间，在高分辨率、高帧频的情况下不会出现丢帧或堆积现象；并且由于缩短了目标检测的时间，因此不需要对输入图像进行过多的切割，提高了目标检测模型推理的精度。

34、2、本专利技术对目标检测模型头部网络卷积层的激活函数进行改进，降低了目标检测过程中计算的复杂性，从而缩短了目标检测的时间。

35、3、本专利技术通过深度可分离卷积特征提取模块进行逐通道卷积、逐点卷积，大大减少了卷积的参数，缩短了特征提取的时间；通过全连接特征提取模块对特征图进行拉伸然后再与原特征图相乘，将每个通道赋予权重，提取了更多的全图信息，提高了小目标的检测能力。

36、4、本专利技术采用冗余的方式对输入图像进行切割，避免了由于目标物体在切割分界处而漏检或者检测框不完整，并且保证了得到的目标检测图像没有明显的切割痕迹。

37、5、本专利技术通过去除冗余的检测框，防止得到的目标检测图像产生重复的检测框，提高了检测精度；在去除检测框时同时考虑了它的置信度分数和所属分类的概率，不仅考虑了检测框定位的质量，而且考虑了检测框的准确性，从而减少了误删除真正检测框的情况。

38、6、本专利技术采用消息队列存储处理完的图像，一方面保证了切割的图像有序排列，从而使特征提取和推理过程不会产生混乱，并且npu的占用率为100％，即被充分利用；另一方面保证了后处理图像在合并时不会产生混乱，即合并的后处理图像属于一张输入图像。

39、本专利技术中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本专利技术的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，本文档来自技高网...

【技术保护点】

1.一种高帧频低时延目标检测推理NPU加速处理方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的高帧频低时延目标检测推理NPU加速处理方法，其特征在于，所述第一NPU单元通过如下方式得到特征图：

3.根据权利要求2所述的高帧频低时延目标检测推理NPU加速处理方法，其特征在于，所述第二NPU单元通过如下方式得到推理图：

4.根据权利要求3所述的高帧频低时延目标检测推理NPU加速处理方法，其特征在于，所述头部网络的卷积层采用下述激活函数：

5.根据权利要求1所述的高帧频低时延目标检测推理NPU加速处理方法，其特征在于，采用下述方法去除冗余的检测框：

6.根据权利要求5所述的高帧频低时延目标检测推理NPU加速处理方法，其特征在于，采用如下方式获得检测框的得分：

7.根据权利要求1所述的高帧频低时延目标检测推理NPU加速处理方法，其特征在于，所述采用2n个线程对推理图进行并行后处理，将后处理完的图像分别放入2n个后处理消息队列包括：

8.根据权利要求6所述的高帧频低时延目标检测推理NPU加

9.根据权利要求1所述的高帧频低时延目标检测推理NPU加速处理方法，其特征在于，所述第一NPU单元、第二NPU单元均包括并联的2n个NPU，每个NPU处理其中一个切割后的图像。

10.根据权利要求1所述的高帧频低时延目标检测推理NPU加速处理方法，其特征在于，通过去均值、归一化、转变图像通道对输入图像进行预处理；所述去均值为基于ImageNet数据集的均值对输入图像去除均值；所述归一化为将输入图像的像素值进行归一化，归一到0～1之间；所述转变图像通道为将BGR转换为RGB图像通道格式。

...

【技术特征摘要】

1.一种高帧频低时延目标检测推理npu加速处理方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的高帧频低时延目标检测推理npu加速处理方法，其特征在于，所述第一npu单元通过如下方式得到特征图：

3.根据权利要求2所述的高帧频低时延目标检测推理npu加速处理方法，其特征在于，所述第二npu单元通过如下方式得到推理图：

4.根据权利要求3所述的高帧频低时延目标检测推理npu加速处理方法，其特征在于，所述头部网络的卷积层采用下述激活函数：

5.根据权利要求1所述的高帧频低时延目标检测推理npu加速处理方法，其特征在于，采用下述方法去除冗余的检测框：

6.根据权利要求5所述的高帧频低时延目标检测推理npu加速处理方法，其特征在于，采用如下方式获得检测框的得分：

7.根据权利要求1所述的高帧频低时延目标检测推理npu加速处理方...

【专利技术属性】
技术研发人员：李京乐，张连敏，岳宏宇，夏永清，
申请(专利权)人：浙江大立科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人