基于动态检测头的目标检测方法、装置、存储介质及设备制造方法及图纸

技术编号:31508996 阅读:9 留言:0更新日期:2021-12-22 23:44
本发明专利技术涉及人工智能领域,提供了一种基于动态检测头的目标检测方法、装置、存储介质及设备。其中方法包括:获取待检测的目标图片,并通过骨干网络对目标图片进行特征提取,得到图片特征金字塔;将图片特征金字塔转换为三维特征张量,其中,三维特征向量在每个维度上的特征张量对应图片特征金字塔的一个层级的特征图;将三维特征张量输入到动态检测头中,通过动态检测头中串行堆叠的多个自注意力模块对三维特征张量进行多维度的感知注意力处理,得到目标检测结果。上述方法通过动态输出头中多个自注意力模块的串行堆叠结构,使每一个自注意力模块都能够对目标检测任务进行更加精细化的处理,从而有效的提升了目标检测的精度。从而有效的提升了目标检测的精度。从而有效的提升了目标检测的精度。

【技术实现步骤摘要】
基于动态检测头的目标检测方法、装置、存储介质及设备


[0001]本专利技术涉及人工智能领域,尤其是涉及一种基于动态检测头的目标检测方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着人工智能技术的不断发展,图像、视频以及语音等多媒体信号的处理与分析技术越来越依赖于人工智能等较为先进的技术手段,其中,图像的处理和分析的基本任务之一便是目标检测。目标检测,也叫目标提取,是一种基于目标的几何形状和特征的图像分割过程,主要是对待检测目标进行分割和识别。目标检测一般是将目标图片输入到训练好的目标检测模型中,通过目标检测模型实现目标检测,输出待检测目标的检测结果。例如,从图像中检测出人脸、车辆或建筑的具体位置,或者,在图像中检测出物体的类别等等。目标检测的准确性和实时性是整个目标检测系统的一项重要能力。
[0003]在现有技术中,目标检测算法主要包括骨干网络(backbone)和检测头(head),其中,骨干网络主要用于提取目标图片中的特征信息,检测头主要用于根据骨干网络提取出的特征信息输出预定的结果。然而,随着目标检测框架和目标检测算法不断发展成熟,目标检测结果的准确度提升也达到了瓶颈,在现有的目标检测框架下,很难再得到更加准确的目标检测结果。

技术实现思路

[0004]有鉴于此,本申请提供了一种基于动态检测头的目标检测方法、装置、存储介质及计算机设备,主要目的在于解决在现有的目标检测框架下,目标检测结果的准确度无法进一步提成的技术问题。
[0005]根据本专利技术的第一个方面,提供了一种基于动态检测头的目标检测方法,该方法包括:
[0006]获取待检测的目标图片,并通过骨干网络对目标图片进行特征提取,得到图片特征金字塔;
[0007]将图片特征金字塔转换为三维特征张量,其中,三维特征向量在每个维度上的特征张量对应图片特征金字塔的一个层级的特征图;
[0008]将三维特征张量输入到动态检测头中,通过动态检测头中串行堆叠的多个自注意力模块对三维特征张量进行多维度的感知注意力处理,得到目标检测结果。
[0009]根据本专利技术的第二个方面,提供了一种基于动态检测头的目标检测装置,该装置包括:
[0010]图片特征提取模块,用于获取待检测的目标图片,并通过骨干网络对目标图片进行特征提取,得到图片特征金字塔;
[0011]特征张量转换模块,用于将图片特征金字塔转换为三维特征张量,其中,三维特征向量在每个维度上的特征张量对应图片特征金字塔的一个层级的特征图;
[0012]自注意力处理模块,用于将三维特征张量输入到动态检测头中,通过动态检测头中串行堆叠的多个自注意力模块对三维特征张量进行多维度的感知注意力处理,得到目标检测结果。
[0013]根据本专利技术的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于动态检测头的目标检测方法。
[0014]根据本专利技术的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于动态检测头的目标检测方法。
[0015]本专利技术提供的一种基于动态检测头的目标检测方法、装置、存储介质及计算机设备,首先通过骨干网络提取出待检测图片的特征得到目标图片的特征金字塔,然后将图片特征金字塔转换为尺度统一的三维特征张量,最后将三维特征张量输入到动态检测头中,以通过动态检测头中串行堆叠的多个自注意力模块对三维特征张量进行多维度的感知注意力处理,得到目标检测结果。上述方法将传统的目标检测算法中的输出头替换为包含有多个自注意力模块的动态输出头,可以通过动态输出头中多个自注意力模块的串行堆叠结构,将目标检测任务进行由难到简的细化拆分,从而使每一个自注意力模块都能够对目标检测任务进行更加精细化的处理。此外,上述方法通过将动态输出头应用到目标检测算法中,解决了因图片检测数据复杂导致的输出头模块难以设计和目标检测精度低的问题,极大的提升了目标检测的精度,同时也节省了目标检测算法中调超参的人力。
[0016]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0017]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0018]图1示出了本专利技术实施例提供的一种基于动态检测头的目标检测方法的流程示意图;
[0019]图2示出了本专利技术实施例提供的一种动态检测头的处理流程示意图;
[0020]图3示出了本专利技术实施例提供的一种基于动态检测头的目标检测装置的结构示意图。
具体实施方式
[0021]下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0022]目前,针对目标检测的算法主要可以归纳为三种框架结构:分别为二阶段(two

step)目标检测算法、单阶段(one

step)目标检测算法和无锚点(anchor

free)目标检测算法。其中,二阶段目标检测算法是基于区域推荐网络(Region Proposal)的算法,代表性的算法有R

CNN(Region

CNN,基于深度学习的目标检测算法)等系列算法等,这类算法首先需要产生目标候选框,也就是目标位置,然后再对候选框做分类与回归。单阶段目标检测算法
是指Yolo(You Only Look Once,基于深度神经网络的目标检测算法)这类算法,其仅仅使用一个CNN网络(卷积神经网络)直接预测不同目标的类别与位置。单阶段目标检测算法与二阶段目标检测算法相比,检测速度快,但是准确性较低。无锚点目标检测算法和二阶段、单阶段目标检测算法差别很大,其主要是通过类似回归的手段来解决检测问题的。无锚点目标检测算法将目标检测分为两个子问题,即确定物体中心点和预测四条边框到中心点的距离,通过物体中心点的预测确定目标物体位置,然后预测四条边框到中心点的距离确定目标物体大小,从而实现目标检测。随着以上三种目标检测算法逐渐发展成熟,三种目标检测算法的检测精确度也达到了瓶颈,很难进一步提升目标检测的精确度。
[0023]在一个实施例中,如图1所示,提供了一种基于动态检测头的目标检测方法,以该方法应用于服务器等计算机设备为例进行说明,其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述方法包括以下步骤:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态检测头的目标检测方法,其特征在于,所述方法包括:获取待检测的目标图片,并通过骨干网络对所述目标图片进行特征提取,得到图片特征金字塔;将所述图片特征金字塔转换为三维特征张量,其中,所述三维特征向量在每个维度上的特征张量对应所述图片特征金字塔的一个层级的特征图;将所述三维特征张量输入到动态检测头中,通过所述动态检测头中串行堆叠的多个自注意力模块对所述三维特征张量进行多维度的感知注意力处理,得到目标检测结果。2.根据权利要求1所述的方法,其特征在于,所述通过骨干网络对所述目标图片进行特征提取,得到图片特征金字塔,包括:通过骨干网络提取出所述目标图片的基础特征网络;从所述目标图片的基础特征网络中提取出尺度不相同的多个特征图;对所述尺度不相同的多个特征图进行逐层排列,得到图片特征金字塔。3.根据权利要求1所述的方法,其特征在于,所述将所述图片特征金字塔转换为三维特征张量,包括:将所述图片特征金字塔的各个层级的特征图缩放至同一尺度,并根据所述同一尺寸的多个特征图构建所述三维特征张量,其中,所述三维特征张量的三个维度分别为位置维度、层级维度和通道维度。4.根据权利要求1所述的方法,其特征在于,所述多个自注意力模块包括顶端注意力模块、前端注意力模块和右端注意力模块;其中,所述顶端注意力模块基于空间注意力机制构建,所述前端注意力模块基于尺度注意力机制构建,所述右端注意力模块基于目标注意力机制构建。5.根据权利要求4所述的方法,其特征在于,所述动态检测头包括串行堆叠的顶端注意力模块、前端注意力模块和右端注意力模块;则所述通过所述动态检测头中串行堆叠的多个自注意力模块对所述三维特征张量进行多维度感知注意力处理,得到目标检测结果,包括:将所述三维特征张量输入到所述顶端注意力模块中,通过所述顶端注意力模块对所述三维特征张量进行解耦,并将解耦后的三维特征张量与所述三维特征张量进行相乘,得到顶端注意力特征图;将所述顶端注意力特征图输入到所述前端注意力模块中,通过所述前端注意力模块对所述顶端注意力特征图的多维度特征图进行融合,并将融合后的卷积网络与所述顶端注意力特征图进行相乘,得到前端注意力特征图;将所述前端注意力特征图输入到所...

【专利技术属性】
技术研发人员:杨紫崴
申请(专利权)人:平安医疗健康管理股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1