一种用于城市市容事件管理的多目标检测模型及方法技术

技术编号：40435003 阅读：37 留言：0更新日期：2024-02-22 23:00

本方案提供了一种用于城市市容事件管理的多目标检测模型及方法，改进了动态混合自注意力机制，使用全局通道特征和局部通道特征搜集全局和局部信息，融入了全局有效感受野和卷积的归纳偏差；引入了混合组注意力机制，使得模型能够更全面地捕捉图像中的结构信息，提高了对不同尺度和层次的视觉模式的敏感性，进而提高了多目标检测模型在市容目标检测时的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及视觉目标检测领域，特别是涉及一种用于城市市容事件管理的多目标检测模型及方法。

技术介绍

1、城市市容管理，是城市政府依法对城市的建筑外貌、景观灯光、户外广告设置和生产运输等的整洁、规范进行的管理活动，是城市综合管理中的重要组成部分，也是衡量城市管理水平高低的重要尺度之一。随着物联网、大数据和互联网技术的日新月异，ai技术被广泛地应用于智能化城市管理，特别是借助目标检测模型进行管理目标的识别，可为城市管理提供更快、更准确和更智能的解决方案。

2、目前用于城市市容管理的目标检测模型主要是利用图像感知算法实现目标检测，图像感知算法由三个部分组成：backbone、neck和head，其中backbone（骨干网络）主要用于特征提取，已在大型数据集(例如imagenet, coco等)上完成预训练，拥有预训练参数的卷积神经网络，例如：resnet-50、darknet53等。一般而言，一个网络backbone包括多个stages，每个stage包含多个block，stage是指卷积提取特征，feature map的size是逐级降低的，同一个feature map分辨率之间的所有网络结构叫做一个stage，block是指用于构建网络的基本单元，每个block包含卷积层、pooling层等基本操作。在进行感知算法设计时，会创造或优化block，并搭建一个或多个stage；网络搜索设计同样也是基于这种结构分解来搜索合适的网络。neck可以认为是backbone和head的连接层，主要负责对backbone的特征进行高效

3、图像感知算法中的单任务环境感知也向更深的网络（alexnet->vgg->inception->xception->resnet->resnext->senet）、更好的网络设计（网络搜索概念下的nasnet、efficientnet、regnet；通过transformer的设计来模态cnn得到的convnext）以及更多的特征融合（densenet、fpn、dla、hrnet、panet、efficientde）的路线发展；多任务环境感知的单个深度学习模型能够同时完成两个或两个以上的检测任务，共享部分：backbone输出特征图到neck进行增强与融合，再输出给多个head; 多任务部分：head中基于特征图继续提取特征，不同的head基于不同的任务进行不同形式的特征提取并输出结果计算loss，总体loss由多任务loss加权得到。

4、可见，许多研究人员在目标检测领域取得了一定的进展，但是这些方法的应用具有局限性，目标检测作为一个实例级检测方法，在实际设计和使用中仍面临许多问题，主要体现在以下几个方面：

5、（1）多头自注意力机制构建远距离建模实现全局感受野的覆盖，但缺乏像卷积的归纳偏置能力；在泛化能力上相对较弱，需要大量的训练样本和数据增强策略来弥补。

6、（2）多头自注意力机制在单一粒度上捕捉图像块嵌入向量之间的关联，忽略了图像块嵌入向量组之间的关联。

技术实现思路

1、本申请实施例提供了一种用于城市市容事件管理的多目标检测模型及方法，可用于城市市容事件管理中更全面更准确地定位检测目标。

2、第一方面，本申请实施例提供了一种用于城市市容事件管理的多目标检测模型的构建方法，包括：

3、获取标记有市容事件目标的图像作为训练样本；

4、将训练样本输入到多目标检测网络中训练至满足训练条件得到多目标检测模型，其中多目标检测网络包括依次连接的图像分块层、两个动态混合自注意力机制模块、两个混合组注意力机制模块以及预测头，输入图像经过图像分块层转换为图像块嵌入向量，图像块嵌入向量经过两个动态混合自注意力机制模块、两个混合组注意力机制模块后得到输出特征，输出特征经过预测头的预测得到预测目标；

5、其中每一动态混合自注意力机制模块包括依次连接的动态混合自注意力单元和多感受野前馈神经网络，动态混合自注意力单元包括依次连接的层归一化和动态混合自注意力机制，多感受野前馈神经网络包括依次连接的层归一化、1*1卷积、多层深度可分离卷积提取层、1*1卷积，输入到动态混合自注意力机制模块中的图像块嵌入向量经历动态混合自注意力单元得到动态混合特征，动态混合特征输入到多感受野前馈神经网络进行多尺度特征提取后再同动态混合特征融合得到动态混合自注意力机制模块的输出特征；

6、其中每一混合组注意力机制模块包括依次连接的混合组自注意力单元和残差前馈神经网络，混合组自注意力单元包括依次连接的层归一化和混合组自注意力机制，残差前馈神经网络包括依次连接的层归一化和前馈神经网络，输入到混合组注意力机制模块中的图像块嵌入向量经历混合组自注意力单元得到混合组混合特征，混合组混合特征输入到残差前馈神经网络进行多尺度特征提取后再同混合组混合特征融合得到混合组注意力机制模块的输出特征。

7、第二方面，本申请实施例提供了一种城市市容事件管理的多目标检测方法，其特征在于，将监控视频流输入到所述的城市市容事件管理的多目标检测模型的构建方法构建得到的城市市容事件管理的多目标检测模型。

8、第三方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行城市市容事件管理的多目标检测模型的构建方法。

9、第四方面，本申请实施例提供了一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括所述的城市市容事件管理的多目标检测模型的构建方法。

10、本专利技术的主要贡献和创新点如下：

11、本申请实施例设计的用于城市市容事件管理的多目标检测模型改进了动态混合自注意力机制，使用全局通道特征和局部通道特征搜集全局和局部信息，融入了全局有效感受野和卷积的归纳偏差；引入了混合组注意力机制，使得模型能够更全面地捕捉图像中的结构信息，提高了对不同尺度和层次的视觉模式的敏感性，进而提高了多目标检测模型在市容目标检测时的准确度。

12、本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

本文档来自技高网...

【技术保护点】

1.一种用于城市市容事件管理的多目标检测模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的用于城市市容事件管理的多目标检测模型的构建方法，其特征在于，输入到动态混合自注意力机制模块中的图像块嵌入向量依次经过层归一化和动态混合自注意力机制后得到的第一特征同输入当前动态混合自注意力机制模块中的图像块嵌入向量融合得到动态混合特征；动态混合特征输入到多感受野前馈神经网络中经过层归一化、1*1卷积后得到第二特征，第二特征输入到多层深度可分离卷积提取层中的多个并行的深度可分离卷积中卷积提取后经过堆叠层堆叠得到第三特征，第二特征同第三特征融合后输入到1*1卷积得到第四特征，第四特征同动态混合特征融合得到动态混合自注意力机制模块的输出特征。

4.根据权利要求3所述的用于城市市容事件管理的多目标检测模型的构建方法，其特征在于，全局注意力操作通道包括依次连接的3*3深度可分离卷积、实例归一化、可变形卷积、层归一化、sigmoid函数以及全局注意力单元，全局注意力单元包括线性变换层以及多头自注意力机制，其中输入到全局注意力操作通道中的全局通道分离特征依次经过3*3深度可分离卷积、实例归一化、可变形卷积、层归一化、sigmoid函数后得到第五特征，第五特征同全局通道分离特征融合后输入到线性变换层中线性变换得到键向量K和值向量V，另外全局通道分离特征也输入到线性变换层中线性变换得到查询向量Q，键向量K、值向量V和查询向量Q输入到多头注意力机制中得到全局通道特征。

5.根据权利要求3所述的用于城市市容事件管理的多目标检测模型的构建方法，其特征在于，局部注意力操作通道包括依次连接的自适应平均池化、1*1卷积、1*1卷积、动态卷积核和深度可分离卷积，其中输入到局部注意力操作通道的局部通道分离特征依次经过适应平均池化、1*1卷积、1*1卷积、动态卷积核后同局部通道分离特征一并输入到深度可分离卷积中得到局部通道特征。

6.根据权利要求1所述的用于城市市容事件管理的多目标检测模型的构建方法，其特征在于，混合组注意力机制包括线性变换层、连接于线性变换层的非注意力分支和注意力分支，以及连接于注意力分支和非注意力分支的线性映射层，其中输入到混合组注意力特征中的嵌入向量经过线性变换层后得到查询向量Q、键向量K以及值向量V并将每一向量按照向量维度分组为5个部分，查询向量Q、键向量K以及值向量V在注意力分支中进行分组聚合以及多头注意力处理后得到注意力特征，查询向量Q、键向量K以及值向量V在非注意力分支中汇聚得到非注意力特征，注意力特征和非注意力特征在线性映射层中进行特征堆叠后输出特征向量。

7.根据权利要求6所述的用于城市市容事件管理的多目标检测模型的构建方法，其特征在于，该混合组注意力机制中的注意力分支包括分别对应于查询向量Q、键向量K以及值向量V的向量分支，每一向量分支将对应的向量的5个部分使用不同深度可分离卷积进行分组聚合得到聚合特征，三个聚合特征一并输入到多头自注意力中进行多头自注意力操作后得到注意力特征，该混合组注意力机制中的非注意力分支将所有向量的第一个部分输入到3*3卷积进行聚合得到非注意力特征。

8.一种城市市容事件管理的多目标检测方法，其特征在于，将监控视频流输入到根据权利要求1到7任一所述的城市市容事件管理的多目标检测模型的构建方法构建得到的城市市容事件管理的多目标检测模型。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1到7任一所述的城市市容事件管理的多目标检测模型的构建方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1到7任一所述的城市市容事件管理的多目标检测模型的构建方法。

...

【技术特征摘要】

1.一种用于城市市容事件管理的多目标检测模型的构建方法，其特征在于，包括：

3.根据权利要求1所述的用于城市市容事件管理的多目标检测模型的构建方法，其特征在于，动态混合自注意力机制包括并行的全局注意力操作通道和局部注意力操作通道，以及置于全局注意力操作通道和局部注意力操作通道的输出端的卷积处理单元，其中输入到动态混合自注意力机制中的特征经过均等特征通道分离得到全局通道分离特征和局部通道分离特征，全局通道分离特征经过全局注意力操作通道得到全局通道特征，局部通道分离特征经过局部注意力操作通道得到局部通道特征，全局通道特征和局部通道特征输入卷积处理单元中得到动态混合自注意力机制的输出特征。

4.根据权利要求3所述的用于城市市容事件管理的多目标检测模型的构建方法，其特征在于，全局注意力操作通道包括依次连接的3*3深度可分离卷积、实例归一化、可变形卷积、层归一化、sigmoid函数以及全局注意力单元，全局注意力单元包括线性变换层以及多头自注意力机制，其中输入到全局注意力操作通道中的全局通道分离特征依次经过3*3深度可分离卷积、实例归一化、可变形卷积、层归一化、sigmoid函数后得到第五特征，第五特征同全局通道分离特征融合后输入到线性变换层中线性变换得到键向量k和值向量v，另外全局通道分离特征也输入到线性变换层中线性变换得到查询向量q，键向量k、值向量v和查询向量q输入到多头注意力机制中得到全局通道特征。

5.根据权利要求3所述的用于城市市容事件管理的多目标检测模型的构建方法，其特征在于，...

【专利技术属性】
技术研发人员：张香伟，毛云青，任通，曹喆，
申请(专利权)人：城云科技中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人