一种基于S-D网络全层级感知的高效检测系统及其检测方法技术方案

技术编号：44574191 阅读：1 留言：0更新日期：2025-03-11 14:34

一种基于S‑D网络全层级感知的高效检测系统及其检测方法，系统包括主干网络、颈部网络和头部网络，其中，颈部网络包括全层级特征共享模块(FLIS)和详细信息提取模块(DFE)；FLIS模块针对不同特征设计了第一第二两个层级的分支，分别使用结构重参数化和Transformer的思想将各层级信息对齐融合再注入使得各层获得全局信息，强化跨层信息流动；DFE模块使用三特征融合映射提取详细信息，再使用通道和位置注意力机制将多尺度信息与详细信息进行融合输出；本发明专利技术S‑D颈部网络提高了多尺度特征融合能力，并在所有模型尺度上实现了速率和准确性之间的理想平衡；在VOC数据集中实验结果比原有SOTA模型精度提高3.1％，且在模型计算量上减少了7％，同时在泛化性验证visdrone数据集中也具有最优特性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，具体涉及一种基于s-d网络全层级感知的高效检测系统及其检测方法。

技术介绍

1、现阶段实时目标检测器的颈部网络主要使用特征金字塔(fpn)及其衍生体。特征金字塔网络(fpn)具有跨尺度连接与信息交换能力，成为处理多尺度特征的基本模块。由香港中文大学shu liu所发表的path aggregation network for instance segmentation一文中提出了路径聚合网络(panet)，该方法提出连接自上而下路径的方法，使得颈部网络的链接方式多样化；同时，由google人工智能研究小组tan mingxing等人发表的efficientdet:scalable and efficient object detection一文中提出了加权融合方法(bifpn)，该方法针对长传输网络的信息交互提出了跳跃链接的方法。

2、fpn网络针对多尺度特征融合问题提出了有效的解决方法,使得多尺度的邻层信息得以融合，因此多尺度特征融合最常用的网络是fpn及其衍生网络。然而fpn及其衍生网络存在如下问题：

3、(1)本层获取间隔层信息只能通过融合临层与间隔层后再获取信息。因此，间隔层信息获取的不全面，许多信息在第一次融合时就已经被丢弃了。

4、(2)从全局层面而言，单层信息有效融合范围只在临层之间，全局的融合效果会受限。

5、(3)对小尺度特征层进行上采样，将特征进行拆解或添加，而忽视大尺度特征层的详细信息。

6、因此，网络缺乏全局信息融合能力，对于特征细节的感知较弱。

技术实现思路

1、为了克服上述现有技术的不足，本专利技术的目的在于提供一种基于s-d网络全层级感知的高效检测系统及其检测方法，通过将多尺度特征在第一第二分支中进行特征对齐和特征融合，获得集中处理后的融合信息，再依据各层特征的尺度将融合特征分别注入，接着使用三特征处理方式和多尺度注意力融合方式最终实现跨层详细信息融合的功能，本专利技术具有更强大的颈部融合能力。

2、为了实现上述目的，本专利技术采取的技术方案是：

3、一种基于s-d网络全层级感知的高效检测系统，包括主干网络、颈部网络和头部网络，所述颈部网络包括：全层级特征共享模块(flis)和详细信息提取模块(dfe)；

4、全层级特征共享模块(flis)包括第一分支和第二分支，每个分支均包括特征对齐(alignment)模块fas、特征融合(fuse)模块ffs和特征注入(inject)模块；先将输入量输入至特征对齐(alignment)模块fas，使得输入特征大小相同，再将对齐后的输出量输入至特征融合(fuse)模块ffs进行特征融合，再将融合后的特征输入至特征注入(inject)模块，最后将特征注入(inject)模块的输出输入至各个层级；

5、详细信息提取模块(dfe)包括多尺度注意力融合模块(multi scale attentionfusion(msaf))和三特征处理模块(ssff)，多尺度注意力融合模块(multi scaleattention fusion(msaf))用于不同尺度特征的详细信息获取；多尺度注意力融合模块(msaf)包括三特征编码模块(triple feature encoding module(tfe))以及通道和位置注意机制(cpam)，其中，三特征编码模块(triple feature encoding module(tfe))用于将不同大小的特征进行区分，获得分类特征，通道和位置注意机制(cpam)用于将详细信息与尺度信息相结合，获得更准确的输出信息；三特征处理模块(ssff)由stack、3d conv和bn/silu构成，三特征处理模块(ssff)用于增强网络的多尺度信息提取能力。

6、第一分支的所述特征对齐(alignment)模块f-fas，将主干网络的s2，s3，s4，s5层作为输入进行融合，选择s4层作为基本层，在第一分支的特征对齐(alignment)模块f-fas中使用平均池化(avgpool)和双线性(bilinear)的方法将{rs2,rs3,rs5}与{rs4}进行特征对齐rs4＝1/4r，得到适配于第一分支的特征融合(fuse)模块f-ffs的输入；

7、第二分支的所述特征对齐(alignment)模块s-fas，将m3，m4，m5层作为输入进行融合，选择m5层作为基本层，在第二分支的特征融合(fuse)模块s-ffs中使用平均池化(avgpool)的方法将{rm3,rm4}与{rm5}进行特征对齐rm5＝1/8r，得到适配于第二分支的特征融合(fuse)模块s-ffs的输入。

8、第一分支的所述特征融合(fuse)模块f-ffs中包括多层在线重参数化卷积块(orepa)和分离模块；多层在线重参数化卷积块(orepa)将所有的非线性层剔除更换为线性缩放层，并且在结构末尾添加bn层，多层在线重参数化卷积块(orepa)简化后的顺序结构与并行结构公式如下：

9、y＝(wn(wn-1*…w2*w1))*w＝we*x

10、

11、其中，wj表示第j层的权重,wm表示第m个分支的权值，为统一权值；

12、多层在线重参数化卷积块(orepa)的输入端falign由第一分支的特征对齐(alignment)模块f-fas输出端提供，多层在线重参数化卷积块(orepa)的输出为ffuse，再经过分离模块得到第一分支的特征融合(fuse)模块f-ffs的最终输出；

13、第二分支的所述特征融合(fuse)模块s-ffs由堆叠gau模块和分离模块组成，堆叠gau模块是以transformer为基础，其将自注意力和线性门控单元作为一个统一的层并共享计算，堆叠gau模块对线性门控单元的优化公式如下所示：

14、

15、

16、

17、

18、其中，包含token-token注意力权重，z代表(s＜＜d)4,和κ代表两个简转换，b表示相对位置偏差；

19、第二分支的所述特征融合(fuse)模块s-ffs的结构包括：(1)首先，从第二分支的特征对齐(alignment)模块s-fas端获取对齐端的输出；(2)将对齐端的输出输入至堆叠gau模块得到融合端的输出；(3)最后将融合端的输出输入分离模块，经过分离模块得到第二分支的特征融合(fuse)模块f-ffs的最终输出。

20、特征注入(inject)模块的输入端包括第一分支的特征融合(fuse)模块f-ffs、第二分支的特征融合(fuse)模块s-ffs的输出部分以及各层多尺度特征自身输入部分；

21、融合各层信息与第一分支的特征融合(fuse)模块的输出部分，在输入端引入laf模块通过avgpool和bilinear操作对齐输入特征作为特征注入(inject)模块的最终输入，在各层多尺度特征自身输入部分采本文档来自技高网...

【技术保护点】

1.一种基于S-D网络全层级感知的高效检测系统，包括主干网络、颈部网络和头部网络，其特征在于，所述颈部网络包括：全层级特征共享模块(FLIS)和详细信息提取模块(DFE)；

2.根据权利要求1所述的一种基于S-D网络全层级感知的高效检测系统，其特征在于，第一分支的所述特征对齐(Alignment)模块F-FAS，将主干网络的S2，S3，S4，S5层作为输入进行融合，选择S4层作为基本层，在第一分支的特征对齐(Alignment)模块F-FAS中使用平均池化(Avgpool)和双线性(Bilinear)的方法将{RS2,RS3,RS5}与{RS4}进行特征对齐RS4＝1/4R，得到适配于第一分支的特征融合(Fuse)模块F-FFS的输入；

3.根据权利要求1所述的一种基于S-D网络全层级感知的高效检测系统，其特征在于，第一分支的所述特征融合(Fuse)模块F-FFS中包括多层在线重参数化卷积块(OREPA)和分离模块；多层在线重参数化卷积块(OREPA)将所有的非线性层剔除更换为线性缩放层，并且在结构末尾添加BN层，多层在线重参数化卷积块(OREPA)简化后

4.根据权利要求1所述的一种基于S-D网络全层级感知的高效检测系统，其特征在于，特征注入(Inject)模块的输入端包括第一分支的特征融合(Fuse)模块F-FFS、第二分支的特征融合(Fuse)模块S-FFS的输出部分以及各层多尺度特征自身输入部分；

5.根据权利要求1所述的一种基于S-D网络全层级感知的高效检测系统，其特征在于，所述三特征处理模块(SSFF)将深度特征图中的高维度信息与浅度特征图中的细节信息有机联系，沿尺度轴构建尺度空间，得到同分辨率和不同尺度的图像，三特征处理模块(SSFF)的输入式为：

6.根据权利要求1所述的一种基于S-D网络全层级感知的高效检测系统，其特征在于，所述全层级特征共享模块(FLIS)的末端输出为P3、P4和P5，将P3、P4和P5输入至所述多尺度注意力融合模块(Multi scale attention fusion(Msaf))中；所述多尺度注意力融合模块(Multi scale attention fusion(Msaf))包括三特征编码模块(Triple featureencoding module(TFE)和通道和位置注意机制(CPAM)，使用跨阶段局部模块(CSP)和链接跨阶段局部模块(CCSP)作为三特征编码模块(Triple feature encoding module(TFE)和通道和位置注意机制(CPAM)交互结构；所述多尺度注意力融合模块(Multi scaleattention fusion(Msaf))的具体融合流程如下：

7.根据权利要求1或6所述的一种基于S-D网络全层级感知的高效检测系统，其特征在于，所述三特征编码模块(Triple feature encoding module(TFE))的结构功能包括：首先统一通道数并保持一致，对三尺类特征图统一进行ConvBNSiLU操作；其次，大尺度特征图使用Avg+MaxPooling进行下采样并进行ConvBNSiLU操作，得到大尺度特征图输出，中尺度特征图直接进行ConvBNSiLU操作，得到中尺度特征图输出，小尺度特征图使用Nearest方法进行下采样并进行ConvBNSiLU操作，得到小尺度特征图输出；最后，将大尺度特征图输出、中尺度特征图输出和小尺度特征图统一卷积拼接，得到三特征编码模块(Triple featureencoding module(TFE))的最终输出部分。

8.根据权利要求1或6所述的一种基于S-D网络全层级感知的高效检测系统，其特征在于，所述通道和位置注意机制(CPAM)的结构功能包括：针对多通道中不同特征信息，通道和位置注意机制(CPAM)将详细信息与尺度信息相结合；通道和位置注意机制(CPAM)的输入端由位置注意信息，即三特征处理模块(SSFF)的输出端和通道注意信息，即P3层TFE+CSP模块输出端互补组成；通道注意信息做为底层输入经过池化与卷积后，再进入下次层与位置信息一起作为上层输入，最后得到通道和位置注意机制(CPAM)的输出进入Head部分。

9.根据权利要求1所述的一种基于S-D网络全层级感知的高效检测系统，其特征在于，所述主干网络使用EfficientRep，头部网络使用三输出结构。

10.一种基于S-D网络全层级感知的高效检测方法，包括以下步骤：

...

【技术特征摘要】

1.一种基于s-d网络全层级感知的高效检测系统，包括主干网络、颈部网络和头部网络，其特征在于，所述颈部网络包括：全层级特征共享模块(flis)和详细信息提取模块(dfe)；

2.根据权利要求1所述的一种基于s-d网络全层级感知的高效检测系统，其特征在于，第一分支的所述特征对齐(alignment)模块f-fas，将主干网络的s2，s3，s4，s5层作为输入进行融合，选择s4层作为基本层，在第一分支的特征对齐(alignment)模块f-fas中使用平均池化(avgpool)和双线性(bilinear)的方法将{rs2,rs3,rs5}与{rs4}进行特征对齐rs4＝1/4r，得到适配于第一分支的特征融合(fuse)模块f-ffs的输入；

3.根据权利要求1所述的一种基于s-d网络全层级感知的高效检测系统，其特征在于，第一分支的所述特征融合(fuse)模块f-ffs中包括多层在线重参数化卷积块(orepa)和分离模块；多层在线重参数化卷积块(orepa)将所有的非线性层剔除更换为线性缩放层，并且在结构末尾添加bn层，多层在线重参数化卷积块(orepa)简化后的顺序结构与并行结构公式如下：

4.根据权利要求1所述的一种基于s-d网络全层级感知的高效检测系统，其特征在于，特征注入(inject)模块的输入端包括第一分支的特征融合(fuse)模块f-ffs、第二分支的特征融合(fuse)模块s-ffs的输出部分以及各层多尺度特征自身输入部分；

5.根据权利要求1所述的一种基于s-d网络全层级感知的高效检测系统，其特征在于，所述三特征处理模块(ssff)将深度特征图中的高维度信息与浅度特征图中的细节信息有机联系，沿尺度轴构建尺度空间，得到同分辨率和不同尺度的图像，三特征处理模块(ssff)的输入式为：

6.根据权利要求1所述的一种基于s-d网络全层级感知的高效检测系统，其特征在于，所述全层级特征共享模块(flis)的末端输出为p3、p4和p5，将p3、p4和p5输入至所述多尺度注意力融合模块(multi scale attention fusion(msaf))中；所述多尺度注意力融合模块(multi scale attention fusion(ms...

【专利技术属性】
技术研发人员：孙伟，张治国，孙荡，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人