低空无人机航拍视频图像的语义分割系统技术方案

技术编号：43039476 阅读：4 留言：0更新日期：2024-10-22 14:26

一种低空无人机航拍视频图像的语义分割系统，包括编码器组件和解码器组件；编码器组件包括多层级联的编码器；编码器配置为进行全局注意力计算以及进行局部注意力计算以得到全局语义特征和局部语义特征，同时将低相关度的局部语义特征用掩码的形式覆盖去除；解码器组件包括全局‑局部特征融合模块、多尺度特征融合模块和解码头模块。本发明专利技术提高了在复杂背景下的无人机视频图像的小尺寸目标语义分割的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，具体涉及一种低空无人机航拍视频图像的语义分割系统。

技术介绍

1、随着计算机视觉技术的发展和gpu计算能力的提高，无人机与计算机视觉技术的结合展示出巨大的潜力，尤其是在精确高效的图像分割方面。此技术在城市规划、灾害评估、环境监测以及新环境地图的构建等方面起着至关重要的作用。

2、现有的图像分割方法，例如依赖边缘检测、阈值处理和基于区域的技术，在处理复杂多样的真实场景时面临着准确性和及时性的挑战。而基于卷积神经网络(cnn)的方法，如全卷积网络(fcn)、u-net和segnet等，提高了图像语义分割的准确性和效率。并且通过级联结构、扩张卷积或空间注意力机制，提高了对小目标和多尺度目标的分割能力。然而，无人机图像的特殊拍摄角度和高空位置导致图像中物体尺寸较小且扭曲，背景复杂，传统模型在处理这些问题时仍存在不足。例如，segformer模型虽然在处理自然场景方面表现出色，但未针对无人机图像中的密集小物体进行优化。

技术实现思路

1、本专利技术的目的在于提供一种低空无人机航拍视频图像的语义分割系统，旨在解决如何提高无人机视频图像的语义分割的准确性的问题，尤其针对在复杂背景下的小尺寸目标分割。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、一种低空无人机航拍视频图像的语义分割系统，所述系统包括编码器组件和解码器组件；

4、所述编码器组件包括多层级联的编码器；

5、所述编码器配置为提取和下采样

6、所述解码器组件包括全局-局部特征融合模块、多尺度特征融合模块和解码头模块；

7、所述全局-局部特征融合模块配置为将每层所述编码器的全局语义特征和局部语义特征进行特征融合，并使用级联门控注意力对每层所述编码器的输出进行加权计算，得到第一融合特征；

8、所述多尺度特征融合模块配置为将每层所述编码器对应的第一融合特征进行上采样并在相同维度进行特征融合，再通过卷积模块将通道维度降维以得到第二融合特征；

9、所述解码头模块配置为先将第二融合特征通过全连接层将通道维度降为预设的预测类别数，再通过双线性插值还原到原始图像尺寸并预测图像中每个像素的语义类别；

10、其中，所述原始图像尺寸为输入所述编码器组件的图像尺寸。

11、较佳地，所述编码器包括重叠补丁嵌入模块和transformer blocks模块；

12、所述重叠补丁嵌入模块包含一卷积层，通道重要性评价层及掩码层；

13、所述transformer blocks模块包含一高效多头自注意力层和一knn聚类层，所述高效多头自注意力层连接一混合前馈网络层，所述knn聚类层连接一hilbert变换层、所述hilbert变换层连接一moblienetv2层。

14、较佳地，所述全局-局部特征融合模块包括一多层感知器层、第一深度可分离卷积层、第二深度可分离卷积层。

15、较佳地，所述编码器组件包括四层级联的编码器，所述四层级联的编码器分别依次对应输出阶段1至阶段4的全局语义特征和局部语义特征；

16、相应的，所述全局-局部特征融合模块输出阶段1至阶段4的第一融合特征。

17、较佳地，所述多尺度特征融合模块进一步地配置为：

18、分别对阶段2、阶段3、阶段4对应的第一融合特征进行上采样，使得阶段2、阶段3、阶段4对应的第一融合特征与阶段1对应第一融合特征具有相同的维度；

19、利用一多层感知器将阶段1对应的第一融合特征和所述上采样后的阶段2、阶段3、阶段4对应的第一融合特征进行融合，再通过一卷积模块将融合后通道维度降维，得到第二融合特征。

20、较佳地，所述全局-局部特征融合模块进一步地配置为：

21、按下式所示的方法获得第一融合特征：

22、concat_out＝concat(xglobal，xlocal，dim＝-1)

23、

24、

25、其中xglobal表示全局语义特征，xlocal表示局部语义特征，dim＝-1表示当前张量的最后一个维度，concat表示特征融合函数，concat_out表示全局语义特征和局部语义特征融合后的特征，δ表示sigmoid激活函数，β表示批量归一化函数，f5×5和f3×3分别表示核大小为5和3的深度可分离卷积计算函数，mlp表示全连接层计算函数，xcgam表示经级联的门控注意力后的特征，xoutput表示第一融合特征，表示阶段1对应的编码器输出的特征，表示阶段2对应的编码器输出的特征，表示阶段3对应的编码器输出的特征，表示阶段4对应的编码器输出的特征。

26、较佳地，所述全局-局部特征融合模块包括一多层感知器层、第一深度可分离卷积层、第二深度可分离卷积层。

27、较佳地，所述解码头模块包括一全连接层，一2维的dropout层和1×1卷积层。

28、较佳地，所述系统还包括模型训练模块，所述模型训练模块配置为在模型训练前，预训练所述全局-局部特征融合模块的权重参数，并在模型训练时冻结所述全局-局部特征融合模块的权重参数。

29、较佳地，所述模型训练模块进一步配置为：

30、按下式所示的损失函数训练所述编码器组件和解码器组件：

31、

32、其中，n表示图像中的所有像素，表示第i个训练样本的真实的标签，yi表示第i个训练样本的的预测输出，celoss表示交叉墒损失函数。

33、较佳地，所述模型训练模块包括预处理单元，所述预处理单元配置为：

34、在获取训练数据索引后，通过获取标签图高宽进行缩放，长和宽扭曲，翻转图像，旋转图像，高斯模糊，色域变换得到多个训练数据，并且通过数据加载辅助函数将多个训练数据合成为一个批次。

35、本专利技术的优点在于：

36、本专利技术提供的低空无人机航拍视频图像的语义分割系统，通过级联方式结合编码器提取的多尺度特征，能够有效处理无人机视频图像中的多尺度目标，采用新颖的方式提取到有用的局部语义特征并与原本包含全局语义信息的全局语义特征进行融合，提高无人机遥感场景中小目标的分割准确度。

37、进一步地，全局-局部特征融合模块能够将局部语义特征按照相对位置关系与全局语义特征融合，全新的设计让编码器组件缺失的局部语义信息得以补偿。

38、进一步地，通过重叠补丁嵌入模块模块在获取全局语义信息的同时保留重要的局部语义信息，提高对无人机视频图像中的多尺度目标的分割能力。

39、进一步地，多尺度特征融合模块可以对不同尺度的第一融合特征进行上采样和串联，从而获得接近原始分辨率的语义分割结果，提高图像分析的精本文档来自技高网...

【技术保护点】

1.一种低空无人机航拍视频图像的语义分割系统，其特征在于，所述系统包括编码器组件和解码器组件；

2.如权利要求1所述的低空无人机航拍视频图像的语义分割系统，其特征在于，所述编码器包括重叠补丁嵌入模块和Transformer Blocks模块；

3.如权利要求2所述的低空无人机航拍视频图像的语义分割系统，其特征在于，所述全局-局部特征融合模块包括一多层感知器层、第一深度可分离卷积层、第二深度可分离卷积层。

4.如权利要求3所述的低空无人机航拍视频图像的语义分割系统，其特征在于，所述编码器组件包括四层级联的编码器，所述四层级联的编码器分别依次对应输出阶段1至阶段4的全局语义特征和局部语义特征；

5.如权利要求4所述的低空无人机航拍视频图像的语义分割系统，其特征在于，所述多尺度特征融合模块进一步地配置为：

6.如权利要求5所述的低空无人机航拍视频图像的语义分割系统，其特征在于，所述全局-局部特征融合模块进一步地配置为：

7.如权利要求6所述的低空无人机航拍视频图像的语义分割系统，其特征在于，所述解码头模块包括一全连

8.如权利要求1所述的低空无人机航拍视频图像的语义分割系统，其特征在于，所述系统还包括模型训练模块，所述模型训练模块配置为在模型训练前，预训练所述全局-局部特征融合模块的权重参数，并在模型训练时冻结所述全局-局部特征融合模块的权重参数。

9.如权利要求8所述的低空无人机航拍视频图像的语义分割系统，其特征在于，所述模型训练模块进一步配置为：

10.如权利要求9所述的低空无人机航拍视频图像的语义分割系统，其特征在于，所述模型训练模块包括预处理单元，所述预处理单元配置为：

...

【技术特征摘要】

1.一种低空无人机航拍视频图像的语义分割系统，其特征在于，所述系统包括编码器组件和解码器组件；

2.如权利要求1所述的低空无人机航拍视频图像的语义分割系统，其特征在于，所述编码器包括重叠补丁嵌入模块和transformer blocks模块；

5.如权利要求4所述的低空无人机航拍视频图像的语义分割系统，其特征在于，所述多尺度特征融合模块进一步地配置为：

6.如...

【专利技术属性】
技术研发人员：龙浩，刘炟，张明瑜，沈扬，朱冲，
申请(专利权)人：北京联合大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人