基于自注意力机制的航空林火图像识别方法技术

技术编号：42957751 阅读：25 留言：0更新日期：2024-10-11 16:16

本申请提供基于自注意力机制的航空林火图像识别方法，包括以下步骤：获取林火视频为数据源；通过预处理方法筛选出图像，构建林火图像数据集，同时运用数据增强技术，丰富数据多样性，提高模型泛化能力；在特征提取阶段选用10层ViT作为主干网络，采用交叠滑动窗格方式图像序列化，嵌入位置信息后作为第1层ViT的输入，将前9层ViT提取的区域选择模块通过多头自注意力机制和多层感知器机制批量嵌入第10层ViT，有效放大子图间的微差异以获取小目标特征；采用对比特征学习策略，构建目标损失函数进行模型训练，获得图像类别标签，有效提高模型的特征学习能力和识别准确率。本申请利用机器学习技术提高航空林火图像识别的准确率和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及机器学习，尤其涉及基于自注意力机制的航空林火图像识别方法。

技术介绍

1、森林遭受火灾后，会破坏生态环境，导致空气污染，威胁林下植物资源蕴藏，危害野生动物生存，严重时会破坏森林结构，致使森林生态系统失去平衡，甚至会威胁人类生命财产安全。据中国统计年鉴显示，2019年全年共发生森林火灾2345起，受灾森林面积达1.35万hm2；2020年全年共发生森林火灾1153起，受灾森林面积达0.85万hm2。了解森林火灾发生、燃烧规律，采用科学方法提高森林火灾预警能力，可最大限度减少森林火灾带来的生态、环境和经济损失。

2、随着深度学习在计算机视觉领域的发展，近年来提出了大量基于卷积神经网络(cnn)的图像分类识别方法。根据识别粒度不同，基于cnn的分类方法主要分为2种：1)粗粒度分类，即对不同物种层次类别对象进行识别，该方法具有较大类间方差、较小类内方差的特征，主流模型包括vgg16、googlenet、resnet50等，常用于图像分类、图像分割和目标识别等领域；2)细粒度分类，即对大类中的子类对象进行精确识别，如根据细节特征区分不同种类的鸟、依据判别性区域剔除背景信息以识别不同车型等。基于细粒度的分类方法具有类间差异小、类内差异大的特征，经典神经网络识别细粒度图像存在困难，为此，lin等提出bilinear-cnn网络，实现了对鸟类、飞机、汽车的细粒度识别，但该模型中的双线性pooling高维特征会引起模型过拟合。woo提出cbam细粒度分类网络，将注意力机制融入网络模型，在imagenet-1k数据集上取得了较好识别效果。

3、以transformer为主导的网络模型框架vit在细粒度图像识别中表现理想。vit绕过pooling层并融入自注意力机制实现图像特征提取，通过减少对外部信息依赖捕捉数据或特征的内部相关性，由于自注意力机制关注的是全局特征，简单的查询和赋值即可获得特征图和全局空间信息，避免了cnn卷积核中特征图的多层堆叠。wang等提出一种基于自注意破坏和构造学习(sadcl)的细粒度分类方法，并用于零售产品识别。赵国川等将自注意力机制应用与水电枢纽缺陷识别，获得98.87％的缺陷识别精度。horváth等提出使用vit检测卫星图像中的拼接区域。

4、航空林火图像中蕴藏着丰富的细粒度信息，具有火点目标多样、季节和生态环境背景复杂等特点，传统cnn不适用于细粒度特征提取。鉴于此，本申请提出一种基于自注意力机制的深度cnn模型，分析不同场景下林火图像细粒度特征，挖掘图像间局部差异，并结合vit自注意力机制和弱监督学习方法，以提高航空林火图像识别的准确率和鲁棒性。

技术实现思路

1、本专利技术针对无人机采集的航空林火图像火点目标小、发生场景复杂等特点，提出一种基于自注意力机制的深度卷积神经网络学习方法，利用机器学习技术提高航空林火图像识别的准确率和鲁棒性。

2、本申请提供基于自注意力机制的航空林火图像识别方法，包括以下步骤：

3、第一步：获取林火视频为数据源；

4、第二步：通过预处理方法筛选出图像，构建林火图像数据集，同时运用数据增强技术，丰富数据多样性，提高模型泛化能力；

5、第三步：在特征提取阶段选用10层vit作为主干网络，采用交叠滑动窗格方式图像序列化，嵌入位置信息后作为第1层vit的输入，将前9层vit提取的区域选择模块通过多头自注意力机制和多层感知器机制批量嵌入第10层vit，有效放大子图间的微差异以获取小目标特征；

6、第四步：采用对比特征学习策略，构建目标损失函数进行模型训练，获得图像类别标签，有效提高模型的特征学习能力和识别准确率。)

7、作为优选，第二步：预处理方法具体为将第一步获取的数据源经抽帧和清洗后得到林火图像数据集。

8、作为优选，第二步：运用数据增强技术如下：1)随机裁剪，在原图像上随机裁剪448448分辨率的子区域，突出子区域中局部特征比例；2)随机水平翻转，将图像以概率p＝0.5，即随机选择50％图像进行水平翻转，以模拟无人机不同拍摄角度；3)标准化，对图像进行均值(0.485，0.465，0.406)和标准差(0.229，0.224，0.225)的标准化处理。

9、作为优选，第三步中，具体步骤为：首先将图像分割为多个子图，子图进行图像序列化的同时嵌入位置信息，嵌入位置信息后作为第1层vit的输入，叠加9层vit后，将前9层vit提取的区域选择模块信息结合多头自注意力机制和多层感知器机制批量嵌入第10层vit，有效放大子图间的微差异以获取小目标图像细粒度特征特征。

10、作为优选，第四步中，模型训练过程中使用的关键超参数包括批量大小、随机种子、激活函数、优化器、学习率和迭代次数。

11、作为优选，第三步中，图像序列化的具体步骤：图像序列化是将图像分割成不重叠子图以提高图像处理效率，但该操作会丢失子图间局部临近结构信息，为最大化保留子图间局部临近结构信息，采用交叠滑动窗口分割方法；假设图像分辨率为h×w，分割后子图大小为p，滑动窗口步长为s，图像被分成n块，则n为：

12、

13、式中：h表示图像高度；w表示图像宽度；nh和nw分别表示图像在高度和宽度上的分割次数；

14、图像分割后，位置相邻的2个子图间将共享一个尺寸为(p-s)×p大小的重叠区域，此区域包含图像局部信息；该分割方法中，步长s越小，局部临近结构特征信息保留越完整，但随着s减小也将导致算法复杂度高的问题。

15、作为优选，第三步中，批量嵌入的具体步骤：使用线性投影将每个矢量化的子图xp映射到三维嵌入空间中，嵌入可学习的坐标记录位置信息，嵌入位置信息z0为：

16、

17、式中：n为图像批量的数量；为批量嵌入的投影；epos∈rn×d为位置嵌入；

18、transformer的编码器包含l层多头自注意力msa和多层感知器mlp，以z0为输入的第l层的输出为：

19、z′l＝msa(ln(zl-1))+zl-1l∈1,2,…,n； (3

20、zl＝mlp(ln(z′l))+zll∈1,2,…,n； (4

21、

22、式中：表示归一化处理；zl表示编码图像；表示图像某个通道的某个像素值；min(zl)和max(zl)分别表示图像该通道中像素灰度最小值和最大值；

23、vit融入自注意力机制，在每层嵌入一个epos的子图位置信息，上层输入为下层模块计算结果；将最后一个编码器中第1个模块为全局特征作为分类器输入，则不需考虑存储在其他模块中的潜在位置信息。

24、作为优选，第三步中，自注意力机制在航空林火图像识别中，关键要精确定位相似图像中的细微差异区域，vit的多头注意力机制将带差异的输入信息传输到最后的transformer层，即可定位图像细微差异区域；

25、假设模型有本文档来自技高网...

【技术保护点】

1.基于自注意力机制的航空林火图像识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于：第二步：预处理方法具体为将第一步获取的数据源经抽帧和清洗后得到林火图像数据集。

3.根据权利要求1所述的方法，其特征在于：第二步：运用数据增强技术如下：1)随机裁剪，在原图像上随机裁剪448448分辨率的子区域，突出子区域中局部特征比例；2)随机水平翻转，将图像以概率P＝0.5，即随机选择50％图像进行水平翻转，以模拟无人机不同拍摄角度；3)标准化，对图像进行均值(0.485，0.465，0.406)和标准差(0.229，0.224，0.225)的标准化处理。

4.根据权利要求1所述的方法，其特征在于：第三步中，具体步骤为：首先将图像分割为多个子图，子图进行图像序列化的同时嵌入位置信息，嵌入位置信息后作为第1层ViT的输入，叠加9层ViT后，将前9层ViT提取的区域选择模块信息结合多头自注意力机制和多层感知器机制批量嵌入第10层ViT，有效放大子图间的微差异以获取小目标图像细粒度特征。

5.根据权利要求1或4所述的方法，

6.根据权利要求1或4所述的方法，其特征在于：第三步中，图像序列化的具体步骤：图像序列化是将图像分割成不重叠子图以提高图像处理效率，但该操作会丢失子图间局部临近结构信息，为最大化保留子图间局部临近结构信息，采用交叠滑动窗口分割方法；假设图像分辨率为H×W，分割后子图大小为P，滑动窗口步长为S，图像被分成N块，则N为：

7.根据权利要求1或4所述的方法，其特征在于：第三步中，批量嵌入的具体步骤：使用线性投影将每个矢量化的子图XP映射到三维嵌入空间中，嵌入可学习的坐标记录位置信息，嵌入位置信息Z0为：

8.根据权利要求7所述的方法，其特征在于：第三步中，自注意力机制在航空林火图像识别中，关键要精确定位相似图像中的细微差异区域，ViT的多头注意力机制将带差异的输入信息传输到最后的Transformer层，即可定位图像细微差异区域；

9.根据权利要求1或4所述的方法，其特征在于：第四步中，对比特征学习的交叉熵作为损失函数是衡量神经网络中预测值与实际值的一种方式，交叉熵损失函数Lcross对微小差异敏感度不高，也不能实现完全监督学习；对比损失函数Lcon可使不同标签样本间相似性最小、相同标签样本间相似性最大；为防止对比损失函数受极小负数扰动，引入调和阈值ɑ，当且仅当样本间相似度大于ɑ时才会获得有效Lcon；若有N个样本，则对比损失函数Lcon为：

10.根据权利要求1或4所述的方法，其特征在于：第四步中，准确率评价：模型的识别准确率(ACC)用预测成功个数和总数之比表示：

...

【技术特征摘要】

1.基于自注意力机制的航空林火图像识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于：第二步：预处理方法具体为将第一步获取的数据源经抽帧和清洗后得到林火图像数据集。

3.根据权利要求1所述的方法，其特征在于：第二步：运用数据增强技术如下：1)随机裁剪，在原图像上随机裁剪448448分辨率的子区域，突出子区域中局部特征比例；2)随机水平翻转，将图像以概率p＝0.5，即随机选择50％图像进行水平翻转，以模拟无人机不同拍摄角度；3)标准化，对图像进行均值(0.485，0.465，0.406)和标准差(0.229，0.224，0.225)的标准化处理。

4.根据权利要求1所述的方法，其特征在于：第三步中，具体步骤为：首先将图像分割为多个子图，子图进行图像序列化的同时嵌入位置信息，嵌入位置信息后作为第1层vit的输入，叠加9层vit后，将前9层vit提取的区域选择模块信息结合多头自注意力机制和多层感知器机制批量嵌入第10层vit，有效放大子图间的微差异以获取小目标图像细粒度特征。

5.根据权利要求1或4所述的方法，其特征在于：第四步中，模型训练过程中使用的关键超参数包括批量大小、随机种子、激活函数、优化器、学习率和迭代次数。

6.根据权利要求1或4所述的方法，其特征在于：第三步中，图像序列化的具体步骤：图像序列化是将图像分割成不重...

【专利技术属性】
技术研发人员：符利勇，唐守正，业巧林，许中旗，陈巧，谭靖，王秋华，张志东，凌成星，刘强，谢栋博，冯林艳，王文文，
申请(专利权)人：中国林业科学研究院资源信息研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人