一种基于多尺度注意力机制的可提示缺陷分割模型构建方法技术

技术编号：40602998 阅读：5 留言：0更新日期：2024-03-12 22:08

本发明专利技术提出一种基于多尺度注意力机制的可提示缺陷分割模型构建方法。本发明专利技术所述方法通过给定提示图的方法明确具体的分割任务及分割的缺陷类型，使模型具有一定的泛化能力。除此之外，本发明专利技术使用金字塔结构的Vision Transformer代替传统的Vision Transformer，在引入多尺度信息的基础上，捕捉图像像素间的长距离依赖关系，并通过空间还原注意力层进一步降低模型计算量。同时，高分辨率通道的引入进一步提高训练速度和低对比度、小目标缺陷的分割精度。为缺陷分割任务提供一种高效、准确、稳定的新的算法选择。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度学习下的计算机视觉，特别是涉及一种基于多尺度注意力机制的可提示缺陷分割模型构建方法。具体涉及一种针对低对比度、小目标的基于“多尺度”注意力机制的可提示缺陷分割模型构建方法。

技术介绍

1、随着社会的不断发展和科技的不断进步，汽车已经成为人们生活中不可或缺的一部分，极大地方便了人们的出行和交通。随着现代社会对汽车的需求不断增长，汽车安全性和可靠性成为了至关重要的问题。发动机是汽车的核心部件之一，它的性能和安全性直接关系到驾驶者和乘客的生命安全以及车辆的可持续运行。发动机表面缺陷的存在，如磕碰、凸起、凹坑等，可能对汽车的性能和安全性产生严重的负面影响，如：性能下降、机械故障风险增加、热量管理问题、火灾风险等。因此，利用计算机视觉及深度学习技术实现高效、准确地识别和处理发动机表面缺陷对于保障汽车性能和安全至关重要。

2、目前，大多数汽车制造厂商仍然依赖传统的人工检测方法或传统图像处理技术来识别和评估发动机表面的缺陷。然而，这些方法存在一些明显的缺点和局限性：首先，人工检测依赖于质检员的主观判断，因此容易受到个体差异的影响。不同的质检员可能会对相同的缺陷有不同的识别标准，导致不一致的结果。其次，人工检测需要大量的人力资源，且质检员在疲劳或高负荷工作时，容易发生漏检(未能检测到实际缺陷)和误检(错误地将非缺陷区域标记为缺陷)。不仅如此，人工检测在某些情况下可能不适用，如在高温、高压或有害气体环境下，质检员的健康和安全可能受到威胁。

3、依赖于传统图像处理技术的机器视觉算法虽然在一定程度上弥补了人工

4、随着技术的发展、硬件性能不断提升，基于深度神经网络的图像处理方法逐渐步入人们的视野。这些算法在缺陷分割任务中也表现出较高的准确性及巨大的潜力。然而，现有的缺陷分割算法大都基于卷积神经网络，鲜有主要基于注意力机制(transformer)的缺陷分割模型。不仅如此，这些算法对目标较小、对比度较低缺陷的分割精度不高，且对训练集中未见过的缺陷基本丧失分割能力。

技术实现思路

1、本专利技术目的是为了解决现有技术中的问题，提出了一种基于多尺度注意力机制的可提示缺陷分割模型构建方法。本专利技术所述方法可以解决现有的分割算法对于目标小、对比度低缺陷的分割能力不足以及对于未见过缺陷类别的泛化性差等问题。为缺陷分割任务提供新的算法选择。

2、本专利技术是通过以下技术方案实现的，本专利技术提出一种基于多尺度注意力机制的可提示缺陷分割模型构建方法，所述方法具体为：

3、s1：对当前输入样本及标签样本进行预处理；

4、s2：对s1步骤得到的预处理后的输入样本进行图像块嵌入操作，将输入图像的宽和高变为原来的1/4，通道数由原来的3变为64，将得到的图像块数据记作f0；

5、s3：通过均匀遮蔽策略对s2中得到的图像块数据f0进行一定比例掩码处理，并在此基础上对剩下的可见图像块进行一定比例的随机遮蔽，得到的遮蔽后的图像块数据记作f1，掩码张量记作mask；

6、s4：将按照s3的方式得到的遮蔽后的图像块数据f1输入到模型编码器中，通过金字塔结构注意力进行特征提取，提取到的特征图记作f2，其尺寸为输入图像宽和高的1/32，通道数为512；

7、s5：对s4得到的特征图f2进行像素重组操作，重组后的特征图记作f3，尺寸为输入图像宽和高的1/16，通道数仍为512；

8、s6：通过图像注意力机制对按照s4的方式得到的特征图f3进行特征融合，融合后的特征图记作f4，其尺寸与f3相同；

9、s7：通过两个线性层将s6步骤中得到的特征图映射回输入图像大小，得到输入图像的分割预测，记作pred0；

10、s8：在上述模型的外侧，即模型的输入和输出端直接搭建一个高分辨率通道，通过扩张卷积在不对输入样本进行下采样操作的情况下，对输入样本进行特征提取和融合，得到的分割预测记作pred1；

11、s9：用s3步骤中得到的mask对s7、s8步骤中的分割预测pred0、pred1以及标签target进行遮蔽操作，计算遮蔽后的pred0+pred1与target的l1损失，并进行梯度回传，更新模型参数。

12、进一步地，s1中的输入样本和标签样本都由两部分组成，分别为输入图像部分及其对应任务的提示图部分组成；二者在高度(h)维度上拼接起来，即输入样本和标签样本的尺寸为(2h,w)；除此之外s1中还对输入图片进行预处理，具体包括：水平翻转、垂直翻转、随机比例裁切并缩放、随机对比度调整、添加高斯噪声和像素归一化。

13、进一步地，所述图像块嵌入操作是将输入图像分割成多个小块，每个小块被称为一个patch；这些patches被重新整理成一个矩阵，然后通过一个线性变换将其投影到低维度的空间，生成patch embeddings；这个过程将原始的二维图像数据转换为一系列的一维向量，这些向量作为transformer的输入序列。

14、进一步地，在s3步骤中，对图像块数据f0进行了均匀遮蔽操作；所述遮蔽操作是在均匀约束条件下进行的，具体操作方式为对f0图像空间中的每个2×2的图像块中的两个随机块进行采样，而剩余的两个块则被屏蔽掉；同时，在均匀遮蔽后的可见图像块上进行25％的随机遮蔽。

15、进一步地，在s4步骤中，模型编码器由四个阶段组成；每个阶段由不同数量的pyramid vision transformer block构成；每个block包括空间还原自注意力层和前馈神经网络两部分；每个自注意力层都可以处理输入的patch序列，并从中提取出重要的特征；前馈神经网络则进一步处理这些特征，以便进行更深层次的特征融合；为了引入分割任务所必需的多尺度信息，每个block之间都加入了图像块合并层，每个图像块合并patchmerge层都通过2d卷积实现步长为2的下采样操作，从而将不同尺度的图像块合并起来，提供更丰富的信息。

16、进一步地，在s6和s7步骤中，解码器部分首先将特征图f3经过两个visiontransformer block进行特征融合，随后，得到的特征图f4经过一系列线性变换及两个线性投射层mlp的映射，最终恢复到输入样本的原始尺寸。

17、进一步地，在s8步骤中使用三组不同空洞率的扩张卷积块来构建一条高分辨率通道，每个扩张卷积块包含两个扩张卷积和一个跨层连接。

18、进一步地，在s9步骤中，将s2步骤中生成的mask取反，并分别将取反后的mask同s7和s8步骤的输出预测值之和与标签样本相乘，接着，计算l1损失，然后进本文档来自技高网...

【技术保护点】

1.一种基于多尺度注意力机制的可提示缺陷分割模型构建方法，其特征在于，所述方法具体为：

2.根据权利要求1所述的方法，其特征在于，S1中的输入样本和标签样本都由两部分组成，分别为输入图像部分及其对应任务的提示图部分组成；二者在高度(h)维度上拼接起来，即输入样本和标签样本的尺寸为(2h,w)；除此之外S1中还对输入图片进行预处理，具体包括：水平翻转、垂直翻转、随机比例裁切并缩放、随机对比度调整、添加高斯噪声和像素归一化。

3.根据权利要求1所述的方法，其特征在于，所述图像块嵌入操作是将输入图像分割成多个小块，每个小块被称为一个patch；这些patches被重新整理成一个矩阵，然后通过一个线性变换将其投影到低维度的空间，生成patch embeddings；这个过程将原始的二维图像数据转换为一系列的一维向量，这些向量作为Transformer的输入序列。

4.根据权利要求1所述的方法，其特征在于，在S3步骤中，对图像块数据F0进行了均匀遮蔽操作；所述遮蔽操作是在均匀约束条件下进行的，具体操作方式为对F0图像空间中的每个2×2的图像块中的两个随机

5.根据权利要求1所述的方法，其特征在于，在S4步骤中，模型编码器由四个阶段组成；每个阶段由不同数量的Pyramid Vision Transformer Block构成；每个Block包括空间还原自注意力层和前馈神经网络两部分；每个自注意力层都可以处理输入的patch序列，并从中提取出重要的特征；前馈神经网络则进一步处理这些特征，以便进行更深层次的特征融合；为了引入分割任务所必需的多尺度信息，每个Block之间都加入了图像块合并层，每个图像块合并Patch Merge层都通过2D卷积实现步长为2的下采样操作，从而将不同尺度的图像块合并起来，提供更丰富的信息。

6.根据权利要求1所述的方法，其特征在于，在S6和S7步骤中，解码器部分首先将特征图F3经过两个Vision Transformer Block进行特征融合，随后，得到的特征图F4经过一系列线性变换及两个线性投射层MLP的映射，最终恢复到输入样本的原始尺寸。

7.根据权利要求1所述的方法，其特征在于，在S8步骤中使用三组不同空洞率的扩张卷积块来构建一条高分辨率通道，每个扩张卷积块包含两个扩张卷积和一个跨层连接。

8.根据权利要求1所述的方法，其特征在于，在S9步骤中，将S2步骤中生成的mask取反，并分别将取反后的mask同S7和S8步骤的输出预测值之和与标签样本相乘，接着，计算L1损失，然后进行梯度回传以更新模型的参数。

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-8任一项所述方法的步骤。

10.一种计算机可读存储介质，用于存储计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-8任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于多尺度注意力机制的可提示缺陷分割模型构建方法，其特征在于，所述方法具体为：

2.根据权利要求1所述的方法，其特征在于，s1中的输入样本和标签样本都由两部分组成，分别为输入图像部分及其对应任务的提示图部分组成；二者在高度(h)维度上拼接起来，即输入样本和标签样本的尺寸为(2h,w)；除此之外s1中还对输入图片进行预处理，具体包括：水平翻转、垂直翻转、随机比例裁切并缩放、随机对比度调整、添加高斯噪声和像素归一化。

4.根据权利要求1所述的方法，其特征在于，在s3步骤中，对图像块数据f0进行了均匀遮蔽操作；所述遮蔽操作是在均匀约束条件下进行的，具体操作方式为对f0图像空间中的每个2×2的图像块中的两个随机块进行采样，而剩余的两个块则被屏蔽掉；同时，在均匀遮蔽后的可见图像块上进行25％的随机遮蔽。

5.根据权利要求1所述的方法，其特征在于，在s4步骤中，模型编码器由四个阶段组成；每个阶段由不同数量的pyramid vision transformer block构成；每个block包括空间还原自注意力层和前馈神经网...

【专利技术属性】
技术研发人员：金晶，于阜江，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人