一种基于部件提示的图像实例分割方法技术

技术编号：43415605 阅读：6 留言：0更新日期：2024-11-22 17:51

本发明专利技术公开了一种基于部件提示的图像实例分割方法，构建基于部件提示的图像实例分割模型，包括基础特征编码器、多级部件译码器和多级掩码译码器；基础特征编码器对输入图像进行单一尺度或多尺度特征图提取，并对特征图进行融合编码得到特征张量；多级部件译码器对特征张量进行译码，获取类别预测张量、粗部件特征张量和细部件特征张量；多级掩码译码器将粗部件特征张量和细部件特征张量进行融合，以融合后的张量作为查询，对特征张量进行译码，得到对象级掩码预测张量和部件级掩码预测张量。优点是：对不同级别的部件特征张量进行分级译码，通过包含部件特征语义的查询量分级译码出掩码预测张量，增强图像局部特征的表达，提高图像实例分割精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及实例分割，尤其涉及一种基于部件提示的图像实例分割方法。

技术介绍

1、实例分割是计算机视觉领域中的一项重要技术，它旨在解决在图像中对不同目标实例进行像素级别的分类和定位问题。这项技术的发展源于对更精确、更细致的图像理解的需求，特别是在目标检测和语义分割的基础上，需要进一步区分同一类别的不同实例。实例分割在许多实际应用中具有重要意义，如自动驾驶、医学影像分析、图像编辑等。

2、随着深度学习的兴起，特别是卷积神经网络cnn的发展，实例分割技术取得了显著的进展。研究人员利用深度学习模型的强大特征提取能力，设计了各种复杂的网络结构来解决实例分割问题，如mask r-cnn、yolact等。这些方法在准确性和效率上都取得了显著的提升，为实例分割在实际应用中的普及奠定了基础。然而，现有的实例分割算法在处理物体部分遮挡、角度变化以及复杂轮廓边缘的情况时仍有不足之处，因此，有必要对现有实例分割算法进行改进和创新，以提高图像实例分割精度。

技术实现思路

1、本专利技术的目的在于提供一种基于部件提示的图像实例分割方法，从而解决现有技术中存在的前述问题。

2、为了实现上述目的，本专利技术采用的技术方案如下：

3、一种基于部件提示的图像实例分割方法，构建基于部件提示的图像实例分割模型，所述模型包括一个基础特征编码器、一个多级部件译码器和一个多级掩码译码器；

4、所述基础特征编码器对输入的图像进行单一尺度或多尺度特征图提取，并对特征图进行融合编码得到特征张量；

5、所述多级部件译码器对基础特征编码器生成的特征张量进行译码获取第一译码张量；通过对第一译码张量做线性变换得到类别预测张量；通过对第一译码张量做线性变换和非线性变换得到粗部件特征张量；通过对第一译码张量做线性变换和非线性变换，并将粗部件特征张量与变换后的第一译码张量进行叠加得到细部件特征张量；

6、所述多级掩码译码器将粗部件特征张量和细部件特征张量进行融合得到融合部件特征张量；以融合部件特征张量作为查询量对基础特征编码器生成的特征张量进行译码，得到第二译码张量；对第二译码张量做线性变换和非线性变换得到对象级掩码嵌入张量，将基础特征编码器生成的特征张量与对象级掩码嵌入张量做乘积运算，得到对象级掩码预测张量；对第二译码张量做线性变换和非线性变换，并将对象级掩码嵌入张量与变换后的第二译码张量做相加运算，得到部件级掩码嵌入张量，将基础特征编码器生成的特征张量与部件级掩码嵌入张量做乘积运算，得到部件级掩码预测张量。

7、优选的，所述基础特征编码器存在两种结构形式，

8、(1)包含至少一层卷积层，用于执行卷积运算以提取特征图；至少一层池化层，用于降低特征图的空间尺寸；至少一层编码层，每个编码层包含至少一个自注意力模块，用于对下采样后得到的特征图进行空间维度转换，并添加级别和位置序列信息，得到初始特征张量，至少一个前馈神经网络，用于对初始特征张量进行线性变换和非线性变换，得到最终的特征张量；

9、(2)包含至少一个注意力机制模块和一个前馈神经网络，用于下采样提取特征图；至少一层编码层，每个编码层包含至少一个自注意力模块和一个前馈神经网络，用于对特征图进行融合编码，得到最终的特征张量。

10、优选的，所述多级部件译码器包括，

11、至少一层译码层，每个译码层包括至少一个自注意力模块、一个交叉注意力模块和一个前馈神经网络，用于对基础特征编码器生成的特征张量进行译码生成第一译码张量；

12、至少一个预测头网络，用于对第一译码张量做线性变换得到类别预测张量；对第一译码张量做线性变换和非线性变换得到粗部件特征张量；对第一译码张量做线性变换和非线性变换，并将粗部件特征张量与变换后的第一译码张量进行叠加得到细部件特征张量。

13、优选的，所述多级部件译码器的译码层对基础特征编码器生成的特征张量进行译码生成第一译码张量的过程具体为，

14、所述自注意力模块对特征张量进行计算时，查询是一个可学习的目标实例查询量，键、值是基础特征编码器输出的特征张量，计算过程中对输入的特征张量中的每个元素根据自注意力机制重新加权，得到注意力加权特征张量；

15、所述交叉注意力模块对注意力加权特征张量进行计算，得到交叉注意力特征张量；

16、所述前馈神经网络对交叉注意力特征张量进行线性变换和非线性变换，得到第一译码张量。

17、优选的，所述多级部件译码器的预测头网络对第一译码张量做多次线性变换，且每次线性变换中间做至少一次非线性变换，得到粗部件特征张量。

18、优选的，所述多级部件译码器的预测头网络对第一译码张量做多次线性变换，且每次线性变换中间做至少一次非线性变换，然后将所述粗部件特征张量与变换后的第一译码张量做相加计算，得到细部件特征张量。

19、优选的，所述多级掩码译码器包括，

20、至少一层译码层，每个译码层包括至少一个自注意力模块、一个交叉注意力模块和一个前馈神经网络；将粗部件特征张量和细部件特征张量进行融合，得到融合部件特征张量，所述译码层以融合部件特征张量作为查询量，以基础特征编码器生成的特征张量作为键、值进行译码，得到第二译码张量；

21、至少一个预测头网络，用于对第二译码张量进行线性变换和非线性变换，得到对象级掩码嵌入张量，将基础特征编码器生成的特征张量与对象级掩码嵌入张量做乘积运算，得到对象级掩码预测张量；对第二译码张量做线性变换和非线性变换，并将对象级掩码嵌入张量与变换后的第二译码张量做相加运算，得到部件级掩码嵌入张量，将基础特征编码器生成的特征张量与部件级掩码嵌入张量做乘积运算，得到部件级掩码预测张量。

22、优选的，所述多级掩码译码器的译码层对基础特征编码器生成的特征张量进行译码生成第二译码张量的过程具体为，

23、所述自注意力模块以融合部件特征张量为查询，以基础特征编码器生成的特征张量作为键、值进行计算，得到注意力加权特征张量；

24、所述交叉注意力模块对注意力加权特征张量进行计算，得到交叉注意力特征张量；

25、所述前馈神经网络对交叉注意力特征张量进行线性变换和非线性变换，得到最终的第二译码张量。

26、优选的，所述多级掩码译码器的预测头网络对第二译码张量做多次线性变换，每次线性变换中间做至少一次非线性变换，得到对象级掩码嵌入张量。

27、优选的，所述多级掩码译码器的预测头网络对第二译码张量做多次线性变换，每次线性变换中间做至少一次非线性变换，然后将对象级掩码嵌入张量与变换后的第二译码张量做相加运算，得到部件级掩码嵌入张量。

28、本专利技术的有益效果是：本专利技术方法对不同级别的部件特征张量进行分级译码，并通过包含部件特征语义的查询量分级译码出掩码预测张量，增强了图像局部特征的表达，提高的图像实例分割精度。

本文档来自技高网...

【技术保护点】

1.一种基于部件提示的图像实例分割方法，其特征在于：构建基于部件提示的图像实例分割模型，所述模型包括一个基础特征编码器、一个多级部件译码器和一个多级掩码译码器；

2.根据权利要求1所述的基于部件提示的图像实例分割方法，其特征在于：所述基础特征编码器存在两种结构形式，

3.根据权利要求1所述的基于部件提示的图像实例分割方法，其特征在于：所述多级部件译码器包括，

4.根据权利要求3所述的基于部件提示的图像实例分割方法，其特征在于：所述多级部件译码器的译码层对基础特征编码器生成的特征张量进行译码生成第一译码张量的过程具体为，

5.根据权利要求3所述的基于部件提示的图像实例分割方法，其特征在于：所述多级部件译码器的预测头网络对第一译码张量做多次线性变换，且每次线性变换中间做至少一次非线性变换，得到粗部件特征张量。

6.根据权利要求3所述的基于部件提示的图像实例分割方法，其特征在于：所述多级部件译码器的预测头网络对第一译码张量做多次线性变换，且每次线性变换中间做至少一次非线性变换，然后将所述粗部件特征张量与变换后的第一译码张量做相

7.根据权利要求1所述的基于部件提示的图像实例分割方法，其特征在于：所述多级掩码译码器包括，

8.根据权利要求7所述的基于部件提示的图像实例分割方法，其特征在于：所述多级掩码译码器的译码层对基础特征编码器生成的特征张量进行译码生成第二译码张量的过程具体为，

9.根据权利要求7所述的基于部件提示的图像实例分割方法，其特征在于：所述多级掩码译码器的预测头网络对第二译码张量做多次线性变换，每次线性变换中间做至少一次非线性变换，得到对象级掩码嵌入张量。

10.根据权利要求7所述的基于部件提示的图像实例分割方法，其特征在于：所述多级掩码译码器的预测头网络对第二译码张量做多次线性变换，每次线性变换中间做至少一次非线性变换，然后将对象级掩码嵌入张量与变换后的第二译码张量做相加运算，得到部件级掩码嵌入张量。

...

【技术特征摘要】

2.根据权利要求1所述的基于部件提示的图像实例分割方法，其特征在于：所述基础特征编码器存在两种结构形式，

3.根据权利要求1所述的基于部件提示的图像实例分割方法，其特征在于：所述多级部件译码器包括，

6.根据权利要求3所述的基于部件提示的图像实例分割方法，其特征在于：所述多级部件译码器的预测头网络对第一译码张...

【专利技术属性】
技术研发人员：王楠，李叶，徐金中，许乐乐，郭丽丽，雷凡，孙源源，
申请(专利权)人：中国科学院空间应用工程与技术中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人