System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于自动提示学习的目标实例分割模型建立方法及其应用技术_技高网

基于自动提示学习的目标实例分割模型建立方法及其应用技术

技术编号:41908749 阅读:5 留言:0更新日期:2024-07-05 14:12
本发明专利技术公开了基于自动提示学习的目标实例分割模型建立方法及其应用,属于图像分割领域,包括:建立目标分割网络,并利用已标注地面真值标签的图像数据集对其进行训练;目标分割网络包括:特征嵌入网络,其包括SAM中的图像编码器,用于获取输入图像的图像特征嵌入;轮廓映射识别网络,根据图像特征嵌入预测各目标的类别、中心点位置以及中心点到n个轮廓点的距离;自动提示学习网络,用于筛选出最重要的部分轮廓点与中心点一起映射到语义空间,得到点提示的语义嵌入;以及掩码解码器,其为SAM中的掩码解码器,用于根据图像特征嵌入和点提示的语义嵌入生成分割掩码。本发明专利技术能够生成高质量的、可靠的点提示嵌入,提高图像分割的实用性和泛化性。

【技术实现步骤摘要】

本专利技术属于图像分割领域,更具体地,涉及基于自动提示学习的目标实例分割模型建立方法及其应用


技术介绍

1、图像分割(image segmentation),是指把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程,是计算机视觉领域的一个重要的研究方向,也是图像语义理解的重要一环。

2、图像分割领域的最新进展是sam(segment anything model),sam通过在一千一百万的海量图像数据集上进行预训练,获得强大的图像表征能力,以及可以通过微调、提示等方法适应各种视觉领域与广泛的下游任务,尤其是缺乏大量标记数据的领域如遥感图像,sam拥有强大的应用潜力。sam的基本设计涉及输入提示或密集采样点来进行任务无关的分割。如图1所示,sam由三个主要组件组成,图像编码器、提示编码器和掩码解码器。其中图像编码器用于处理图像,生成图像的特征嵌入表示,提示编码器用于将输入的提示编码为嵌入表示,随后掩码解码器内的交叉注意力机制处理图像表示与提示嵌入之间的交互,最终得到实例分割的掩码输出。sam对于处理图像的优秀的泛化能力,使其成为目前智能图像分析与理解的一个重要工具。但是,由于其交互式框架,sam需要提供预先生成的提示,如点、框、文本描述或者掩码,其结果严重依赖于输入提示的质量,并且只能得到没有类别标签的掩码输出。这些缺陷限制了sam模型在进行实例分割时的泛化性和实用性。设计合理的提示学习模块,可以增强sam在遥感图像等更细化的领域中的可用性。

3、针对sam示例分割模型的自动提示学习,目前的方法可分为三类:(1)直接在整个图像上均匀采样点,获取图像中所有实例掩码后,使用分类器为每个掩码生成类别标签;这这类方法能够在全图范围内有效地得到分割掩码,但其效果受采样密度的影响较大。(2)生成显式的点、框、或者掩码提示;这类方法使用sam的图像编码器生成的图像特征嵌入,结合其他点预测、目标检测或图像分割网络,得到点、框或者掩码提示,较好地利用了sam网络强大的图像特征提取能力。(3)生成可直接输入掩码解码器的提示嵌入;这类方法避免了从低维点坐标到高维提示空间的映射过程,这在很大程度上促进了模型的优化。

4、在上述三类方法中,直接生成所需的提示嵌入的方法应用较为广泛。有研究提出了一种通过目标检测器检测图像,并将检测到的边界框作为提示输入到sam中,这种方法在学术界得到广泛应用;另一研究提出一种基于查询的提示器,利用交叉注意力机制直接学习提示嵌入,与上一种方法相比取得明显的效果提升;有研究提出一种基于双向transformer的提示器,可以利用sam编码器的图像特征嵌入自动生成一组初始点提示,再通过人工交互的方法得到最终提示;还有一研究提出一种基于注意力机制的分组式提示学习器,由一系列transformer编码器组成,得到最终的提示嵌入。

5、但是,上述直接生成所述提示嵌入的方法仍然存在各种问题。具体来说,通过目标检测得到的边界框作为提示的方法受限于检测模型的精确度和泛化能力,并且从低维点坐标到高维提示空间的映射也会带来精度损失;基于查询的提示器,由于初始化查询嵌入时采用空白向量,且缺乏相应的监督信息,导致网络收敛困难,并且与其他基于transformer的提示器一样,都需要大量数据才能得到较好的效果,没有得到足够的训练数据支持时,生成提示嵌入的质量会有所下降,同时也需要更长的训练时间和更高的计算成本。


技术实现思路

1、针对现有技术的缺陷和改进需求,本专利技术提供了基于自动提示学习的目标实例分割模型建立方法及其应用,其目的在于,充分利用sam中图像编码器强大的特征表征能力,并充分提取图像特征内在的语义信息,高效地生成高质量的、可靠的点提示嵌入,从而提高图像分割的实用性和泛化性。

2、为实现上述目的,按照本专利技术的一个方面,提供了一种基于自动提示学习的目标实例分割模型建立方法,包括:

3、构建已标注地面真值标签的图像数据集;地面真值标签包括:m个目标的边界框,各目标的类别、掩码、中心点位置以及中心点到n个轮廓点的距离;m和n为正整数;

4、基于sam建立待训练的目标分割网络,并利用图像数据集对其进行训练,训练结束后,输出训练好的目标分割网络作为目标实例分割模型;目标分割网络包括:

5、特征嵌入网络,用于对输入图像进行特征提取,得到图像特征嵌入;特征嵌入网络包括sam中的图像编码器;

6、轮廓映射识别网络,用于根据图像特征嵌入预测输入图像中各目标的类别、中心点位置以及中心点到n个轮廓点的距离;

7、自动提示学习网络,用于根据各目标的中心点位置以及中心点到n个轮廓点的距离生成各轮廓点的重要性分数,并从中筛选出重要性分数最高的前k-1个轮廓点,连同中心点一起映射到语义空间,得到点提示的语义嵌入;k为正整数,且k<n;

8、以及掩码解码器,以图像特征嵌入和点提示的语义嵌入为输入,通过交叉注意力机制得到分割掩码;掩码解码器为sam中的掩码解码器。

9、进一步地,自动提示学习网络包括:图空间映射模块,n层图注意力网络、重要点排序模块,以及语义空间映射模块;

10、图空间映射模块,用于将中心点到n个轮廓点的距离分别乘以常数a后,按照新的距离确定各轮廓点的位置,将以中心点及轮廓点为中心的图像块的图像特征作为相应点的特征表示,并构建各实例的图结构;图结构以目标的中心点及轮廓点的特征表示为节点,边连接关系为:轮廓上相邻的节点相连,空间距离在预设阈值范围内的节点相连,中心点与所有轮廓点相连;

11、n层图注意力网络,用于学习节点的表示以及节点之间边的重要性权重;

12、重要点排序模块,用于按照计算各节点的重要性分数,作为相应中心点或轮廓点的重要性分数,并筛选出重要性分数最高的前k-1个轮廓点;

13、语义空间映射模块,用于将筛选出的k-1个轮廓点连同中心点的特征表示映射到语义空间,得到点提示的语义嵌入;

14、其中,0<a<1,n为正整数;si表示第节点i的重要性分数,hi和hj分别表示节点i和节点j的特征表示,ws为可学习的权重矩阵,aij为节点i和节点j之间边的重要性权重,ni表示节点i的邻接节点集合,σ()表示激活函数。

15、进一步地,n=2。

16、进一步地,语义空间映射模块为多层感知机。

17、进一步地,轮廓映射识别网络包括:预测分支和回归分支;

18、预测分支包括:第一特征提取模块、分类头和中心头;第一特征提取模块,用于加深网络深度,并对图像特征嵌入进行的特征提取;分类头,用于根据第一特征提取模块输出的图像特征预测各目标的类别;中心头,用于根据第一特征提取模块输出的图像特征预测各目标的中心点位置;

19、回归分支包括:第二特征提取模块和回归头;第二特征提取模块,用于加深网络深度,并对图像特征嵌入进行特征提取;回归头,用于根据第二特征提取模块输出的本文档来自技高网...

【技术保护点】

1.一种基于自动提示学习的目标实例分割模型建立方法,其特征在于,包括:

2.如权利要求1所述的基于自动提示学习的目标实例分割模型建立方法,其特征在于,所述自动提示学习网络包括:图空间映射模块,N层图注意力网络、重要点排序模块,以及语义空间映射模块;

3.如权利要求2所述的基于自动提示学习的目标实例分割模型建立方法,其特征在于,N=2。

4.如权利要求1~3任一项所述的基于自动提示学习的目标实例分割模型建立方法,其特征在于,所述轮廓映射识别网络包括:预测分支和回归分支;

5.如权利要求4所述的基于自动提示学习的目标实例分割模型建立方法,其特征在于,所述第一特征提取模块和所述第二特征提取模块均由4个ShuffleNet-v2模块堆叠而成。

6.如权利要求1~3任一项所述的基于自动提示学习的目标实例分割模型建立方法,其特征在于,所述特征嵌入网络还包括:多尺度特征聚合网络,用于将所述图像编码器的输出层和中间层输出的图像特征聚合,得到多尺度融合的图像特征,作为所述特征嵌入网络输出的图像特征嵌入。

7.如权利要求6所述的基于自动提示学习的目标实例分割模型建立方法,其特征在于,所述多尺度特征聚合网络为双向特征金字塔网络。

8.如权利要求1~3任一项所述的基于自动提示学习的目标实例分割模型建立方法,其特征在于,利用所述图像数据集对所建立的目标分割网络进行训练时,训练损失函数为:

9.一种基于自动提示学习的目标实例分割方法,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,包括存储的计算机程序,所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行权利要求1~8任一项所述的基于自动提示学习的目标实例分割模型建立方法,和/或,权利要求9所述的基于自动提示学习的目标实例分割方法。

...

【技术特征摘要】

1.一种基于自动提示学习的目标实例分割模型建立方法,其特征在于,包括:

2.如权利要求1所述的基于自动提示学习的目标实例分割模型建立方法,其特征在于,所述自动提示学习网络包括:图空间映射模块,n层图注意力网络、重要点排序模块,以及语义空间映射模块;

3.如权利要求2所述的基于自动提示学习的目标实例分割模型建立方法,其特征在于,n=2。

4.如权利要求1~3任一项所述的基于自动提示学习的目标实例分割模型建立方法,其特征在于,所述轮廓映射识别网络包括:预测分支和回归分支;

5.如权利要求4所述的基于自动提示学习的目标实例分割模型建立方法,其特征在于,所述第一特征提取模块和所述第二特征提取模块均由4个shufflenet-v2模块堆叠而成。

6.如权利要求1~3任一项所述的基于自动提示学习的目标实例分割模型建立方法,其特征在于,所述特征嵌入网络...

【专利技术属性】
技术研发人员:杨卫东宁康辉王公炎史先硕赵之鉴黄鹏葛世辰
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1