System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种可调整的定位和多角度注意的细粒度视觉分类方法技术_技高网

一种可调整的定位和多角度注意的细粒度视觉分类方法技术

技术编号:43680591 阅读:2 留言:0更新日期:2024-12-18 21:02
本发明专利技术涉及细粒度视觉分类技术领域,具体涉及一种可调整的定位和多角度注意的细粒度视觉分类方法,包括主干网络和ALMA模型,所述ALMA模型包括可调整定位模块和多角度注意模块,可调整定位模块用于优化每次选择的注意力图,减少每次局部定位时的大量次要信息,在这个模块中将更加关注物体的局部特征。多角度注意模块会让模型更好的去识别主要信息和次要信息,并使二者的差异逐渐增大,该模块希望模型能够更好的分辨出主要信息和次要信息,把关注的重点放在主要信息区域,减少次要信息的干扰。主要信息将关注物体本身区域,次要信息将更加关注背景区域。两个模块分别从局部和整体进行优化,减少次要信息的干扰,帮助模型提高分类的能力。

【技术实现步骤摘要】

本专利技术涉及细粒度视觉分类,尤其涉及一种可调整的定位和多角度注意的细粒度视觉分类方法


技术介绍

1、细粒度视觉分类是在一般类别中区分不同从属层次的子类别,而这些子类具有细微的差异,如图1所示。

2、目前,细粒度视觉分类领域常见的做法是引入额外的标注作为辅助信息,例如,基于人工标注的边界框/部分标注的区域标注方法。然而,额外标注的产生通常需要花费大量的人力和时间,这限制了实际的使用。

3、了摆脱对额外标注的依赖,最近出现了一些弱监督的方法。例如mge-cnn[1]由几位专家和一个门控网络组成。每个专家都从先前的专家那里学习先前的知识。门控网络确定每个专家对最终预测分配权重,最后做出预测。

4、ws-dan[2]随机选取的注意力图指导数据增强,利用双线性注意池化提取物体特征,对物体进行定位。最后对初始图像和定位图进行综合预测。

5、ap-cnn[3]通过整合低级信息(如颜色、边缘连接、纹理模式),可以通过增强特征表示和准确定位判别区域来提高性能。

6、sadmix[4]提出了一种数据混合增强策略,即语义和注意数据混合,以选择用于生成新训练样本的语义补丁来提高模型的性能。

7、cdlt-cd[5]利用不同判别区域之间的关系包含了丰富的姿态信息,通过添加姿态信息,模型可以学习到目标属性的非行为。

8、pmrc对不同判别区域之间的关系包含了丰富的姿态信息,通过添加姿态信息,模型可以学习到目标属性的非行为。

9、但是,上述这些方法定位的区域依然含有大量的次要信息(例如背景信息),导致该模型有时在进行局部定位中包含着大量的次要信息。这些次要信息会干扰模型关注物体本身,降低了模型分类的精确度。


技术实现思路

1、有鉴于此,本专利技术的目的在于提出一种可调整的定位和多角度注意的细粒度视觉分类方法,以解决现有分类方法定位的区域依然含有大量的次要信息(例如背景信息),导致该模型有时在进行局部定位中包含着大量的次要信息,这些次要信息会干扰模型关注物体本身的问题。

2、基于上述目的,本专利技术提供了一种可调整的定位和多角度注意的细粒度视觉分类方法,包括主干网络和alma模型,所述alma模型包括可调整定位模块和多角度注意模块,所述alma模型用于细粒度视觉分类的步骤如下:

3、s1、注意力图由多带有的卷积核对特征图卷积得到,注意力图分别作为可调整定位模块和多角度注意模块的输入,用a表示注意力图,ak表示输入可调整定位模块的一张注意力图;

4、s2、可调整定位模块选中的注意力图ak先进行归一化处理,然后输入到可调整定位模块;

5、s3、在可调整定位模块中,先对目标感兴趣的区域进行局部定位;

6、s4、通过生成的背景遮掩区域屏蔽局部定位区域内的一部分背景,以便更好地关注对象的判别区域,并生成新的局部定位区域;

7、s5、将新的局部定位区域放大和裁剪,以捕捉更详细的信息,使得模型能够更加关注于物体本身,更有效的提取特征信息;

8、s6、多角度注意模块会让模型更好的去识别主要信息和次要信息,并使二者所关注区域的差异逐渐增大,该模块希望模型能够更好的分辨出主要信息和次要信息,最后把关注的重点放在主要信息的区域,帮助模型减少次要信息的干扰。

9、优选的,所述主干网络为cub-200-2011、fgvc aircraft、stanford car三个数据集上面的inception v3和resnet101。

10、优选的,在s1中,所述注意力图可表示为:

11、

12、其中f(·)表示卷积函数,f表示特征图,a表示注意力图,ak表示输入可调整定位模块的一张注意力图,k表示初始的注意力图序号,m表示设定的注意力图的数量。

13、优选的,在s2中,归一化的过程可表示为:

14、

15、其中max(·)和min(·)分别表示输入张量的最大值和最小值,表示ak归一化的结果。

16、优选的,在s3中,首先选择归一化后的注意力图生成局部的定位框,该过程可表示为:

17、

18、其中ck表示0、1的整个区域,θc表示设定的阈值,选中的归一化注意力图大于阈值θc会被赋值为1,否则会赋值为0,然后生成一个矩形框尽可能小的包含被赋值的1的区域,形成局部定位框对局部区域进行定位。

19、优选的,在s4中,背景遮掩区域的生成可表示为:

20、

21、其中a*表示a归一化的结果,θm表示设定的阈值,bm表示0、1的整个区域。

22、优选的,s5的步骤为:

23、s5.1、新的局部定位区域会避开被遮掩的区域,重新生成一个新的区域;

24、s5.2、新的局部定位区域内最小化包含ck中的1,新的局部定位区域更加准确,并减少背景信息;

25、s5.3、将新的局部定位区域经过放大和裁剪后,使得在保留主要信息的同时,减少了大量的次要信息,模型能够更加关注于物体本身,更有效的提取特征信息。

26、优选的,在s6中,关注主要信息的注意力图,主要关注物体本身,而关注次要信息的随机注意力图主要观察背景区域,关注主要信息过程可表示为:

27、

28、其中i表示是第几阶段,j表示第几次预测,am表示第m张注意力图,p(·)预测函数,f表示特征图,关注次要信息可表示为:

29、

30、其中ar表示随机注意力图,表示第m张随机注意力图。

31、优选的,从不同角度最大化区域差异,帮助模型更好的理解主要信息,从而提高图像预测的精度,得到第三次预测概率该过程可表示为:

32、

33、在多角度注意模块中和将会输出,作为最终预测的概率的重要参考,类似的,在得到目标定位图也进行类似的操作,最后会得到四个预测的概率。

34、优选的,所提出的alma模型,使用不同的注意力角度质量来监督和指导注意力学习过程,损失函数的组成结构如下:

35、ζ=ζce(yfinal,y)+ζcl

36、其中yfinal表示最终预测的标签,y表示分类标签,ζce表示二元交叉熵损失函数,ζcl表示特征中心损失函数,ζce(·,·)的结构如下:

37、

38、其中,h和w是预测图像的长和宽。ζce特征中心损失函数的结构如下:

39、

40、其中fk表示部分特征,ck表示部分特征中心。

41、本专利技术的有益效果如下:

42、一、可调整定位模块(al)用于优化每次选择的注意力图,使每次的局部定位时减少大量的次要信息,在这个模块中,将更加关注物体的局部特征。而多角度注意模块(ma)会让模型更好的去识别主要信息和次要信息,并使二者所关注区域的差异逐渐增大。该模块希望模型能够更好的分辨本文档来自技高网...

【技术保护点】

1.一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,包括主干网络和ALMA模型,所述ALMA模型包括可调整定位模块和多角度注意模块,所述ALMA模型用于细粒度视觉分类的步骤如下:

2.根据权利要求1所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,所述主干网络为CUB-200-2011、FGVC Aircraft、Stanford Car三个数据集上面的Inception v3和Resnet101。

3.根据权利要求1所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,在S1中,所述注意力图可表示为:

4.根据权利要求3所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,在S2中,归一化的过程可表示为:

5.根据权利要求4所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,在S3中,首先选择归一化后的注意力图生成局部的定位框,该过程可表示为:

6.根据权利要求5所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,在S4中,背景遮掩区域的生成可表示为:

7.根据权利要求6所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,S5的步骤为:

8.根据权利要求4所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,在S6中,关注主要信息的注意力图,主要关注物体本身,而关注次要信息的随机注意力图主要观察背景区域,关注主要信息过程可表示为:

9.根据权利要求8所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于:从不同角度最大化区域差异,帮助模型更好的理解主要信息,从而提高图像预测的精度,得到第三次预测概率该过程可表示为:

10.根据权利要求1所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于:所提出的ALMA模型,使用不同的注意力角度质量来监督和指导注意力学习过程,损失函数的组成结构如下:

...

【技术特征摘要】

1.一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,包括主干网络和alma模型,所述alma模型包括可调整定位模块和多角度注意模块,所述alma模型用于细粒度视觉分类的步骤如下:

2.根据权利要求1所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,所述主干网络为cub-200-2011、fgvc aircraft、stanford car三个数据集上面的inception v3和resnet101。

3.根据权利要求1所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,在s1中,所述注意力图可表示为:

4.根据权利要求3所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,在s2中,归一化的过程可表示为:

5.根据权利要求4所述的一种可调整的定位和多角度注意的细粒度视觉分类方法,其特征在于,在s3中,首先选择归一化后的注意力图生成局部的定位框,该过程可表示为:

【专利技术属性】
技术研发人员:徐晓峰丁伯宇包象琳杜文龙赵薇戴家树严楠
申请(专利权)人:安徽工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1