System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于双分支融合注意力机制的轻量化行人重识别方法技术_技高网

一种基于双分支融合注意力机制的轻量化行人重识别方法技术

技术编号:41533391 阅读:11 留言:0更新日期:2024-06-03 23:10
本发明专利技术公开了一种基于双分支融合注意力机制的轻量化行人重识别方法,构建双分支卷积神经网络,双分支卷积神经网络包括全局分支、局部分支和融合双通道注意力机制的主干网络;利用文本图像数据集对双分支卷积神经网络进行预训练,利用行人图像数据集对经过预训练的双分支卷积神经网络进行训练;将包含行人的图像输入到训练好的双分支卷积神经网络中,可视化输出行人搜索的结果。本发明专利技术通过设计双分支结构将全局特征与局部特征相结合,使得神经网络既能够捕捉到整体的信息和关系,又可以关注于局部细节,增强模型的鲁棒性,同时融入双通道注意力机制进一步提取到更加精细的特征,既不会增加太多参数量,又能大幅度提高网络的准确率。

【技术实现步骤摘要】

本专利技术属于图像识别,特别涉及一种基于双分支融合注意力机制的轻量化行人重识别方法


技术介绍

1、行人重识别(person re-identification,re-id)是计算机视觉领域备受关注的研究方向之一,旨在从多个不同摄像头捕获的画面中寻找特定的目标对象,广泛应用于安防领域。近年来,基于深度学习的行人重识别方法凭借其较强的学习和计算能力成为主要研究方向,且取得了较为显著的成果。然而,这些方法在实际场景应用中存在一定的挑战,主要源于行人重识别的网络模型具有较为庞大的参数量和计算量,且对行人特征提取不够充分,在行人被遮挡的情况下存在特征丢失的问题,导致行人重识别的准确性下降。进一步,现有的行人重识别模型大多都是基于大规模的图像数据集imagenet数据集上进行预训练,由于图像内容之间的风格差异较大,并不能精细化的学习到关键特征,因此对于模型的提升较为有限。


技术实现思路

1、为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于双分支融合注意力机制的轻量化行人重识别方法,目的在于如下之一或全部:第一,减小识别模型的参数量和计算量,以便于在各种嵌入式设备中部署;第二,缓解遮挡环境下特征丢失的情况,减小杂乱背景的干扰,提高行人重识别的准确性。

2、为了实现上述目的,本专利技术采用的技术方案是:

3、一种基于双分支融合注意力机制的轻量化行人重识别方法,包括以下步骤:

4、s1:构建双分支卷积神经网络,所述双分支卷积神经网络包括全局分支、局部分支和融合双通道注意力机制的主干网络,所述全局分支和局部分支均连接于主干网络的输出端;

5、s2:利用文本图像数据集对所述双分支卷积神经网络进行预训练,所述文本图像数据集的数据包括行人身份、行人图像以及行人图像中的行人文本描述;

6、s3:利用行人图像数据集对经过预训练的双分支卷积神经网络进行训练;

7、s4:将包含行人的图像输入到训练好的双分支卷积神经网络中,可视化输出行人搜索的结果。

8、进一步地,s1中,所述融合双通道注意力机制的主干网络由依次连接的第一层至第十层组成,其中:

9、第一层,由第一卷积层和最大池化层组成;

10、第二层、第五层和第八层,为两个bottleneck结构,每个bottleneck结构由全尺度残差块和统一汇聚门组成,每个残差块由多个卷积流组成;

11、第三层,由第二卷积层和平均池化层组成;

12、第四层和第七层,为eca通道注意力模块;

13、第六层,由第三卷积层和平均池化层组成;

14、第九层,为第四卷积层;

15、第十层,为全局平均池化层。

16、进一步地,所述第一卷积层的大小为7×7,第二卷积层、第三卷积层和第四卷积层的大小均为1×1;所述第一层输出64维的特征图,第二层至第四层均输出256维的特征图,第五层至第七层均输出384维的特征图,第八层至第十层均输出512维的特征图。

17、进一步地,s1中,所述全局分支包括矩形drop块和全局最大池化层;其中:

18、所述矩形drop块中所包含的激活单元设置为零,drop块以所述主干网络输出的特征图为输入,得到同样维度的包含drop块的特征图;

19、所述全局最大池化层从包含drop块的特征图中提取相对较弱的特征,得到同样维度的特征向量,为全局特征。

20、进一步地,s1中,所述局部分支包括人体姿态识别层、特征图分割层、平均池化层和拼接层;

21、所述人体姿态识别层以所述主干网络输出的特征图为输入,识别标记出人体姿态关键点;

22、所述特征图分割层根据所述人体姿态关键点,将特征图划分为n个部分;

23、所述平均池化层有n个,分别以特征图划分的其中一部分为输入,将各部分分别平均池化;

24、所述拼接层将各平均池化层输出的特征向量做连接操作,得到特征列向量,为局部特征。

25、进一步地,s2中,以bert模型为文本编码器,以所述双分支卷积神经网络为图像编码器,进行所述预训练;预训练过程中,文本与图像相对应,捕获彼此之间的语义关系,形成特征互补。

26、进一步地,s2中,对文本图像数据集进行预处理,然后进行所述预训练;所述对文本图像数据集进行预处理:

27、对于一张图像存在多个文本描述的情况,随机选择1-2个文本描述与该张图像匹配,形成对应的文本图像对;

28、对于一张图像没有对应文本描述的情况,对该张图像做特殊标记处理,不参与预训练过程。

29、进一步地,s3中,训练过程如下:

30、s3.1:将行人图像输入到所述主干网络中,得到卷积后的特征图;

31、s3.2:所述卷积后的特征图输入到所述全局分支中,提取全局特征,并计算全局分支损失;

32、s3.3:所述卷积后的特征图输入到所述局部分支中,提取局部特征,并计算局部分支损失;

33、s3.4:将所述全局特征和所述局部特征进行特征融合,得到最终特征;

34、s3.5:联合所述全局分支损失和所述局部分支损失计算总损失,利用总损失监督网络训练。

35、进一步地,所述全局分支损失函数采用多相似损失lm和交叉熵损失lc相结合,在全局分支的drop块之前获得的嵌入特征将用于计算多相似损失,在全局分支的drop块之后获得的嵌入特征用于计算交叉熵损失;

36、所述局部分支损失函数采用单身份预测损失lid,将所述特征向量作为输入,避免特征的丢失;

37、采用所述总损失对整体网络模型进行监督,当总损失趋于稳定时,模型训练完成,总损失的计算公式如下:

38、ltotal=lid+γmlm+γclc

39、式中:γm和γc为多相似损失和交叉熵损失的平衡参数。

40、与现有技术相比,本专利技术所依赖网络模型小、参数量少、识别速度快且精度高,通过设计双分支结构将全局特征与局部特征相结合,使得神经网络既能够捕捉到整体的信息和关系,又可以关注于局部细节,增强模型的鲁棒性,提高泛化能力,同时融入双通道注意力机制进一步提取到更加精细的特征,更具有判别性,这样既不会增加太多参数量,又能大幅度提高网络的准确率。

本文档来自技高网...

【技术保护点】

1.一种基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,S1中,所述融合双通道注意力机制的主干网络由依次连接的第一层至第十层组成,其中:

3.根据权利要求2所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,所述第一卷积层的大小为7×7,第二卷积层、第三卷积层和第四卷积层的大小均为1×1;所述第一层输出64维的特征图,第二层至第四层均输出256维的特征图,第五层至第七层均输出384维的特征图,第八层至第十层均输出512维的特征图。

4.根据权利要求1所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,S1中,所述全局分支包括矩形drop块和全局最大池化层;其中:

5.根据权利要求1所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,S1中,所述局部分支包括人体姿态识别层、特征图分割层、平均池化层和拼接层;

6.根据权利要求5所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,所述人体姿态识别层,使用人体姿态识别模型对特征图进行识别,并标记出关键点;

7.根据权利要求1所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,S2中,以BERT模型为文本编码器,以所述双分支卷积神经网络为图像编码器,进行所述预训练;预训练过程中,文本与图像相对应,捕获彼此之间的语义关系,形成特征互补。

8.根据权利要求1或7所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,S2中,对文本图像数据集进行预处理,然后进行所述预训练;所述对文本图像数据集进行预处理:

9.根据权利要求1所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,S3中,训练过程如下:

10.根据权利要求9所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,所述全局分支损失函数采用多相似损失LM和交叉熵损失LC相结合,在全局分支的drop块之前获得的嵌入特征将用于计算多相似损失,在全局分支的drop块之后获得的嵌入特征用于计算交叉熵损失;

...

【技术特征摘要】

1.一种基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,s1中,所述融合双通道注意力机制的主干网络由依次连接的第一层至第十层组成,其中:

3.根据权利要求2所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,所述第一卷积层的大小为7×7,第二卷积层、第三卷积层和第四卷积层的大小均为1×1;所述第一层输出64维的特征图,第二层至第四层均输出256维的特征图,第五层至第七层均输出384维的特征图,第八层至第十层均输出512维的特征图。

4.根据权利要求1所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,s1中,所述全局分支包括矩形drop块和全局最大池化层;其中:

5.根据权利要求1所述基于双分支融合注意力机制的轻量化行人重识别方法,其特征在于,s1中,所述局部分支包括人体姿态识别层、特征图分割层、平均池化层和拼接层;

6.根据权利要求5所述基于双分支融合注意...

【专利技术属性】
技术研发人员:庄旭菲高旭东毛睿张海涛王玉杰黎子珩杜婷张燕
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1