当前位置: 首页 > 专利查询>中山大学专利>正文

基于不确定性二阶自注意力结构模型的小股行人重识别方法技术

技术编号:36806809 阅读:9 留言:0更新日期:2023-03-09 00:19
本发明专利技术针对现有技术的局限性,提出了一种基于不确定性二阶自注意力结构模型的小股行人重识别方法,基于有限样本,通过模拟成员和布局的变化来挖掘趋于无限的群组结构。成员不确定性将组内成员的数量作为一个截断的高斯分布,而不是一个固定的值,然后通过动态抽样来模拟成员的变化。布局不确定性构造了关于成员位置的随机仿射变换,以扩大训练集中的固定方案。本发明专利技术提出了二阶不确定性自注意力结构模型(UMSOT),它提取一阶token作为每个成员的特征,然后根据上述所有一阶token学习一个二阶token作为组特征。UMSOT利用自注意力模型的结构优势,实现了布局特征的显式建模和与外观建模的集成。在CSG、SYSUGroup、RoadGroup和iLIDS

【技术实现步骤摘要】
基于不确定性二阶自注意力结构模型的小股行人重识别方法


[0001]本专利技术涉及计算机视觉与视频监控
,具体地,涉及一种基于不确定性二阶自注意力结构模型的小股行人重识别方法。

技术介绍

[0002]小股行人重识别旨在将不同摄像机下包含同一组行人的图像在非重叠视域的摄像机网络下进行联,这在视频监控中有着广泛的应用。与已经发展多年的人员再识别相比,小股行人重识别仍然是一个起步阶段的任务,并没有得到太多的关注。社会属性表明人们倾向于以群体形式出现而不是单独出现,因此,小股行人重识别不仅需要克服传统的人的再识别困难,还需要应对群体结构变化所带来的独特挑战。
[0003]具体来说,小股行人重识别的独特挑战主要包括两个方面:成员的变化和成员的布局。前者是指组内成员的数量在不同的摄像头下可以减少或增加。后者是指在不同的摄像机下,群内成员的空间位置可能会发生变化。这两个挑战在实际场景中是不可避免的,在解决小股行人重识别时需要考虑。
[0004]以公开时间为2022

03

11的中国专利技术申请:一种上下文感知、噪声鲁棒的行人搜索方法为例,基于深度学习的小股行人重识别方法试图解决上述挑战。但是,这些方法在考虑对每一幅图像进行组结构建模时仍然不完善,这主要是因为以下两个原因。(1)这些方法都是从确定性建模的角度出发的。现有方法提取的特征是基于图像提供的固定的组结构。由于群体结构的多样性,这些特征不足以描述类的边界。(2)在技术上,现有的模型是基于卷积神经网络或者图神经网络的组合框架,由于结构本身在位置建模上的缺陷,对群布局特征的描述较弱,性能有限。

技术实现思路

[0005]针对现有技术的局限,本专利技术提出一种基于不确定性二阶自注意力结构模型的小股行人重识别方法,本专利技术采用的技术方案是:
[0006]一种基于不确定性二阶自注意力结构模型的小股行人重识别方法,包括以下步骤:
[0007]S1,获取待识别图像;
[0008]S2,获取所述待识别图像输入由不确定性二阶自注意力结构模型训练获得的小股行人重识别器中,获得识别结果;
[0009]其中,所述不确定性二阶自注意力结构模型中的特征提取阶段包括成员特征提取以及群组特征提取;在成员特征提取的阶段,以视觉自注意力模型作为提取器,提取成员表观特征;在群组特征提取的阶段,通过进行不确定性建模,整体考虑关系建模与表观建模,从而提取完整的群组判别性特征;
[0010]在训练过程中,同时对群体的身份类别和逐个成员的身份类别向所述不确定性二阶自注意力结构模型提供有监督训练约束,以交叉熵损失函数、困难三元组损失函数之和
达到最小化为目标进行优化。
[0011]相较于现有技术,本专利技术基于有限样本,通过模拟成员和布局的变化来挖掘趋于无限的群组结构。成员不确定性将组内成员的数量作为一个截断的高斯分布,而不是一个固定的值,然后通过动态抽样来模拟成员的变化。布局不确定性构造了关于成员位置的随机仿射变换,以扩大训练集中的固定方案。本专利技术从技术上提出了二阶不确定性自注意力结构模型(UMSOT),它提取一阶token作为每个成员的特征,然后根据上述所有一阶token学习一个二阶token作为组特征。UMSOT利用自注意力模型的结构优势,实现了布局特征的显式建模和与外观建模的集成。在CSG、SYSUGroup、RoadGroup和iLIDS

MCTS 4个数据集上的综合实验充分证明了该方法的优越性。
[0012]作为一种优选方案,在训练过程中使用的训练批次通过以下方式构造:
[0013]每个训练批次由预设的训练样本中挑选出的64张群组图片组成,其中每个批次随机设有4个群组身份类别,每个群组身份类别随机挑选16张图片;训练批次的构造过程对群组图片的质量、拍摄视角、光照条件等无额外约束;训练批次构造完成之后,将每一张群组图片中包含的所有成员按预设的照标注文件中给定的矩形框位置标签进行裁剪得到若干成员子图,并将得裁剪后的成员子图设为256
×
128的分辨率。
[0014]进一步的,在所述成员特征提取的阶段:
[0015]对于一张群组图片x
i
内的所有成员子图对每一张成员子图x
i,j
执行不重叠的分块处理,将成员子图均匀地切分为128个16
×
16的子块;
[0016]对由二维矩阵构成的所述子块进行堆积操作,拉直成为一维向量,并经过1
×
1的卷积操作得到768维的嵌入向量,作为所述子块对应的特征表达;
[0017]在所有嵌入向量之前添加一个称为一阶token的嵌入向量作为对所有嵌入向量的整合特征;为所述成员子图的各子块标记子块原本位于原图中的位置,并预设一个位置编码矩阵根据子块在所有切分子块中的索引,将E
p
中对应行数的向量作为当前嵌入向量的位置特征,相加后得到群组图片中成员子图的序列化输入矩阵;
[0018]让所述序列化输入矩阵在所述视觉自注意力模型中进行12层的前向流程计算后,将最后一层输出的经过优化一阶token作为当前成员子图的表观特征表达,记为
[0019]更进一步的,在群组特征提取的阶段:
[0020]将各成员的经过优化的一阶token拼接在一起构成序列化矩阵并在序列化矩阵前面拼接一个二阶token,作为群组图片x
i
在预设的群组特征提取器中的序列化输入的一部分;
[0021]通过对群组的关系进行不确定性建模,然后整体考虑关系建模与表观建模,获得群组特征提取器中的序列化输入的最终形式;
[0022]将所述群组特征提取器中的序列化输入的最终形式输入所述群组特征提取器,提取完整的群组判别性特征。
[0023]更进一步的,在群组特征提取的阶段还包括以下成员不确定性建模的过程:
[0024]利用超参数P0和p
max
求解截断高斯分布其中方差和均值可求解为:
[0025][0026]对于一张群组图片内的所有成员子图,统计其包含的成员个数Z
c
,以及整个批次中该群组身份下的群组所包含的最大成员个数Z
t
,对所述截断高斯分布进行修正,得到修正后的p
max

[0027]p

max
=max(0,1

(1

p
max
)Z
t
/Z
c
);
[0028]利用修正后的p
max
重新构造截断高斯分布
[0029]根据Z
c
构造一个相应维度的二值掩膜行向量所述二值掩膜行向量中的每一个元素m
i,j
均满足截断高斯分布在伯努利分布上采样得到的二值结果:
[0030][0031]其中,代表以1

的概率采样到1,否本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于不确定性二阶自注意力结构模型的小股行人重识别方法,其特征在于,包括以下步骤:S1,获取待识别图像;S2,获取所述待识别图像输入由不确定性二阶自注意力结构模型训练获得的小股行人重识别器中,获得识别结果;其中,所述不确定性二阶自注意力结构模型中的特征提取阶段包括成员特征提取以及群组特征提取;在成员特征提取的阶段,以视觉自注意力模型作为提取器,提取成员表观特征;在群组特征提取的阶段,通过进行不确定性建模,整体考虑关系建模与表观建模,从而提取完整的群组判别性特征;在训练过程中,同时对群体的身份类别和逐个成员的身份类别向所述不确定性二阶自注意力结构模型提供有监督训练约束,以交叉熵损失函数、困难三元组损失函数之和达到最小化为目标进行优化。2.根据权利要求1所述的基于不确定性二阶自注意力结构模型的小股行人重识别方法,其特征在于,在训练过程中使用的训练批次通过以下方式构造:每个训练批次由预设的训练样本中挑选出的64张群组图片组成,其中每个批次随机设有4个群组身份类别,每个群组身份类别随机挑选16张图片;训练批次的构造过程对群组图片的质量、拍摄视角、光照条件等无额外约束;训练批次构造完成之后,将每一张群组图片中包含的所有成员按预设的照标注文件中给定的矩形框位置标签进行裁剪得到若干成员子图,并将得裁剪后的成员子图设为256
×
128的分辨率。3.根据权利要求2所述的基于不确定性二阶自注意力结构模型的小股行人重识别方法,其特征在于,在所述成员特征提取的阶段:对于一张群组图片x
i
内的所有成员子图对每一张成员子图x
i,j
执行不重叠的分块处理,将成员子图均匀地切分为128个16
×
16的子块;对由二维矩阵构成的所述子块进行堆积操作,拉直成为一维向量,并经过1
×
1的卷积操作得到768维的嵌入向量,作为所述子块对应的特征表达;在所有嵌入向量之前添加一个称为一阶token的嵌入向量作为对所有嵌入向量的整合特征;为所述成员子图的各子块标记子块原本位于原图中的位置,并预设一个位置编码矩阵根据子块在所有切分子块中的索引,将E
p
中对应行数的向量作为当前嵌入向量的位置特征,相加后得到群组图片中成员子图的序列化输入矩阵;让所述序列化输入矩阵在所述视觉自注意力模型中进行12层的前向流程计算后,将最后一层输出的经过优化一阶token作为当前成员子图的表观特征表达,记为4.根据权利要求3所述的基于不确定性二阶自注意力结构模型的小股行人重识别方法,其特征在于,在群组特征提取的阶段:将各成员的经过优化的一阶token拼接在一起构成序列化矩阵并在序列化矩阵前面拼接一个二阶token,作为群组图片x
i
在预设的群组特征提取器中的序列化输入的一部分;
通过对群组的关系进行不确定性建模,然后整体考虑关系建模与表观建模,获得群组特征提取器中的序列化输入的最终形式;将所述群组特征提取器中的序列化输入的最终形式输入所述群组特征提取器,提取完整的群组判别性特征。5.根据权利要求4所述的基于不确定性二阶自注意力结构模型的小股行人重识别方法,其特征在于,在群组特征提取的阶段还包括以下成员不确定性建模的过程:利用超参数P0和p
max
求解截断高斯分布其中方差和均值可求解为:对于一张群组图片内的所有成员子图,统计其包含的成员个数Z
c
,以及整个批次中该群组身份下的群组所包含的最大成员个数Z
t
,对所述截断高斯分布进行修正,得到修正后的p
max
:p

max
=max(0,1

(1

p
max
)Z
t
/Z
c
);利用修正后的p
max
重新构造截断高斯分布根据Z
c
构造一个相应维度的二值掩膜行向量所述二...

【专利技术属性】
技术研发人员:赖剑煌张权
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1