图像识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:34620509 阅读:16 留言:0更新日期:2022-08-20 09:27
本公开提供了一种图像识别方法、装置、计算机设备和存储介质,其中,该方法包括:获取图像对应的特征序列;基于特征图的目标尺寸,将查询矩阵中的每个初始查询特征的第一初始位置转换为第一目标位置,以及将键矩阵中的每个初始键特征的第二初始位置转换为第二目标位置;基于第一目标位置,确定每个初始查询特征的第一加权权重,并基于第二目标位置,确定每个初始键特征的第二加权权重;针对每个图像特征,基于图像特征对应的初始查询特征的第一加权权重、每个初始键特征对应的第二加权权重、和值矩阵中的每个目标值特征,确定图像特征对应的注意力融合特征;基于每个图像特征对应的注意力融合特征,确定图像对应的图像识别结果。果。果。

【技术实现步骤摘要】
图像识别方法、装置、计算机设备和存储介质


[0001]本公开涉及图像识别
,具体而言,涉及一种图像识别方法、装置、计算机设备和存储介质。

技术介绍

[0002]Transformer作为一种基于注意力机制的模型,在图像识别
发挥着重要的作用,利用Transformer模型可以实现对图像内容的精准识别。但Transformer模型在对图像进行识别时,随着图像对应的特征序列的长度的增加,图像识别的计算复杂度和计算时间将会随之增加。
[0003]这样,不仅增加了图像识别所需要使用的计算资源,图像识别的速度和准确性也会下降,造成了Transformer模型识别长特征序列的图像时,识别效果并不理想的问题。因此,如何提高对长特征序列的图像的图像识别效果,成为了亟待解决的问题。

技术实现思路

[0004]本公开实施例至少提供一种图像识别方法、装置、计算机设备和存储介质。
[0005]第一方面,本公开实施例提供了一种图像识别方法,包括:
[0006]获取待识别的图像对应的特征序列,所述特征序列包括在所述图像的特征图中,与各个区域分别对应的图像特征;
[0007]基于所述特征图的目标尺寸,将所述特征序列对应的查询矩阵中的每个初始查询特征,在第一特征维度下的第一初始位置,转换为在第二特征维度下的第一目标位置,以及将所述特征序列对应的键矩阵中的每个初始键特征,在所述第一特征维度下的第二初始位置,转换为在所述第二特征维度下的第二目标位置;
[0008]基于所述第一目标位置,确定每个所述初始查询特征对应的第一加权权重,并基于所述第二目标位置,确定每个所述初始键特征对应的第二加权权重;
[0009]针对所述特征序列中的每个所述图像特征,基于所述图像特征对应的初始查询特征的第一加权权重、每个所述初始键特征对应的第二加权权重、和所述特征序列对应的值矩阵中的每个目标值特征,确定所述图像特征对应的注意力融合特征;
[0010]基于每个所述图像特征对应的注意力融合特征,确定所述图像对应的图像识别结果。
[0011]该实施方式,通过将初始查询特征在第一特征维度下的第一初始位置,转化为第二特征维度下的第一目标位置,以及将初始键特征在第一特征维度下的第二初始位置,转换为在第二特征维度下的第二目标位置,能够实现利用第一目标位置和第二目标位置,表征初始查询特征与初始键特征之间的曼哈顿距离;再根据曼哈顿距离确定出对初始查询特征以及初始键特征进行余弦加权,能够准确得到各个初始查询特征对应的第一加权权重、以及各个初始键特征对应的第二加权权重。最后基于第一加权权重、第二加权权重、以及各个目标值特征,进行各个图像特征对应的注意力融合特征的计算,既能够提高确定注意力
融合特征的准确性,又能够避免将查询矩阵和键矩阵直接相乘而带来的计算量过大的问题,有效降低了确定出注意力融合特征所需使用的计算资源和计算时长。针对对应于长特征序列的图像而言,基于该实施方式,即可以实现对图像的准确识别,又可以有效减少识别时间,最终实现对图像识别效果的提升。
[0012]在一种可能的实施方式中,所述第一目标位置包括第一目标行坐标和第一目标列坐标;
[0013]所述基于所述特征图的目标尺寸,将所述特征序列对应的查询矩阵中的每个初始查询特征,在第一特征维度下的第一初始位置,转换为在第二特征维度下的第一目标位置,包括:
[0014]针对每个所述初始查询特征,基于所述初始查询特征对应的第一初始位置指示的第一初始行坐标和所述特征图的目标尺寸所指示的高度大小,确定所述初始查询特征对应的第一目标行坐标;
[0015]基于所述初始查询特征对应的第一初始位置指示的第一初始列坐标,和所述特征图的目标尺寸所指示的宽度大小,确定所述初始查询特征对应的第一目标列坐标。
[0016]该实施方式,行列坐标用于唯一标识初始查询特征的位置,利用特征图的目标尺寸所指示的高度,对初始查询特征对应的第一初始行坐标进行转换,以及利用特征图的目标尺寸所指示的宽度,对初始查询特征对应的第一初始列坐标进行转换,能够实现将初始查询特征在第一特征维度下的第一初始位置,准确转换为在第二特征维度下的第一目标位置。
[0017]在一种可能的实施方式中,将所述第一加权权重和所述第二加权权重分别作为目标加权权重,将所述第一目标位置和第二目标位置分别作为目标位置,则:
[0018]所述目标加权权重包括:对该目标加权权重对应的目标位置中的行坐标和列坐标分别执行取正弦操作和执行取余弦操作后的子权重。
[0019]该实施方式,通过对第一目标位置分别执行取正弦操作和执行取余弦操作,能够准确得到每个初始查询特征对应的各个子权重。通过对第二目标位置分别执行取正弦操作和执行取余弦操作,能够准确得到每个初始键特征对应的各个子权重。最后利用上述各个子权重进行加权处理,可以实现对每个图像特征对应的注意力融合特征的准确确定。
[0020]在一种可能的实施方式中,所述基于所述图像特征对应的初始查询特征的第一加权权重、每个所述初始键特征对应的第二加权权重、和所述特征序列对应的值矩阵中的每个目标值特征,确定所述图像特征对应的注意力融合特征,包括:
[0021]利用目标核函数,将所述初始查询特征转换为目标查询特征,以及将每个所述初始键特征转换为目标键特征;
[0022]利用所述初始查询特征的所述第一加权权重对应的各个所述子权重,分别对所述初始查询特征对应的目标查询特征进行加权处理,得到所述初始查询特征对应的各个第一加权结果;
[0023]针对每个所述初始键特征,利用所述初始键特征的所述第二加权权重对应的各个所述子权重,分别对所述初始键特征对应的目标键特征进行加权处理,得到所述初始键特征对应的各个第二加权结果;
[0024]基于所述初始查询特征对应的各个所述第一加权结果、每个所述初始键特征对应
的各个所述第二加权结果、以及每个所述目标值特征,确定所述图像特征对应的注意力融合特征。
[0025]该实施方式,利用目标核函数,能够将初始查询特征转换为非负的目标查询特征,以及将初始键特征转换为非负的目标键特征,避免了直接利用原本为负的初始查询特征和/或原本为负的初始键特征进行计算,对得到的注意力融合特征的准确性产生影响,保障了计算出的注意力融合特征的准确性。
[0026]在一种可能的实施方式中,所述基于所述初始查询特征对应的各个所述第一加权结果、每个所述初始键特征对应的各个所述第二加权结果、以及每个所述目标值特征,确定所述图像特征对应的注意力融合特征,包括:
[0027]针对每个所述初始键特征,基于与该初始键特征对应于相同图像特征的目标值特征,分别与该初始键特征对应的各个所述第二加权结果的乘积的和,得到该初始键特征对应的第三加权结果;
[0028]将每个所述初始键特征分别对应的各个所述第二加权结果相加,得到第四加权结果;
[0029]基于各个所述第一加权结果、各个所述初始键特征对应的第三本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像识别方法,其特征在于,包括:获取待识别的图像对应的特征序列,所述特征序列包括在所述图像的特征图中,与各个区域分别对应的图像特征;基于所述特征图的目标尺寸,将所述特征序列对应的查询矩阵中的每个初始查询特征,在第一特征维度下的第一初始位置,转换为在第二特征维度下的第一目标位置,以及将所述特征序列对应的键矩阵中的每个初始键特征,在所述第一特征维度下的第二初始位置,转换为在所述第二特征维度下的第二目标位置;基于所述第一目标位置,确定每个所述初始查询特征对应的第一加权权重,并基于所述第二目标位置,确定每个所述初始键特征对应的第二加权权重;针对所述特征序列中的每个所述图像特征,基于所述图像特征对应的初始查询特征的第一加权权重、每个所述初始键特征对应的第二加权权重、和所述特征序列对应的值矩阵中的每个目标值特征,确定所述图像特征对应的注意力融合特征;基于每个所述图像特征对应的注意力融合特征,确定所述图像对应的图像识别结果。2.根据权利要求1所述的方法,其特征在于,所述第一目标位置包括第一目标行坐标和第一目标列坐标;所述基于所述特征图的目标尺寸,将所述特征序列对应的查询矩阵中的每个初始查询特征,在第一特征维度下的第一初始位置,转换为在第二特征维度下的第一目标位置,包括:针对每个所述初始查询特征,基于所述初始查询特征对应的第一初始位置指示的第一初始行坐标和所述特征图的目标尺寸所指示的高度大小,确定所述初始查询特征对应的第一目标行坐标;基于所述初始查询特征对应的第一初始位置指示的第一初始列坐标,和所述特征图的目标尺寸所指示的宽度大小,确定所述初始查询特征对应的第一目标列坐标。3.根据权利要求2所述的方法,其特征在于,将所述第一加权权重和所述第二加权权重分别作为目标加权权重,将所述第一目标位置和第二目标位置分别作为目标位置,则:所述目标加权权重包括:对该目标加权权重对应的目标位置中的行坐标和列坐标分别执行取正弦操作和执行取余弦操作后的子权重。4.根据权利要求3所述的方法,其特征在于,所述基于所述图像特征对应的初始查询特征的第一加权权重、每个所述初始键特征对应的第二加权权重、和所述特征序列对应的值矩阵中的每个目标值特征,确定所述图像特征对应的注意力融合特征,包括:利用目标核函数,将所述初始查询特征转换为目标查询特征,以及将每个所述初始键特征转换为目标键特征;利用所述初始查询特征的所述第一加权权重对应的各个所述子权重,分别对所述初始查询特征对应的目标查询特征进行加权处理,得到所述初始查询特征对应的各个第一加权结果;针对每个所述初始键特征,利用所述初始键特征的所述第二加权权重对应的各个所述子权重,分别对所述初始键特征对应的目标键特征进行加权处理,得到所述初始键特征对应的各个第二加权结果;基于所述初始查询特征对应的各个所述第一加权结果、每个所述初始键特征对应的各
个所述第二加权结果、以及每个所述目标值特征,确定所述图像特征对应的注意力融合特征。5.根据权利要求4所述的方法,其特征在于,所述基于所述初始查询特征对应的各个所述第一加权结果、每个所述初始键特征对应的各个所述第二加权结果、以及每个所述目标值特征,确定所述图像特征对应的注意力融合特征,包括:针对每个所述初始键特征,基于与该初始键特征对应于相同图像特征的目标值特征,分别与该初始键特征对应的各个所述第二加权结果的乘积的和,得到该初始键特征对应的第三加权结果;将每个所述初始键特征分别对应的各个所述第二加权结果相加,得到第四加权结果;基于各个所述第一加权结果、各个所述初...

【专利技术属性】
技术研发人员:钟怡然孙伟轩秦臻邓辉
申请(专利权)人:上海商汤智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1