图像识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：34620509 阅读：16 留言：0更新日期：2022-08-20 09:27

本公开提供了一种图像识别方法、装置、计算机设备和存储介质，其中，该方法包括：获取图像对应的特征序列；基于特征图的目标尺寸，将查询矩阵中的每个初始查询特征的第一初始位置转换为第一目标位置，以及将键矩阵中的每个初始键特征的第二初始位置转换为第二目标位置；基于第一目标位置，确定每个初始查询特征的第一加权权重，并基于第二目标位置，确定每个初始键特征的第二加权权重；针对每个图像特征，基于图像特征对应的初始查询特征的第一加权权重、每个初始键特征对应的第二加权权重、和值矩阵中的每个目标值特征，确定图像特征对应的注意力融合特征；基于每个图像特征对应的注意力融合特征，确定图像对应的图像识别结果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
图像识别方法、装置、计算机设备和存储介质

[0001]本公开涉及图像识别
，具体而言，涉及一种图像识别方法、装置、计算机设备和存储介质。

技术介绍

[0002]Transformer作为一种基于注意力机制的模型，在图像识别
发挥着重要的作用，利用Transformer模型可以实现对图像内容的精准识别。但Transformer模型在对图像进行识别时，随着图像对应的特征序列的长度的增加，图像识别的计算复杂度和计算时间将会随之增加。
[0003]这样，不仅增加了图像识别所需要使用的计算资源，图像识别的速度和准确性也会下降，造成了Transformer模型识别长特征序列的图像时，识别效果并不理想的问题。因此，如何提高对长特征序列的图像的图像识别效果，成为了亟待解决的问题。

技术实现思路

[0004]本公开实施例至少提供一种图像识别方法、装置、计算机设备和存储介质。
[0005]第一方面，本公开实施例提供了一种图像识别方法，包括：
[0006]获取待识别的图像对应的特征序列，所述特征序列包括在所述图像的特征图中，与各个区域分别对应的图像特征；
[0007]基于所述特征图的目标尺寸，将所述特征序列对应的查询矩阵中的每个初始查询特征，在第一特征维度下的第一初始位置，转换为在第二特征维度下的第一目标位置，以及将所述特征序列对应的键矩阵中的每个初始键特征，在所述第一特征维度下的第二初始位置，转换为在所述第二特征维度下的第二目标位置；
[0008]基于所述第一目标位置，...

【技术保护点】

【技术特征摘要】
1.一种图像识别方法，其特征在于，包括：获取待识别的图像对应的特征序列，所述特征序列包括在所述图像的特征图中，与各个区域分别对应的图像特征；基于所述特征图的目标尺寸，将所述特征序列对应的查询矩阵中的每个初始查询特征，在第一特征维度下的第一初始位置，转换为在第二特征维度下的第一目标位置，以及将所述特征序列对应的键矩阵中的每个初始键特征，在所述第一特征维度下的第二初始位置，转换为在所述第二特征维度下的第二目标位置；基于所述第一目标位置，确定每个所述初始查询特征对应的第一加权权重，并基于所述第二目标位置，确定每个所述初始键特征对应的第二加权权重；针对所述特征序列中的每个所述图像特征，基于所述图像特征对应的初始查询特征的第一加权权重、每个所述初始键特征对应的第二加权权重、和所述特征序列对应的值矩阵中的每个目标值特征，确定所述图像特征对应的注意力融合特征；基于每个所述图像特征对应的注意力融合特征，确定所述图像对应的图像识别结果。2.根据权利要求1所述的方法，其特征在于，所述第一目标位置包括第一目标行坐标和第一目标列坐标；所述基于所述特征图的目标尺寸，将所述特征序列对应的查询矩阵中的每个初始查询特征，在第一特征维度下的第一初始位置，转换为在第二特征维度下的第一目标位置，包括：针对每个所述初始查询特征，基于所述初始查询特征对应的第一初始位置指示的第一初始行坐标和所述特征图的目标尺寸所指示的高度大小，确定所述初始查询特征对应的第一目标行坐标；基于所述初始查询特征对应的第一初始位置指示的第一初始列坐标，和所述特征图的目标尺寸所指示的宽度大小，确定所述初始查询特征对应的第一目标列坐标。3.根据权利要求2所述的方法，其特征在于，将所述第一加权权重和所述第二加权权重分别作为目标加权权重，将所述第一目标位置和第二目标位置分别作为目标位置，则：所述目标加权权重包括：对该目标加权权重对应的目标位置中的行坐标和列坐标分别执行取正弦操作和执行取余弦操作后的子权重。4.根据权利要求3所述的方法，其特征在于，所述基于所述图像特征对应的初始查询特征的第一加权权重、每个所述初始键特征对应的第二加权权重、和所述特征序列对应的值矩阵中的每个目标值特征，确定所述图像特征对应的注意力融合特征，包括：利用目标核函数，将所述初始查询特征转换为目标查询特征，以及将每个所述初始键特征转换为目标键特征；利用所述初始查询特征的所述第一加权权重对应的各个所述子权重，分别对所述初始查询特征对应的目标查询特征进行加权处理，得到所述初始查询特征对应的各个第一加权结果；针对每个所述初始键特征，利用所述初始键特征的所述第二加权权重对应的各个所述子权重，分别对所述初始键特征对应的目标键特征进行加权处理，得到所述初始键特征对应的各个第二加权结果；基于所述初始查询特征对应的各个所述第一加权结果、每个所述初始键特征对应的各
个所述第二加权结果、以及每个所述目标值特征，确定所述图像特征对应的注意力融合特征。5.根据权利要求4所述的方法，其特征在于，所述基于所述初始查询特征对应的各个所述第一加权结果、每个所述初始键特征对应的各个所述第二加权结果、以及每个所述目标值特征，确定所述图像特征对应的注意力融合特征，包括：针对每个所述初始键特征，基于与该初始键特征对应于相同图像特征的目标值特征，分别与该初始键特征对应的各个所述第二加权结果的乘积的和，得到该初始键特征对应的第三加权结果；将每个所述初始键特征分别对应的各个所述第二加权结果相加，得到第四加权结果；基于各个所述第一加权结果、各个所述初...

【专利技术属性】
技术研发人员：钟怡然，孙伟轩，秦臻，邓辉，
申请(专利权)人：上海商汤智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人