【技术实现步骤摘要】
一种图像分类方法及其相关设备
[0001]本申请涉及人工智能(artificial intelligence,AI)
,尤其涉及一种图像分类方法及其相关设备。
技术介绍
[0002]图像分类是计算机视觉的重要任务之一,在自动驾驶、工业视觉等领域都有重要应用。transformer网络是基于自注意力(self attention)机制构建的神经网络,由于该模型在图像分类等任务上表现出强大的性能,受到了广泛关注。
[0003]目前,在将待分类的目标图像输入至transformer网络后,transformer网络可对目标图像进行一系列的处理,得到目标图像的注意力特征,再基于目标图像的注意力特征获取目标图像的分类结果。
[0004]然而,transformer网络获取目标图像的注意力特征的操作,通常包含了大量的乘法运算,需要的计算开销很大,导致transformer网络难以应用在算力有限的终端设备上。
技术实现思路
[0005]本申请实施例提供了一种图像分类方法及其相关设备,可使得transformer网络获取注意力特征的操作,不再包含大量的乘法运算,而是被计算开销较小的加法运算所代替,故transformer网络可被广泛应用在算力有限的终端设备上。
[0006]本申请实施例的第一方面提供了一种图像分类方法,该方法包括:
[0007]当需要确定目标图像的类别时,可将目标图像输入至transformer网络,以使得transformer网络实现以下步骤:
[000 ...
【技术保护点】
【技术特征摘要】
1.一种图像分类方法,其特征在于,所述方法通过transformer网络实现,所述方法包括:获取目标图像的M个第一特征,M≥1;根据第k个第一特征进行线性变换处理,得到第k个第二特征、第k个第三特征和第k个第四特征,k=1,
…
,M;计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征;根据所述第k个第五特征和所述第k个第四特征进行第一融合处理,得到第k个第六特征;根据M个所述第六特征,获取所述目标图像的分类结果。2.根据权利要求1所述的方法,其特征在于,所述计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征包括:基于加法运算计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征。3.根据权利要求2所述的方法,其特征在于,所述第k个第二特征包含N个行向量,所述第k个第三特征包含N个行向量,所述基于加法运算计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征包括:对所述第k个第二特征的第j个行向量和所述第k个第三特征的第i个行向量进行相减处理,得到第p个第一中间向量,j=1,
…
,N,i=1,
…
,N,P=1,
…
,N
×
N;对所述第p个第一中间向量的所有元素进行相加处理,得到第k个第七特征中第j行第i列的元素;对所述第k个第七特征进行缩放处理以及归一化处理,得到第k个第五特征。4.根据权利要求1至3任意一项所述的方法,其特征在于,所述根据所述第k个第五特征和所述第k个第四特征进行第一融合处理,得到第k个第六特征包括:基于加法运算对所述第k个第五特征的元素和所述第k个第四特征的元素进行处理,得到第k个第六特征。5.根据权利要求4所述的方法,其特征在于,所述第k个第四特征包含N
×
d/M个元素,所述基于加法运算对所述第k个第五特征的元素和所述第k个第四特征的元素进行处理,得到第k个第六特征包括:对所述第k个第四特征的第x个列向量进行取绝对值处理,得到所述第k个第四特征的取绝对值后的第x个列向量;对所述取绝对值后的第x个列向量和所述第k个第五特征的第y个行向量进行相加处理,得到第q个第二中间向量,x=1,
…
,d/M,y=1,
…
,N,h=1,
…
,N
×
d/M;将所述第q个第二中间向量的符号设置得与所述第x个列向量的符号相同,得到设置符号后的第q个第二中间向量;对所述设置符号后的第q个第二中间向量的所有元素进行相加处理,得到所述第k个第六特征中第y行第x列的元素。6.根据权利要求1至5任意一项所述的方法,其特征在于,所述线性变换处理由加法运算构建。7.根据权利要求6所述的方法,其特征在于,所述根据第k个第一特征进行线性变换处
理,得到第k个第二特征、第k个第三特征和第k个第四特征包括:获取第一权重矩阵、第二权重矩阵和第三权重矩阵;使用所述第一权重矩阵对第k个第一特征进行由加法运算构建的线性变换处理,得到第k个第二特征;使用所述第二权重矩阵对第k个第一特征进行由加法运算构建的线性变换处理,得到第k个第三特征;使用所述第三权重矩阵对第k个第一特征进行由加法运算构建的线性变换处理,得到第k个第四特征。8.一种模型训练方法,其特征在于,所述方法包括:获取待处理图像;将所述待处理图像输入至待训练模型,得到所述待处理图像的预测分类结果,所述待训练模型用于:获取待处理图像的M个第一特征,M≥1;根据第k个第一特征进行线性变换处理,得到第k个第二特征、第k个第三特征和第k个第四特征,k=1,
…
,M;计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征;根据所述第k个第五特征和所述第k个第四特征进行第一融合处理,得到第k个第六特征;根据M个所述第六特征,获取所述待处理图像的预测分类结果;根据所述预测分类结果和所述待处理图像的真实分类结果,对所述待训练模型进行训练,得到transformer网络。9.根据权利要求8所述的方法,其特征在于,所述待训练模型,用于基于加法运算计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征。10.根据权利要求8或9所述的方法,其特征在于,所述待训练模型,用于基于加法运算对所述第k个第五特征的元素和所述第k个第四特征的元素进行处理,得到第k个第六特征。11.根据权利要求8至10任意一项所述的方法,其特征在于,所述线性变换处理由加法运算构建。12.根据权利要求11所述的方法,其特征在于,所述待训练模型,用于:获取第一权重矩阵、第二权重矩阵和第三权重矩阵;使用所述第一权重矩阵对第k个第一特征进行由加法运算构建的线性变换处理,得到第k个第二特征;使用所述第二权重矩阵对第k个第一特征进行由加法运算构建的线性变换处理,得到第k个第三特征;使用所述第三权重矩阵对第k个第一特征进行由加法运算构建的线性变换处理,得到第k个第四特征。13.一种图像分类方法,其特征在于,所述方法应用于终端设备,所述终端设备包括处理器,所述处理器包括加法电路,所述方法包括:获取目标图像;通过transformer网络对所述目标图像进行处理,得到所述目标图像的分类结果,所述transformer模型包含自注意力模块,所述自注意力模块计算所述目标图像的注意力特征的操作由所述加法电路实现;显示所述目标图像的分类结果。
14.根据权利要求13所述的方法,其特征在于,所述自注意力模块的线性变换操作由所述加法电路实现。15.一种图像分类方法,其特征在于,所述方法应用于终端设备,所述终端设备包括transformer网络,所述transformer网络包括自注意力模块,所述方法包括:获取目标图像;显示所述目标图像的分类结果,所述目标图像的分类结果为基于将所述目标图像输入所述自注意力模块得到的第二特征和第三特征之间的距离确定的,所述第二特征为Q特征,所述第三特征为K特征。16.根据权利要求15所述的方法,其特征在于,所述距离为一阶距离或者二阶距离。17.一种图像分类装置,其特征在于,所述装置包括:第一获取模块,用于获取目标图像的M个第一特征,M≥1;第一处理模块,用于根据第k个第一特征进行线性变换处理,得到第k个第二特征、第k个第三特征和第k个第四特征,k=1,
…
,M;第二处理模块,用于计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征;第三处理模块,用于根据所述第k个第五特征和所述第k个第四特征进行第一融合处理,得到第k个第六特征;第二获取模块,用于根据M个所述第六特征,获取所述目标图像的分类结果。18.根据权利要求17所述的装置,其特征在于,所述第二处理模块,用于基于加法运算计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征。19.根据权利要求18所述的装置,其特征在于,所述第k个第二特征包含N个行向量,所述第k个第三特征包含N个行向量,所述第二处理模块,用于:对所述第k个第二特征的第j个行向量和所述第k个第三特征的第i个行向量进行相减处理,得到第p个第一中间向量,j=1,
…
,N,i=1,
…
,N,P=1,
…
,N
×
N;对所述第p个第一中间向量的所有元素进行相加处理,得到第k个第七特征中第j行第i列的元素;对所述第k个第七特征进行缩...
【专利技术属性】
技术研发人员:舒晗,王家豪,陈汉亭,李文硕,王云鹤,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。