一种图像分类方法及其相关设备技术

技术编号:36681027 阅读:17 留言:0更新日期:2023-02-27 19:38
本申请提供一种图像分类方法及其相关设备,该方法包括:在获取目标图像后,transformer网络可基于目标图像进行线性变换处理,得到Q特征、K特征和V特征。接着,transformer网络计算Q特征和K特征之间的距离,从而得到注意力特征。然后,transformer网络将注意力特征和V特征进行融合处理,并基于融合后的特征获取目标图像的分类结果。前述过程中,由于Q特征和K特征之间的距离的计算主要涉及加法运算,故transformer网络获取注意力特征的操作,不再包含大量的乘法运算,而是被计算开销较小的加法运算所代替,可使得transformer网络广泛应用在算力有限的终端设备上。备上。备上。

【技术实现步骤摘要】
一种图像分类方法及其相关设备


[0001]本申请涉及人工智能(artificial intelligence,AI)
,尤其涉及一种图像分类方法及其相关设备。

技术介绍

[0002]图像分类是计算机视觉的重要任务之一,在自动驾驶、工业视觉等领域都有重要应用。transformer网络是基于自注意力(self attention)机制构建的神经网络,由于该模型在图像分类等任务上表现出强大的性能,受到了广泛关注。
[0003]目前,在将待分类的目标图像输入至transformer网络后,transformer网络可对目标图像进行一系列的处理,得到目标图像的注意力特征,再基于目标图像的注意力特征获取目标图像的分类结果。
[0004]然而,transformer网络获取目标图像的注意力特征的操作,通常包含了大量的乘法运算,需要的计算开销很大,导致transformer网络难以应用在算力有限的终端设备上。

技术实现思路

[0005]本申请实施例提供了一种图像分类方法及其相关设备,可使得transformer网络获取注意力特征的操作,不再包含大量的乘法运算,而是被计算开销较小的加法运算所代替,故transformer网络可被广泛应用在算力有限的终端设备上。
[0006]本申请实施例的第一方面提供了一种图像分类方法,该方法包括:
[0007]当需要确定目标图像的类别时,可将目标图像输入至transformer网络,以使得transformer网络实现以下步骤:
[0008]transformer网络获取目标图像的M个第一特征,M为大于或等于1的整数。
[0009]接着,transformer网络可根据第k个第一特征进行线性变换处理,得到第k个第二特征、第k个第三特征和第k个第四特征,k=1,

,M。其中,第二特征可理解为自注意力机制中的Q特征,第三特征可理解为自注意力机制中的K特征,第四特征可理解为自注意力机制中的V特征。
[0010]然后,transformer网络计算第k个第二特征和第k个第三特征之间的距离,得到第k个第五特征。一般地,第k个第二特征和第k个第三特征之间的距离可以为一阶距离(L1距离),也可以为二阶距离(L2距离),因此,第k个第二特征和第k个第三特征之间的距离的计算,通常基于加法运算即可实现。
[0011]随后,transformer网络计算根据第k个第五特征和第k个第四特征进行第一融合处理,得到第k个第六特征。
[0012]对于除第k个第一特征之外的其余第一特征,transformer网络也会对其余第一特征执行如前述的操作,故transformer网络可得到M个第六特征,那么,transformer网络可根据M个第六特征,获取目标图像的分类结果。
[0013]从上述方法可以看出:在获取目标图像的M个第一特征后,transformer网络可根
据第k个第一特征进行线性变换处理,得到第k个第二特征(即Q特征)、第k个第三特征(即K特征)和第k个第四特征(即V特征),k=1,

,M。接着,transformer网络计算第k个第二特征和第k个第三特征之间的距离,得到第k个第五特征(即注意力特征)。然后,transformer网络根据第k个第五特征和第k个第四特征进行第一融合处理,得到第k个第六特征。得到M个第六特征后,transformer网络可根据M个第六特征,获取目标图像的分类结果。前述过程中,由于第二特征和第三特征之间的距离的计算可通过大量的加法运算实现,故transformer网络获取第五特征(即注意力特征)的操作,不再包含大量的乘法运算,而是被计算开销较小的加法运算所代替,可使得transformer网络广泛应用在算力有限的终端设备上。
[0014]在一种可能的实现方式中,计算所述第k个第二特征和第k个第三特征之间的距离包括:基于加法运算计算第k个第二特征和第k个第三特征之间的距离,得到第k个第五特征。前述实现方式中,transformer网络获取第五特征的过程,主要涉及加法运算,以及少量的乘法运算,故可有效降低整个网络的计算开销。
[0015]在一种可能的实现方式中,第k个第二特征包含N个行向量,第k个第三特征包含N个行向量,基于加法运算计算第k个第二特征和第k个第三特征之间的距离,得到第k个第五特征包括:对第k个第二特征的第j个行向量和第k个第三特征的第i个行向量进行相减处理,得到第p个第一中间向量,j=1,

,N,i=1,

,N,P=1,

,N
×
N;对第p个第一中间向量的所有元素进行相加处理,得到第k个第七特征中第j行第i列的元素;对第k个第七特征进行缩放处理以及归一化处理,得到第k个第五特征。
[0016]前述实现方式中,transformer网络对第k个第二特征的第j个行向量和第k个第三特征的第i个行向量进行相减处理,再将相减处理得到的中间向量的所有元素进行相加处理,接着将相加处理的结果作为第k个第七特征中第j行第i列的元素。然后,transformer网络对第k个第七特征中第j行第i列的元素进行缩放处理以及归一化处理,得到第k个第五特征中第j行第i列的元素。由于j=1,

,N,i=1,

,N,说明前述过程会进行N
×
N次,故可得到第k个第五特征。可见,transformer网络获取第五特征的过程,主要涉及加法运算,以及少量的乘法运算,故可有效降低整个网络的计算开销。
[0017]在一种可能的实现方式中,根据第k个第五特征和第k个第四特征进行第一融合处理,得到第k个第六特征包括:基于加法运算对第k个第五特征的元素和第k个第四特征的元素进行处理,得到第k个第六特征。前述实现方式中,transformer网络获取第六特征的过程,主要涉及加法运算以及逻辑运算,故可进一步降低整个网络的计算开销。
[0018]在一种可能的实现方式中,第k个第四特征包含N
×
d/M个元素,基于加法运算对第k个第五特征的元素和第k个第四特征的元素进行处理,得到第k个第六特征包括:对第k个第四特征的第x个列向量进行取绝对值处理,得到第k个第四特征的取绝对值后的第x个列向量;对取绝对值后的第x个列向量和第k个第五特征的第y个行向量进行相加处理,得到第q个第二中间向量,x=1,

,d/M,y=1,

,N,h=1,

,N
×
d/M;将第q个第二中间向量的符号设置得与第x个列向量的符号相同,得到设置符号后的第q个第二中间向量;对设置符号后的第q个第二中间向量的所有元素进行相加处理,得到第k个第六特征中第y行第x列的元素。
[0019]前述实现方式中,transformer网络对第k个第四特征的第x个列向量进行取绝对
值处理,得到第k个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像分类方法,其特征在于,所述方法通过transformer网络实现,所述方法包括:获取目标图像的M个第一特征,M≥1;根据第k个第一特征进行线性变换处理,得到第k个第二特征、第k个第三特征和第k个第四特征,k=1,

,M;计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征;根据所述第k个第五特征和所述第k个第四特征进行第一融合处理,得到第k个第六特征;根据M个所述第六特征,获取所述目标图像的分类结果。2.根据权利要求1所述的方法,其特征在于,所述计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征包括:基于加法运算计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征。3.根据权利要求2所述的方法,其特征在于,所述第k个第二特征包含N个行向量,所述第k个第三特征包含N个行向量,所述基于加法运算计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征包括:对所述第k个第二特征的第j个行向量和所述第k个第三特征的第i个行向量进行相减处理,得到第p个第一中间向量,j=1,

,N,i=1,

,N,P=1,

,N
×
N;对所述第p个第一中间向量的所有元素进行相加处理,得到第k个第七特征中第j行第i列的元素;对所述第k个第七特征进行缩放处理以及归一化处理,得到第k个第五特征。4.根据权利要求1至3任意一项所述的方法,其特征在于,所述根据所述第k个第五特征和所述第k个第四特征进行第一融合处理,得到第k个第六特征包括:基于加法运算对所述第k个第五特征的元素和所述第k个第四特征的元素进行处理,得到第k个第六特征。5.根据权利要求4所述的方法,其特征在于,所述第k个第四特征包含N
×
d/M个元素,所述基于加法运算对所述第k个第五特征的元素和所述第k个第四特征的元素进行处理,得到第k个第六特征包括:对所述第k个第四特征的第x个列向量进行取绝对值处理,得到所述第k个第四特征的取绝对值后的第x个列向量;对所述取绝对值后的第x个列向量和所述第k个第五特征的第y个行向量进行相加处理,得到第q个第二中间向量,x=1,

,d/M,y=1,

,N,h=1,

,N
×
d/M;将所述第q个第二中间向量的符号设置得与所述第x个列向量的符号相同,得到设置符号后的第q个第二中间向量;对所述设置符号后的第q个第二中间向量的所有元素进行相加处理,得到所述第k个第六特征中第y行第x列的元素。6.根据权利要求1至5任意一项所述的方法,其特征在于,所述线性变换处理由加法运算构建。7.根据权利要求6所述的方法,其特征在于,所述根据第k个第一特征进行线性变换处
理,得到第k个第二特征、第k个第三特征和第k个第四特征包括:获取第一权重矩阵、第二权重矩阵和第三权重矩阵;使用所述第一权重矩阵对第k个第一特征进行由加法运算构建的线性变换处理,得到第k个第二特征;使用所述第二权重矩阵对第k个第一特征进行由加法运算构建的线性变换处理,得到第k个第三特征;使用所述第三权重矩阵对第k个第一特征进行由加法运算构建的线性变换处理,得到第k个第四特征。8.一种模型训练方法,其特征在于,所述方法包括:获取待处理图像;将所述待处理图像输入至待训练模型,得到所述待处理图像的预测分类结果,所述待训练模型用于:获取待处理图像的M个第一特征,M≥1;根据第k个第一特征进行线性变换处理,得到第k个第二特征、第k个第三特征和第k个第四特征,k=1,

,M;计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征;根据所述第k个第五特征和所述第k个第四特征进行第一融合处理,得到第k个第六特征;根据M个所述第六特征,获取所述待处理图像的预测分类结果;根据所述预测分类结果和所述待处理图像的真实分类结果,对所述待训练模型进行训练,得到transformer网络。9.根据权利要求8所述的方法,其特征在于,所述待训练模型,用于基于加法运算计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征。10.根据权利要求8或9所述的方法,其特征在于,所述待训练模型,用于基于加法运算对所述第k个第五特征的元素和所述第k个第四特征的元素进行处理,得到第k个第六特征。11.根据权利要求8至10任意一项所述的方法,其特征在于,所述线性变换处理由加法运算构建。12.根据权利要求11所述的方法,其特征在于,所述待训练模型,用于:获取第一权重矩阵、第二权重矩阵和第三权重矩阵;使用所述第一权重矩阵对第k个第一特征进行由加法运算构建的线性变换处理,得到第k个第二特征;使用所述第二权重矩阵对第k个第一特征进行由加法运算构建的线性变换处理,得到第k个第三特征;使用所述第三权重矩阵对第k个第一特征进行由加法运算构建的线性变换处理,得到第k个第四特征。13.一种图像分类方法,其特征在于,所述方法应用于终端设备,所述终端设备包括处理器,所述处理器包括加法电路,所述方法包括:获取目标图像;通过transformer网络对所述目标图像进行处理,得到所述目标图像的分类结果,所述transformer模型包含自注意力模块,所述自注意力模块计算所述目标图像的注意力特征的操作由所述加法电路实现;显示所述目标图像的分类结果。
14.根据权利要求13所述的方法,其特征在于,所述自注意力模块的线性变换操作由所述加法电路实现。15.一种图像分类方法,其特征在于,所述方法应用于终端设备,所述终端设备包括transformer网络,所述transformer网络包括自注意力模块,所述方法包括:获取目标图像;显示所述目标图像的分类结果,所述目标图像的分类结果为基于将所述目标图像输入所述自注意力模块得到的第二特征和第三特征之间的距离确定的,所述第二特征为Q特征,所述第三特征为K特征。16.根据权利要求15所述的方法,其特征在于,所述距离为一阶距离或者二阶距离。17.一种图像分类装置,其特征在于,所述装置包括:第一获取模块,用于获取目标图像的M个第一特征,M≥1;第一处理模块,用于根据第k个第一特征进行线性变换处理,得到第k个第二特征、第k个第三特征和第k个第四特征,k=1,

,M;第二处理模块,用于计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征;第三处理模块,用于根据所述第k个第五特征和所述第k个第四特征进行第一融合处理,得到第k个第六特征;第二获取模块,用于根据M个所述第六特征,获取所述目标图像的分类结果。18.根据权利要求17所述的装置,其特征在于,所述第二处理模块,用于基于加法运算计算所述第k个第二特征和所述第k个第三特征之间的距离,得到第k个第五特征。19.根据权利要求18所述的装置,其特征在于,所述第k个第二特征包含N个行向量,所述第k个第三特征包含N个行向量,所述第二处理模块,用于:对所述第k个第二特征的第j个行向量和所述第k个第三特征的第i个行向量进行相减处理,得到第p个第一中间向量,j=1,

,N,i=1,

,N,P=1,

,N
×
N;对所述第p个第一中间向量的所有元素进行相加处理,得到第k个第七特征中第j行第i列的元素;对所述第k个第七特征进行缩...

【专利技术属性】
技术研发人员:舒晗王家豪陈汉亭李文硕王云鹤
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1