一种图像分类的方法和装置制造方法及图纸

技术编号:31825394 阅读:15 留言:0更新日期:2022-01-12 12:51
本申请涉及图像处理领域,提供了一种图像分类的方法,包括:获取目标图像;对所述目标图像进行预处理,生成预设格式的特征图;对所述预设格式的特征图进行傅里叶逆变换,生成第一逆变换结果;对所述预设格式的特征图和所述第一逆变换结果进行拼接处理,生成第一拼接结果;对所述第一拼接结果进行特征提取,生成第一特征;根据所述第一特征确定图像分类结果。上述方法能够解决现有Transformer神经网络模型的计算时间长和内存占用较大的问题。型的计算时间长和内存占用较大的问题。型的计算时间长和内存占用较大的问题。

【技术实现步骤摘要】
一种图像分类的方法和装置


[0001]本申请涉及图像处理领域,尤其涉及一种图像分类的方法和装置。

技术介绍

[0002]Transformer是一种基于自我注意机制的深度神经网络,不仅应用于自然语言处理领域而且还应用于图像处理领域,比如,将二维图像数据转化成一维序列以及对二维图像进行多尺度特征提取,但是Transformer神经网络模型极其复杂,从而导致该神经网络模型的内存占用较大、训练时间较长。
[0003]因此,如何减少现有Transformer神经网络模型的计算时间和内存占用是当前急需解决的问题。

技术实现思路

[0004]本申请提供了一种图像分类的方法和装置,能够解决现有Transformer神经网络模型的计算时间长和内存占用较大的问题。
[0005]第一方面,提供了一种图像分类的方法,包括:获取目标图像;对所述目标图像进行预处理,生成预设格式的特征图;对所述预设格式的特征图进行傅里叶逆变换,生成第一逆变换结果;对所述预设格式的特征图和所述第一逆变换结果进行拼接处理,生成第一拼接结果;对所述第一拼接结果进行特征提取,生成第一特征;根据所述第一特征确定图像分类结果。
[0006]上述方法可以由电子设备上的芯片执行。相比现有Transformer神经网络模型中使用复杂的自注意力层对预设格式的特征图进行多次卷积处理,本申请将现有Transformer神经网络模型中复杂的自注意力层使用傅里叶逆变换代替,形成新Transformer神经网络模型;该新Transformer神经网络模型只需对预设格式的特征图进行一次傅里叶逆变换而不需要进行多次卷积处理就可以提取目标图像的特征并确定目标图像的图像分类结果;相比现有Transformer神经网络模型,该新Transformer神经网络模型在对目标图像进行特征提取以及图像分类的过程中计算时间和内存占用均有所减少。
[0007]可选地,所述根据所述第一特征确定图像分类结果,包括:对所述第一特征和所述第一逆变换结果进行拼接处理,生成第二拼接结果;通过至少一个分类网络对所述第二拼接结果进行分类处理,其中,所述至少一个分类网络中任意一个分类网络包括块合并模块、第一归一化层、傅里叶层、第二归一化层和多层感知机,所述块合并模块用于对输入所述分类网络的数据进行合并处理,所述第一归一化层用于对所述块合并模块的输出结果进行归一化处理,所述傅里叶层用于对所述第一归一化层的输出结果进行傅里叶逆变换处理,所述第二归一化层用于对所述块合并模块和所述傅里叶层的输出结果的拼接结果进行归一化处理,所述多层感知机用于对所述第二归一化层的输出结果进行特征提取处理。
[0008]将上述分类网络中复杂的自注意力层使用傅里叶层代替,形成新分类网络;该新分类网络对目标图像进行图像分类;相比现有分类网络,该新分类网络在对目标图像进行
图像分类时计算时间和内存占用均有所减少。
[0009]可选地,通过softmax函数处理所述至少一个分类网络的输出结果,生成至少一个概率值,所述至少一个概率值用于指示所述目标图像属于至少一个图像类别的概率。
[0010]可选地,所述傅里叶逆变换为快速傅里叶逆变换。将复杂的自注意力层使用快速傅里叶逆变换代替,能够加速新Transformer神经网络模型以及分类网络的运算速度。
[0011]可选地,所述傅里叶逆变换的公式为:
[0012][0013]其中,x
n
为时域离散信号,x
k
为频域离散信号,N为时域采样点数,k为当前采样点。
[0014]可选地,所述对所述目标图像进行预处理,包括:对所述目标图像进行块分割处理,生成块分割结果;通过线性嵌入层对所述块分割结果进行处理,生成所述预设格式的特征图。
[0015]第二方面,提供了一种图像分类的装置,包括用于执行第一方面中任一种方法的模块。
[0016]第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行第一方面中任一项所述的方法。
附图说明
[0017]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术实施例中图像分类系统的结构示意图;
[0019]图2为本专利技术实施例中图像分类的方法流程示意图;
[0020]图3为本专利技术实施例中新Transformer神经网络模型的结构示意图;
[0021]图4为本专利技术实施例中图像分类的装置示意图。
具体实施方式
[0022]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0023]应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0024]还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0025]另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0026]在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。因此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0027]随着图像处理技术的快速发展,Transformer神经网络模型被用于图像处理领域。但是,现有Transformer神经网络模型中复杂的注意力层,导致该模型不仅计算时间长而且内存占用较大。为了解决现有Transformer神经网络模型的计算时间时间长且内存占用较大的问题,本申请将现有Transformer神经网络模型中复杂的自注意力层用傅里叶逆变换层代替,形成新Transformer神经网络模型。该新Transformer神经网络模型解决了现有Transformer神经网络模型的计算时间长和内存占用较大的问题。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像分类的方法,其特征在于,所述方法包括:获取目标图像;对所述目标图像进行预处理,生成预设格式的特征图;对所述预设格式的特征图进行傅里叶逆变换,生成第一逆变换结果;对所述预设格式的特征图和所述第一逆变换结果进行拼接处理,生成第一拼接结果;对所述第一拼接结果进行特征提取,生成第一特征;根据所述第一特征确定图像分类结果。2.根据权利要求1所述的方法,其特征在于,根据所述第一特征确定图像分类结果,包括:对所述第一特征和所述第一逆变换结果进行拼接处理,生成第二拼接结果;通过至少一个分类网络对所述第二拼接结果进行分类处理,其中,所述至少一个分类网络中任意一个分类网络包括块合并模块、第一归一化层、傅里叶层、第二归一化层和多层感知机,所述块合并模块用于对输入所述分类网络的数据进行合并处理,所述第一归一化层用于对所述块合并模块的输出结果进行归一化处理,所述傅里叶层用于对所述第一归一化层的输出结果进行傅里叶逆变换处理,所述第二归一化层用于对所述块合并模块和所述傅里叶层的输出结果的拼接结果进行归一化处理,所述多层感知机用于对所述第二归一化层的输出结果进行特征提取处理。3.根据权利要求2所述的方法,其特征在于,还包括:通...

【专利技术属性】
技术研发人员:刘宝玉王磊马晓亮程俊
申请(专利权)人:中国科学院深圳理工大学筹
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1