本公开描述了一种基于多任务的图像处理方法及图像处理装置,该图像处理方法包括获取输入图像;将输入图像输入目标识别网络进行识别以获取分别对应于多个类别的多个目标输出,其中,各个目标输出包括输入图像的各个像素点属于相应类别的概率,目标识别网络包括分别对应于多个类别的多个分割网络,各个分割网络将输入图像作为输入并获取各个目标输出,多个分割网络共享编码器并且各个分割网络具有独立的基于自注意力机制的自注意力机制模块和解码器,在各个分割网络中,自注意力机制模块设置在编码器与解码器之间;并且基于各个目标输出获取各个类别的目标对象。由此,能够降低标注难度且识别准确率较高。注难度且识别准确率较高。注难度且识别准确率较高。
【技术实现步骤摘要】
基于多任务的图像处理方法及图像处理装置
[0001]本公开大体涉及人工智能图像处理领域,具体涉及一种基于多任务的图像处理方法及图像处理装置。
技术介绍
[0002]近年,以深度学习为代表的人工智能技术得到了显著的发展,人工智能在图像处理领域的应用也越来越得到关注。特别地,基于深度学习的神经网络已经成为目标识别的有效手段。基于深度学习的神经网络能够从图像中识别出感兴趣的目标对象,进而能够分割出该目标对象以辅助对目标对象进行分析。例如,通过经由训练的神经网络可以对医学图像中的目标对象进行识别,也可以对自然图像中的目标对象进行识别。
[0003]目前,对于多个类别的目标对象的识别,常常利用训练样本中的同一张训练图像的多个类别的目标对象的标注对神经网络进行训练以使神经网络能够对多个类别的目标对象进行识别。在另一些方法中,可以通过相互独立的多个神经网络分别基于一个类别的目标对象的标注数据进行训练以使各个神经网络识别一个类别的目标对象。
[0004]然而,由于每个类别的目标对象的特性不一样,在同一张训练图像标注出多个类别的目标对象常常需要多人配合或一个人同时熟悉多个类别的目标对象,标注难度较高,而另一种基于独立的神经网络的识别方式容易忽略多个目标对象之间的共同特征,进而导致目标识别准确率不够高。
技术实现思路
[0005]本公开是有鉴于上述的状况而提出的,其目的在于提供一种能够降低标注难度且识别准确率较高的基于多任务的图像处理方法及图像处理装置。
[0006]为此,本公开第一方面提供了一种基于多任务的图像处理方法,包括:获取输入图像;将所述输入图像输入目标识别网络进行识别以获取分别对应于多个类别的多个目标输出,其中,所述多个目标输出中的各个目标输出包括所述输入图像的各个像素点属于相应类别的概率,所述目标识别网络包括分别对应于多个类别的多个分割网络,所述多个分割网络中的各个分割网络将所述输入图像作为输入并获取各个目标输出,所述多个分割网络共享编码器并且所述多个分割网络中的各个分割网络具有独立的基于自注意力机制的自注意力机制模块和解码器,在所述多个分割网络中的各个分割网络中,所述自注意力机制模块设置在所述编码器与所述解码器之间;并且基于所述多个目标输出中的各个目标输出获取各个类别的目标对象。在这种情况下,多个分割网络共用同一个编码器,能够实现编码器之间的硬参数共享,使多个类别的目标对象的底层特征具有共性,且保留解码器的独立性并基于自注意力机制针对共享的编码器能够自适应地进行不同的加权以提取针对相应类别的特征,进而能够使多个类别的目标对象的顶层特征具有差异性。由此,能够有效地刻画多个类别的目标对象的内在联系,进而提高识别准确率。
[0007]另外,在本公开第一方面所涉及的图像处理方法中,可选地,所述目标识别网络通
过以下方法进行训练,包括:构建分别对应于多个类别的多个训练样本,各个类别的训练样本不相同,各个类别的训练样本的输入图像数据包括多张训练图像,所述多张训练图像包括包含相应类别的目标对象,各个类别的训练样本的标注数据包括所述训练图像的各个像素点属于相应类别的真实值;并且利用各个类别的训练样本分别对所述目标识别网络进行迭代训练以优化所述目标识别网络。在这种情况下,能够联合多份不同标注的数据集共同训练。由此,能够打通数据集与数据集之间壁垒。另外,不强制要求在同一张训练图像上标注多个类别的目标对象(也即,不强制要求有多个类别的标注同时存在的训练图像),只需要基于至少单一标注的训练图像进行训练,进而能够降低标注难度。由此,能够方便地采集训练样本。
[0008]另外,在本公开第一方面所涉及的图像处理方法中,可选地,进行至少一轮迭代训练直至符合停止训练条件,在每轮迭代训练中,基于预设顺序获取各个类别的训练样本对相应类别的分割网络分别进行训练。在这种情况下,通过多轮迭代训练,共享更新迭代编码器部分权重,独立更新自注意力机制模块与解码器部分的权重。由此,能够使目标识别网络在多个类别的目标对象的识别上同时达到最优。
[0009]另外,在本公开第一方面所涉及的图像处理方法中,可选地,在优化所述目标识别网络时,通过优化各个分割网络的分割损失以优化所述目标识别网络,各个分割网络的分割损失L满足公式:其中,i表示所述训练图像的像素点的索引,N为所述训练图像的像素点的数量,y
i
表示第i个像素点属于相应类别的真实值,表示第i个像素点属于相应类别的预测值。在这种情况下,能够通过最小化分割损失,交替优化不同的分割网络中的解码器,共同优化编码器部分。
[0010]另外,在本公开第一方面所涉及的图像处理方法中,可选地,所述编码器与所述解码器之间通过跳跃连接层拼接并将所述自注意力机制模块设置在所述跳跃连接层前。在这种情况下,基于自注意力机制针对共享的编码器能够自适应地进行不同的加权以提取针对相应类别的特征,能够使多个类别的目标对象的顶层特征具有差异性。
[0011]另外,在本公开第一方面所涉及的图像处理方法中,可选地,所述编码器包括多个编码块,所述解码器包括与所述多个编码块对应的多个解码块,各个解码块的输入包括前一个解码块的输出、以及与该解码块对应的编码块经由所述自注意力机制模块进行加权后的输出。在这种情况下,使解码块获取的融合特征图能够针对不同类别的目标对象具有差异性。
[0012]另外,在本公开第一方面所涉及的图像处理方法中,可选地,基于截取框对所述训练图像进行分块处理以获取多个分块图像,并将所述多个分块图像作为所述训练样本;将所述输入图像的多个分块图像输入所述目标识别网络以获取各个分块图像中的所述目标对象的一部分并进行拼接以获取所述目标对象。由此,能够将对分块图像的预测结果进行拼接以获取目标对象。
[0013]另外,在本公开第一方面所涉及的图像处理方法中,可选地,从所述训练图像的左上角的第一个像素点开始,随机地或按预设分块顺序移动所述截取框以截取图像块并保存所述图像块作为所述分块图像。由此,能够基于截取框获取多个分块图像。
[0014]本公开第二方面提供了一种基于多任务的图像处理装置,包括获取模块、目标识别网络和分割模块,所述获取模块用于获取输入图像;所述目标识别网络用于接收所述输入图像作为输入并对所述输入图像进行识别以获取分别对应于多个类别的多个目标输出,其中,所述多个目标输出中的各个目标输出包括所述输入图像的各个像素点属于相应类别的概率,所述目标识别网络包括分别对应于多个类别的多个分割网络,所述多个分割网络中的各个分割网络将所述输入图像作为输入并获取各个目标输出,所述多个分割网络共享编码器,并且所述多个分割网络中的各个分割网络具有独立的基于自注意力机制的自注意力机制模块和解码器,在所述多个分割网络中的各个分割网络中,所述自注意力机制模块设置在所述编码器与所述解码器之间;以及所述分割模块用于基于所述多个目标输出中的各个目标输出获取各个类别的目标对象。在这种情况下,多个分割网络共用同一个编码器,能够实现编码器之间的硬参数共享,使多个类别的目标对象的底层特征具有共性本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于多任务的图像处理方法,其特征在于,包括:获取输入图像;将所述输入图像输入目标识别网络进行识别以获取分别对应于多个类别的多个目标输出,其中,所述多个目标输出中的各个目标输出包括所述输入图像的各个像素点属于相应类别的概率,所述目标识别网络包括分别对应于多个类别的多个分割网络,所述多个分割网络中的各个分割网络将所述输入图像作为输入并获取各个目标输出,所述多个分割网络共享编码器并且所述多个分割网络中的各个分割网络具有独立的基于自注意力机制的自注意力机制模块和解码器,在所述多个分割网络中的各个分割网络中,所述自注意力机制模块设置在所述编码器与所述解码器之间;并且基于所述多个目标输出中的各个目标输出获取各个类别的目标对象。2.根据权利要求1所述的图像处理方法,其特征在于:所述目标识别网络通过以下方法进行训练,包括:构建分别对应于多个类别的多个训练样本,各个类别的训练样本不相同,各个类别的训练样本的输入图像数据包括多张训练图像,所述多张训练图像包括包含相应类别的目标对象,各个类别的训练样本的标注数据包括所述训练图像的各个像素点属于相应类别的真实值;并且利用各个类别的训练样本分别对所述目标识别网络进行迭代训练以优化所述目标识别网络。3.根据权利要求2所述的图像处理方法,其特征在于:进行至少一轮迭代训练直至符合停止训练条件,在每轮迭代训练中,基于预设顺序获取各个类别的训练样本对相应类别的分割网络分别进行训练。4.根据权利要求2所述的图像处理方法,其特征在于:在优化所述目标识别网络时,通过优化各个分割网络的分割损失以优化所述目标识别网络,各个分割网络的分割损失L满足公式:其中,i表示所述训练图像的像素点的索引,N为所述训练图像的像素点的数量,y
i
表示第i个像素点属于相应类别的真实值,表示第i个像素点属于相应类别的预测值。5.根据权利要求1所述的图像处理方法,其特征在于:所述编码器与所述解码器之间通过跳跃连接层拼接并将所述自注意力机制模块设置在所述跳跃连接层前。6.根据权利要求1所述的图像处理方法,其特征在于:所述编码器包括多...
【专利技术属性】
技术研发人员:王学钦,罗燕,蒋宇康,张可,潘间英,田婷,
申请(专利权)人:中山大学中山眼科中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。