图像处理方法、装置、设备以及计算机可读存储介质制造方法及图纸

技术编号:25480973 阅读:30 留言:0更新日期:2020-09-01 23:01
本公开提供了一种图像处理方法、装置、设备以及计算机可读存储介质。该方法包括:获取图像数据集,所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本;利用未知类别获取模型生成未知类别的概率和/或分布,所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。通过上述方法,可以节省大量的人工费用和时间。

【技术实现步骤摘要】
图像处理方法、装置、设备以及计算机可读存储介质
本申请涉及一种图像处理方法、装置、设备、计算机可读存储介质以及图像分割方法。
技术介绍
图像分割(imagesegmentation)技术是计算机视觉领域的核心问题之一。该技术旨在对图像进行像素级别的语义标注。图像分割模型的输入一般为一张普通的图像或者视频帧,输出为每个像素的语义标签(标签的类别通常事先已经被指定)。在标准的图像分割技术中,图像分割模型的获取是通过事先搜集大量的训练图像,并进行像素级别的语义标注,再通过机器学习的方式来获取模型的最优参数。图像分割任务中的语义标注非常耗费人力,严重制约了该任务的训练数据的规模。当将图像分割模型部署到新的应用场景时,通常会遇到新的未知类别(unseenclass)(或者称为小样本(low-shot))。这些未知类别的语义标注是极为稀有的,在某些情况下可能完全缺失。小样本图像分割任务(或称为未知类别图像分割任务)旨在从小样本(或零样本)数据中获取能够处理新类别的图像分割模型。
技术实现思路
鉴于上述问题而提出了本公开。本公开提供了一种图像处理方法、装置、设备、计算机可读存储介质以及图像分割方法。根据本公开的一个方面,提供了一种图像处理方法,包括:获取图像数据集,所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本;利用未知类别获取模型生成未知类别的概率和/或分布,所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。根据本公开的一个示例,所述未知类别获取模型包含局部分支、半全局分支和全局分支,其中,所述局部分支被配置为基于已知类别的标注信息生成所述图像中每个像素来自所述未知类别的概率,所述全局分支被配置为基于所述伴随文本生成所述未知类别存在于所述图像中的概率,所述半全局分支被配置为基于所述标注信息和所述伴随文本,生成将图像细分为多个区域后的分区概率。根据本公开的一个示例,所述全局分支基于所述伴随文本,利用文本语义提取模型生成所述未知类别存在于所述图像中的概率。根据本公开的一个示例,所述文本语义提取模型为来自变换器的双向编码表示BERT模型,其中,利用BERT模型生成所述未知类别存在于所述图像中的概率表示为:Sx,c=sigmoid(Ho(φ(caption(x);[EOS];description(c))))其中,Ho(·)表示自由定义的函数,其输出是未经过sigmoid函数处理的、未知类别出现在图像中的概率,φ表示BERT模型,caption(x)表示图像的伴随文本,EOS为自然语言处理中的语句休止符,c表示未知类别,description(c)表示所述未知类别c的关键字或者文字描述。根据本公开的一个示例,所述局部分支利用第一模型来生成所述图像中每个像素来自所述未知类别的概率,其中所述第一模型是通过所述标注信息训练获得的。根据本公开的一个示例,所述标注信息包含已知类别的像素的坐标,所述第一模型通过以下方式进行训练:选择所述图像数据集中一个图像中多个已知类别中的一个已知类别的像素作为验证集中的一个验证数据;选择所述多个已知类别中的其他类别的像素作为训练集中的一个训练数据;以及基于所述验证集和所述训练集中的已知类别的像素的坐标,训练所述第一模型。根据本公开的一个示例,所述半全局分支利用第二模型生成所述分区概率,所述第二模型是通过所述伴随文本和所述标注信息训练获得的。根据本公开的一个示例,所述分区概率包括将图像细分为多个区域后生成的所述多个图像细分区域中的每个图像细分区域中每个像素来自所述未知类别的第一概率分布以及所述未知类别存在于所述每个图像细分区域中的第二概率分布。根据本公开的一个示例,所述第二模型通过以下方式进行训练:沿垂直方向或水平方向将所述图像细分为多个区域;基于所述伴随本文,生成所述未知类别存在于所述每个图像细分区域中的第一训练概率分布;基于所述标注信息,生成所述多个图像细分区域中的每个图像细分区域中每个像素来自所述未知类别的第二训练概率分布;根据所述第一训练概率分布和所述第二训练概率分布来构建损失函数;通过所述损失函数来训练所述第二模型。根据本公开的一个示例,所述根据所述第一训练概率分布和所述第二训练概率分布来构建损失函数包括:基于所述第一训练概率分布和所述第二训练概率分布之间的欧式距离来构建损失函数图像处理。根据本公开的一个示例,所述伴随文本包括用户评论和/或图像标题。根据本公开的一个方面,提供了一种图像分割方法,包括:获取第一图像;利用图像分割模型处理所述第一图像以生成分割后的第二图像,其中,所述图像分割模型是利用第一训练集对原始图像分割网络训练得到的,所述第一训练集包含利用上述图像处理方法得到的未知类别的概率和/或分布,其中所述第二图像包含对应不同类别的多个区域。根据本公开的一个方面,提供了一种图像处理装置,包括:获取单元,用于获取图像数据集,所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本;生成单元,用于利用未知类别获取模型生成未知类别的概率和/或分布,所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。根据本公开的一个示例,所述未知类别获取模型包含局部分支、半全局分支和全局分支,其中,所述局部分支被配置为基于已知类别的标注信息生成所述图像中每个像素来自所述未知类别的概率,所述全局分支被配置为基于所述伴随文本生成所述未知类别存在于所述图像中的概率,所述半全局分支被配置为基于所述标注信息和所述伴随文本,生成将图像细分为多个区域后的分区概率。根据本公开的一个方面,提供了一种图像处理设备,包括:处理器;以及存储器,其中存储计算机可读指令,其中,在所述计算机可读指令被所述处理器运行时执行图像处理方法,所述方法包括:获取图像数据集,所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本;利用未知类别获取模型生成未知类别的概率和/或分布,所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。根据本公开的一个方面,提供了一种用于存储计算机可读程序的计算机可读存储介质,所述程序使得计算机执行上述图像处理方法。在本公开的上述方面中,提出了一种图像处理处理方法,具体地,本公开利用未知类别获取模型图像处理生成未知类别的概率和/或分布,利用该未知类别的概率和/或分布作为训练数据训练图像分割网络,可以实现在没有提供该未知类别的像素级语义标注的情况下自动标注出图像中未知类别,从而节省大量的人工费用和时间。进一步,本公开通过最大化利用所有已收集数据中的信息,达到对于相同的标注成本提升图像处理模型的效果,或者对于相同的图像处理模型效果,降低标注成本并加快开发周期的效果。要理解的本文档来自技高网...

【技术保护点】
1.一种图像处理方法,包括:/n获取图像数据集,所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本;/n利用未知类别获取模型生成未知类别的概率和/或分布,所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。/n

【技术特征摘要】
1.一种图像处理方法,包括:
获取图像数据集,所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本;
利用未知类别获取模型生成未知类别的概率和/或分布,所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。


2.根据权利要求1所述的方法,其中,
所述未知类别获取模型包含局部分支、半全局分支和全局分支,
其中,所述局部分支被配置为基于已知类别的标注信息生成所述图像中每个像素来自所述未知类别的概率,所述全局分支被配置为基于所述伴随文本生成所述未知类别存在于所述图像中的概率,所述半全局分支被配置为基于所述标注信息和所述伴随文本,生成将图像细分为多个区域后的分区概率。


3.根据权利要求2所述的方法,其中,
所述全局分支基于所述伴随文本,利用文本语义提取模型生成所述未知类别存在于所述图像中的概率。


4.根据权利要求3所述的方法,其中,所述文本语义提取模型为来自变换器的双向编码表示BERT模型,其中,利用BERT模型生成所述未知类别存在于所述图像中的概率表示为:
sx,c=sigmoid(Ho(φ(caption(x);[EOS];description(c))))
其中,Ho(·)表示自由定义的函数,其输出是未经过sigmoid函数处理的、未知类别出现在图像中的概率,中表示BERT模型,x表示BERT模型的输入图像,caption(x)表示图像的伴随文本,EOS为自然语言处理中的语句休止符,c表示未知类别,description(c)表示所述未知类别c的关键字或者文字描述。


5.根据权利要求2所述的方法,其中,
所述局部分支利用第一模型来生成所述图像中每个像素来自所述未知类别的概率,其中所述第一模型是通过所述标注信息训练获得的。


6.根据权利要求5所述的方法,其中,所述标注信息包含已知类别的像素的坐标,所述第一模型通过以下方式进行训练:
选择所述图像数据集中一个图像中多个已知类别中的一个已知类别的像素作为验证集中的一个验证数据;
选择所述多个已知类别中的其他类别的像素作为训练集中的一个训练数据;以及
基于所述验证集和所述训练集中的已知类别的像素的坐标,训练所述第一模型。


7.根据权利要求2所述的方法,其中,所述半全局分支利用第二模型生成所述分区概率,所述第二模型是通过所述伴随文本和所述标注信息训练获得的。


8.根据权利要求7所述的方法,其中,所述分区概率包括将图像细分为多个区域后生成的所述多个图像细分区域中的每个图像细分区域中每个像素来自所述未知类别的第一概率分布以及所述未知类别存在于所述每个图像细分区域中的第二概率分布。


9.根据权...

【专利技术属性】
技术研发人员:冯洁穆亚东王帅田贵宇白一鸣魏祥野欧歌吴琼
申请(专利权)人:京东方科技集团股份有限公司北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1