图像处理装置、图像处理方法和机器可读存储介质制造方法及图纸

技术编号:34423040 阅读:44 留言:0更新日期:2022-08-06 15:49
本公开涉及一种图像处理装置、图像处理方法和机器可读存储介质。图像处理装置包括:信息提取部,其获取关于输入图像的图像信息以及关于用户对输入图像上的多个对象中的特定对象的单个点击的点击信息;第一获取部,其基于图像信息和点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜;第二获取部,其利用原始掩膜和边界框得到将特定对象从输入图像中突显出来的中间掩膜;选择部,其从多个中间掩膜中选择最佳掩膜;以及标注部,其利用最佳掩膜将特定对象的边缘在输入图像中标注出来。通过该图像处理装置,用户可以通过仅单次点击就可以获取点击对象的轮廓。次点击就可以获取点击对象的轮廓。次点击就可以获取点击对象的轮廓。

【技术实现步骤摘要】
图像处理装置、图像处理方法和机器可读存储介质


[0001]本公开涉及图像处理的
,具体地涉及用于交互式分割标注的图像处理装置、图像处理方法和机器可读存储介质。

技术介绍

[0002]这个部分提供了与本公开有关的背景信息,这不一定是现有技术。
[0003]随着数据的增加和计算能力的增强,深度学习在图像处理领域中发挥了巨大作用。图像标注是深度学习任务(例如目标检测、图像分割)的重要步骤。目前的标注工具主要可以归纳为两类。一类是诸如Labelme、Opensurface之类的工具,这类工具需要标注者对目标的边界使用鼠标一点一点地画出轮廓。这种标注虽然精确,但十分耗时,并且不同的标注者对同一目标的标注也会存在差异,为之后的模型训练带来挑战。
[0004]另一方面,诸如ScribbleSup、Polygon

RNN、PolyRNN++和CurveGCN之类的工具需要标注者输入额外的信息。ScribbleSup需要标注者在目标物体上涂鸦。在Polygon

RNN、PolyRNN++和CurveGCN中,将包含目标的边界框作为输入,然后生成目标对象的多边形顶点作为输出。与点击相比,涂鸦和边界框更复杂。为了减少标注的时间和成本,本申请使用用户点击来作为交互式标注工具的输入。

技术实现思路

[0005]这个部分提供了本公开的一般概要,而不是其全部范围或其全部特征的全面披露。
[0006]本公开的目的在于提供一种用于基于用户点击的交互式分割标注的图像处理装置、图像处理方法和机器可读存储介质。
[0007]根据本公开的一方面,提供了一种图像处理装置,包括:信息提取部,其获取关于输入图像的图像信息以及关于用户对输入图像上的多个对象中的特定对象的单个点击的点击信息;第一获取部,其基于图像信息和点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜;第二获取部,其利用原始掩膜和边界框得到将特定对象从输入图像中突显出来的中间掩膜;选择部,其从多个中间掩膜中选择最佳掩膜;以及标注部,其利用最佳掩膜将特定对象的边缘在输入图像中标注出来。
[0008]根据本公开的另一方面,提供了一种图像处理方法,包括:获取关于输入图像的图像信息以及关于用户对输入图像上的多个对象中的特定对象的单个点击的点击信息;基于图像信息和点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜;利用原始掩膜和边界框得到将特定对象从输入图像中突显出来的中间掩膜;以及从多个中间掩膜中选择最佳掩膜,并利用最佳掩膜将特定对象的边缘在输入图像中标注出来。
[0009]根据本公开的另一方面,提供了一种机器可读存储介质,其上携带有包括存储在其中的机器可读指令代码的程序产品,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本公开的图像处理方法。
[0010]使用根据本公开的图像处理装置、图像处理方法和机器可读存储介质,用户可以通过仅单次点击就可以获取点击对象的边缘。此外,通过对边界框执行选择规则而不是对对象标注的多个最终输出执行选择规则,可以提升标注效率和精度。
[0011]从在此提供的描述中,进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的,而不旨在限制本公开的范围。
附图说明
[0012]在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本公开的范围。在附图中:
[0013]图1为图示根据本公开的实施例的图像处理装置的结构的框图;
[0014]图2为利用根据本公开的实施例的图像处理装置对输入图像上的对象进行标注的示意图;
[0015]图3为图示根据本公开的另一实施例的图像处理装置的结构的框图;
[0016]图4为图示根据本公开的实施例的图像处理装置中的信息提取部的结构的框图;
[0017]图5为图示根据本公开的实施例的图像处理装置中的第一获取部的结构的框图;
[0018]图6至图7为图示根据本公开的实施例的图像处理装置中的第一获取部的边界框选择原理的框图;
[0019]图8为图示根据本公开的又一实施例的图像处理装置的结构的框图;
[0020]图9为图示根据本公开的又一实施例的图像处理装置中的掩膜模板获取部和轮廓模板获取部的操作的示意图;
[0021]图10为图示根据本公开的实施例的图像处理装置中的另一第一获取部的结构的框图;
[0022]图11为图示根据本公开的实施例的图像处理装置中的第二获取部的结构的框图;
[0023]图12为图示根据本公开的实施例的图像处理方法的流程图;以及
[0024]图13为其中可以实现根据本公开的实施例的图像处理装置和方法的通用个人计算机的示例性结构的框图。
[0025]虽然本公开容易经受各种修改和替换形式,但是其特定实施例已作为例子在附图中示出,并且在此详细描述。然而应当理解的是,在此对特定实施例的描述并不打算将本公开限制到公开的具体形式,而是相反地,本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是,贯穿几个附图,相应的标号指示相应的部件。
具体实施方式
[0026]现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的,而不旨在限制本公开、应用或用途。
[0027]提供了示例实施例,以便本公开将会变得详尽,并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子,以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是,不需要使用特定的细节,示例实施例可以用许多不同的形式来实施,它们都不应当被解释为限制本公开的范围。在某些示例实施例中,没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。
[0028]下面结合图1来说明根据本公开的实施例的图像处理装置如何通过用户对输入图像上的某个对象的仅单次点击就可以获取点击对象的边缘。需要注意的是,对象可以是图像上的瓶子、人、动物等各种对象,并且对象不限于本申请中示出的示例。根据本申请的图像处理装置的输入为需要分割标注的图像和用户点击的点坐标,输出为点击点所属对象的分割标注。
[0029]图1图示了根据本公开的实施例的图像处理装置的结构的框图。如图1所示,根据本公开的实施例的图像处理装置100可以包括信息提取部110、第一获取部120、第二获取部130、选择部140和标注部150。
[0030]信息提取部110可以获取关于输入图像的图像信息以及关于用户对输入图像上的多个对象中的特定对象的单个点击的点击信息。此外,信息提取部110可以将图像信息和点击信息提供给第一获取部120。
[0031]进一步,第一获取部120可以基于图像信息和点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜。此外,第一获取部120可以将包括点击点的边界框以及边界框所对应的原始掩膜提供给第二获取部130。
...

【技术保护点】

【技术特征摘要】
1.一种图像处理装置,包括:信息提取部,其获取关于输入图像的图像信息以及关于用户对所述输入图像上的多个对象中的特定对象的单个点击的点击信息;第一获取部,其基于所述图像信息和所述点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜;第二获取部,其利用所述原始掩膜和所述边界框得到将所述特定对象从所述输入图像中突显出来的中间掩膜;选择部,其从多个中间掩膜中选择最佳掩膜;以及标注部,其利用所述最佳掩膜将所述特定对象的边缘在所述输入图像中标注出来。2.根据权利要求1所述的图像处理装置,其中,所述图像信息是关于所述输入图像的多层特征图,并且所述第一获取部被配置成:针对所述多层特征图中的每层特征图的每个像素生成预定数目的不同大小的边界框;以及从所生成的边界框中选择包括点击点的边界框。3.根据权利要求2所述的图像处理装置,其中,所述第一获取部还被配置成对所选择的包括点击点的边界框进行非极大值抑制处理以去除冗余的边界框。4.根据权利要求1所述的图像处理装置,其中,所述第一获取部通过基于所述图像信息计算掩膜系数和掩膜基向量来得到所述原始掩膜。5.根据权利要求4所述的图像处理装置,其中,所述第一获取部还被配置成:基于所述图像信息计算轮廓系数,并且所述图像处理装置还包括:轮廓训练部,其获取轮廓基向量,并且通过已有的关于各种对象的轮廓图像库对所述掩膜系数、所述掩膜基向...

【专利技术属性】
技术研发人员:张颖刘威汪留安孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1