图像处理装置、图像处理方法和机器可读存储介质制造方法及图纸

技术编号：34423040 阅读：44 留言：0更新日期：2022-08-06 15:49

本公开涉及一种图像处理装置、图像处理方法和机器可读存储介质。图像处理装置包括：信息提取部，其获取关于输入图像的图像信息以及关于用户对输入图像上的多个对象中的特定对象的单个点击的点击信息；第一获取部，其基于图像信息和点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜；第二获取部，其利用原始掩膜和边界框得到将特定对象从输入图像中突显出来的中间掩膜；选择部，其从多个中间掩膜中选择最佳掩膜；以及标注部，其利用最佳掩膜将特定对象的边缘在输入图像中标注出来。通过该图像处理装置，用户可以通过仅单次点击就可以获取点击对象的轮廓。次点击就可以获取点击对象的轮廓。次点击就可以获取点击对象的轮廓。

全部详细技术资料下载

【技术实现步骤摘要】
图像处理装置、图像处理方法和机器可读存储介质

[0001]本公开涉及图像处理的
，具体地涉及用于交互式分割标注的图像处理装置、图像处理方法和机器可读存储介质。

技术介绍

[0002]这个部分提供了与本公开有关的背景信息，这不一定是现有技术。
[0003]随着数据的增加和计算能力的增强，深度学习在图像处理领域中发挥了巨大作用。图像标注是深度学习任务(例如目标检测、图像分割)的重要步骤。目前的标注工具主要可以归纳为两类。一类是诸如Labelme、Opensurface之类的工具，这类工具需要标注者对目标的边界使用鼠标一点一点地画出轮廓。这种标注虽然精确，但十分耗时，并且不同的标注者对同一目标的标注也会存在差异，为之后的模型训练带来挑战。
[0004]另一方面，诸如ScribbleSup、Polygon
‑
RNN、PolyRNN++和CurveGCN之类的工具需要标注者输入额外的信息。ScribbleSup需要标注者在目标物体上涂鸦。在Polygon
‑
RNN、PolyRNN++和CurveGCN中，将包含目标的边界框作为输入，然后生成目标对象的多边形顶点作为输出。与点击相比，涂鸦和边界框更复杂。为了减少标注的时间和成本，本申请使用用户点击来作为交互式标注工具的输入。

技术实现思路

[0005]这个部分提供了本公开的一般概要，而不是其全部范围或其全部特征的全面披露。
[0006]本公开的目的在于提供一种用于基于用户点击的交互式分割标注的图像处

【技术保护点】

【技术特征摘要】
1.一种图像处理装置，包括：信息提取部，其获取关于输入图像的图像信息以及关于用户对所述输入图像上的多个对象中的特定对象的单个点击的点击信息；第一获取部，其基于所述图像信息和所述点击信息得到包括点击点的边界框以及边界框所对应的原始掩膜；第二获取部，其利用所述原始掩膜和所述边界框得到将所述特定对象从所述输入图像中突显出来的中间掩膜；选择部，其从多个中间掩膜中选择最佳掩膜；以及标注部，其利用所述最佳掩膜将所述特定对象的边缘在所述输入图像中标注出来。2.根据权利要求1所述的图像处理装置，其中，所述图像信息是关于所述输入图像的多层特征图，并且所述第一获取部被配置成：针对所述多层特征图中的每层特征图的每个像素生成预定数目的不同大小的边界框；以及从所生成的边界框中选择包括点击点的边界框。3.根据权利要求2所述的图像处理装置，其中，所述第一获取部还被配置成对所选择的包括点击点的边界框进行非极大值抑制处理以去除冗余的边界框。4.根据权利要求1所述的图像处理装置，其中，所述第一获取部通过基于所述图像信息计算掩膜系数和掩膜基向量来得到所述原始掩膜。5.根据权利要求4所述的图像处理装置，其中，所述第一获取部还被配置成：基于所述图像信息计算轮廓系数，并且所述图像处理装置还包括：轮廓训练部，其获取轮廓基向量，并且通过已有的关于各种对象的轮廓图像库对所述掩膜系数、所述掩膜基向...

【专利技术属性】
技术研发人员：张颖，刘威，汪留安，孙俊，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人