图像处理装置、图像处理方法以及存储介质制造方法及图纸

技术编号:20486487 阅读:54 留言:0更新日期:2019-03-02 19:37
本发明专利技术提供图像处理装置、图像处理方法以及存储介质。获取各自被识别器识别为输入图像上的目标物体的位置的多个识别位置。通过对所述多个识别位置进行聚类来获得至少一个代表性位置。根据来自用户的针对代表性位置的编辑指令,对代表性位置进行编辑。保存所述输入图像和代表性位置,作为要用于识别器的学习的学习数据。

【技术实现步骤摘要】
图像处理装置、图像处理方法以及存储介质
本专利技术涉及图像处理装置、图像处理方法以及非暂时性计算机可读存储介质,特别涉及关于图像识别的技术。
技术介绍
传统上,存在一种从通过拍摄目标物体而获得的彩色图像或深度图像中学习特征或图案并且识别目标物体的方法。在这样的方法中,为了学习特征或图案,人们需要指定在彩色图像或深度图像中包括哪个目标物体,或者指定目标物体的位置或位置/姿态(在下文中将被称为“标注”)。为了学习,需要准备大量的这样的数据。然而,人们难以正确地进行整个标注。为了解决这个问题,如在日本特许第5953151号公报中,存在一种通过反复“对当前的识别器的识别结果的校正”和“使用校正的数据对识别器的学习/更新”来提高识别器的精度的方法。然而,如果识别器识别目标物体的位置或位置/姿态(orientation),则图像中的大量的像素被作为识别结果输出。因此,由人们对各个识别器结果进行校正的成本较高。
技术实现思路
考虑到上述的问题而做出了本专利技术,并且本专利技术提供一种减少用户指定图像中的目标物体的位置的负担的技术。根据本专利技术的第一方面,提供了一种图像处理装置,所述图像处理装置包括:获取单元,被构造为获取各自被识别器识别为输入图像上的目标物体的位置的多个识别位置;计算单元,被构造为通过对所述多个识别位置进行聚类来获得至少一个代表性位置;编辑单元,被构造为根据来自用户的针对代表性位置的编辑指令,对代表性位置进行编辑;以及保存单元,被构造为保存所述输入图像和代表性位置,作为要用于识别器的学习的学习数据。根据本专利技术的第二方面,提供了一种图像处理装置,所述图像处理装置包括:获取单元,被构造为获取各自被识别器识别为输入图像上的目标物体的位置/姿态的多个识别位置/姿态;计算单元,被构造为通过对所述多个识别位置/姿态进行聚类来获得至少一个代表性位置/姿态;编辑单元,被构造为根据来自用户的针对代表性位置/姿态的编辑指令,对代表性位置/姿态进行编辑;以及保存单元,被构造为保存所述输入图像和代表性位置/姿态,作为要用于识别器的学习的学习数据。根据本专利技术的第三方面,提供了一种图像处理方法,所述图像处理方法包括:获取各自被识别器识别为输入图像上的目标物体的位置的多个识别位置;通过对所述多个识别位置进行聚类来获得至少一个代表性位置;根据来自用户的针对代表性位置的编辑指令,对代表性位置进行编辑;以及保存所述输入图像和代表性位置,作为要用于识别器的学习的学习数据。根据本专利技术的第四方面,提供了一种图像处理方法,所述图像处理方法包括:获取各自被识别器识别为输入图像上的目标物体的位置/姿态的多个识别位置/姿态;通过对所述多个识别位置/姿态进行聚类来获得至少一个代表性位置/姿态;根据来自用户的针对代表性位置/姿态的编辑指令,对代表性位置/姿态进行编辑;以及保存所述输入图像和代表性位置/姿态,作为要用于识别器的学习的学习数据。根据本专利技术的第五方面,提供了一种存储计算机程序的非暂时性计算机可读存储介质,所述计算机程序被构造为使计算机用作:获取单元,被构造为获取各自被识别器识别为输入图像上的目标物体的位置的多个识别位置;计算单元,被构造为通过对所述多个识别位置进行聚类来获得至少一个代表性位置;编辑单元,被构造为根据来自用户的针对代表性位置的编辑指令,对代表性位置进行编辑;以及保存单元,被构造为保存所述输入图像和代表性位置,作为要用于识别器的学习的学习数据。根据本专利技术的第六方面,提供了一种存储计算机程序的非暂时性计算机可读存储介质,所述计算机程序被构造为使计算机用作:获取单元,被构造为获取各自被识别器识别为输入图像上的目标物体的位置/姿态的多个识别位置/姿态;计算单元,被构造为通过对所述多个识别位置/姿态进行聚类来获得至少一个代表性位置/姿态;编辑单元,被构造为根据来自用户的针对代表性位置/姿态的编辑指令,对代表性位置/姿态进行编辑;以及保存单元,被构造为保存所述输入图像和代表性位置/姿态,作为要用于识别器的学习的学习数据。通过以下(参照附图)对示例性实施例的描述,本专利技术的其他特征将变得清楚。附图说明图1是示出物体识别装置的功能布置的示例的框图;图2A和图2B是物体识别处理的流程图;图3A至图3D是用于说明识别单元102和分类单元103的处理的图;图4是示出画面的显示示例的图;图5A至图5D是用于说明由用户对标签的编辑的图;图6是示出物体识别装置的功能布置的示例的框图;图7是示出步骤S2和S3的处理的详情的流程图;图8是示出物体识别装置的功能布置的示例的框图;图9是示出步骤S2和S3的处理的详情的流程图;图10A至图10C是用于说明在不仅识别位置还识别姿态的情况下执行的处理的图;以及图11是示出计算机装置的硬件布置的示例的框图。具体实施方式现在将参照附图描述本专利技术的实施例。注意,下面要描述的实施例是本专利技术的详细实施方式的示例或所附权利要求中描述的布置的详细示例。[第一实施例]根据该实施例的图像处理装置具有如下的标注功能:针对输入图像对使用识别器识别的目标物体的识别位置进行聚类,并且将通过聚类获得的识别位置的代表性位置设置为标签作为要由用户校正的目标。该功能消除了由用户对全部的识别位置进行确认和校正的必要性。由于仅需要基于代表性位置来对标签进行确认和校正,因此减少了用于标注的劳动。这里,标签是指关于图像中的目标物体的位置或位置/姿态的信息。标签被用作用于构建识别器的指导数据。首先,将参照图1的框图来描述根据该实施例的物体识别装置的功能布置的示例。如图1中所示,根据该实施例的物体识别装置1000包括摄像设备1、显示设备2、操作设备3和图像处理装置1100。首先,将描述摄像设备1。摄像设备1是拍摄静止图像或运动图像的设备。拍摄图像不限于特定的图像,并且可以是彩色图像(例如,RGB图像)、黑白图像、红外图像或作为深度信息的深度图像。由摄像设备1拍摄的图像被发送到图像处理装置1100。接下来将描述显示设备2。显示设备2由CRT、液晶屏等形成,并且能够通过图像、字符等来显示图像处理装置1100的处理结果。注意,显示设备2可以是触摸面板屏。在这种情况下,来自用户的对触摸面板屏的各种操作的内容被发送到图像处理装置1100作为操作信息。接下来将描述操作设备3。操作设备3由诸如鼠标或键盘的用户接口形成。当被用户操作时,操作设备3能够向图像处理装置1100输入各种指令。下面将假设操作设备3是鼠标来进行描述。然而,如果用户接口是能够向图像处理装置1100输入与下面要描述的指令相同的指令的用户接口,则任何用户接口都能够应用于操作设备3。接下来将描述图像处理装置1100。图像获取单元101获取从摄像设备1发送的拍摄图像。注意,拍摄图像获取源不限于摄像设备1。可以经由诸如LAN或互联网的网络从诸如数据库、服务器装置、平板终端设备或智能电话的设备获取拍摄图像。拍摄图像可以是由摄像设备1拍摄的图像,可以是在向公众开放的图像数据库中登记的图像,或者可以是上载到web的图像。识别单元102使用保存在识别器存储单元108中的CNN(ConvolutionalNeuralNetwork,卷积神经网络)(识别器)的模型结构和CNN的参数来构建CNN。识别单元102将所构建的CNN应用于由图像本文档来自技高网...

【技术保护点】
1.一种图像处理装置,所述图像处理装置包括:获取单元,被构造为获取各自被识别器识别为输入图像上的目标物体的位置的多个识别位置;计算单元,被构造为通过对所述多个识别位置进行聚类来获得至少一个代表性位置;编辑单元,被构造为根据来自用户的针对代表性位置的编辑指令,对代表性位置进行编辑;以及保存单元,被构造为保存所述输入图像和代表性位置,作为要用于识别器的学习的学习数据。

【技术特征摘要】
2017.08.17 JP 2017-1576181.一种图像处理装置,所述图像处理装置包括:获取单元,被构造为获取各自被识别器识别为输入图像上的目标物体的位置的多个识别位置;计算单元,被构造为通过对所述多个识别位置进行聚类来获得至少一个代表性位置;编辑单元,被构造为根据来自用户的针对代表性位置的编辑指令,对代表性位置进行编辑;以及保存单元,被构造为保存所述输入图像和代表性位置,作为要用于识别器的学习的学习数据。2.根据权利要求1所述的图像处理装置,其中,所述获取单元获取所述输入图像上的像素位置中的、各自被识别器识别为所述目标物体的位置的多个像素位置,作为所述多个识别位置。3.根据权利要求1所述的图像处理装置,其中,在来自如下识别器的输出表示在包括所述输入图像上的像素位置的图像区域中包括所述目标物体的情况下,所述获取单元获取所述像素位置作为识别位置,该识别器被输入所述图像区域中的图像。4.根据权利要求1所述的图像处理装置,其中,所述计算单元通过对所述多个识别位置进行聚类来将所述多个识别位置分类成预定数量的类别,并且基于属于各类别的识别位置来获得与该类别对应的代表性位置。5.根据权利要求4所述的图像处理装置,其中,所述计算单元获得属于类别的识别位置的平均位置、属于类别的识别位置的中值、或通过将属于类别的识别位置应用于高斯分布而形成的峰值位置,作为与类别对应的代表性位置。6.根据权利要求4所述的图像处理装置,所述图像处理装置还包括:运算单元,被构造为获得类别的可靠度,其中,在可靠度小于阈值的类别的数量变得不小于预定数量的情况下或者在可靠度小于阈值的类别的数量与类别的总数之比变得不小于预定数量的情况下,所述编辑单元进行操作。7.根据权利要求6所述的图像处理装置,其中,所述运算单元根据属于类别的识别位置的数量,来获得类别的可靠度。8.根据权利要求6所述的图像处理装置,其中,所述运算单元根据与属于类别的识别位置对应的识别器的输出,来获得类别的可靠度。9.根据权利要求6所述的图像处理装置,其中,所述运算单元根据属于类别的识别位置和与类别对应的代表性位置之间的距离,来获得类别的可靠度。10.根据权利要求1所述的图像处理装置,其中,所述编辑单元显示被叠加在所述输入图像上的表示代表性位置的信息,并且接受来自用户的针对代表性位置的编辑操作。11.根据权利要求6所述的图像处理装置,其中,所述编辑单元显示被叠加在所述输入图像上的表示可靠度不小于阈值的类别的代表性位置的信息,并且接受来自用户的针对代表性位置的编辑操作。12.根据权利要求1所述的图像处理装置,其中,所述编辑单元根据来自用户的针对代表性位置的移动指令来移动代表性位置,根据来自用户的针对代表性位置的删除指令来删除代表性位置,以及根据来自用户的...

【专利技术属性】
技术研发人员:稻叶正树
申请(专利权)人:佳能株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1