计算机实施的处理监视方法、装置、系统和记录介质制造方法及图纸

技术编号:33880974 阅读:11 留言:0更新日期:2022-06-22 17:11
用于监视要由人执行的处理的计算机实施的方法,包括:获得执行处理的人的至少一个图像;在至少一个图像中检测人的人体姿态;在至少一个图像中检测至少一个对象;基于检测到的人体姿态与检测到的至少一个对象之间的至少一个几何关系,返回关于处理的监视信息。返回关于处理的监视信息。返回关于处理的监视信息。

【技术实现步骤摘要】
计算机实施的处理监视方法、装置、系统和记录介质


[0001]本公开涉及动作检测和处理监视的领域。具体地,本公开涉及用于监视要由人执行的处理的计算机实施的方法。该处理可以是工业处理,例如制造或修理。

技术介绍

[0002]最近的研究已表明,尽管自动化,但是在工业处理中,大多数质量缺陷与人类的错误有关。人类工人比机器人更容易训练且更灵活,但是他们在处理中引入变化性,因为他们的表现取决于不能容易控制的因素,诸如疲劳、年龄、身体或心理健康等。
[0003]在监视由人类执行的动作的尝试中,已经开发了依赖于动作检测的端到端人工智能系统。然而,因为这些系统需要隐含地理解要监视的复杂动作,所以它们需要很多训练数据。此外,由于难以理解它们是如何工作的,它们常常被视作黑盒子,并且有时不被人类所良好地接受。因此,存在改进的空间。

技术实现思路

[0004]在此方面,本公开涉及用于监视要由人执行的处理(process)的计算机实施的方法,包括:获得执行该处理的人的至少一个图像;在至少一个图像中检测人的人体姿态;在至少一个图像中检测至少一个对象;基于检测到的人体姿态与检测到的至少一个对象之间的至少一个几何关系,返回关于该处理的监视信息。
[0005]获得至少一个图像可以包括,例如通过诸如摄像机的图像获取模块获取图像,或者从数据库(例如本地或远程服务器等)取得已经获取的图像。在下文中,除非另有声明,否则“图像”指代至少一个图像。更一般地,在下文中,冠词“该”可以指代“该至少一个”。
[0006]人是人类。人体姿态检测(也称为人体姿态估计)本身例如在机器学习领域中是已知的。人体姿态检测可以使用专用人工神经网络,并且可以配置为输出图像中至少一个人类人(优选地每个人类人)的位置、尺寸和/或姿势中的至少一个指标。
[0007]对象检测本身例如在机器学习领域中也是已知的。对至少一个对象的检测可以使用专用人工神经网络(即,与执行人体姿态检测的人工神经网络不同的),并且可以配置为输出图像中至少一个对象的位置、尺寸和/或类型中的至少一个指标。要检测的至少一个对象可以例如由于其在要监视的处理中的重要性而预先确定。
[0008]考虑到以上,应当理解,人体姿态检测和对象检测是单独地、显式地并且可能彼此独立地执行的。“显式地”意味着检测到的人体姿态和检测到的对象被提供作为相应检测步骤的显式输出。与学习在不确切地知道图像中的什么是人和图像中的什么是对象或者甚至不知道图像中是否存在人的情况下检测动作的端到端经训练的动作检测系统相反,以上方法利用了以下事实:在要监视的处理中,对执行该处理的人与重要对象(可能是他可能与其
交互的那些对象)之间的交互进行了充分存档。因此,能够将对处理进行监视的问题简化为识别人、识别对该处理重要的对象以及确定检测到的人体姿态与检测到的至少一个对象之间的至少一个几何关系。在此基础上,返回监视信息。
[0009]尤其与通常用作黑盒子的端到端经训练的动作检测人工神经网络相比,使用显式对象检测和人体姿态检测提高了监视方法的可理解性。此外,对象检测和人体姿态检测是比端到端动作检测更容易的任务,并且使得监视方法训练更快,即使它们中的至少一者使用人工神经网络。总之,以上监视方法显示出了提高的效率和可靠性。
[0010]在一些实施例中,至少一个图像包括视频片段的多个连续帧。替代性地,至少一个图像可以包括例如以给定采样频率(例如视频片段的每三帧)选择的视频片段的多个非连续帧。还替代性地,该至少一个图像可以包括一个或多个静态图像,例如照片。使用来自视频片段的帧能够考虑时间信息,从而准许获得更广泛和更详细的监视信息。
[0011]在一些实施例中,该处理包括重复地执行的循环,并且该方法包括在视频片段中识别循环的至少一次发生(occurrence),并且返回至少一次发生中的每一次发生的监视信息。例如在装配线上,或更一般地在生产线上,工业处理通常包括子处理或循环的重复。在这些情形下,期望能够在视频片段中识别这些子处理中的一个子处理的时间边界,即循环的一次发生,并且基于该次发生的内容(可选地,独立于循环的其它次发生中发生的内容)返回监视信息。可以针对检测到的多次发生中的每次发生返回监视信息,从而提供例如关于每个处理的产品的信息。对于每次发生,监视信息可以具有相同的性质。
[0012]在一些实施例中,监视信息是基于连续帧中的至少两帧中的至少一个几何关系确定的。两个连续帧可以属于相同的循环发生。这使得能够有冗余以限制误检测。几何关系可以是相同的例如用以测量在期间执行了动作的时间或者例如当第二给定步骤被假定为跟随第一给定步骤时可以从一个帧到另一帧而不同。
[0013]在一些实施例中,至少一个对象包括人在执行该处理的同时要与其交互的对象。该至少一个对象可以包括物件(诸如,要制造或修理的物件)、部件(可选地,在其上或使用其来执行处理的部件)、设备或工具等。替代性地或附加地,该至少一个对象可以包括标记或参考点、支撑件(包括吊架)等。替代性地或附加地,该至少一个对象可以包括人在执行处理的同时必须不与其交互的对象,例如,因为该对象可能代表危害。
[0014]在一些实施例中,检测至少一个对象包括确定边界框,并且可选地确定至少一个对象的类型。边界框可以以多边形(例如矩形)图示。对象类型可以是在可能的多个对象类型的预定列表中选择的。
[0015]在一些实施例中,检测人体姿态包括检测人的多个身体关节或身体部位。身体关节或身体部位(在下文中称为“身体特征”)可以被标记为例如对应于头、左手、右膝盖、脚等。因此,可以执行几何关系的精确评估。
[0016]在一些实施例中,监视信息包括以下至少一个指标:处理的步骤是否已由人执行、人是否已处于危险中、人是否已犯了错误、人的人体工程学、人的效率、处理持续时间或其组合。因此,处理的性能、人体工程学和安全性可以根据从监视方法输出的指标(多个指标)输出来推导,从而能够改进处理定义和准则。
[0017]在一些实施例中,至少一个几何关系包括人体姿态与对象之间的距离和/或重叠率,和/或人体姿态处于参考检测到的对象而限定的区域中,并且监视信息是基于将几何关
系与预定规则进行比较而返回的。距离、重叠率或处于特定区域中可以视可能的情况而针对身体特征中的一个或多个身体特征来确定,并且预定规则可以根据一些对象和一些身体特征来具体地限定。对象可以通过其边界框来表示。距离可以是在图像中检测到的两个项目(例如身体特征和对象)之间的最短距离。重叠率可以定义为图像上两个项目的表面比率。然而,也可能是其它数学定义,只要它们与哪个身体部位应当或不应当与哪个对象交互的处理规范匹配。
[0018]在一些实施例中,该处理包括在生产线上的物件的制造步骤。在一些实施例中,上述循环包括在生产线上的物件的制造步骤。生产线可以是装配线。
[0019]在一些实施例中,至少一个对象包括物件的支撑件。物件的支撑件可以提供比物件自身更稳定或更可靠的参考。
[0020]本公开还指向用于监视要本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于监视要由人执行的处理的计算机实施的方法,包括:获得执行所述处理的所述人的至少一个图像;在所述至少一个图像中检测所述人的人体姿态;在所述至少一个图像中检测至少一个对象;基于检测到的所述人体姿态与检测到的所述至少一个对象之间的至少一个几何关系,返回关于所述处理的监视信息。2.根据权利要求1所述的方法,其中,所述至少一个图像包括视频片段的多个连续帧。3.根据权利要求2所述的方法,其中,所述处理包括重复地执行的循环,并且所述方法包括在所述视频片段中识别所述循环的至少一次发生,以及返回所述至少一次发生中的每一次发生的所述监视信息。4.根据权利要求2或3所述的方法,其中,所述监视信息是基于所述连续帧中的至少两帧中的所述至少一个几何关系确定的。5.根据权利要求1至4中任一项所述的方法,其中,所述至少一个对象包括所述人在执行所述处理的同时要与其交互的对象。6.根据权利要求1至5中任一项所述的方法,其中,所述检测至少一个对象包括确定边界框,并且可选地确定所述至少一个对象的类型。7.根据权利要求1至6中任一项所述的方法,其中,所述检测人体姿态包括检测所述人的多个身体关节或身体部位。8.根据权利要求1至7中任一项所述的方法,其中,所述监视信息包括以下至少一个指标:所述处理的步骤是否...

【专利技术属性】
技术研发人员:詹皮耶罗
申请(专利权)人:丰田自动车株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1