一种面向任意物体基于深度学习和图像处理的人机交互方法技术

技术编号：39425113 阅读：30 留言：0更新日期：2023-11-19 16:12

本发明专利技术公开一种面向任意物体基于深度学习和图像处理的人机交互方法，首先利用MediaPipe模型检测交互者的身体节点坐标和坐标关系判断交互者状态；之后按交互者的不同状态，采取显著性与边缘检测算法或区域生长算法确定潜在任务目标区域；然后通过OpenCV图像处理方法及深度图像信息，求得目标区域的大小，通过像素——世界坐标系转换求得物体姿态；接着通过目标区域的尺寸及填充度判断交互者是否持物，通过交互者手的位置及物体尺寸、机械臂手爪尺寸信息判断是否能进行交互；最后机器人根据获得的物体位置、姿态，完成未知物体人机交互任务。本方法实现了场景中未知物体坐标和姿态的获取，使机器人能够面对任何物体，无需训练可安全、稳定和准确的人机交互操作。稳定和准确的人机交互操作。稳定和准确的人机交互操作。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向任意物体基于深度学习和图像处理的人机交互方法

[0001]本专利技术公开了一种面向任意物体基于深度学习和图像处理的人机交互方法，属于人机交互的

技术介绍

[0002]随着智能机器人技术的不断发展，人机交互在未来科技领域中有着举足轻重的作用。机器人与协作者的良好互动，能够有效提高生产效率，提升产品质量。目标检测是计算机视觉最基本的问题，存在于我们生活中的方方面面，比如人脸识别，智慧交通以及工业检测，为我们的生活生产提供了极大的便利与高效的技术支持。虽然目前目标检测技术已经得到广泛应用，且效果也十分不错，但它还有许多挑战值得我们去研究。目前常用的目标检测技术，例如YOLO系列网络、SSD、Faster RCNN等等，可以相对精确的确定物体的位置和种类。但是，这些网络能够识别的物体种类有限，并且针对同一个物体，旋转一定角度后就难以识别，且当物体种类特征(如颜色纹理等等)相近时，容易出现错误识别的情况。在这种情况下，研究人员将显著性目标检测技术应用于人机交互中，能够较好地解决上述问题，满足人机交互中任意未知物体在空间中位置的确定及位姿的测量。
[0003]随着人工智能技术的不断发展，使用目标检测网络进行人机交互被应用在更多场景中，比如学校的智能食堂和门禁系统，比如垃圾检测分类等等。机器人在面对这些场景时，应当具有一定的灵活性，有时需要对任意不限姿势的物体，在人机都交互中得到识别并进行交互。现有的网络检测技术在识别某个种类时，需要海量的数据，并且要求达到95％以上的识别正确率。另外，在现有模型中增添新...

【技术保护点】

【技术特征摘要】
1.一种面向任意物体基于深度学习和图像处理的人机交互方法，其特征在于，所述交互方法具体步骤如下：步骤S10，根据彩色、深度相机与世界坐标的转换关系，得到与深度图像匹配的彩色图像，将匹配关系存储以加速转换速度；步骤S20，对深度图像进行滤波修复；步骤S30，利用MediaPipe人体骨骼关节点识别模型获得交互者的人体骨骼关节点像素坐标，根据检测所得节点之间的坐标、距离信息判断人体相对相机的不同姿态：侧向、正对；步骤S40，检测结果为侧对相机时，利用显著性检测神经网络实时检测人机交互场景，获得人机交互实时显著性区域，对网络输出结果滤波以优化结果；步骤S50，检测结果为侧对相机时，根据MediaPipe模型检测结果对显著性检测网络输出结果进行轮廓的筛选、特定外轮廓中点的筛选以获取物体区域外轮廓，判断交互意图并在对潜在物体及人手区域进行收集；步骤S60，检测结果为正对相机时，对深度图像使用带引导的区域生长算法进行物体区域收集；步骤S70，根据人手与物体区域，利用OpenCV图像处理方法求得区域最小外接矩形，获得物体区域、得到图像转动角度以及像素宽度和高度；步骤S80，根据人手信息确定面积阈值、填充度阈值，计算相应数据以对交互者手中是否持物进行判断；步骤S90，判断交互者持物时，利用交互手位置判断手掌区域范围，判断是否可以完成人机交互，确定可以交互时的机械手理想夹持位置，并利用确定好的关键点转换到世界坐标系下，求得物体绕世界坐标系X、Y轴的转动角度；步骤S100，将物体的位姿信息、机械爪抓持位置由视觉处理端传输给机器人控制端，指导机器人完成未知物体交互任务。2.根据权利要求1所述的一种面向任意物体基于深度学习和图像处理的人机交互方法，其特征在于，所述步骤S10的具体过程如下：步骤S101，将Kinect v2相机安装在工作平台的一侧，观察所成图像选取合适摆放位置，保证相机可以拍摄到人体；步骤S102，利用张正友标定法对Kinect v2相机进行标定，获得相机内外参矩阵K
c
、步骤S103，调用官方Kinect库函数得到深度相机内参K
d
，根据深度相机和彩色相机的硬件位置关系由彩色相机的外参得到深度相机的外参步骤S104，通过彩色相机内外参得到彩色相机与三维世界坐标系下的转换关系，通过深度相机获得深度相机与三维世界坐标系下的转换关系，以三维世界坐标系为常量进行转换，得到深度相机与彩色相机的坐标系转换矩阵；步骤S105，记录下像素坐标与转换矩阵相乘结果进行存储，根据实际匹配效果进行自适应平移以修复误差，使用Numba库jit功能进行匹配加速，循环得到与深度图像匹配的彩色图像。3.根据权利要求1所述的一种面向任意物体基于深度学习和图像处理的人机交互方法，其特征在于，所述步骤S20的具体过程如下：
步骤S201，把深度图像无效深度点滤除,再进行联合双边滤波；步骤S202，对联合双边滤波结果进行中值滤波；步骤S203，对中值滤波结果进行图像开运算。4.根据权利要求1所述的一种面向任意物体基于深度学习和图像处理的人机交互方法，其特征在于，所述步骤S30的具体过程如下：步骤S301，将映射得到的彩色图像输入MediaPipe模型进行姿态检测，得到双手手腕、双肩等坐标；步骤S302，利用求得的关节点像素坐标，求得两肩之间的距离，判断人体姿态相对相机的朝向：侧向、正对相机；步骤S303，侧对相机时，后续应用显著性区域提取及图像处理算法；正对对相机时，后续应用改进的区域生长算法。5.根据权利要求1所述的一种面向任意物体基于深度学习和图像处理的人机交互方法，其特征在于，所述步骤S40的具体过程如下：步骤S401，将转换得到的的小型彩色图像与修复处理后的深度图像输入显著...

【专利技术属性】
技术研发人员：黄玲涛，杨帆，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人