AR手术环境中基于颜色注意力的手势识别算法及系统技术方案

技术编号：44139479 阅读：0 留言：0更新日期：2025-01-29 10:16

本申请公开了一种改进的适应手术环境下的手势识别方法及手术用具传递系统。其实现步骤为：利用AR眼镜第一视角捕获图像，同时将当前手术所需要的材料投影到AR眼镜中虚拟呈像辅助手术，将图像通过TCP/IP以及RosConnected传递给ROS系统，对图像进行预处理，利用RegNetCA网络进行手势识别，得到手势识别结果后进入判断门，指导机械臂进行相应物品抓取传递，利用kinova机械臂上的d435i进行物体识别，利用Yolov8识别物体返回物体三维坐标，利用坐标转换将相机坐标系下的物体坐标转换成整体坐标，机械臂得到坐标后达到目标点位进行抓取并将物品传递到指定位置。本发明专利技术形成了一个完整的无接触物体传递系统，通过融合颜色的手势识别算法提高了手势识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及ar、机器学习与人机交互领域，ar手术环境中基于颜色注意力的手势识别算法及系统。

技术介绍

1、在现代医疗实践中，确保手术过程中的无菌环境和防控感染是至关重要的。传统的手术器械传递方法往往依赖于医务人员直接进行，这在无菌环境或面对高传染病风险时，会增加感染的风险。在这方面，增强现实技术和机械臂系统的结合展现了巨大的潜力。ar 技术可以在手术过程中实时展示病例视图、解剖结构和术前规划信息，使外科医生在执行复杂操作时拥有更清晰的视觉参考。这种实时的信息呈现不仅增强了医生对手术区域的理解，还减少了传统手术过程中可能出现的信息遗漏和误操作。与此同时，机械臂系统通过提供高精度的操作和稳定的器械传递能力，能够显著降低传统手术器械传递过程中可能引入的感染风险。

2、在手势识别领域，特别是自我中心（第一人称视角）的手势识别，当前仍缺乏高质量且适应特定场景的手势数据集。现有的数据集如egogesture 提供了基础，但在规模、变化性和现实性上仍难以完全满足特定应用的需求，特别是在手术环境中，标准手势识别数据集的覆盖度和适用性较低。yang 和 zhu 提出的手部检测方法虽然提高了检测的精度，但在复杂光照条件或污损手套情况下效果有限。此外，现有的数据集通常忽视了手术过程中医护人员手部状态的特殊性，例如带手套的手势、沾血或其他可能的干扰。这些限制阻碍了手术场景下手势识别技术的发展。因此，针对手术场景定制的数据集成为提升手势识别准确率的关键。

3、深度学习在手势识别中广泛应用，主要通过卷积神经网络（cnn）、长短时记忆

4、在现代手术过程中，机械臂的使用已成为减少人员直接接触和控制手术器械的重要方式。guoguang du等人强调了物体定位与姿态估计在机械臂抓取中的关键作用，然而，现有的机械臂控制系统在处理高动态和复杂操作时仍存在一定的局限性。为了在手术环境中实现精准的手术器械传递，机械臂不仅需要具备高精度的物体识别与抓取能力，还需结合实时手势识别与坐标转换机制。当前的研究在机械臂的自主运动控制和精准抓取方面取得了进展，但在与复杂的手术环境相结合时，仍有进一步提升的空间。本专利技术通过ar技术结合手势识别，改进了机械臂的实时抓取控制，显著提高了操作的精度和可靠性。

5、在人机交互领域，增强现实（ar）技术与机械臂系统的结合展示了巨大的潜力。yan等人提出的ar和触觉反馈设备的结合显著提升了人与机器人协作的实时性。wang等人的基于ar和手势识别系统，虽然提高了操作直观性和精度，但在手术等高风险环境中的应用仍不够成熟。在手术环境下，实时高精度的手势识别和无菌器械传递系统仍是技术发展的重要方向。尽管yolov8在物体检测中表现优异，但将其应用于精确手术器械传递中还存在精度和安全性方面的挑战。现有系统缺乏对复杂手术场景中的实时反馈和精确控制支持，这成为进一步发展的瓶颈。

技术实现思路

1、本专利技术的目的在于针对手术室手术环境，提出了一种通过ar与机械臂的无接触手术用具传递方法，基于 ar 的手术环境可以辅助手术系统为医生手术提供支持信息，针对ar 手势中的人机交互需求，构建了一个 ar手势数据集 shgd，为基于手势的 ar 人机交互提供了数据支持，同时，本文提供了一个 regnetca算法，为手势交互提供了算法支撑，仿真了一个 ar 手术环境，创建了机械臂辅助传递手术系统，协助医生进行手术中的手术用具传递。

2、实现本专利技术的思路是：首先，通过ar头显捕获输入的信息，将信息进行数据预处理，判断输入的数据是否为空，若为空则不执行，若不为空，则进行手势识别，结合通过数据集以及改进的regnetca网络训练的手势识别模型对于手势进行预测，通过颜色直方图模块捕获输入图像的颜色特征，基于regnet的网络结构通过多个卷积和残差模块提取高级特征，颜色注意力模块利用颜色信息增强对特定区域的关注，分类得到识别结果，为避免执行错误以及考虑时间成本，若预测的结果在十次内等同则进入判断传递指令，这里的视频刷新率可以达到10-15，通过判断门判断机械臂该抓取哪个物体，通过yolov8进行物体识别获取物体位置，通过深度相机与rgb相机对齐获取物体三维坐标，通过坐标系转换将当前相机下的物体坐标系转化成整体坐标系，给机械臂发送位置，机械臂通过路径规划规划最佳运行轨迹，抓取传递物体到指定位置。

3、本专利技术的具体步骤如下，

4、步骤1，采集手势数据集，在手势与数据集上进行标注。

5、采集手势图片分为两种场景，一种是戴手套沾假血数据，一种是戴手套不沾假血数据；

6、采集者需佩戴ar眼镜进行第一人称图像采集；

7、从摄像头视频数据抽帧图片并将手势图片进行分类；

8、将图片数据集按照70%训练集，10%验证集与20%测试集进行划分。

9、步骤2，对图像进行预处理：

10、包括图像裁剪和标准化，将图像转换为 hsv 色彩空间，然后创建手套颜色的掩模；

11、通过形态学运算处理掩模，用轮廓提取方法找到最靠近中心的轮廓，最后提取该轮廓区域作为手部区域；

12、步骤3，将当前手术所需要的材料投影到ar眼睛中虚拟呈像辅助手术：

13、对于病人手术相关资料，系统可以通过3d建模技术，将病人病灶的详细外观、尺寸、位置等信息以三维模型的形式投影到医生的ar视野中，帮助医生在实际手术操作中精准定位和使用

14、步骤4，通过rosconnected进行ar系统和ros系统的通信：

15、手术医生通过手势输入发出命令，系统通过rosconnected协议将指令实时传输到ros系统；

16、步骤5，通过判断门，判断手势数据是否为空：

17、通过当前ar视野中判断是否有手势控制需求；

18、若有，则进行手势识别；

19、步骤6，通过regnetca网络，判断手势类型：

20、regnetca网络由regnet基础网络以及颜色注意力模块组成；

21、作为模型的主干，regnet会通过一系列卷积、池化和非线性激活操作提取图像中的空间特征。模型设计中，定义了卷积层的宽度和深度，使其能够高效地处理复杂图像。颜色注意力模块基于输入图像的颜色直本文档来自技高网...

【技术保护点】

1.一种AR 机器人交互中的手势识别方法及系统，其特征在于，所述系统包括：

2.根据权利要求1所述的系统，其特征在于，其中所述AR眼镜通过虚拟呈像实时显示手术材料，以辅助手术操作，包括：

3.根据权利要求2所述的系统，其特征在于，其中所述通过TCP/IP和RosConnected进行图像传输的步骤包括图像压缩以减少网络延迟，包括：

4.根据权利要求3所述的系统，其特征在于，对于图像进行预处理，其中所述RegNetCA网络经过自定义改进，用于提高手术场景下手势识别的准确率，包括：

5.根据权利要求4所述的方法，其特征在于，所述机械臂控制基于手势识别结果的判断门，具体包括通过门限判断所识别手势的置信度，从而决定是否进行相应的机械臂动作包括：

6.根据权利要求5所述的方法，其特征在于，所述使用Kinova机械臂上的D435i摄像头进行物体识别，包括：

7.根据权利要求6所述的方法，其特征在于，基于Yolov8模型返回物体的三维坐标，并将物体在相机坐标系中的坐标转换为整体坐标系，包括：

8.根据权利要求7

9.根据权利要求8所述的方法，其特征在于，形成了一个完整的无接触物体传递系统，包括：

...

【技术特征摘要】

1.一种ar 机器人交互中的手势识别方法及系统，其特征在于，所述系统包括：

2.根据权利要求1所述的系统，其特征在于，其中所述ar眼镜通过虚拟呈像实时显示手术材料，以辅助手术操作，包括：

3.根据权利要求2所述的系统，其特征在于，其中所述通过tcp/ip和rosconnected进行图像传输的步骤包括图像压缩以减少网络延迟，包括：

4.根据权利要求3所述的系统，其特征在于，对于图像进行预处理，其中所述regnetca网络经过自定义改进，用于提高手术场景下手势识别的准确率，包括：

5.根据权利要求4所述的方法，其特征在于，所述机械臂控制基于手势识别...

【专利技术属性】
技术研发人员：徐涛，孙佳慧，李兆玉，杨晓晖，朱光泽，郭至玉，
申请(专利权)人：济南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人