一种基于事件相机的水下三维手部姿态估计方法和系统,涉及水下机器视觉的技术领域。解决在静态的手势重建方法在水下环境中具有局限性的问题。所述方法包括:利用事件相机采集水下潜水员手势视频,将手势视频转换成事件序列,构建数据集;对所述事件序列进行体素化,并通过体素网格方式进行数据表示;利用高斯滤波器处理体素网格形式的事件序列进行滤波处理,获取清洗后的事件序列;构建视频观测模型,获取估计值;使用卡尔曼滤波器对估计值进行处理并生成蒙皮参数;根据蒙皮参数生成蒙皮的可视化结果,完成水下三维手部姿态估计。应用于水下动态手部姿态估计领域。
【技术实现步骤摘要】
本专利技术涉及水下机器视觉的,尤其涉及一种基于事件的水下手势的姿态估计方法。
技术介绍
1、3d手部姿态估计技术在虚拟现实、增强现实、手势识别等领域具有广泛应用,它可以为人机交互提供更自然和直观的方式。随着深度学习和计算机视觉技术的不断发展,3d手部姿态估计的准确度和鲁棒性也得到了显著提高。然而,现有的大多数方法虽然在一定程度上对噪声事件具有鲁棒性,但在输入数据中却不能容忍由场景中其他移动物体或摄像机运动产生的事件。
2、为了提高手部姿态估计的准确性和鲁棒性,许多研究者开始转向深度学习技术,如卷积神经网络(cnn)和循环神经网络(rnn)。这些网络可以从图像或视频中自动学习到手部关键点的位置,从而实现3d手部姿态的估计。具体来说,现有方法通常采用卷积神经网络提取图像特征,并通过回归或分类网络输出手部的三维坐标。此外,还有一些方法采用了传统的计算机视觉技术,如基于特征点的方法。这些方法需要设计用于检测手部关键点的特征,并利用几何计算来估计手部姿态。
3、然而,上述方法均适用于静态场景。在水下环境中,视觉信息可能会受到水中生物或摄像机运动等因素的影响,这些背景事件可能会对目标事件产生干扰。因此,仅假设场景背景是静态的手势重建方法在水下环境中具有局限性。
技术实现思路
1、本专利技术针对在水下环境中视觉信息会受到水中生物或摄像机运动等因素的影响,静态的手势重建方法在水下环境中具有局限性的问题,提出了一种基于事件相机的水下三维手部姿态估计方法,所述方法包括:
2、s1:利用事件相机采集水下潜水员手势视频,将所述手势视频转换成事件序列,根据所述事件序列构建数据集;
3、s2:根据voxel grid对所述事件序列进行体素化,将所述体素化后的事件序列通过体素网格方式进行数据表示;
4、s3:利用高斯滤波器处理体素网格形式的事件序列进行滤波处理,获取清洗后的事件序列;
5、s4:根据清洗后的事件序列构建基于transformer的视频观测模型,根据基于transformer的视频观测模型获取估计值;
6、s5:使用卡尔曼滤波器对估计值进行处理并生成蒙皮参数;
7、s6:根据蒙皮参数生成蒙皮的可视化结果,完成水下三维手部姿态估计。
8、进一步的,还提出一种优选方式,所述步骤s1包括:
9、根据所述手势视频转换成事件序列,按照事件序列微秒级的时间戳进行划分;
10、针对每个微秒级的时间戳,生成一个事件窗口,所述每个事件窗口代表一个时间间隔内的事件序列;
11、采集每个事件窗口的事件数据,所述事件数据包括触发时间戳、像素位置信息以及光强变化的方向;
12、将每个事件窗口的事件数据作为一个样本,构建数据集。
13、进一步的,还提出一种优选方式,所述步骤s2包括:
14、根据所述事件序列的异步稀疏性,对每个事件窗口采用体素网格方式进行事件表征,计算公式为:
15、,
16、
17、其中,为经过体素网格表征后的事件窗口,()为第个事件的坐标分别代表、为第个事件的时间戳,为第个事件的极性,为正则化的时间戳,为当前事件窗口的最大时间戳,为当前事件窗口的最小时间戳,为正则化时间戳范围的起点。
18、进一步的,还提出一种优选方式,所述步骤s3包括:
19、根据事件序列所需的平滑程度和体素网格的特性来确定高斯核的大小和标准差;
20、使用高斯核对体素网格形式的事件序列进行卷积,获取清洗后的事件序列。
21、进一步的,还提出一种优选方式,所述步骤s4中基于transformer的视频观测模型包括:
22、transformer模块、视频视觉变化器模块、 多头通道自注意力模块和序列选择模块;
23、所述transformer模块由多个attention和feedforward组成;
24、所述每个attention层接收输入清洗后的事件序列并计算注意力权重,通过残差连接和层归一化将注意力输出与输入相加;
25、所述feedforward层对注意力输出进行非线性变换;
26、所述视频视觉变化器模块通过一个卷积层将输入图像划分为多个图像块,并对每个图像块进行线性变换得到特征表示,位置编码被加到特征表示中;
27、空间编码使用transformer模块进行处理;
28、通过平均池化将特征表示进行池化,然后通过全连接层进行分类;
29、所述多头通道自注意力模块包括一个卷积层和一个深度卷积层,用于计算查询、键和值;
30、通过归一化和softmax函数计算注意力权重;通过线性变换得到输出加权和,获取多头注意力的输出;
31、所述序列选择模块通过遍历输入的注意力图,将当前图与前一个图相乘得到最终的注意力图;对于最终的注意力图通过池化操作选择具有最高注意力权重的部分进行输出。
32、进一步的,还提出一种优选方式,所述步骤s5包括:
33、将估计值映射到观测空间;比较观测值和估计值之间的差异,计算观测残差;
34、利用卡尔曼滤波器对估计值进行处理,获取对应的状态向量s,根据状态向量对预测误差矩阵的更新,
35、
36、其中,是参数的速度,i=1,2,...,12;
37、根据当前时刻的观测值和状态向量,利用卡尔曼滤波器对状态和协方差矩进行更新,所述协方差矩阵为:
38、
39、其中,为给定的噪声方差,wi为[]的过程噪声协方差矩阵;
40、根据卡尔曼滤波器的状态更新的结果,获取当前时刻的蒙皮参数,同时更新预测误差矩阵和协方差矩阵。
41、进一步的,还提出一种优选方式, 所述步骤s6包括:
42、将所述蒙皮参数从体素形式转到转换为视频帧形式,将转换后的视频帧和对应的蒙皮参数估计值进行编码,生成蒙皮的可视化结果,完成水下三维手部姿态估计。
43、基于同一专利技术构思,本专利技术还提出一种基于事件相机的水下三维手部姿态估计系统,所述系统包括:
44、视频转换单元,用于利用事件相机采集水下潜水员手势视频,将所述手势视频转换成事件序列,根据所述事件序列构建数据集;
45、体素化单元,用于根据voxel grid对所述事件序列进行体素化,将所述体素化后的事件序列通过体素网格方式进行数据表示;
46、清洗单元,用于利用高斯滤波器处理体素网格形式的事件序列进行滤波处理,获取清洗后的事件序列;
47、估计值获取单元,用于根据清洗后的事件序列构建基于transformer的视频观测模型,根据基于transformer的视频观测模型获取估计值;
48、蒙皮参数获取单元,用于使用卡尔曼滤波器对估计值进行处理并生成蒙皮参数;本文档来自技高网
...
【技术保护点】
1.一种基于事件相机的水下三维手部姿态估计方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法,其特征在于,所述步骤S1包括:
3.根据权利要求2所述的一种基于事件相机的水下三维手部姿态估计方法,其特征在于,所述步骤S2包括:
4.根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法,其特征在于,所述步骤S3包括:
5.根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法,其特征在于,所述步骤S4中基于Transformer的视频观测模型包括:
6.根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法,其特征在于,所述步骤S5包括:
7. 根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法,其特征在于, 所述步骤S6包括:
8.一种基于事件相机的水下三维手部姿态估计系统,其特征在于,所述系统包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于储存计算机程序,所述计算机程序执行权利要求1-7任一项所述的一种基于事件相机的水下三维手部姿态估计方法。
10.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据权利要求1-7中任一项中所述的一种基于事件相机的水下三维手部姿态估计方法。
...
【技术特征摘要】
1.一种基于事件相机的水下三维手部姿态估计方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法,其特征在于,所述步骤s1包括:
3.根据权利要求2所述的一种基于事件相机的水下三维手部姿态估计方法,其特征在于,所述步骤s2包括:
4.根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法,其特征在于,所述步骤s3包括:
5.根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法,其特征在于,所述步骤s4中基于transformer的视频观测模型包括:
6.根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法,其特...
【专利技术属性】
技术研发人员:姜宇,王跃航,赵明浩,魏枫林,王凯,张永霁,焦丹,
申请(专利权)人:吉林大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。