手部姿态识别方法、手部姿态识别模型的训练方法及装置制造方法及图纸

技术编号:35305963 阅读:19 留言:0更新日期:2022-10-22 12:56
本申请公开了一种手部姿态识别方法、手部姿态识别模型的训练方法、装置、计算机设备及存储介质,属于人工智能技术领域。本申请基于二维姿态识别模型对视频的第一视频帧进行处理,以确定描述手部二维姿态的多个二维手部关节点;基于与该手部的手性特征匹配的三维姿态识别模型和该多个二维手部关节点,确定该手部的多个三维手部关节点;通过约束损失函数和该第一视频帧之前的第二视频帧对该多个三维手部关节点进行处理。通过上述技术方案,在针对视频进行手部姿态识别时,约束多个视频帧的三维手部关节点之间的差距,以参考多个视频帧中手部之间的关联性,保证了针对视频确定出的手部姿态连贯流畅,大大提升了手部姿态识别结果的稳定性。的稳定性。的稳定性。

【技术实现步骤摘要】
手部姿态识别方法、手部姿态识别模型的训练方法及装置


[0001]本申请涉及人工智能
,特别涉及一种手部姿态识别方法、手部姿态识别模型的训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]具有灵活变化能力的手部在生产生活过程中起到相当重要的作用,在人机交互、虚拟现实和手语识别等多种应用场景下,可以通过对视频或图片中的手部姿态进行识别,来模拟出手部姿态。
[0003]目前,相关技术中,通常采用大规模的特征提取网络,来提取手部图像的特征,从而确定手部图像中关节点的位置,再根据关节点的位置,对手部骨骼模型中关节点的位置进行调整,以模拟出手部姿态。
[0004]但是,上述技术方案应用在对视频进行实时手部姿态识别时,会出现多个视频帧之间模拟出的手部姿态出现不连贯、闪烁跳动等问题,手部姿态识别结果的稳定性受到很大影响。

技术实现思路

[0005]本申请实施例提供了一种手部姿态识别方法、手部姿态识别模型的训练方法、装置、计算机设备及存储介质,能够有效提升手部姿态识别结果的稳定性。该技术方案如下:
[0006]一方面,提供了一种手部姿态识别方法,该方法包括:
[0007]基于二维姿态识别模型,对视频的第一视频帧进行处理,以确定该第一视频帧的多个二维手部关节点,该多个二维手部关节点用于描述该第一视频帧中手部的二维姿态;
[0008]基于该第一视频帧的多个二维手部关节点和三维姿态识别模型,确定该第一视频帧的多个三维手部关节点,该三维姿态识别模型与该第一视频帧中手部的手性特征匹配;
[0009]基于约束损失函数和该视频中第二视频帧的多个三维手部关节点,对该第一视频帧的多个三维手部关节点进行处理,以使该第二视频帧的多个三维手部关节点与该第一视频帧的多个三维手部关节点之间的差距满足目标条件,该第二视频帧为该第一视频帧之前的视频帧。
[0010]一方面,提供了一种手部姿态识别模型的训练方法,该方法包括:
[0011]获取针对手部的样本视频、该样本视频的二维手部姿态信息和该样本视频的三维手部姿态信息;
[0012]基于初始姿态识别模型包括的二维姿态识别模型,对该样本视频的第一视频帧进行处理,以确定该第一视频帧的多个二维预测关节点,该多个二维预测关节点用于描述该第一视频帧中手部的二维姿态;
[0013]将该第一视频帧的多个二维预测关节点,输入初始姿态识别模型包括的三维姿态识别模型,得到该第一视频帧的多个三维预测关节点,该三维姿态识别模型与该第一视频帧中手部的手性特征匹配;
[0014]基于该初始姿态识别模型的约束损失函数和该样本视频中第二视频帧的多个三维预测关节点,对该第一视频帧的多个三维预测关节点进行处理,以使该第二视频帧的多个三维预测关节点与该第一视频帧的多个三维预测关节点之间的差距满足目标条件,该第二视频帧为该第一视频帧之前的视频帧;
[0015]基于该二维手部姿态信息、该三维手部参考信息、该第一视频帧的多个二维预测关节点和处理后的该第一视频帧的多个三维预测关节点,调整所初始姿态识别模型的模型参数,得到手部姿态识别模型,该模型参数包括该二维姿态识别模型的参数和该三维姿态识别模型的参数。
[0016]一方面,提供了一种手部姿态识别装置,该装置包括:
[0017]二维识别模块,用于基于二维姿态识别模型,对视频的第一视频帧进行处理,以确定该第一视频帧的多个二维手部关节点,该多个二维手部关节点用于描述该第一视频帧中手部的二维姿态;
[0018]三维识别模块,用于基于该第一视频帧的多个二维手部关节点和三维姿态识别模型,确定该第一视频帧的多个三维手部关节点,该三维姿态识别模型与该第一视频帧中手部的手性特征匹配;
[0019]约束模块,用于基于约束损失函数和该视频中第二视频帧的多个三维手部关节点,对该第一视频帧的多个三维手部关节点进行处理,以使该第二视频帧的多个三维手部关节点与该第一视频帧的多个三维手部关节点之间的差距满足目标条件,该第二视频帧为该第一视频帧之前的视频帧。
[0020]在一种可能实施方式中,该约束模块,包括:
[0021]确定单元,用于从该第一视频帧的多个三维手部关节点中,确定未被其他三维手部关节点遮挡的第一关节点;
[0022]调整单元,用于基于该第二视频帧的多个三维手部关节点中该第一关节点对应的多个第二关节点和该约束损失函数,对该多个第一关节点的坐标进行调整。
[0023]在一种可能实施方式中,该调整单元,用于:
[0024]基于该多个第二关节点和该多个第一关节点,确定该第二关节点和该第一关节点之间的变化幅度;
[0025]在该变化幅度小于第一阈值的情况下,基于该第二视频帧的多个三维手部关节点中该第一关节点对应的多个第二关节点和该约束损失函数,对该多个第一关节点的坐标进行调整。
[0026]在一种可能实施方式中,该调整单元,用于:
[0027]基于该多个第二关节点和该多个第一关节点之间的距离以及该约束损失函数的约束权重,确定该约束损失函数的损失值,该约束权重用于控制调整该多个第一关节点的坐标的幅度;
[0028]基于该损失值,对该多个第一关节点的坐标进行调整,以使该第一关节点的坐标和该第二关节点的坐标之间的差距变小。
[0029]在一种可能实施方式中,该约束模块,用于:
[0030]基于该第一视频帧的多个三维手部关节点,确定与该第一视频帧中手部匹配的手部姿态类型;
[0031]从该第一视频帧的多个三维手部关节点中,确定与该手部姿态类型相关的多个第三关节点;
[0032]基于该第二视频帧的多个三维手部关节点中该第三关节点对应的多个第四关节点和该约束损失函数,对该多个第三关节点的坐标进行调整,以使该第三关节点的坐标和该第四关节点的坐标之间的差距变小。
[0033]在一种可能实施方式中,该三维识别模块,用于:
[0034]将该第一视频帧的多个二维手部关节点输入该三维姿态识别模型的参数预测模型,得到该第一视频帧的姿态估计参数;
[0035]将该姿态估计参数输入该三维姿态识别模型的手部骨骼模型,得到该第一视频帧的多个三维手部关节点,该第一视频帧的多个三维手部关节点用于描述该第一视频帧中手部的三维姿态。
[0036]在一种可能实施方式中,该姿态估计参数包括相机参数和关节旋转参数,该相机参数指示该第一视频帧中手部所处的三维空间,该关节旋转参数指示该手部骨骼模型确定该第一视频帧中手部的三维姿态的变形方式;
[0037]该装置还包括优化模块,该优化模块用于:
[0038]基于该多个三维手部关节点、该相机参数和该第一视频帧,确定多个二维投影关节点;
[0039]基于该多个二维投影关节点和该多个二维手部关节点,确定投影损失值,该投影损失值指示该二维投影关节点和该多个二维手部关节点之间的误差;
[0040]基于该投影损失值,调整该相机参数和该关节旋转参数。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种手部姿态识别方法,其特征在于,所述方法包括:基于二维姿态识别模型,对视频的第一视频帧进行处理,以确定所述第一视频帧的多个二维手部关节点,所述多个二维手部关节点用于描述所述第一视频帧中手部的二维姿态;基于所述第一视频帧的多个二维手部关节点和三维姿态识别模型,确定所述第一视频帧的多个三维手部关节点,所述三维姿态识别模型与所述第一视频帧中手部的手性特征匹配;基于约束损失函数和所述视频中第二视频帧的多个三维手部关节点,对所述第一视频帧的多个三维手部关节点进行处理,以使所述第二视频帧的多个三维手部关节点与所述第一视频帧的多个三维手部关节点之间的差距满足目标条件,所述第二视频帧为所述第一视频帧之前的视频帧。2.根据权利要求1所述的方法,其特征在于,所述基于约束损失函数和所述视频中第二视频帧的多个三维手部关节点,对所述第一视频帧的多个三维手部关节点进行处理,以使所述第二视频帧的多个三维手部关节点与所述第一视频帧的多个三维手部关节点之间的差距满足目标条件,包括:从所述第一视频帧的多个三维手部关节点中,确定未被其他三维手部关节点遮挡的第一关节点;基于所述第二视频帧的多个三维手部关节点中所述第一关节点对应的多个第二关节点和所述约束损失函数,对所述多个第一关节点的坐标进行调整。3.根据权利要求2所述的方法,其特征在于,所述基于所述第二视频帧的多个三维手部关节点中所述第一关节点对应的多个第二关节点和所述约束损失函数,对所述多个第一关节点的坐标进行调整,包括:基于所述多个第二关节点和所述多个第一关节点,确定所述第二关节点和所述第一关节点之间的变化幅度;在所述变化幅度小于第一阈值的情况下,基于所述第二视频帧的多个三维手部关节点中所述第一关节点对应的多个第二关节点和所述约束损失函数,对所述多个第一关节点的坐标进行调整。4.根据权利要求2或3所述的方法,其特征在于,所述基于所述第二视频帧的多个三维手部关节点中所述第一关节点对应的多个第二关节点和所述约束损失函数,对所述多个第一关节点的坐标进行调整,包括:基于所述多个第二关节点和所述多个第一关节点之间的距离以及所述约束损失函数的约束权重,确定所述约束损失函数的损失值,所述约束权重用于控制调整所述多个第一关节点的坐标的幅度;基于所述损失值,对所述多个第一关节点的坐标进行调整,以使所述第一关节点的坐标和所述第二关节点的坐标之间的差距变小。5.根据权利要求1所述的方法,其特征在于,所述基于约束损失函数和所述视频中第二视频帧的多个三维手部关节点,对所述第一视频帧的多个三维手部关节点进行处理,以使所述第二视频帧的多个三维手部关节点与所述第一视频帧的多个三维手部关节点之间的差距满足目标条件,包括:
基于所述第一视频帧的多个三维手部关节点,确定与所述第一视频帧中手部匹配的手部姿态类型;从所述第一视频帧的多个三维手部关节点中,确定与所述手部姿态类型相关的多个第三关节点;基于所述第二视频帧的多个三维手部关节点中所述第三关节点对应的多个第四关节点和所述约束损失函数,对所述多个第三关节点的坐标进行调整,以使所述第三关节点的坐标和所述第四关节点的坐标之间的差距变小。6.根据权利要求1所述的方法,其特征在于,所述基于所述第一视频帧的多个二维手部关节点和三维姿态识别模型,确定所述第一视频帧的多个三维手部关节点,包括:将所述第一视频帧的多个二维手部关节点输入所述三维姿态识别模型的参数预测模型,得到所述第一视频帧的姿态估计参数;将所述姿态估计参数输入所述三维姿态识别模型的手部骨骼模型,得到所述第一视频帧的多个三维手部关节点,所述第一视频帧的多个三维手部关节点用于描述所述第一视频帧中手部的三维姿态。7.根据权利要求6所述的方法,其特征在于,所述姿态估计参数包括相机参数和关节旋转参数,所述相机参数指示所述第一视频帧中手部所处的三维空间,所述关节旋转参数指示所述手部骨骼模型确定所述第一视频帧中手部的三维姿态的变形方式;所述基于所述第一视频帧的多个二维手部关节点和三维姿态识别模型,确定所述第一视频帧的多个三维手部关节点之后,所述方法还包括:基于所述多个三维手部关节点、所述相机参数和所述第一视频帧,确定多个二维投影关节点;基于所述多个二维投影关节点和所述多个二维手部关节点,确定投影损失值,所述投影损失值指示所述二维投影关节点和所述多个二维手部关节点之间的误差;基于所述投影损失值,调整所述相机参数和所述关节旋转参数。8.根据权利要求7所述的方法,其特征在于,所述基于所述投影损失值,调整所述相机参数和所述关节旋转参数,包括:按照所述手部骨骼模型的部位信息,将所述第一视频帧的多个三维手部关节点划分为存在处理顺序的多组关节点;在基于调整后的所述相机参数确定的所述投影损失值满足优化条件的情况下,按照所述多组关节点之间的处理顺序,基于所述调整后的所述相机参数、所述多组关节点和所述第一视频帧,依次调整所述多组关节点对应的关节旋转参数,以使所述投影损失值变小。9.根据权利要求1所述的方法,其特征在于,所述基于所述第一视频帧的多个二维手部关节点和三维姿态识别模型,确定所述第一视频帧的多个三维手部关节点之前,所述方法还包括:基于所述二维姿态识别模型,对所述第一视频帧进行手部检测,在从所述第一视频帧中检测到至少一个手部的情况下,确定所述至少一个手部的手性特征;获取与所述至少一个手部的手性特征匹配的至少一个所述三维姿态识别模型。10.一种手部姿态识别模型的训练方法,其特征在于,所述方法包括:获取针对手部的样本视频、所述样本视频的二维手部姿态信息和所述样本视频的三维
手部姿态信息;基于初始姿态识别模型包括的二维姿态识别模型,对所述样本视频的第一视频帧进行处理,以确定所述第一视频帧的多个二维预测关节点,所...

【专利技术属性】
技术研发人员:张莹付灿苗
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1