System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向复杂康复运动视频序列3D人体姿态估计方法技术_技高网
当前位置: 首页 > 专利查询>南通大学专利>正文

一种面向复杂康复运动视频序列3D人体姿态估计方法技术

技术编号:42074552 阅读:8 留言:0更新日期:2024-07-19 16:54
本发明专利技术涉及康复运动技术领域,尤其涉及一种面向复杂康复运动视频序列3D人体姿态估计方法,包括:S1:将视频逐帧进行拆分,获得每一帧的彩色图像,一帧内图像不满足有运动人员出现的条件,将在该步骤被直接剔除;S2:拆分并筛选好的彩色图片,将按照一个批次大小的彩色图片输入三维姿态估计模块,逐批次生成三维姿态;S3:将生成的三维姿态重新组合成视频序列,视频帧率按照需求决定,默认设置为每秒30帧。本发明专利技术能够将人体骨骼化,并从三维视角精准衡量人体在空间内的运动轨迹,为精准辅助康复治疗奠定基础。本发明专利技术为完全无接触,不会给康复人员带来任何的额外负担,进而对康复人员的表现带来人为的影响。

【技术实现步骤摘要】

本专利技术涉及康复运动,尤其涉及一种面向复杂康复运动视频序列3d人体姿态估计方法。


技术介绍

1、"健康中国"战略理念引领下,人们的健康意识逐渐增强,更加积极、主动地参与健康运动,根据中国医学报告,有4.1亿人接触过体育运动,运动出现的损伤再也不是运动员的代名词,这些运动损伤人员急需一种新型、方便的康复方法。然而现在的康复运动场景下,存在大量的康复运动视频,然而二维人体姿态估计虽然在实时场景取得了较好的结果,但是由于受到维度制约,该方法在限制比较严格的康复运动视频上的表现无法达到预期。此外,硬件设备虽然精度高,但无法做到无接触,常常会干扰康复过程。受这些启发,本专利技术提出了一种面向复杂康复运动视频序列3d人体姿态估计方法,能够将人体骨骼化,并从三维视角精准衡量人体在空间内的运动轨迹,为精准辅助康复治疗奠定基础。


技术实现思路

1、本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种面向复杂康复运动视频序列3d人体姿态估计方法,通过创新模型和多元算法,为康复医疗提供高维评估视角。

2、为了实现上述目的,本专利技术采用了如下技术方案:

3、一种面向复杂康复运动视频序列3d人体姿态估计方法,所述联合学习3d人体姿态估计方法fppose,采用序列到序列的方式(seq2seq),包括以下步骤:

4、s1:将视频逐帧进行拆分,获得每一帧的彩色图像,一帧内图像不满足有运动人员出现的条件,将在该步骤被直接剔除;

5、s2:拆分并筛选好的彩色图片,将按照一个批次大小的彩色图片(243帧,不足按照实际数目实施)输入三维姿态估计模块,逐批次生成三维姿态;

6、s3:将生成的三维姿态重新组合成视频序列,视频帧率按照需求决定,默认设置为每秒30帧。

7、优选地,在步骤s2中,三维姿态估计模块包括:首先获取彩色图像的二维人体姿态关键部位(17个)的二维坐标点坐标并进行位置编码;之后采用四支路变换器(quadruple-stream transformer)作为主干结构,主干结构内部的所有同名模块共享权重,减少参数量,并通过其中的两路实现捕获长序列时间与空间之间的交互关系,同时经过额外的两路还能对原始的二维坐标点输入进行单独的时序以及空间考虑;这四条支路不同的信息在模型训练过程中所占的比重并不相同,为了实现自动化学习最优权重,设置可学习参数学习隐式关系;合成后的输出通过一个最终的额外变换器(extra transformer)模块获得三维姿态输出,输出形式为三维点坐标(17个)。

8、优选地,所述的二维坐标点坐标并不能直接作为直接输入进入主干结构,基于传统transformer思想和后续的四条支路结构,两条时间编码器支路将进行时间位置编码,另外两条空间编码器支路将采用空间位置编码;对于一个任意的二维坐标点输入其中bs为批次大小,f为分割的帧数,j为关键部位点的个数(17个),之后将会对输入最后一维进行维度扩展,并重排通道变为三维度的空间输入时间输入为四维度设置为该输入的空间编码增强过程和时间编码增强过程通过下式表达:

9、

10、其中,zt和zs分别代表时间编码增强作用后的输出和空间编码增强后的输出;post和poss代表时间位置编码作用和空间编码作用。

11、优选地,所述的四支路变换器为主干结构,四支路变换器由空间模块(spatialpart)和时间模块(temporal part)构成,四支路变换器的第一条支路采用空间模块作为编码器和解码器,用于获取输入在空间单独作用的信息;四支路变换器的第二条支路和第三条支路用于考虑时间和空间的交互作用,第二条支路使用空间模块作为编码器和时间模块作为解码器,第三条支路使用时间模块作为编码器和空间模块作为解码器;第四条支路用于单独考虑时序作用,采用时间模块作为编码器和解码器;对四支路分别设置不同的可学习参数辅助模型隐式学习四条支路的影响因素,并进行适当放缩,该过程通过以下公式表达:

12、

13、其中,zt和zs分别代表时间编码增强作用后的输出和空间编码增强后的输出;zout1,zout2,zout3,zout4分别为第一、二、三、四条支路的输出;α1,α2,β1,β2为四条支路从上至下设置的四个可学习参数;ss,st,ts,tt代表四条支路从上至下的不同作用。

14、优选地,空间模块考量一个视频序列连续帧内17个姿态关键部位二维坐标点在空间的变化,在此过程中不引入时间因素增加复杂度。空间模块用于直接对输入进行建模,为加强建模期间的信息提取,在此过程中加入空间自注意力机制来使模型进行加强学习,空间自注意力机制的全过程可由下式表达:

15、

16、式中,sa为空间自注意力机制的部分输出,saf为空间自注意力机制的最终输出,softmax代表分类问题的激活函数;n为空间自注意力机制的头个数;qsp0,ksp0t,vsp0为经过空间编码增强第0个头的查询,键的转置和值;qspn,kspnt,vspn为经过空间编码增强第n个头的查询,键的转置和值;mlp代表多层感知机操作;layernorm表示层归一化,ws为空间参数投影矩阵,zs代表空间编码增强后的输出。

17、优选地,时间模块将一整个视频序列按照一定的分割的帧数f分成多块,最后一部分不足分割帧数大小则按实际剩余帧数分块;时间模块对每一块内的视频帧使用时间自注意力机制学习块内不同视频帧之间的时间信息,最后将不同块间的信息综合获得最终时间模块输出,公式如下:

18、

19、式中,ta为时间自注意力机制的部分输出,taf为时间自注意力机制的最终输出,softmax代表分类问题的激活函数;n为时间自注意力机制的头个数;qte0,kte0t,vte0为经过时间编码增强第0个头的查询,键的转置和值;qten,ktent,vspn为经过时间编码增强第n个头的查询,键的转置和值;mlp代表多层感知机操作;layernorm表示层归一化,wt为时间参数投影矩阵,zt代表时间编码增强后的输出。

20、优选地,主干结构的四条支路一共使用四个时间模块和四个空间模块,该主干结构内的空间模块共享空间矩阵参数,时间模块共享时间矩阵参数,通过此操作将主干结构的参数量降低。

21、优选地,所述的额外变换器(extratransformer)模块基于传统的transformer,使用优化后空间模块作为编码器,优化后时间模块作为解码器;将经过主干结构后的最终输出输入进额外变换器(extratransformer)模块,获得最终的三维姿态输出。

22、优选地,所述的优化后的空间模块和优化后的时间模块,是在基础的空间模块和时间模块的基础上分别并联一个改进型门控注意力单元igau;

23、额外变换器(extratransformer)模块将优化后的空间模块和优化后的时间模块顺次串接起来,额外变换器(extratransformer)模块的输入是本文档来自技高网...

【技术保护点】

1.一种面向复杂康复运动视频序列3D人体姿态估计方法,其特征在于,所述联合学习3D人体姿态估计方法采用序列到序列的方式,包括以下步骤:

2.根据权利要求1所述的一种面向复杂康复运动视频序列3D人体姿态估计方法,其特征在于,在步骤S2中,三维姿态估计模块包括:首先获取彩色图像的二维人体姿态关键部位的二维坐标点坐标并进行位置编码;之后采用四支路变换器作为主干结构,主干结构内部的所有同名模块共享权重,减少参数量,并通过其中的两路实现捕获长序列时间与空间之间的交互关系,同时经过额外的两路还能对原始的二维坐标点输入进行单独的时序以及空间考虑;这四条支路不同的信息在模型训练过程中所占的比重并不相同,为了实现自动化学习最优权重,设置可学习参数学习隐式关系;合成后的输出通过一个最终的额外变换器模块获得三维姿态输出,输出形式为三维点坐标。

3.根据权利要求2所述的一种面向复杂康复运动视频序列3D人体姿态估计方法,其特征在于,所述的二维坐标点坐标并不能直接作为直接输入进入主干结构,基于传统Transformer思想和后续的四条支路结构,两条时间编码器支路将进行时间位置编码,另外两条空间编码器支路将采用空间位置编码;对于一个任意的二维坐标点输入其中BS为批次大小,F为分割的帧数,J为关键部位点的个数,之后将会对输入最后一维进行维度扩展,并重排通道变为三维度的空间输入时间输入为四维度设置为该输入的空间编码增强过程和时间编码增强过程通过下式表达:

4.根据权利要求2所述的一种面向复杂康复运动视频序列3D人体姿态估计方法,其特征在于,所述的四支路变换器为主干结构,四支路变换器由空间模块和时间模块构成,四支路变换器的第一条支路采用空间模块作为编码器和解码器,用于获取输入在空间单独作用的信息;四支路变换器的第二条支路和第三条支路用于考虑时间和空间的交互作用,第二条支路使用空间模块作为编码器和时间模块作为解码器,第三条支路使用时间模块作为编码器和空间模块作为解码器;第四条支路用于单独考虑时序作用,采用时间模块作为编码器和解码器;对四支路分别设置不同的可学习参数辅助模型隐式学习四条支路的影响因素,并进行适当放缩,该过程通过以下公式表达:

5.根据权利要求4所述的一种面向复杂康复运动视频序列3D人体姿态估计方法,其特征在于,空间模块用于直接对输入进行建模,为加强建模期间的信息提取,在此过程中加入空间自注意力机制来使模型进行加强学习,空间自注意力机制的全过程可由下式表达:

6.根据权利要求4所述的一种面向复杂康复运动视频序列3D人体姿态估计方法,其特征在于,时间模块将一整个视频序列按照一定的分割的帧数F分成多块,最后一部分不足分割帧数大小则按实际剩余帧数分块;时间模块对每一块内的视频帧使用时间自注意力机制学习块内不同视频帧之间的时间信息,最后将不同块间的信息综合获得最终时间模块输出,公式如下:

7.根据权利要求2所述的一种面向复杂康复运动视频序列3D人体姿态估计方法,其特征在于,主干结构的四条支路一共使用四个时间模块和四个空间模块,该主干结构内的空间模块共享空间矩阵参数,时间模块共享时间矩阵参数,通过此操作将主干结构的参数量降低。

8.根据权利要求2所述的一种面向复杂康复运动视频序列3D人体姿态估计方法,其特征在于,所述的额外变换器模块基于传统的Transformer,使用优化后空间模块作为编码器,优化后时间模块作为解码器;将经过主干结构后的最终输出输入进额外变换器模块,获得最终的三维姿态输出。

9.根据权利要求8所述的一种面向复杂康复运动视频序列3D人体姿态估计方法,其特征在于,所述的优化后的空间模块和优化后的时间模块,是在基础的空间模块和时间模块的基础上分别并联一个改进型门控注意力单元IGAU;

10.根据权利要求1所述的一种面向复杂康复运动视频序列3D人体姿态估计方法,其特征在于,该联合学习3D人体姿态估计方法在预训练过程中,采用每个关节位置的平均误差损失作为其中的一个监督损失函数,用公式描述为下:

...

【技术特征摘要】

1.一种面向复杂康复运动视频序列3d人体姿态估计方法,其特征在于,所述联合学习3d人体姿态估计方法采用序列到序列的方式,包括以下步骤:

2.根据权利要求1所述的一种面向复杂康复运动视频序列3d人体姿态估计方法,其特征在于,在步骤s2中,三维姿态估计模块包括:首先获取彩色图像的二维人体姿态关键部位的二维坐标点坐标并进行位置编码;之后采用四支路变换器作为主干结构,主干结构内部的所有同名模块共享权重,减少参数量,并通过其中的两路实现捕获长序列时间与空间之间的交互关系,同时经过额外的两路还能对原始的二维坐标点输入进行单独的时序以及空间考虑;这四条支路不同的信息在模型训练过程中所占的比重并不相同,为了实现自动化学习最优权重,设置可学习参数学习隐式关系;合成后的输出通过一个最终的额外变换器模块获得三维姿态输出,输出形式为三维点坐标。

3.根据权利要求2所述的一种面向复杂康复运动视频序列3d人体姿态估计方法,其特征在于,所述的二维坐标点坐标并不能直接作为直接输入进入主干结构,基于传统transformer思想和后续的四条支路结构,两条时间编码器支路将进行时间位置编码,另外两条空间编码器支路将采用空间位置编码;对于一个任意的二维坐标点输入其中bs为批次大小,f为分割的帧数,j为关键部位点的个数,之后将会对输入最后一维进行维度扩展,并重排通道变为三维度的空间输入时间输入为四维度设置为该输入的空间编码增强过程和时间编码增强过程通过下式表达:

4.根据权利要求2所述的一种面向复杂康复运动视频序列3d人体姿态估计方法,其特征在于,所述的四支路变换器为主干结构,四支路变换器由空间模块和时间模块构成,四支路变换器的第一条支路采用空间模块作为编码器和解码器,用于获取输入在空间单独作用的信息;四支路变换器的第二条支路和第三条支路用于考虑时间和空间的交互作用,第二条支路使用空间模块作为编码器和时间模块作为解码器,第三条支路使用时间模块作为编码器和空间模块作为解码器;第四条支路用于单独考虑...

【专利技术属性】
技术研发人员:张堃张鹏程欧阳鹏邵睿吴承刚华亮
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1