一种基于增强图注意力与时间卷积网络的运动预测方法技术

技术编号:32823369 阅读:13 留言:0更新日期:2022-03-26 20:21
本发明专利技术公开了一种基于增强图注意力与时间卷积网络的运动预测方法,该方法通过聚合时空信息来估计人体未来的运动姿态,构建了增强的图注意力模块与重构的TCN模块,利用输入特征的通道间关系生成通道注意力图,并基于通道注意力图,分别使用局部和全局图注意力卷积网络,提取局部对称、局部连接和全局语义信息。重构的TCN可以有效地捕获复杂的、高动态的时间信息。最后进行通道压缩和维度合并处理得到后处理结果,并对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。本发明专利技术可以有效地减少人体运动预测过程中姿态的不连续与误差的累计。计。计。

【技术实现步骤摘要】
一种基于增强图注意力与时间卷积网络的运动预测方法


[0001]本申请属于运动预测
,尤其涉及一种基于增强图注意力与时间卷积网络的运动预测方法。

技术介绍

[0002]人体运动预测旨在根据历史人体骨架姿态预测未来的动态运动变化,该技术的发展对人

机交互、自主驾驶、公共安全、医疗保健、运动监测等许多应用都非常有利。人类运动的感知和预测对于交互机器人起着不可或缺的作用,也引领了未来机器人研究的一个趋势。然而,在人体运动预测中,预测姿态的不连续和误差累积会极大地影响其实际应用进展。
[0003]预测姿态的不连续和误差累积通常分别由模型在空间和时间维度上的表征能力不足引起。为了实现人体运动预测的高精度,已经有许多优秀的前期工作对人体骨骼序列的时空信息进行编码。人体骨骼的数学模型一般是基于人体主要关节来构建,每个关节都是一个独立的可观测点。同时,各个关节点之间又存在着相互联系。卷积神经网络对二维规则数据具有良好的空间结构感知能力,常用于图像识别和分割,但在面对人体骨骼等拓扑不规则数据时往往不能取得很好效果,而图卷积网络(GCN)则能够很好地构造和表征不规则数据结构。
[0004]各种基于GCN的算法在位姿估计、运动预测等领域得到了广泛的应用,但仅靠空间信息并不能保证模型在序列数据处理中的有效性。递归神经网络(RNN)对序列数据具有较强的处理能力,最早在NLP领域被设计出来,随后广泛应用于基于视频的动作识别和运动预测等领域,但空间信息的缺乏严重影响了RNN及其后的LSTM和GRU变体的最终预测精度。离散余弦变换(DCT)也被引入用于时间维度特征的表征,但很多实验应用表明,增加DCT的可观测帧数并不会显著提高最终的预测结果,这显然与常识相反。

技术实现思路

[0005]本申请提出了一种基于增强图注意力与时间卷积网络的运动预测方法,来减少人体运动预测过程中姿态的不连续与误差的累计问题。
[0006]为了实现上述目的,本申请技术方案如下:
[0007]一种基于增强图注意力与时间卷积网络的运动预测方法,包括:
[0008]将输入的原始时序人体骨架数据,通过线性变换扩展为预设维度的数据,并依次经过二维归一化、通道扩展、二维归一化及Relu函数,完成数据初始化;
[0009]将初始化后的数据输入到第一增强图注意力模块,输出第一图注意力特征,将第一图注意力特征输入到第一重构TCN模块得到第一时序特征,然后对第一图注意力特征进行切割操作后与第一时序特征进行元素相加,输出第一融合特征;
[0010]将第一融合特征输入到第二增强图注意力模块,输出第二图注意力特征,将第二图注意力特征输入到第二重构TCN模块得到第二时序特征,然后对第二图注意力特征进行
切割操作后与第二时序特征进行元素相加,输出第二融合特征;
[0011]将第二融合特征输入到第三增强图注意力模块,输出第三图注意力特征;
[0012]对第三图注意力特征进行通道压缩和维度合并处理得到后处理结果,并对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。
[0013]进一步的,所述增强图注意力模块,执行如下操作:
[0014]将初始化后的数据,输入一个通道注意力模块,生成通道注意力图;
[0015]将通道注意力图分别输入局部注意力模块与全局图注意力模块,然后与输入数据聚合生成图注意力特征。
[0016]进一步的,所述通道注意力模块,执行如下操作:
[0017]同时使用平均池化与最大池化操作来提取空间与时间特征,并将两者的结果使用一个权值共享的MLP层来聚合形成最终的通道注意力图,表示如下:
[0018]M
c
(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
[0019]σ表示Sigmod激活函数,MLP(AvgPool(F)表示对输入特征F进行平均池化操作后再进行MLP操作,MLP(MaxPool(F))表示对输入特征F进行最大池化操作后再进行MLP操作,M
c
(F)表示通道注意力图。
[0020]进一步的,所述局部注意力模块的操作表示为:
[0021][0022]其中,σ表示Sigmod激活函数,W是一个用于将输入通道转换为输出通道的可学习的转换矩阵,M是一个可学习的掩码矩阵,为图卷积核,其中A为人体骨架节点的一阶邻接矩阵,而I是节点的自连接矩阵,表示矩阵元素一一相乘,Y1为局部图注意力模块的输出;
[0023]全局图注意力模块的操作表示为:
[0024][0025]K为多头注意力机制的头数,B
k
是一个自适应全局邻接矩阵,C
k
是一个可学习的全局邻接矩阵,W
k
是一个可学习的输入输出通道的转换矩阵,Y2为全局图注意力模块的输出。
[0026]进一步的,所述重构TCN模块,执行如下操作:
[0027]依次经过密度卷积、BatchNorm2D、ReLU、二维卷积、BatchNorm2D、ReLU激活函数、Dropout函数操作,输出时序特征。
[0028]本申请提出了一种基于增强图注意力与时间卷积网络的运动预测方法,构建了增强的图注意力模块与重构的TCN模块,并将其组合成基于增强图注意力与时间卷积网络的人体运动预测方法,本专利技术可以有效地减少人体运动预测过程中姿态的不连续与误差的累计。
附图说明
[0029]图1为基于增强图注意力与时间卷积网络的人体运动预测方法流程图;
[0030]图2为基于增强图注意力与时间卷积网络的整体网络示例图;
[0031]图3为增强的图注意力模块网络图。
具体实施方式
[0032]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0033]在一个实施例中,如图1所示,提出了一种基于增强图注意力与时间卷积网络的运动预测方法,包括:
[0034]步骤S1、将输入的原始时序人体骨架数据,通过线性变换扩展为预设维度的数据,并依次经过二维归一化、通道扩展以、二维归一化及Relu函数,完成数据初始化。
[0035]对输入网络的人体骨架序列数据进行预处理,如图2中的输入数据(b,66,10),b表示模型训练的batch size为b,66表示每帧骨架数据大小为66,10表示整个序列在时间维度由10帧组成。通过线性变换扩展为预设维度的数据,即通过全连接网络将时间维度10映射扩展为64,且拆分每帧骨架数据66为3和22两个维度,3表示xyz三通道,22表示一共22个骨架节点,最终得到数据格式为(b,3,64,22),以满足后续对通道与节点分开计算的要求。再依次将数据经过二维归一化(BatchNorm2D)、通道扩展(3,(3,1),256)、二维本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于增强图注意力与时间卷积网络的运动预测方法,其特征在于,所述基于增强图注意力与时间卷积网络的运动预测方法,包括:将输入的原始时序人体骨架数据,通过线性变换扩展为预设维度的数据,并依次经过二维归一化、通道扩展、二维归一化及Relu函数,完成数据初始化;将初始化后的数据输入到第一增强图注意力模块,输出第一图注意力特征,将第一图注意力特征输入到第一重构TCN模块得到第一时序特征,然后对第一图注意力特征进行切割操作后与第一时序特征进行元素相加,输出第一融合特征;将第一融合特征输入到第二增强图注意力模块,输出第二图注意力特征,将第二图注意力特征输入到第二重构TCN模块得到第二时序特征,然后对第二图注意力特征进行切割操作后与第二时序特征进行元素相加,输出第二融合特征;将第二融合特征输入到第三增强图注意力模块,输出第三图注意力特征;对第三图注意力特征进行通道压缩和维度合并处理得到后处理结果,并对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。2.根据权利要求1所述的基于增强图注意力与时间卷积网络的运动预测方法,其特征在于,所述增强图注意力模块,执行如下操作:将初始化后的数据,输入一个通道注意力模块,生成通道注意力图;将通道注意力图分别输入局部注意力模块与全局图注意力模块,然后与输入数据聚合生成图注意力特征。3.根据权利要求2所述的基于增强图注意力与时间卷积网络的运动预测方法,其特征在于,所述通道注意力模块,执行如下操作:同时使用平均池化与最大池化操作来提取空间与时间特征,并将两者...

【专利技术属性】
技术研发人员:刘盛张少波高飞陈胜勇柯正昊柯程远
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1