一种基于自我注意力机制的行为识别方法技术

技术编号:27129073 阅读:30 留言:0更新日期:2021-01-25 19:54
本发明专利技术公开一种基于自我注意力机制的行为识别方法,该方法采用基于多角度注意机制的关键帧目标位置预测和连续帧动作类别预测模块,在完成连续帧动作检测的同时,可以实现目标定位功能。方法中以基于多角度注意机制的关键帧目标位置预测和连续帧动作类别预测模块代替3D卷积网络,解决了3D卷积网络模型计算量较大的问题,并提高了模型在GPU上的并行计算能力,同时,基于多角度注意机制的关键帧目标位置预测和连续帧动作类别预测模块,可避免因为3D卷积在不同深度学习框架下,模型转换或部署时兼容性较弱的问题。署时兼容性较弱的问题。署时兼容性较弱的问题。

【技术实现步骤摘要】
一种基于自我注意力机制的行为识别方法


[0001]本专利技术涉及一种基于自我注意力机制的行为识别方法,属于人体动作识别领域。

技术介绍

[0002]动作识别通过提取连续视频帧的动作特征,实现动作分类分类任务,在实际中避免可能存在的危险行为的发生,实际应用场景广泛。
[0003]现有的动作识别方法,均以3D卷积为基础,用于提取时间序列下的连续帧特征,提高算法对时间序列下图像特征的提取能力,增加动作识别精度。相对于2D卷积而言,3D卷积需要考虑时间轴特征,导致核参数大为增加。同时,3D作为一种新的计算方式,在不同深度学习框架下,对3D卷积的支持程度较差,影响了基于3D卷积的动作识别算法的实际应用性。

技术实现思路

[0004]针对现有技术的缺陷,本专利技术提供一种基于自我注意力机制的行为识别算法,该方法使用自我注意力机制替代原用3D卷积操作,用于连续帧图像的时序特征提取,实现对于连续帧的动作检测及目标定位任务。
[0005]为了解决所述技术问题,本专利技术采用的技术方案是:一种基于自我注意力机制的行为识别方法,包括以下步骤:
[0006]S01)、连续帧图像读取:
[0007]以关键帧为首帧图像,读取连续时间序列下的连续帧图像数据,并构建位置编码矩阵;
[0008]位置编码矩阵是一个维度为[H,W]的全1矩阵,其中H、W表示读取图像的高度和宽度;
[0009]S02)、基于2D卷积骨干网络进行图像特征提取:
[0010]将读取的连续帧图像数据的每一帧输入2D卷积骨干网络,获取每一帧的图像特征,并将每一帧的特征图片进行拼接,从而获取连续帧特征图,关键帧图像为连续帧图像数据中的第一帧,则关键帧的特征图取连续帧特征图的第一帧,即key_frame=clip_frame[0],key_frame表示关键帧特征图,clip_frame表示连续帧特征图;
[0011]S03)、位置编码:
[0012]将步骤S01的位置编码矩阵按列方向进行逐列累加,获得矩阵x_embed;
[0013]将步骤S01的位置编码矩阵按列方向进行逐列累加,获得矩阵y_embed;
[0014]对矩阵x_embed、y_embed进行优化,获得优化后的结果PE
x_embed
,PE
y_embed
,将PE
x_embed
,PE
y_embed
按第3维度进行拼接,并进行维度顺序变换,获得最终的位置编码矩阵;
[0015]由于关键帧数据与连续帧数据用在相同的图像处理过程,因此设定关键帧位置编码矩阵与连续帧位置编码矩阵相同,即key_mask=clip_mask,key_mask表示关键帧位置编码矩阵,clip_mask表示连续帧位置编码矩阵;
[0016]S04)、关键帧图像目标位置预测:
[0017]S41)、使用单层2D卷积网络对关键帧特征图进行通道压缩,使用线性连接层对关键帧位置编码矩阵进行宽高压缩,通道压缩后的关键帧特征图与宽高压缩后的关键帧位置编码矩阵具有相同的维度;
[0018]S42)、将通道压缩后的关键帧特征图与宽高压缩后的关键帧位置编码矩阵输入关键帧图像目标预测模块,关键帧图像目标预测模块进行关键帧图像目标位置预测;
[0019]S05)、连续帧动作预测:
[0020]S51)、使用多层2D卷积网络对连续帧特征图进行通道压缩,使用线性连接层对连续帧位置编码矩阵进行宽高压缩,通道压缩后的连续帧特征图与宽高压缩后的连续帧位置编码矩阵具有相同的维度;
[0021]S52)、将通道压缩后的连续帧特征图与宽高压缩后的连续帧位置编码矩阵输入连续帧图像动作类别检测模块,连续帧图像动作类别检测模块进行连接帧动作类别预测;
[0022]步骤S04的关键帧图像目标预测模块与步骤S05的连续帧图像动作类别检测模块具有相同的结构,均包括编码模块和解码模块;
[0023]编码模块包括M个串联的编码单元,每个编码单元包括1个多角度注意机制模块和1个数据处理模块,第一个编码单元的输入为通道压缩后的关键帧/连续帧特征图、宽高压缩后的关键帧/连续帧位置编码矩阵,后续编码单元的输入为前一个编码单元的输出;
[0024]解码模块包括K个串联的解码单元和1个前置多角度注意机制模块,每个解码单元包括1个多角度注意机制模块和1个数据处理模块,前置多角度注意机制模块的输入为宽高压缩后的关键帧/连续帧位置编码矩阵、输出编码初始化值,第一个解码单元的输入为前置多角度注意机制模块的输出和编码模块的输出,后续解码单元的输入为前一个解码单元的输出;
[0025]上述多角度注意机制模块采用多个平行注意层共同关注来自不同位置的不同表示空间的信息,即对其输入进行多角度注意机制处理,然后通过数据处理模块对多角度注意机制处理后的数据进行残余连接和归一化处理;
[0026]最终解码器的输出即为预测的关键帧图像目标位置或连续帧图像动作类别。
[0027]进一步的,多角度注意机制模块的计算过程为:
[0028]A)、y
MultiHead
=MultiHead(Q,K,V)=Concat(head1,head2,

,Head
h
)W
O

[0029]其中,Head1,Head2,

Head
h
为h个平行注意层,为可训练权重,d
model
表示位置编码矩阵的通道数,Concat(
·
)表示拼接操作,Q,K,V为输入数据,对于编码器中第一个编码单元,Q和K相等,等于通道压缩后的帧特征图与宽高压缩后的位置编码矩阵的和,V等于通道压缩后的帧特征图,即
[0030]Q=K=key_frame_in+key_mask_in
[0031]或者Q=K=clip_frame_in+clip_mask_in,
[0032]V=key_frame_in或者V=clip_frame_in,
[0033]对于编码器的其他编码单元,Q、K、V等于前一个编码单元的输出;
[0034]对于编码器的前置多角度注意机制模块,Q和K相等,等于输出编码初始化值与宽高压缩后的位置编码矩阵的和,V等于输出编码初始化值,即
[0035]Q=K=key_frame_c+key_mask_in,
[0036]或者Q=K=clip_frame_c+clip_mask_in,
[0037]V=key_frame_c或者V=clip_frame_c,
[0038]对于解码模块的第一个解码单元,Q和K相等,等于编码模块的输出,V等于前置多角度注意机制模块的输出,对于解码模块的其他解码单元,Q、K、V等于前一个解码单元的输出;
[0039]其中,key_in表示通道压缩后的关键帧特征图,key_mask本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自我注意力机制的行为识别方法,其特征在于:包括以下步骤:S01)、连续帧图像读取:以关键帧为首帧图像,读取连续时间序列下的连续帧图像数据,并构建位置编码矩阵;位置编码矩阵是一个维度为[H,W]的全1矩阵,其中H、W表示读取图像的高度和宽度;S02)、基于2D卷积骨干网络进行图像特征提取:将读取的连续帧图像数据的每一帧输入2D卷积骨干网络,获取每一帧的图像特征,并将每一帧的特征图片进行拼接,从而获取连续帧特征图,关键帧图像为连续帧图像数据中的第一帧,则关键帧的特征图取连续帧特征图的第一帧,即key_frame=clip_frame[0],key_frame表示关键帧特征图,clip_frame表示连续帧特征图;S03)、位置编码:将步骤S01的位置编码矩阵按列方向进行逐列累加,获得矩阵x_embed;将步骤S01的位置编码矩阵按列方向进行逐列累加,获得矩阵y_embed;对矩阵x_embed、y_embed进行优化,获得优化后的结果PE
x_embed
,PE
y_embed
,将PE
x_embed
,PE
y_embed
按第3维度进行拼接,并进行维度顺序变换,获得最终的位置编码矩阵;由于关键帧数据与连续帧数据用在相同的图像处理过程,因此设定关键帧位置编码矩阵与连续帧位置编码矩阵相同,即key_mask=clip_mask,key_mask表示关键帧位置编码矩阵,clip_mask表示连续帧位置编码矩阵;S04)、关键帧图像目标位置预测:S41)、使用单层2D卷积网络对关键帧特征图进行通道压缩,使用线性连接层对关键帧位置编码矩阵进行宽高压缩,通道压缩后的关键帧特征图与宽高压缩后的关键帧位置编码矩阵具有相同的维度;S42)、将通道压缩后的关键帧特征图与宽高压缩后的关键帧位置编码矩阵输入关键帧图像目标预测模块,关键帧图像目标预测模块进行关键帧图像目标位置预测;S05)、连续帧动作预测:S51)、使用多层2D卷积网络对连续帧特征图进行通道压缩,使用线性连接层对连续帧位置编码矩阵进行宽高压缩,通道压缩后的连续帧特征图与宽高压缩后的连续帧位置编码矩阵具有相同的维度;S52)、将通道压缩后的连续帧特征图与宽高压缩后的连续帧位置编码矩阵输入连续帧图像动作类别检测模块,连续帧图像动作类别检测模块进行连接帧动作类别预测;步骤S04的关键帧图像目标预测模块与步骤S05的连续帧图像动作类别检测模块具有相同的结构,均包括编码模块和解码模块;编码模块包括M个串联的编码单元,每个编码单元包括1个多角度注意机制模块和1个数据处理模块,第一个编码单元的输入为通道压缩后的关键帧/连续帧特征图、宽高压缩后的关键帧/连续帧位置编码矩阵,后续编码单元的输入为前一个编码单元的输出;解码模块包括K个串联的解码单元和1个前置多角度注意机制模块,每个解码单元包括1个多角度注意机制模块和1个数据处理模块,前置多角度注意机制模块的输入为宽高压缩后的关键帧/连续帧位置编码矩阵、输出编码初始化值,第一个解码单元的输入为前置多角度注意机制模块的输出和编码模块的输出,后续解码单元的输入为前一个解码单元的输出;
上述多角度注意机制模块采用多个平行注意层共同关注来自不同位置的不同表示空间的信息,即对其输入进行多角度注意机制处理,然后通过数据处理模块对多角度注意机制处理后的数据进行残余连接和归一化处理;最终解码器的输出即为预测的关键帧图像目标位置或连续帧图像动作类别。2.根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:多角度注意机制模块的计算过程为:A)、y
MultiHead
=MultiHead(Q,K,V)=Concat(head1,head2,

,Head
h
)W
O
,其中,Head1,Head2,

Head
h
为h个平行注意层,为可训练权重,d
model
表示位置编码矩阵的通道数,Concat(
·
)表示拼接操作,Q,K,V为输入数据,对于编码器中第一个编码单元,Q和K相等,等于通道压缩后的帧特征图与宽高压缩后的位置编码矩阵的和,V等于通道压缩后的帧特征图,即Q=K=key_frame_in+key_mask_in或者Q=K=clip_frame_in+clip_mask_in,V=key_frame_in或者V=clip_frame_in,对于编码器的其他编码单元,Q、K、V等于前一个编码单元的输出;对于编码器的前置多角度注意机制模块,Q和K相等,等于输...

【专利技术属性】
技术研发人员:刘辰飞高朋井焜
申请(专利权)人:神思电子技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1